Jobst P. Fricke: Eine Konsonanztheorie auf der Grundlage von Autokorrelation
unter Berücksichtigung der Unschärfe

 

 
<-- zurück

4. Neurophysiologische Bedingungen für eine begrenzte Genauigkeit

Zwei verschiedene Faktoren sind für die Verstimmungstoleranz verantwortlich zu machen.

  • 1. die Unschärfe der Gleichzeitigkeit,
  • 2. das Zeitfenster der Vergleichbarkeit, das durch die begrenzte Zeit für die Vergleichsmöglichkeit im Ablauf der Impulsmuster zustande kommt (ZWICKER 1971, S. 14).


4.1.1 Neuronale Vernetzung und Gleichzeitigkeit

Man kennt inzwischen ziemlich genau die Vernetzungsstruktur in der Großhirnrinde und auf den verschiedenen Zwischenstationen von den Sinnesorganen bis dorthin. Eine der Schaltstellen, die sich für das Hören als entscheidend herausgestellt haben, ist der Colliculus inferior (CI) und darin das Zentrum (ICC). Von den verschiedenen Verschaltungsmöglichkeiten interessieren hier zunächst die, bei denen Dendriten von mindestens zwei verschiedenen präsynaptischen Neuronen an einer Nervenzelle anliegen und diese veranlasst wird, einen Impuls auf ihrem Axon loszuschicken, wenn mindestens zwei Impulse gleichzeitig von den präsynaptischen Neuronen ankommen. Nur beide Impulse zusammen heben das Potential an der Nervenzelle so weit an, dass diese selbst einen Impuls aussendet. Dies ist eine stark schematisierte Darstellung der Wirklichkeit. Genau genommen liegen bereits mehrere Synapsen von den Endigungen eines einzigen präsynaptischen Neurons an einer Zelle an; und von der des anderen Neurons ebenfalls; und die von allen Synapsen zusammen ausgehenden Impulse heben das Potential in der Zelle erst über die Schwelle, die zum Feuern erforderlich ist.

Ein solcher Mechanismus ist in der Lage, Gleichzeitigkeit festzustellen wie ein logisches Schaltelement der Elektronik, das als Und-Gatter bezeichnet wird. Solche Nervenschaltungen vermutete man schon lange zur Erklärung des Richtungshörens, und zwar jenes Teils zur Richtungsfeststellung, der auf der Zeitdifferenz zwischen den beiden Ohren beruht (Fig. 8 von LICKLIDER 1959, S. 100 und BERGEIJK et al. 1960 nach den Vorschlägen von JEFFRESS 1948). Hier werden Laufzeiten auf den Nevenleitungen und die Feststellung der Gleichzeitigkeit des Eintreffens zweier Impulse benötigt, um jeder Zeitdifferenz zwischen den beiden Ohren die Aktivierung einer bestimmten Zelle bzw. Zellgruppe zuzuordnen. Zeitunterschiede werden damit in Ortskoordinaten transformiert. Es ergibt sich hier sozusagen eine Ortstheorie des Richtungseindrucks.

Abb. 3: Koinzidenz von unterschiedlich verzögerten Nervenimpulsen zur Richtungserkennung (nach BERGEIJK et al. 1960, S. 167).


Die Kombination von Verzögerungszeiten, die man durch Umwegschaltungen und Verzögerungselemente erreichen kann, mit Und-Gattern, in denen die Gleichzeitigkeit festgestellt wird, bietet sich grundsätzlich an, um Zeitunterschiede oder Zeitstrecken zu messen. Bei Tönen besteht so die Möglichkeit, die Dauern ihrer Perioden T und damit (indirekt) ihre Tonhöhe zu messen. Würde dieses Verfahren zur Ermittlung der Frequenz f = 1/T eingesetzt, würde gleichzeitig "the case of the missing fundamental" (STEVENS & DAVIS 1938 nach FLETCHER 1934) gelöst. Denn die Periode findet sich in jeder Gruppe benachbarter Obertöne wieder, die die Basilarmembran in Bewegung setzen.

 

Abb. 4: LICKLIDERs Darstellung eines neuronalen Autokorrelators auf der Basis einer Koinzidenz unterschiedlich verzögerter Nervenimpulse zur Messung der Periodendauer (1959, S. 102).


Andernfalls gibt es - wenn es gilt, Frequenzen zu messen - nur die Möglichkeit, die Zahl der Perioden pro Zeiteinheit zu zählen. Technische Frequenzzähler bieten beide genannten Möglichkeiten an, damit man die bequemere unter ihnen wählen kann. Eine dritte Möglichkeit ist die, Frequenz durch Resonanz zu ermitteln, wie dies bei einem Klavier mit aufgehobener Dämpfung oder mit einer Harfe möglich wäre. HELMHOLTZ hatte dieses Bild vor Augen, als er seine Resonanztheorie des Hörens entwarf. Die Natur hat sich für diese Lösung wohl aus technischen Gründen nicht entschieden, sondern statt dessen den Schneckenkanal mit Trennwand entwickelt, auf der eine Schlauchwelle entlang läuft. Diese Welle durchläuft zwar auch ein Maximum, das in Abhängigkeit von der Frequenz an verschiedenen Stellen des Schneckenkanals liegt (Einortstheorie). Die Abbildung der Frequenz auf der Längsachse der Basilarmembran ist jedoch so grob, dass sie nur der Vorsortierung der Spektralanteile verschiedener Frequenzen dient und zur Erklärung von Schwebungen, Modulationen, Lautheitsaddition und Verschmelzungserscheinungen herangezogen werden kann.

Im Vergleich zu den Schaltelementen der Elektronik, die praktisch unendlich schnell reagieren, ist die Reaktion in Nervenschaltungen langsamer. Die Nervenimpulse haben selbst eine endliche Dauer, und die Reaktionszeit der Zelle, die auf die Impulse reagiert, ist auch nicht unendlich schnell. Das elektrische Potential in der Zelle muss durch die beiden eintreffenden Impulse erst angehoben werden. Und erst, wenn es eine Schwelle überschreitet, reagiert die Zelle mit einem Impuls. Es gibt also zwei Ursachen für die endliche Breite der Reaktionszeit (FRICKE 2005a, S. 134-135).

Dies hat entscheidende Folgen für die Analysierschärfe der Autokorrelation. Die mathematische Autokorrelation von Impulsfolgen, wie sie die Zeitreihen-Autokorrelation nahelegt, liefert nur diskrete Werte für die Frequenzen. Bei Intervallen, deren Frequenzverhältnis durch einfache ganze Zahlen definiert ist, zeigt die Autokorrelation nur dann die Koinzidenz zweier Impulse an, wenn diese genau zusammentreffen. Diese mathematische Autokorrelation ist ein Pendent zur elektronischen Schaltung mit einem logischen Schaltelement. Es reagiert nicht, auch nicht im geringsten bei Abweichungen.


Das Produkt zweier Dirac-delta-Funktionen (Nadelimpulse) ergibt wieder eine Dirac-delta-Funktion (nach HARTMANN 2/1998, S. 155, Gl. 7.22).

Aus diesem Grund vermag das Modell der Autokorrelation oder auch die Zeitreihenanalyse allein die musikalische Konsonanz nicht ausreichend abzubilden. Das Modell ist hinsichtlich der Verstimmungstoleranz zu restriktiv. Die Schärfe des Zusammentreffens, eine Genauigkeit, die durch die Mathematik in die Modellrechnung hineingetragen wird, indem man mit idealisierten Impulsen anstelle von realen rechnet, wird erst durch das "Zeitfenster der Gleichzeitigkeit" beseitigt.


4.1.2 Die ISI-Ergebnisse von Tramo et al. als ein Beweis für Autokorrelation mit Unschärfe

Tramo et al. registrierten Interspike-Intervalle (ISI), die sie vom Hörnerv von Katzen ableiteten. Sie erfassten mit der Ableitung eine größere Zahl von Nervenfasern (> 100) und registrierten die Abstände der Nervenimpulse (Spikes) in Histogrammen. Diese zeigen nicht nur die Abstände zwischen je zwei benachbarten (first order), sondern auch die zwischen weiter auseinander liegenden Spikes. Bei der Darbietung der Töne verwendeten sie konsonante Intervalle (Quinte und Quarte in den Frequenzverhältnissen 3/2 und 4/3) und dissonante Intervalle (Ganzton und Tritonus in den Verhältnissen 9/8 und 45/32). Unter den dissonanten Intervallen stellte sich aber das Intervall 45/32 nicht als so dissonant dar, wie man es aufgrund seiner Zahlen hätte erwarten dürfen. Denn sowohl die neuronale Auswertung als auch die Modellrechnung stufen es als verstimmtes konsonantes Intervall 7/5 ein. Das ist verständlich, wenn man folgende zwei Dinge bedenkt.

  • 1. Die Autokorrelation wurde mit einer unscharfen Koinzidenzprüfung durchgeführt. Diese Unschärfe der Autokorrelation ist sowohl in der Modellrechnung versteckt als auch in den gemessenen ISIs zwangsläufig enthalten.
  • 2. Das Intervall 7/5 kommt in dieser Form in unserem abendländischen Tonsystem zwar nicht vor, weil die Zahl 7 ausgeschlossen ist. In der Berechnung der Autokorrelation aber steht es im Rang sogar vor der als konsonantes Intervall geltenden kleinen Sexte 8/5.

Zu (1) ist zu erläutern, dass Konsonanzen, die zwar verstimmt sind, aber noch konsonant klingen, mit einer Autokorrelationsanalyse dann und nur dann erkannt werden können, wenn die endliche Impulsbreite und die Unschärfe der Gleichzeitigkeit in der Autokorrelation berücksichtigt werden (FRICKE 2005, S. 134-135). Autokorrelation misst die Koinzidenz der Impulse. In der Zeitreihen-Autokorrelation (HESSE 2003, S. 142) von Punktreihen, wie sie EULER (1739, Tabelle I zwischen S. 36 und 37) veranschaulicht, wird deutlich, dass diese Punkte eine Idealisierung darstellen, d.h. eine Abstraktion von den Schwingungsperioden oder Nervenimpulsen. In diesem idealisierten Fall wird eine Koinzidenz nur festgestellt, wenn das Intervallverhältnis mathematisch genau auftritt. Die neuronale "Fehlmessung" bei TRAMO ist also ein Hinweis darauf, dass bei der neuronalen Verarbeitung auch unscharfe Intervallverhältnisse registriert werden. Sie beruht darauf, dass Nervenimpulse keine idealen Impulse, keine Nadelimpulse oder Dirac-Stöße sind, sondern eine gewisse Breite haben, die in der Größenordnung von Mikrosekunden liegt. Auch wird das gleichzeitige Eintreffen mehrerer Impulse an einer postsynaptischen Zelle, die die Funktion eines Und-Gatters hat, diese erst zum Feuern veranlassen, wenn das Potential in ihr das erforderliche Niveau erreicht hat. Beides benötigt Zeit und hat eine "Unschärfe der Gleichzeitigkeit" zur Folge. Die "Fehlmessung" im berechneten Modell hingegen beruht offensichtlich auf der Breite der Impulse, die dadurch zustande kommt, dass die Simulation der Impulse mit nur 6 Harmonischen vorgenommen wurde. Wie EBELINGs Synthese zeigt (Abb. 5), haben die Impulse am Anfang jeder Periode wie bei eine endliche Breite, wenn bei der Superposition 6 Harmonische gleicher Amplitude verwendet werden. EBELING setzte die Impulse aus 6 Sinusschwingungen zusammen, TRAMO et al. dagegen aus 6 Cosinusschwingungen gleicher Amplitude. Der Unterschied liegt nur in den Phasen des Anfangs jeder Periode, der aber bei der Autokorrelation keine Rolle spielt, da die Autokorrelationsfunktion als ein Analyseverfahren gilt, das phasenunabhängig arbeitet. (Die von TRAMO et al. gezeigten Schwingungsbilder, die erstaunlicherweise den Autokorrelogrammen sehr ähnlich sind, sind auf diese besonderen Synthesebedingungen der Intervalltöne zurückzuführen.)

Abb. 5: Darstellung der aus sechs Harmonischen zusammengesetzten Impulse (nach Ebeling, persönliche Mitteilung), wie sie von TRAMO et al. zur Berechnung der Autokorrelation der aus solchen Tönen gebildeten Intervalle verwendet wurden. Die Schwingung zeigt deutlich die endliche Breite der Impulse.


Zu (2): Der unter den dissonanten Intervallen genannte Tritonus wurde mit dem Schwingungszahlverhältnis 45/32 modelliert. Dieses Intervall gehört dem harmonischen System an und ist darin als übermäßige Quarte zu interpretieren. Man erhält es, wenn man von der Terz 5/4 einen Ganzton 9/8 herauf geht oder von der Quinte 3/2 einen Halbton 16/15 abwärts schreitet. Es liegt in unmittelbarer Nachbarschaft des aus der Naturseptime gebildeten Tritonus 7/5 im Abstand von 8 Cents (Hundertstel temperierter Halbton). Dass die Naturseptime in unserem abendländischen Tonsystem keine Verwendung findet, hat das Analyseverfahren nicht daran gehindert, das Intervall 7/5 aufzuspüren. Von der Autokorrelation mit unscharfer Koinzidenz wurde es in beiden Fällen als noch relativ einfaches Intervall registriert. Dies ist ein erster Hinweis darauf, dass auch verstimmte Intervalle in der neurophysiologischen Auswertung richtig erkannt werden.

TRAMOs und EBELINGs Berechnungen erbrachten nur deshalb den Beweis, dass auch verstimmte Konsonanzen von der Autokorrelation erkannt werden, weil sie mit nur 6 Harmonischen rechneten und dadurch die Unschärfe, und zwar durch Impulse endlicher Breite, simulierten.

Dieses Zeitfenster der Unschärfe kann auf zweierlei Weise modelliert werden. Entweder man bildet ein Rechteckfenster für die Zeit, in der zwei Nadelimpulse dann als "gleichzeitig" erkannt werden, wenn sie innerhalb dieses Fensters liegen, oder man bildet anstelle der Nadelimpulse schmale Rechteckimpulse, die dann als gleichzeitig gelten, wenn sie sich zeitlich überdecken. Die Summe der beiden Rechteckimpulse in diesem Überlappungsbereich (das "Überlappungsintegral" nach EBELING, persönliche Mitteilung) ergibt ein Dreieck, dessen Basisbreite gleich der Summe zweier Rechteckimpulse ist.

Beide Formen der Unschärfedarstellung sind neurophysiologisch existent:

  • 1. die Breite der Nervenimpulse liegt im Mikrosekundenbereich und kann mit 0,05 bis 1,0 ms angenommen werden.
  • 2. Für die Reaktionszeit eines Neurons sind Latenzzeiten von 1/4 bis 1/3 ms bekannt. Wenn innerhalb dieser Zeit zwei Impulse von zwei verschiedenen präsynaptischen Neuronen ankommen, wird Gleichzeitigkeit signalisiert und das Neuron aktiviert; es feuert.

Beide "Zeitbreiten" wirken also zusammen. Sie werden im Modell am besten durch den Wert 0,8 ms simuliert. In diesem Fall liefert die Rechnung eine Kurve, die der von STUMPF (1890, S. 176) mitgeteilten Kurve über die Verschmelzungsstufen konsonanter Intervalle sehr ähnlich ist.

Abb. 6: Verschmelzungsgrade harmonischer Intervalle nach STUMPF (1890, S. 176, fette schwarze Linie) im Vergleich zur berechneten Autokorrelation mit Unschärfe (dünne graue Kurve) für die Intervalle zwischen Prim und Oktave nach EBELING (persönliche Mitteilung).


TRAMOs ISI-Registrierungen sind nebenbei ein Hinweis darauf, dass schon vor dem Nucleus Cochlearis eine Intervallerkennung stattfindet und dass die neurophysiologische Auswertung auch dort schon verstimmte Intervalle richtig erkennt. Würde dies nicht so der Fall sein, würde das für das o.g. Intervall 45/32 bedeuten, dass ein phasengleiches Zusammentreffen (Koinzidenz) der beiden Schwingungen erst nach 45 Schwingungen des höheren mit 32 Schwingungen des tieferen Tones registriert wird. Abzulesen ist aus dem Diagramm aber, dass dies nach 11,4 ms schon der Fall ist (TRAMO et al. S.100). Dies beweist, dass die Nervenschaltung bei der Autokorrelation ein solches Zeitfenster für die Unschärfe benutzt und dadurch in der Lage ist, konsonante Intervalle, auch wenn sie verstimmt sind, als einfache Intervallverhältnisse zu erkennen.

Ein der Realität am ehesten entsprechendes Modell muss also zwischen diesen Extremen analoger und digitaler Durchmusterung positioniert sein und wird z.B. durch die Berücksichtigung des o.g. Zeitfensters von 0,8 ms gewonnen.


4.2 Abschätzung der Verstimmungstoleranz aufgrund Periodenverschiebung und Integrationszeit

Der andere Ungenauigkeitsfaktor beeinträchtigt die Frequenzvergleichung dadurch, dass die allmählichen Verschiebungen der Impulsmuster nicht wahrgenommen werden, weil das Zeitfenster der Beobachtung zu kurz ist, die Verschiebungen als störend zu erkennen. Eine überschlägige Rechnung könnte folgendermaßen aussehen: Eine Verstimmung von 1% = 1/6 temperiertem Halbton entsprechend 16,7 Cents ergibt bei einem Ton der Frequenz 200 Hz 2 Hz Tonhöhenverschiebung. Betrachten wir die Verschiebung der Perioden- bzw. Punktreihe um eine Position: eine Verschiebung der Koinzidenzreihe von diesem erhöhten Ton gegenüber der Reihe des ursprünglichen liegt dann nach 500 ms vor. Entsprechendes gilt für einen Ton mit der Frequenz 400 Hz nach 250 ms, da 1% hier 4 Hz beträgt.

Das Koinzidenzmuster hat nach EULER bei einer reinen Quinte folgende Gestalt. Es finden z.B. bei den Frequenzen 300Hz/200Hz in einer Sekunde 100 Koinzidenzen statt, wie sich auch rechnerisch aus dem größten gemeinsamen Teiler (ggT) ergibt. Bei einer Verstimmung von 1% kommt auch hier eine Verschiebung der Koinzidenzpunkte um eine Position nach 500 ms zustande. Nach 49 "verunglückten" Koinzidenzen im Abstand von ca. 10 ms findet dann wieder eine vollständige Koinzidenz statt. Da dieser Wert oberhalb der Integrationszeit liegt, bedeutet das, dass das Gehör bei der Auswertung den Zustand am Anfang dieser Zeitspanne mit dem am Ende nicht vergleichen kann. Das Zeitfenster der Integrationszeit schiebt sich über die koinzidierenden Punkte in einer Breite, in der noch nicht einmal eine Verschiebung um eine Periode stattgefunden hat. Liegt das Intervall eine Oktave höher (600Hz/400Hz), tritt dieser Fall in 250 ms ein und stößt damit an die Grenze der Integrationszeit. Es sollte bei einer derartigen Betrachtung wie dieser aber beachtet werden, dass die Periodendauern der Töne 200 Hz, 300 Hz, 400 Hz bzw. 600 Hz sich bei einer Verstimmung von 1% um 0,05 ms, 0,033 ms, 0,025 ms bzw. 0,0167 ms verkürzen oder verlängern. Bei der Residualtonbildung beim Glockenschlagton und beim Klavierton liegen die Inharmonizität bzw. die "Obertonverstimmung" (MARTIN & WARD 1961) in der gleichen Größenordnung und werden neuronal doch als periodische Vorgänge, denen eine Tonhöhe zugeordnet wird, erfasst. Im oben angegebenen Mikrosekunden-Bereich liegen nämlich auch die Ungenauigkeiten, die mit der neuronalen Erfassungsgenauigkeit zusammenhängen. Sie sind durch die zeitliche Impulsbreite, d.h. die Impulsdauern der Nervenimpulse sowie die Integrationszeit in der Nervenzelle zu interpretieren (FRICKE 2005a, S. 134-135). Eine eingehende Betrachtung dieses Faktors der neuronalen Erfassungsgenauigkeit erfolgte oben in den Abschnitten 4.1 und 4.2.

<-- zurück