Jobst P. Fricke: Eine Konsonanztheorie auf der Grundlage von Autokorrelation
unter Berücksichtigung der Unschärfe

 

 
<-- zurück

2. Die Perspektivelosigkeit bisheriger Theorien vor dem Hintergrund der Realität der praktischen Musikausübung

Seit man Erklärungen für das Konsonanzphänomen nicht nur in den wunderbar anmutenden einfachen Zahlen der Proportionenlehre suchte, sondern in den Gesetzen der Natur zu finden bemüht war, bauen Konsonanztheorien meist auf Hörtheorien auf. Dies kann man bei HELMHOLTZ, LIPPS, von HORNBOSTEL, PLOMP und LEVELT sowie bei TERHARDT beobachten. Wie die Hörtheorien operieren die Konsonanztheorien entweder in der time domain oder in der frequency domain. Sie basieren auf Regelmäßigkeiten entweder im Nacheinander der Schwingungen oder im Zusammentreffen der Obertöne (Abb. 2). Das Verfahren, die Regelmäßigkeit in der Übereinstimmung von Obertönen zu suchen, setzt die Spektralanalyse voraus und stellt die Ergebnisse in Spektren dar.

 

Abb. 2: Koinzidierende Obertöne im Falle einer Quinte, bei der jeder dritte Teilton des tieferen Tones mit jedem zweiten Teilton des höheren zusammenfällt (Frequenzachse der Obertonreihen in logarithmischer Darstellung).

Beide Sichtweisen sind theoretisch gleichwertig; denn die "Zeitreihen-Korrelationsanalyse" (HESSE 2003, S. 142) lässt sich durch Fouriertransformation in die Spektralanalyse überführen. Dies verdeutlicht der mathematische Ausdruck vor allem in der komplexen Schreibweise und in der nach LAPLACE. In der Anwendung auf das Gehör, das die Spektralanalyse ja nicht mit mathematischer Genauigkeit ausführt, ist die time domain allerdings im Vorteil. Die Unschärfe der Analyse kann hier die Toleranz gegenüber Verstimmungen der konsonanten Intervalle erklären, wohingegen sie in der frequency domain zu Schwebungen führt, deren Abwesenheit (nach den Theorien der frequency domain) gerade Kriterium für Konsonanz sein soll.

Der wesentliche Unterschied der beiden Sichtweisen besteht also darin, dass im einen Fall (spektral) geringfügige Abweichungen von den "kommensurablen" Verhältnissen (PLOMP und LEVELT 1965, S. 549 Anm. 8) zu äußerst komplizierten Konstellationen in der Gegenüberstellung der Obertonreihen führen, die die Schwebungen auslösen, während in den Zeitreihen geringfügige Verschiebungen vom Gehörorgan toleriert werden können. Dafür kommen zwei Faktoren in der neuronalen Verarbeitung der Nervenimpulse in Betracht:

  • 1. die Unschärfe der Gleichzeitigkeit,
  • 2. das Zeitfenster der Vergleichbarkeit, das durch die begrenzte Zeit für die Vergleichsmöglichkeit im Ablauf der Impulsmuster zustande kommt (ZWICKER 1951, S. 14).

Hat man erst einmal Kenntnis von der Intonationspraxis der normalen Musikausübung erhalten und ist zu dem Zugeständnis gezwungen, beachtliche Abweichungen von den ganzzahligen Schwingungszahlverhältnissen nicht nur zu tolerieren, sondern sogar als eine Normalität anzusehen (SHACKFORD 1962, FRICKE 1973a, 2005b), bleibt es gänzlich unverständlich, wie sich eine Konsonanztheorie, die die Schwebung als Störung der Konsonanz betrachtet, überhaupt noch halten kann. Die Abweichungen von den ganzzahligen Schwingungszahlverhältnissen sind der Normalfall. Die Ursachen hierfür sind in den instationären Schwingungsverläufen mit mikromodulatorischen Schwankungen zu suchen, die in der praktischen Musikausübung die Regel sind. Aber sogar aus synthetischen Klängen gebildete isolierte Intervalle klingen angenehmer, wenn sie geringfügig verstimmt sind, obwohl sie dann durch besonders komplizierte Intervallverhältnisse beschrieben werden (MISKIEWICZ and ROGALA, 2003). Schwebungen und die aus ihnen hervorgehende "Rauhigkeit" können daher nicht als Regulativ für Konsonanz angesehen werden.

Die Existenz von Schwebungen ist ein typisches Kennzeichen von Nichtanalyse nahe beieinander liegender Spektralkomponenten. Sie kommen nur zur Geltung bei stationären Schallvorgängen, z.B. wenn man Orgelpfeifen oder Streichinstsrumente stimmt, oder auch beim Zusammenspiel zweier Flöten. Schwebungen sind zunächst einmal Kennzeichen für die mangelnde Analysierschärfe des Ohres in ihrem mechanischen Teil, dort, wo die Gesetze der Hydrodynamik die Analyse bestimmen. In der praktischen Musikausübung mit ihren vorwiegend nichtstationären und quasistationären Schallvorgängen können sich hörbare Schwebungen gar nicht bemerkbar machen. Die Interaktion zweier benachbarter Spektralkomponenten, die selbst spektralen Veränderungen unterliegen (Vibrato, chorischer Effekt) kann nicht zur Ausbildung einer Schwebung oder auch nur eines schwebungsähnlichen Verlaufs führen, weil sie von sich aus schon eine solche Verlaufsgestalt haben (FRICKE 1993, S. 184-185). Die Existenz der Schwebungen und ihre Bedeutung sind daher in einem solchen Fall schon in Frage zu stellen. Wenn derartige Interaktionen im Verbund mit anderen, ebenfalls nichtstationären Spektralkomponenten anderer Klänge stattfinden, zwischen denen es ebenfalls zu unregelmäßigen Wechselwirkungen (Interferenzen) kommt, wird jeder Schwebungscharakter in den Fluktuationen untergehen. Die ohnehin schon vorhandene Rauhigkeit der Klänge dominiert also, unabhängig davon, ob die Grundfrequenzen der Klänge in einfachen ganzzahligen Schwingungsverhältnissen stehen oder nicht. Es gibt Ausnahmen, insbesondere bei Orgelmusik, die in der Literatur belegt sind (KOK 1954, WEGSCHEIDER 1986, Voigt 1985). Die Untersuchung von MISKIEWICZ und ROGALA (2003) belegt dagegen nur den Ausnahmefall, dass computergenerierte Töne, wenn sie absolut stationär erzeugt werden, so langweilig klingen können, dass Schwebungen schon als Bereicherung empfunden werden.

Beim Abwägen, welche der beiden Sichtweisen die besseren Argumente auf ihrer Seite hat, ob das Prozessieren in der frequency oder in der time domain dabei im Vorteil ist, sind also auch die musikalisch-praktischen Erfahrungen zu berücksichtigen, die den nichtstationären Charakter der musikalischen Schallvorgänge betreffen. Die in den letzten 80 Jahren erarbeiteten Kenntnisse über die Beschaffenheit dieser Schallvorgänge in der Realität sind ein Faktum, das sich widerspruchsfrei in einen neuen Theorie-Entwurf einfügen sollte. Man kommt angesichts der erdrückenden Indizien, die uns die realen Verhältnisse der praktischen Musikausübung liefern, zu der Vermutung, dass ältere Theorien diese zwangsläufig - wegen der beschränkten Experimentiereinrichtungen - ignoriert haben und deshalb vorwiegend auf der Basis von Orgelmusik und Harmoniumklängen entstanden sind. Unerfindlich bleibt hingegen, warum neuere Theorien solche Vorstellungen von extrem stationären Klängen tradieren, indem sie mit Sinustönen und Synthese-Klängen, die nur aus Harmonischen aufgebaut sind, Laborsituationen schaffen, die von der Praxis meilenweit entfernt sind.

LICKLIDER (1951) lenkte die Hörtheorie wieder auf einen Aspekt, der vor OHM schon einmal die gängige Anschauungsweise über die Tonhöhenwahrnehmung repräsentierte. [Vor allem das Konsonanzphänomen konnte man mit den regelmäßigen Impulsmustern bis zu einem gewissen Grade erklären.] Es ist die "Zeitreihen-Korrelationsanalyse" (HESSE 2003, S. 142), für die die Autokorrelation das geeignete Verfahren ist. Zeitgleich schlug MEYER-EPPLER (1951) eine "Exhaustions-Analyse" vor, um periodische Vorgänge in komplexen Schwingungsgemischen zu entdecken. Sie beruht ebenfalls auf der Autokorrelationsfunktion, deren Eigenschaften er 1959 (S. 10 ff.) eingehender behandelt. Sie vergleicht verschiedene Zeitabschnitte ein und desselben Schwingungszuges. Bereits vergangene Zeitabschnitte werden mit nachfolgenden verglichen, indem sie auf der Zeitachse sukzessiv so weit gegeneinander verschoben werden, bis sie optimal zusammenpassen. Neben den einfachen Perioden werden bei periodischen Vorgängen so aber auch die vielfachen der Periode gefunden; sie sind als harmonische Untertonreihe bekannt und bei einer Analyse deshalb unerwünscht. Es wird unten gezeigt, dass das Gehör ein Analyseverfahren einsetzt, das das Auftreten der Untertöne vermeidet und statt dessen eine Uneindeutigkeit in Richtung der harmonischen Obertöne in gewissem Grade zulässt. Wie sinnvoll das ist, lässt sich aus der Tatsache ableiten, dass harmonische Obertöne ja auch in der Natur nachzuweisen sind, Untertöne aber nicht.

Führt man diese Autokorrelation mit der Sinusfunktion durch (f(x) = sin x), zeigen sich im Ergebnis nur breite Maxima mit weichen Übergängen von Maximum zu Maximum. Sie sind von der Form sin2 x, d.h. die Auflösung der Frequenzanalyse ist sehr schwach. Setzt man dagegen Impulsfolgen ein, wie sie den Impulsmustern von EULER und GALILEI entsprechen, gibt es im Ergebnis positive Werte nur bei hundertprozentiger Koinzidenz. Das Ergebnis zeigt ausschließlich frequenzdiskrete Werte und liefert diese nur bei absoluter Übereinstimmung der Impulse. Dieses Verfahren, die Nervenimpulse mit durch die Dirac-Delta-Funktion gebildete Nadelimpulse zu modellieren, ist deshalb zu genau. Es liefert eine zu scharfe Analyse und kann die Wirklichkeit deshalb auch nicht hinreichend abbilden.

Der rückbezügliche Vergleich des Schwingungsinhalts verschiedener Zeitpunkte erfordert entweder eine Speicherung des einen Signals oder eine Verzögerungsleitung mit variablen Verzögerungszeiten. Die Evolution scheint sich für letzteres Verfahren entschieden zu haben; denn es ist auch bei der Richtungsortung zu finden, die auf der zeitlichen Differenz der an den beiden Ohren eintreffenden Signale beruht (siehe Abb. 3).

Bei der Autokorrelation wird also die Zeitfunktion f(t) um den Zeitabschnitt tau verschoben und mit der Funktion selbst verglichen. Zur Berechnung der Autokorrelation werden f(t) und f(T + tau) multipliziert und durch Integration aufsummiert; positive Werte oder Null ergeben sich nur dann, wenn die Funktionen passend aufeinander liegen. Im Falle f(t)2, wenn f(t + tau) = f(t), erreichen sie ein absolutes Maximum.

<-- zurück