BLOGPOST
Seite 2 / 2

Bietet HiRes-Audio einen Mehrwert?

Um die Frage schlüssig zu beantworten, müssen mehrere Aspekte/Ebenen einbezogen werden.

  • Welchen Frequenz- und Dynamikumfang haben unsere Instrumente respektive die Orchester, Ensembles oder Bands?
  • Welches ist das optimale, sinnvollste Audioformat, um die unter Punkt A ermittelten Eckwerte aufzunehmen, zu speichern und wiederzugeben?
  • Welches Audioformat ist sinnvoll mit Bezug auf das menschliche Hörvermögen?


Prüfen wir die Punkte A und B anhand der 2021 und 2022 aufgenommenen Concerti für Streicher von Francesco Durante im Format 24 Bit / 88,2 kHz (Label ARCANA, Accademia dell’ Annunciata). Das Orchester umfasst 15 Streicher, 1 Cembalo und 1 Barockgitarre. Also ein eher kleineres Orchester ohne Bläser. Die sehr transparente Aufnahme ohne technische Mängel (Artefakte) und exzellenter Raumauflösung eignet sich gut zur repräsentativen Beantwortung der Fragestellungen A und B. Die Details werden im Video gezeigt.

Man erkennt, dass HiRes-Audio (88,2 kHz) bei unserem im Video gezeigten Beispiel der Durante-Einspielung auf der Frequenzachse Sinn stiftet – zumindest was die Punkte A und B in unserer Kriterienliste betrifft. Wie sieht es aber auf der Laut/Leise-Achse (Pegelachse in Bit) aus? Das 16-Bit-CD-Format ermöglicht einen Dynamikumfang von 96 dB. 24 Bit ergibt einen Dynamikumfang von 144 dB. Auch hier wieder: Das 24-Bit-Format ermöglicht nicht feinere Abstufungen, sondern erweitert den Dynamikbereich um 48 dB. Die beiden Grafiken der Durante-Aufnahme im Video zeigen Signalanteile unterhalb von -96 dB, dem 16-Bit-Limit. Diese Signalanteile werden nur mit dem 24-Bit-Format erfasst.

Nicht selten wird das 24-Bit-Format als unsinnig beurteilt, weil der Dynamikumfang einer Aufnahme höchstens 15 dB bis 20 dB umfasse. Es gibt auch Beispiele von lauter Brüllmusik mit weniger als 10 dB Laut/Leise-Differenzen. Da seien schon die 96 dB Dynamikumfang des 16-Bit-Formates ein Overkill. Auch hier wieder gibt es eine eingeschränkte Sichtweise mit Auslassungen.

Erstens: Für Aufnahmen mit starker Dynamikkompression, wie sie bei Mainstream-Pop heute breit angewendet wird, stimmt die Aussage. Durch die Dynamikkompression gehen auch klangliche Feinheiten verloren. Bei solchen Alben ist HiRes überflüssig.

Zweitens: Die für die Lautstärke-Normalisierung notwendige Messung der integrierten Programmlautstärke berücksichtigt Extremwerte nicht. Diese Messwerte (DR Range, ITU, EBU) eignen sich nicht als Massstab zur Bestimmung des gesamten Dynamikumfangs, respektive zur Beurteilung der lautesten und leisesten Stellen in einem Musikstück, zu denen auch Ausklingkomponenten gehören (Decay).

Wenn wir, wie im Video gesehen, die Pegelsituation über die gesamte Spieldauer des Durante-Titels betrachten, dann sehen wir, dass die Maximum- und Minimum-RMS-Pegel rund 56 dB auseinanderliegen. Der durchschnittliche Pegel liegt bei rund -22 dB, bezogen auf 0 dBFS Vollaussteuerung.

Schauen wir uns mal den Wert «True Peak Level» an: Dieser liegt bei -2,95 dB für den linken Kanal, also kurz vor der Systemgrenze von 0 dB. Der True-Peak-Wert errechnet den analogen Spitzen-Pegel des zurückgewandelten digitalen Signals. Der kann höher sein als jener des digitalen Pegelwertes (Inter-Sample-Peak). Die Durante-Aufnahme ist korrekt ausgepegelt und nutzt einen grossen technischen Dynamikbereich, den wir gehörmässig so gar nicht direkt wahrnehmen, aber als ungemein fein aufgelöstes Klangbild hören.

Das 24-Bit-Format ergibt bei dieser Einspielung durchaus Sinn, da sich der Spitzenwert nahe bei der Systemgrenze von 0 dBFS befindet und die feinsten, leisesten Signalanteile unterhalb von 96 dB liegen. Wie weit dies gehörmässig von Relevanz ist, betrachten wir im nächsten Abschnitt, wenn es um die Fragestellung unter Punkt C geht.

Die Durante-Aufnahme ist der pure Gegensatz von Dynamik-komprimierten Aufnahmen, wie wir sie vermehrt in den letzten 20 Jahren vor allem bei Mainstream-Pop-Alben gesehen haben. Das Durante-Album steht stellvertretend für viele gute Aufnahmen aus allen Musikgenres. Dominant ist diese Qualität bei Klassik und Jazz. Die erweiterten technischen Eigenschaften von HiRes-Audio können das Klanggeschehen vollständig abbilden (Fragestellung A und B). Wie weit ist nun HiRes-Audio für uns Menschen von Nutzen? Hören wir die technisch eindeutig vorhandene Mehrinformation? Hören wir mehr Qualität?

Ist die Mehrinformation von HiRes-Audio wahrnehmbar?

Wie eingangs erwähnt, hört der Grossteil der Musikliebhaber Frequenzen über 15 kHz als Einzelton nicht mehr. Das ist ein Faktum und messbar. Wie sieht es aber aus, wenn wir den Test nicht mittels eines einzelnen Sinustones machen, sondern mit der komplexen Frequenzstruktur eines Musikstücks? Die Hirnforschung liefert dazu einiges an Erkenntnissen, die mehrheitlich in den letzten rund 25 Jahren erarbeitet wurden.

Bewusste Musikwahrnehmung ist ein komplexer Vorgang im menschlichen Gehirn. Das sensorische System, primär die Hörschnecke (Cochlea), wandelt den im Ohr ankommenden Schalldruck in elektrische Nervenimpulse um. Diese Impulse werden im Gehirn zu einem Höreindruck verarbeitet. Wie im Video gezeigt, ist das nicht eine einfache Verarbeitung einer Sinneswahrnehmung.

Die von der Cochlea erzeugten Nervenimpulse gelangen in verschiedene Hirnregionen, die jeweils spezifische Analyseaufgaben übernehmen wie Tonhöhe und Timbre, Intensität, die Richtung, aus der der Schall kommt (Lokalisation), Harmonien, Akkorde und Zeitintervalle usw. Für die Verarbeitung spielt es auch eine Rolle, ob wir bewusst hinhören oder ob die Musik als Hintergrundberieselung dient. Und welche Denkprozesse (Erwartungshaltung) parallel dazu ablaufen.

Die Selbstbeeinflussung kann so weit gehen, dass wir Klangveränderungen hören, die gar nicht vorhanden sind (Placeboeffekt). Die einzelnen Elemente der Musikverarbeitung finden zu unterschiedlichen Zeitpunkten in den jeweiligen Hirnarealen statt – mit gewissen Hierarchien und auch bidirektional.

Welche enorme Hirnleistung dabei zustande kommt, sieht man besonders gut, wenn es um die Lokalisation eines Schallereignisses geht. Ein von rechts am Kopf eintreffender Ton wird zuerst vom rechten Ohr erfasst. Der Schall wandert weiter um den Kopf herum zum linken Ohr, um dort wenig später und im Timbre leicht verändert einzutreffen. Diese minime Zeit- und Klangverschiebung nutz das Hirn, um die Richtung des eintreffenden Schalls zu erkennen. Die zeitliche Auflösung unseres Gehirns liegt dabei im Bereich von 5 bis 10 Mikrosekunden = 0.000'005 Sekunden.

«Musikwahrnehmung beinhaltet akustische Analyse, auditives Gedächtnis, auditive Szenenanalyse, Verarbeitung von Intervallbeziehungen, von musikalischer Syntax und Semantik und Aktivierung von (Vor-)Motorik-Darstellungen von Handlungen. Darüber hinaus löst Musikwahrnehmung potenziell Emotionen aus und gibt somit Aufstieg zur Modulation von emotionalen Effektorsystemen wie dem subjektiven Gefühlssystem, das vegetative Nervensystem, das Hormonsystem und das Immunsystem.» Stefan Kölsch, Psychologe und Musiker.

Die Messungen am Gehirn erfolgen unter anderem mittels Magnetoenzephalographie (MEG), Elektroenzephalographie (EEG) und auch mit Messungen der Blutwerte.

Lässt sich der Nutzen von HiRes-Audio durch Hirnforschung erklären?

In der Tat wurde dies von einem Forscherteam um Manabu Honda in Japan gemacht und im «Journal of Neurophysiology» im Juli 2000 unter dem Titel «Inaudible High-Frequency Sounds Affect Brain Activity: Hypersonic Effect» publiziert. Es konnte nachgewiesen werden, dass unser Hirn bei Anwesenheit von Ultraschallanteilen in der Musik anders reagiert im Vergleich mit auf den menschlichen Hörbereich begrenzter Musikwiedergabe. Dies aber nur, wenn hörbare und unhörbare Frequenzanteile zusammen vorhanden sind. Bei Wiedergabe der Ultraschallanteile allein war keine Reaktion messbar. Unterschiedliche Experimente wurden unter Labor- und realen Bedingungen durchgeführt. Die Erkenntnisse haben eine hohe Signifikanz.

Biologische Wirkung von nicht hörbaren, hohen Frequenzen.Biologische Wirkung von nicht hörbaren, hohen Frequenzen.

Zum Diagramm: Baseline = keine Musik, nur Raumambiente Schallanteile; HCS / High Cut Sound = Musik ohne Ultraschallanteile; FRS / Full Range Sound = ganzes Frequenzspektrum der HiRes-Aufnahme (96 kHz).

A: Musik mit Ultraschallanteilen (HiRes) erzeugt höhere Gehirnaktivität in erweiterten Bereichen.

B: Statistisch signifikanter Unterschied zwischen Musik mit und ohne Ultraschallanteile.

C: HiRes-Wiedergabe – kurze Pause – Wiedergabe in CD-Auflösung. Die Hirnaktivität fährt langsam auf ein weniger aktives Niveau runter.

Nicht alle Zusammenhänge der Musikwahrnehmung sind geklärt. Wie genau nun unser Hirn die Ultraschallanteile verarbeitet, welche Elemente wie interagieren, ist Gegenstand weiterer Forschung. Klar ist: Wir reagieren auf das Vorhandensein von direkt unhörbaren Schallanteilen, dies aber nur, wenn auch die hörbaren Anteile dabei sind. Dies ist umso bemerkenswerter, da die Energie der Obertöne oberhalb von 15 kHz stark abnimmt.

Ein kleines Experiment zum Schluss

Wie beeinflussen die Ultraschallanteile die Signalanteile im Hörbereich?

Die Hüllkurve (das Summensignal aller Frequenzen, die in einem Musikstück vorhanden sind) eines auf 15 kHz begrenzten Musiksignal ist nicht identisch mit der Hüllkurve des HiRes-Musiksignals mit vollem Frequenzumfang. Die fehlende Energie der Frequenzanteile oberhalb von 15 kHz machen sich in einer leicht veränderten Hüllkurve bemerkbar, die notabene im Hörbereich liegt!

Wie wir oben gesehen haben, stehen die Obertöne in einem mathematischen Verhältnis zum Grundton. Man kann von der Annahme ausgehen, dass unser Hirn diesen mathematischen Bezug erkennt, komplementiert und in den Höreindruck einbezieht, wie dies Manabu Honda in seiner Untersuchung aufzeigt. So wird auch klar, warum wir einen isolierten Sinuston von 18 kHz oder 25 kHz nicht hören, da der ganze Unterbau fehlt.

Fazit

Die komplexen Strukturen der Musikverarbeitung im Gehirn schaffen es, direkt nicht hörbare Ultraschallsignalanteile im Musiksignal zu erkennen und zu verarbeiten. Wie das genau funktioniert, ist noch nicht vollständig erforscht – es gibt lediglich Hinweise. Somit ist es sinnvoll, das ganze Frequenz- und Dynamikspektrum von Musik mit einem HiRes-Format von 24 Bit / 96 (88,2) kHz aufzunehmen.

Das Thema bleibt spannend und es gäbe noch weitere Felder im Bereich der Hörphysiologie und Hörpsychologie zu erforschen. Warum z. B. jemand einen Lautsprecher bevorzugt, während sein Hörnachbar nicht versteht, wieso man so grottenschlechten Klang lieben kann. Das nur mit Präferenz zu begründen, greift einmal mehr zu kurz!

Fritz Fabig Gastautor

Fritz Fabig ist passionierter Musikliebhaber mit Schwerpunkt in der Klassik-Epoche. Nach einer elektrotechnischen Ausbildung und Management/Marketing Weiterbildung erfolgte ein Wechsel in die Audio Branche. Beinahe zwei Dekaden war Fritz Fabig Geschäftsführer der B&W Group Schweiz. Seit Ende 2021 ist er als freischaffender Berater tätig.
Übersicht zu diesem Artikel
Seite 1:
Seite 2: