Während erste Digitalaufnahmen mit 14 Bit gemacht wurden, unter anderem vom Schweizer Aufnahmepionier Jürg Jecklin, wurde für die CD 16 Bit als Auflösung definiert. Doch heute sind Streamingformate mit 24 Bit Standard, und einige Aufnahmen kann man sogar mit 32 Bit downloaden. Wie können wir durch die hohen Bitraten erzeugte maximale Dynamik nutzen? Bringt eine 32-Bit-Aufnahme in der Praxis überhaupt Vorteile?
Wie sieht es denn genau mit unserem Gehör aus? Seit über einem Jahrhundert wird unser Gehör erforscht, und auch heute gewinnen Wissenschaftler immer mal wieder neue Erkenntnisse dazu. Was seit Jahrzehnten allerdings unbestritten ist, betrifft den Maskierungseffekt. Dieser tritt auf, wenn mehr als nur ein Ton in Erscheinung tritt. Ist als Beispiel ein 1000-Hz-Ton im Raum vorhanden, bildet sich spektral gesehen um diesen herum eine akustische Maske. Das heisst, Töne in der Nähe (vor allem oberhalb) dieses Tones kann unser Gehör erst aber einer gewissen Lautstärke wahrnehmen.
Dies schränkt die wahrnehmbare Dynamik insbesondere bei Musik massgeblich ein, denn Musik besteht ja aus einer Vielzahl an unterschiedlichen, meist harmonischen Tönen. Neben der gleichzeitigen Maskierung gibt es auch die zeitliche Maskierung, welche nach (und vor!) lauten Tönen entsteht. Den Langzeiteffekt dieser Wirkung kennen sicher alle, die schon einmal in einer wirklich lauten Diskothek waren. Nach dem Verlassen einer solchen Einrichtung wird man schnell feststellen, dass für eine geraume Zeit sich das Gehör ziemlich taub anfühlt.
Man sieht schnell, dass es schwierig wird, eine genaue Aussage zu treffen, wie viel Dynamik unser Gehör verarbeiten kann, wenn ein komplexeres Frequenzspektrum vorhanden ist. Die wahrnehmbare Dynamik ist abhängig von Tonhöhe, Schalldruck, Anzahl vorhandener Töne (inkl. Oberwellen) etc. Durch diesen Hintergrund erklärt sich auch, dass eine Schallplatte trotz diverser Limitationen unter anderem auch in der Dynamik (ca. 35 dB/50 Hz bzw. 85 dB/1000Hz) trotzdem gut klingen kann.
Überschlagsmässig lässt sich die maximale Dynamik einfach berechnen. Bittiefe multipliziert mit 6 ergibt näherungsweise die theoretisch nutzbare Dynamik. Hier für die wichtigsten Bittiefen berechnet: 16 Bit = 96 dB, 24 Bit = 144 dB und 32 Bit = 192 dB. Im Vergleich dazu weist unser Gehör eine maximale Dynamik von etwa 130 dB auf, was auf den ersten Blick einen beträchtlichen Wert darstellt. Ohne weiteres Wissen würde man sagen, dass wohl die 24 Bits ein Must darstellen. Doch wie so oft ist die Sachlage etwas komplexer. Doch kann das Gehör nicht ohne weiteres die ganze Dynamik umsetzen und ebenso wenig kann das eine HiFi-Anlage.
Erste Digitalaufnahmen wurden mittels «Digital Audio Processor» auf Videokassetten gemacht. Im Bild Sony PCM-F1, welcher wahlweise 14 oder 16 Bit Auflösung bot.Praktisches Hören
Am unteren Ende der Dynamik spielt der Ruhegeräuschpegel eine nicht unwesentliche Rolle. Die durchschnittliche Wahrnehmung beginnt bei 0 dB bei 1 kHz (= Bezugsschalldruck). Doch wer einmal mit einem Schallpegelmeter (z.B. auf dem Handy) die Geräusche im «stillen» Raum betrachtet, wird feststellen, dass konstant 10 bis 30 dB Schalldruck vorhanden ist. Am anderen Ende werden wohl die meisten Leser mit mir übereinstimmen, dass Musikhören (zu Hause) mit mehr als 110 dB unangenehm wird. Damit bleiben noch etwa 90 dB nutzbare Dynamik. Da unser Gehör den Schalldruck nicht über das ganze Hörspektrum als gleich laut wahrnimmt, müsste man, um genau zu sein, tiefe, mittlere und hohe Frequenzbereiche separat betrachten. Die wollen wir einfachheitshalber vorerst ausser Acht lassen.
Auch Verstärker müssen rauscharm sein, damit sich eine höhere Dynamik einstellen kann. Im Bild zwei ganz neue Amp-Module mit sagenhaft tiefem Rauschgrund von -140 dB (Hypex und Purifi).Mehr Auflösung?
Wollen wir uns mal etwas detaillierter mit der Auflösung befassen. 24 Bit bedeuten, dass theoretisch 224 verschiedene Werte möglich sind, was ausgerechnet über 16 Millionen sind. Bei 16 Bit sind das 216, also nur noch 65'500 Werte. Da haben wir es also: viel mehr Auflösung! Das stimmt in der Theorie, aber in der Praxis? Mehr Auflösung bedeutet, dass kleinere Pegel sauber reproduziert werden können. Zum Beispiel bei -100 dB oder sogar bei -120 dB können noch kleinste Signale dargestellt werden (bezogen auf den digitalen Referenzpunkt 0 dB).
Doch leider bringt das keinen Vorteil, wenn a) unser ganzes Wiedergabesystem maximal 100 dB wiedergeben kann und b) diese leisen Signale gar nicht wahrnehmbar sind, da das Grundrauschen in unserem Raum diese minimalen Signalanteile überdeckt. Um Klarheit zu schaffen, kann man die Skalen der Signalquelle (z. B. ein Streamer) und dem kompletten Musikwiedergabesystem übereinanderlegen. Dies sehen Sie in der untenstehenden Abbildung. Wenn die Pegelverhältnisse stimmen, sollte beim maximalen Schalldruck (in unserem Fall 110 dB) auch im digitalen Bereich die maximale Aussteuerung vorhanden sein, was mit 0 dB definiert ist. Dies ist so, weil ein digitaler Pegel nicht über diesen Fixpunkt hinauskommt, sondern dort durch die digitale Technik bedingt «abgeschnitten» wird. Im analogen Bereich können Signale auch lauter sein als der Referenzpegel. Das Signal wird dann ebenfalls verzerrt, aber in der Regel etwas weniger abrupt abgeschnitten, je nach analogem Medium.
Dynamik und Schalldruck gegenübergesetzt: 24 Bit vs. Wiedergabesystem mit 110 dB maximalem Schalldruck.Das bedeutet mehr oder weniger, dass über 30 dB der vermeintlich besseren Auflösung im Rauschgrund der Anlage bzw. der Umgebungsgeräusche verschwindet und somit unhörbar(!) bleibt. Deshalb gibt es auch hervorragend klingende CDs, welchen lediglich 16 Bit für die Dynamik zur Verfügung steht (96 dB). In den meisten Fällen wird es schwierig sein, aus den oben genannten Gründen überhaupt 90 dB Dynamik zu erreichen.
Wie sinnvoll dann 32 Bit für einen Audiodatenträger sind, überlasse ich Ihnen gerne selber zu beurteilen. 32 Bit sind sinnvoll für digitales Processing (DSP), machen aber für die Datenübertragung bzw. Datenträger wenig Sinn. Nebenbei stellt sich natürlich auch die Frage, mit wie viel dB die Musik überhaupt «eingefangen» werden kann. Werte >120 dürften wohl utopisch sein, mit Ausnahme einer Bassdrum vielleicht. Mikrofonverstärker und AD-Wandler haben in der Praxis ebenfalls ein Grundrauschen, und selbst in Tonstudios dürfte sich der Ruheschallpegel im Bereich bis 10 dB bewegen.
Maskierungseffekt
Wie sieht es denn genau mit unserem Gehör aus? Seit über einem Jahrhundert wird unser Gehör erforscht, und auch heute gewinnen Wissenschaftler immer mal wieder neue Erkenntnisse dazu. Was seit Jahrzehnten allerdings unbestritten ist, betrifft den Maskierungseffekt. Dieser tritt auf, wenn mehr als nur ein Ton in Erscheinung tritt. Ist als Beispiel ein 1000-Hz-Ton im Raum vorhanden, bildet sich spektral gesehen um diesen herum eine akustische Maske. Das heisst, Töne in der Nähe (vor allem oberhalb) dieses Tones kann unser Gehör erst aber einer gewissen Lautstärke wahrnehmen.
Dies schränkt die wahrnehmbare Dynamik insbesondere bei Musik massgeblich ein, denn Musik besteht ja aus einer Vielzahl an unterschiedlichen, meist harmonischen Tönen. Neben der gleichzeitigen Maskierung gibt es auch die zeitliche Maskierung, welche nach (und vor!) lauten Tönen entsteht. Den Langzeiteffekt dieser Wirkung kennen sicher alle, die schon einmal in einer wirklich lauten Diskothek waren. Nach dem Verlassen einer solchen Einrichtung wird man schnell feststellen, dass für eine geraume Zeit sich das Gehör ziemlich taub anfühlt.
Man sieht schnell, dass es schwierig wird, eine genaue Aussage zu treffen, wie viel Dynamik unser Gehör verarbeiten kann, wenn ein komplexeres Frequenzspektrum vorhanden ist. Die wahrnehmbare Dynamik ist abhängig von Tonhöhe, Schalldruck, Anzahl vorhandener Töne (inkl. Oberwellen) etc. Durch diesen Hintergrund erklärt sich auch, dass eine Schallplatte trotz diverser Limitationen unter anderem auch in der Dynamik (ca. 35 dB/50 Hz bzw. 85 dB/1000Hz) trotzdem gut klingen kann.
Maskierungseffekt: Unterhalb der farbigen Kurven ist keine Wahrnehmung möglich, bei Vorhandensein des Beispieltons (1000 Hz) in Abhängigkeit der Lautstärke (20 ... 100 dB). Die schwarze Kurve ist die Hörschwelle (wenn keine anderer Ton vorhanden ist).In der oben gezeigten Darstellung ist auch die Wahrnehmungsschwelle (bzw. Hörschwelle) eingezeichnet. Dies bedeutet, oberhalb dieser schwarzen Linie ist erst eine Wahrnehmung überhaupt möglich. Das heisst, zu tiefen und ganz hohen Frequenzen hin braucht es höhere Pegel, damit wir einen Ton wahrnehmen. Das bedeutet, die maximale mögliche Dynamik unseres Gehörs beschränkt sich auf einen Bereich von etwa 500 bis 8000 Hz.
Dies wiederum bedeutet, dass auch in diesem Bereich Störungen wie Grundrauschen möglichst gering sein sollten, damit sie nicht hörbar sind. Jeder, der einen Plattenspieler sein Eigen nennen darf, kann übrigens den Maskierungseffekt einfach nachvollziehen. Während am Anfang der Rille, wo noch keine Musikinformation enthalten ist, hört man deutlich das Rauschen, das, sobald die Musik etwas stärker hervortritt, nicht mehr hörbar ist. Laute Knackser bleiben hingegen (leider) immer hörbar.
Was bei dieser Katze beim Musikhören wohl vor sich geht?Erkenntnisse
Festhalten lässt sich, dass die Dynamik eines Tonträgers oder Streams von einer HiFi-Anlage zuerst einmal umgesetzt werden muss. Je nach System kann dabei mehr oder weniger Dynamik erzeugt werden. Eine hohe Dynamik bedingt einerseits einen Abhörraum mit möglichst wenig Nebengeräuschen und andererseits eine Lautsprecher/Verstärker-Kombination, die klirr- und rauscharm einen sehr hohen Schalldruck erzeugen kann, dies zudem möglichst breitbandig. Mit einem Kopfhörer geht das meistens einfacher, da dieser hilft, die Umgebungsgeräusche zu dämpfen.
Fazit
Was bedeutet das für mich als Musikhörer? Ich selber habe die Erfahrung gemacht, dass die Auflösung bzw. Art der Codierung (PCM/DSD) wesentlich weniger eine Rolle spielt als die Aufnahme selber. So ist es widersinnig, eine für den breiten Massenmarkt abgemischte (sprich: dynamisch zusammengestampfte) Produktion als HighRes-Version zu verkaufen. In meinem Musikrepertoire findet sich so ziemlich alles, aber auf jeden Fall auch sehr vieles in CD-Qualität und naturgemäss immer mehr auch als HighRes-Versionen, weil diese via Streamingdienst angeboten werden. Wichtig ist, dass die Musik gut herüberkommt. Und spätestens, wenn ich beim Musikhören Gänsehaut kriege, ist es mir wurscht, wie viele Bits sich auf dem Weg zu den Lautsprechern befinden.

Alle Themen










