MAGAZIN
Seite 7 / 7
highresaudio.comhighresaudio.com
Die Autoren: Der folgende Beitrag entstand in Zuge einer Vortragsreihe zum Thema „Hochauflösende Audio-Formate“ von Lothar Kerestedjian, Geschäftsführer des Download-Portals HighResAudio.com sowie Matthias Stirner, technischer Redakteuer bei HighResAudio.com. Der Text wurde avguide.ch freundlicherweise zur Publikation zur Verfügung gestellt.
 

Musikstücke auf HighResAudio.com werden nicht wie auf herkömmlichen Download-Portalen als MP3, AAC oder WMA, sondern ausschliesslich in hochauflösenden Formaten angeboten. Zum Repertoire von HighResAudio.com gehören die Formate FLAC, ALAC, DXD und DSD. Jedes dieser Formate ist in der Lage, Klang hochauflösend und ohne Verluste wiederzugeben. Sie ermöglichen Ihnen dadurch im eigenen Wohnzimmer, am PC oder im Fahrzeug eine Klangqualität, die ansonsten professionellen Studios vorbehalten ist.

Im Folgenden stellen wir Ihnen einige hochauflösende Audio-Formate vor und erklären deren grundsätzliche Funktionsweise.

Da von den durch HighResAudio.com unterstützten Formaten FLAC das bekannteste und am besten unterstützte ist, besprechen wir das Format im Detail und gehen im Anschluss kurz auf ALAC, DXD und DSD ein. Wir erklären Ihnen die grundsätzliche Funktionsweise eines digitalen Audioformats, die Bedeutung hoher Auflösung bei Audioformaten und dessen Auswirkungen auf die Klangqualität.

Zu guter Letzt erläutern wir, warum unabhängig von Ihrem Audio-Equipment ein Format wie FLAC, ALAC, DXD und DSD geläufigeren Formaten wie MP3 grundsätzlich vorgezogen werden sollte.

Das Audioformat FLAC

Free Lossless Audio Codec oder kurz, FLAC ist das gebräuchlichste Format für verlustfreie und hochauflösende Audiodateien. Der Codec ist frei verfügbar und die Nutzung nicht durch Patente eingeschränkt.Free Lossless Audio Codec oder kurz, FLAC ist das gebräuchlichste Format für verlustfreie und hochauflösende Audiodateien. Der Codec ist frei verfügbar und die Nutzung nicht durch Patente eingeschränkt.

FLAC steht für 'Free Lossless Audio Codec' und ist ein Audioformat vergleichbar zu MP3, jedoch mit einer Vielzahl an Vorzügen im Vergleich. FLAC ist sowohl Audiocodec als auch Containerformat. Der zugehörige Standard beschreibt einen Algorithmus zum Kodieren und Dekodieren der Audiodaten und das Dateiformat, in dem die kodierten Dateien ausgetauscht werden. FLAC ist Freeware und Open Source. Im Gegensatz zu MP3 und vielen anderen Formaten kann das Format ohne Abfuhr von Lizenzgebühren eingesetzt werden.

Die Entwicklung an FLAC wurde im Jahr 2000 begonnen, am 20.07.2001 wurde die Referenzimplementation mit Version 1 veröffentlicht. Als einer der ersten Hardwarehersteller unterstützte PhatNoise, ein Zulieferer für Automobilhersteller, das Abspielen von FLAC in seinen Geräten. Bekannt wurde FLAC auch durch die Band Metallica, welche seit dem Jahr 2004 Konzertmitschnitte nicht nur als MP3, sondern auch als FLAC anbietet. Heute wird FLAC von einer Vielzahl portabler und stationärer Abspielgeräte unterstützt. Im Bereich der Heimcomputer gehört das Abspielen von FLAC mittlerweile zur Standardfunktionalität der meisten Medien- und Musikabspielprogramme für PC und Mac.

FLAC ist ein verlustfreies, komprimiertes Audioformat. Im Durchschnitt komprimiert FLAC die Audiodaten auf etwa 60% ihrer ursprünglichen Grösse. Die Musikart ist dabei relevant für die Kompressionsrate: Ein ruhiges Stück mit wenigen Instrumenten kann auf bis zu 30% der ursprünglichen Grösse komprimiert werden. Ein umfangreiches Stück kann etwa nur auf 75% komprimiert werden. FLAC unterstützt Eingangssignale mit Auflösungen von 4 bis 32 Bit pro Sample, Abtastfrequenzen von 1 Hz bis zu rund 655 kHz und 1 bis 8 gleichzeitige Kanäle für Surround-Klang.

Die Audioformate ALAC, DSD, DXD

Als einer der ersten Wandler der neuen Generation versteht sich der Aurelic Vega DSD auch auf die Verarbeitung von Daten im DSD- sowie DXD-Format mit Auflösungen bis zu 2.8224 MHz bzw. 5.6448 MHz sowie 384 kHz bei 32 Bit.Als einer der ersten Wandler der neuen Generation versteht sich der Aurelic Vega DSD auch auf die Verarbeitung von Daten im DSD- sowie DXD-Format mit Auflösungen bis zu 2.8224 MHz bzw. 5.6448 MHz sowie 384 kHz bei 32 Bit.

ALAC steht für 'Apple Lossless Audio Codec'. Das Audioformat wurde am 28. April 2004 mit einem Update der Apple-Abspielsoftware Quicktime veröffentlicht. Auch ALAC ist ein verlustfreies komprimiertes Audioformat, da das Format aber bis Oktober 2011 proprietär war, ist über dessen Funktionsweise nur wenig bekannt. Ausserhalb der Apple-Welt geniesst ALAC nur eine geringe Verbreitung. Es kann angenommen werden, dass ALAC eine ähnlich hohe Wiedergabequalität wie FLAC ermöglicht.

DSD steht für 'Direct Stream Digital' und ist eine Methode zur hochauflösenden Speicherung von Audio-Daten. Im Gegensatz zur klassischen PCM beruht sie auf dem Prinzip der Delta-Sigma-Modulation. DSD ist im Gegensatz zu FLAC, ALAC und DXD im eigentlichen Sinn kein Dateiformat und beschreibt auch keinen Kompressionsalgorithmus. Die Unterschiede zwischen PCM und DSD erklären wir im folgenden Kapitel.

DSD ist auch die grundlegende Technik hinter der Super Audio CD (SA-CD). Die SA-CD stellt eine Weiterentwicklung der herkömmlichen Audio-CD dar und basiert auf der DVD-Technik. Im Gegensatz zur Audio-CD setzt die SA-CD auf DSD statt PCM und ermöglicht Surround-Klang. DSD wird in der SA-CD mit einer festen Samplingrate von 2,8224 MHz eingesetzt, dabei fallen pro Minute und Kanal 16 mal soviel Daten an wie bei der herkömmlichen CD. Die ersten Abspielgeräte für das Format wurden im Jahre 1999 hergestellt, waren damals aber sehr kostspielig. Seit 2009 sind massenmarkttaugliche Geräte zu Preisen von unter 100€ verfügbar.

DXD steht für 'Digital eXtreme Definition' und ist ein komprimiertes, verlustfreies Audioformat speziell zur Speicherung von Audiodaten im DSD Format. Da die unkomprimierten DSD-Daten sehr viel Platz auf der Festplatte einnehmen würden, werden diese typischerweise eher im gleichwertigen, aber platzsparenden DXD Format kopiert. Intern verwendet DXD nicht die DSD-Repräsentation, sondern die klassische PCM-Repräsentation von Audiodaten. Da DXD dabei eine äusserst hohe Auflösung verwendet, geht bei der Überführung einer SACD in DXD keine Qualität verloren.

Digitalisierung von analogen Audiosignalen

Schall wird von schwingenden Gegenständen, wie z.B. Musikinstrumenten oder den menschlichen Stimmbändern erzeugt. Schwingt ein Gegenstand, so veranlassen dessen Schwingungen die Moleküle der umgebenden Luft, sich fortlaufend zu verdichten und voneinander wegzustreben: Es entstehen Schallwellen. Schwingen die Schallwellen mit einer Frequenz zwischen 16 und 20'000 Hz bzw. Schwingungen pro Sekunde so spricht man von Hörschall. Das tatsächliche typische Hörvermögen eines Menschen im Erwachsenenalter ist jedoch geringer und endet bei ca. 16'000 Hz.

Schallwellen, auch solche, die vom Menschen nicht gehört werden, können durch ein Mikrofon in eine entsprechende analoge Spannung umgewandelt werden. Die Kurve, welche durch die Aneinanderreihung der gemessenen Spannungen entsteht, wird auch analoges Audio-Signal genannt. Analoge Signale, wie vom Mikrofon aufgezeichnet, sind wertkontinuierlich bzw. stufenlos (siehe Abbildung oben) und daher nicht zur digitalen Speicherung geeignet. Das analoge Signal muss zunächst mittels PCM oder DSD in eine digitale Repräsentation überführt werden.

In der PCM wird die analoge Spannung in regelmässigen Abständen mittels eines Analog-Digital-Wandlers (auch: ADC, Analog-Digital-Converter) abgetastet und die dabei ermittelten Werte zum Zweck der Speicherung auf einen ganzzahligen Wert gerundet. Dieser Prozess wird auch Sampling, die dabei gemessenen Werte Samples genannt. Das Sampling eines ursprünglich analogen Audiosignals (weiss) in ein digitales Signal (grün) wird von der Abbildung unten veranschaulicht. Die vertikale Achse repräsentiert dabei die Spannung des Signals, die horizontale Achse die Zeit.

Quelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svgQuelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svg

Unterschiedliche Auflösungen

Beim Sampling kommt bereits die Bedeutung der Auflösung bei digitalen Audiosignalen zum Tragen. Auflösung hat bei Audiosignalen zwei Dimensionen: Eine zeitliche und eine auf die Präzision der Wiedergabe bezogene.

Die zeitliche Dimension ist einfach beschrieben mit der Geschwindigkeit der Abtastung, bzw. der damit verbundenen Anzahl an Samples pro Sekunde. Das analoge Signal muss aufgrund des Nyquist-Shannon-Theorems mindestens 40'000 mal pro Sekunde abgetastet werden, um Klang bis zur oberen Grenze des menschlichen Hörvermögens (20'000 Hz) originalgetreu in seine digitale Repräsentation überführen zu können. Tatsächliches Studioequipment zeichnet Schallwellen jedoch in einer wesentlich höheren Frequenz, zwischen 88'200 und 352'800 Hz, auf.

Die Dimension der Präzision hängt mit der Quantisierung zusammen. Man nennt diese Dimension auch Dynamikumfang. Wie bereits erwähnt, kann das analoge Signal aufgrund seiner Stufenlosigkeit nicht ohne weiteres digital gespeichert werden – digital gespeichert werden kann nämlich nur, was in zuvor fest definierten Stufen vorliegt. Analoge Werte dagegen entsprechen einer reellen Zahl unendlicher Präzision zwischen einschliesslich 0 und ausschliesslich 1. Der Prozess der Überführung von der analogen Stufenlosigkeit in die Regeln des digitalen Raums wird Quantisierung genannt.

Bei der Quantisierung werden die analogen Werte mit einem festen Wert multipliziert und anschliessend auf die nächste Ganzzahl gerundet. Durch den Multiplikator wird die Präzision festgelegt, wobei eine höhere Präzision jeweils besserer Wiedergabequalität entspricht. Die Präzision bei Audiosignalen wird typischerweise auf 16 Bit (Multiplikator 65'536), 24 Bit (Multiplikator 16'777'216) oder 32 Bit festgelegt (Multiplikator 4'294'967'296). Wie Sie sich die Dimension der Präzision in der Praxis vorstellen können, zeigt die Abbildung, indem sie dasselbe Signal, einmal mit hoher Präzision abgetastet (oben) und einmal mit niedriger Präzision (unten) abgetastet gegenüberstellt. Der Unterschied in der Präzision zwischen den zwei Kurven beträgt in etwa 3 Bit.

Der Unterschied bei der Quantisierung von analogen Audiosignale mit hoher und niedriger Bit-Tiefe. Unten sind es lediglich 3-Bit.Der Unterschied bei der Quantisierung von analogen Audiosignale mit hoher und niedriger Bit-Tiefe. Unten sind es lediglich 3-Bit.

An dieser Stelle möchten wir Ihnen aufzeigen, wo bewährte Arten der Wiedergabe und hochauflösende Audioformate in Bezug auf die drei vorgestellten Dimensionen einzuordnen sind:

  • Die herkömmliche Audio-CD ermöglicht 44'100 Samples pro Sekunde, eine Präzision von 16 Bit und zwei Kanäle.
  • MP3 ermöglicht bis zu 48'000 Samples pro Sekunde, eine Präzision von 16 Bit und einen oder zwei Kanäle.
  • FLAC ermöglicht bis zu 352'800 Samples pro Sekunde, eine Präzision von 24 Bit und zwei Kanäle. Bei 96'000 Samples pro Sekunde sind auch 5.1 Kanäle möglich.
  • DSD auf der SA-CD oder DXD-Dateien basiert auf 2'822'400 Samples pro Sekunde und einer Präzision von 1 Bit. Die Technik unterscheidet sich grundsätzlich von der PCM und wird im Folgenden erklärt.


Aufgrund des Nyquist-Shannon-Theorems ging man zum Zeitpunkt der Entwicklung von Audio-CD und MP3 davon aus, dass die gebotene Auflösung von 44'100 Samples pro Sekunde mehr als ausreichend ist. Jedoch müssen bei der Konvertierung in 44'100 Samples/s hochfrequente Anteile des ursprünglichen Audiosignals mittels eines Tiefpassfilters entfernt werden.

Die Alternative – DSD (DeltaSigmaModulation)

Bei DSD wird das Audiosignal zwar auch digital abgetastet, aber es werden nicht die gemessenen Spannungen selbst, sondern deren Änderungen gespeichert. DSD basiert auf der Delta-Sigma-Modulation. Mathematisch ausgedrückt entsprechen die PCM-Samples den eigentlichen Funktionswerten, die DSD-Samples den jeweiligen Ableitungswerten bzw. der Änderung am jeweiligen Punkt.

Auch hier kommen die Dimensionen der Zeit, der Präzision und der Räumlichkeit zum Tragen. Die SA-CD setzt dabei auf eine Präzision von nur 1 Bit, aber arbeitet mit 2'822'400 Samples pro Sekunde. Letztendlich wird dadurch eine sehr genaue Rekonstruktion des ursprünglichen Signalverlaufs ermöglicht. Eine schematische Darstellung der DSD-Technik zeigt die Abbildung oben. Es wird vermutet, dass DSD herkömmlichen, auf PCM basierenden Formaten grundsätzlich überlegen ist, jedoch liessen sich entsprechende Vermutungen bislang nicht belegen.

Quelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svgQuelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svg

Die meisten Audioformate speichern das digitale Signal nicht unkomprimiert im PCM oder DSD-Format, sondern setzen auf verlustfreie und verlustbehaftete Techniken der Datenkompression zur Reduktion der Datenmenge.

Die gängigen Formate MP3, AAC und WMA nutzen ein sogenanntes psychoakustisches Modell, um nicht hörbare Bestandteile eines Audiosignals zu entfernen. Ein sehr gutes psychoakustisches Modell ermöglicht so Einsparungen um den Faktor 20. Die entsprechenden Verluste in der Wiedergabequalität sind zwar vorhanden, können oft aber nur von geschulten Hörern im direkten Vergleich zum Original erkannt werden. Bei der verlustbehafteten Kompression mittels des psychoakustischen Modells und dem Einsatz entsprechender Audioformate bleiben jedoch zwei Dinge zu bedenken:

  1. Nicht jedes psychoakustische Modell verrichtet gute Arbeit. Viele MP3-Coder, die heute noch im Einsatz sind, setzen auf veraltete Modelle aus der Anfangszeit der Forschung und erreichen so grundsätzlich nur schlechte Wiedergabequalität
  2. Die Preise für Datenspeicher sind seit der Entwicklung von MP3, WMA und AAC stark gesunken. War MP3 früher angesichts begrenzten Speicherplatzes die einzige Option, so haben Sie heute die Wahl. Setzen Sie weiterhin auf verlustbehaftete Formate so tauschen Sie eventuell Hörgenuss gegen Speicherplatz ein.


Die Audioformate FLAC, ALAC und DXD nutzen verlustfreie Kompressionstechniken. Diese führen zu keinen (zusätzlichen) Verlusten in der Wiedergabequalität, da sie nur die digitale Repräsentation der Daten verändern. Mittels verlustfreier Kompressionstechniken sind Einsparungen um den Faktor 2 im Vergleich zur unkomprimierten Grösse der komprimierten Audiodaten möglich.

Im nächsten Kapitel erklären wir Ihnen die Vorteile hochauflösenden Audios für Sie, den Endkunden und Hörer.

Die Vorteile von hochauflösendem Audio

Wie berets erwähnt, kann das menschliche Gehör Schall nur im Bereich zwischen 16 Hz bis maximal 20 kHz verarbeiten.

Wir haben auch erwähnt, dass aufgrund des Nyquist-Shannon-Theorems in einem digitalen Audiosignal mindestens das doppelte der maximal wiederzugebenden Frequenz gespeichert werden muss, also in diesem Fall 40 kHz. Sie werden sich nun fragen: Warum brauche ich Auflösungen oberhalb 40 kHz, wenn doch MP3 und die Audio-CD bereits eine mehr als ausreichende Auflösung bieten?

Das Problem liegt im Detail: Schallwellen in der Natur, auch solche, die durch Musikinstrumente erzeugt werden, halten sich nicht an die vom menschlichen Gehör vorgegebenen Beschränkungen und erreichen auch höhere Frequenzen als 20 kHz. Mit anderen Worten enthält Musik auch Bestandteile, die Sie nicht hören können, welche aber durch Mikrofone aufgezeichnet werden können.

Nun braucht es Sie zwar eigentlich nicht zu stören, dass nicht hörbare Bestandteile in einer Musikdatei nicht vorhanden sind, jedoch müssen die höherfrequenten Bestandteile bei der Umwandlung in das jeweilige Audioformat entfernt werden.  Die Aufnahme muss mittels eines Tiefpassfilters nachbearbeitet werden, da andernfalls Reste dieser Bestandteile innerhalb der Aufnahme verbleiben und den Hörgenuss stören. 

Die zwei folgenden zwei Abbildungen illustrieren unterschiedliche Auflösungen. Die gezeigten Abbildungen wurden aufwändig erstellt durch das Pinguin Ingenieurbüro (www.masterpinguin.de) unter Leitung von Dipl.-Ing. Ralf Kessler. Zum Einsatz kam dabei PGAMM, ein Pinguin Audio Spektrometer.

Die horizontale Achse repräsentiert die Zeit, die vertikale Achse die Frequenz. Desto mehr ein bestimmter Bereich zur Farbe Rot tendiert, desto dominanter, also lauter sind die entsprechenden Frequenzanteile des Audiosignals an der jeweiligen Stelle.

Oben eine Aufnahme kodiert als MP3 mit hohen Qualitätseinstellungen. Aus der Abbildung ist zu erkennen, dass Frequenzbereiche ab 22,05kHz abrupt abgeschnitten sind. Die Abspielqualität dieser Aufnahme könnte Sie bereits zufriedenstellen.Oben eine Aufnahme kodiert als MP3 mit hohen Qualitätseinstellungen. Aus der Abbildung ist zu erkennen, dass Frequenzbereiche ab 22,05kHz abrupt abgeschnitten sind. Die Abspielqualität dieser Aufnahme könnte Sie bereits zufriedenstellen.
Diese Abbildung zeigt die Aufnahme in Ihrem vollen Frequenzumfang. Sie wurde anhand einer Aufzeichnung mit 96 kHz / 24 Bit erzeugt. Bei einer solchen Aufnahme können Sie sich sicher sein, dass Ihnen nichts entgeht - der volle Hörgenuss ist garantiert.Diese Abbildung zeigt die Aufnahme in Ihrem vollen Frequenzumfang. Sie wurde anhand einer Aufzeichnung mit 96 kHz / 24 Bit erzeugt. Bei einer solchen Aufnahme können Sie sich sicher sein, dass Ihnen nichts entgeht - der volle Hörgenuss ist garantiert.

Lesen Sie auch das Interview mit Lothar Kerestedjian zum Thema High Resolution Downloads

Mehr zu den Vorzügen von DSD im Detail erfahren Sie im avguide.ch Grundlagenartikel zu DSD- Direct Stream Digital.

Lothar Kerestedjian und Matthias Stirner Gastautor