Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Audio
Jörg Cassens
Institut für Mathematik und Angewandte Informatik
MedieninformatikWS 2019/2020
WS 2019/2020 Jörg Cassens – Audio 1 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Pingo
+ pingo.coactum.de/596956
WS 2019/2020 Jörg Cassens – Audio 2 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
EinleitungVisuelle Reize vielleicht dominant, Töne aber sehr wichtig
Wir können wegschauen, aber nicht weghören
Einzig steuerbarer Parameter häufig die LautstärkeAkustische Warnsignale deshalb akustisch weil wirksamWahrnehmung o� unbewußt, ungewollt, nebenherBeeinflussung der Wahrnehmung
Filmmusik
Transportiert z.B. Stimmungen anderer PersonenDefinition von Kulturen über die MusikGesellscha�liche Funktion
HymnenKampfliederStadiongesänge
Audiodesign inzwischen wesentlicher Bestandteil der Produktentwicklung
WS 2019/2020 Jörg Cassens – Audio 3 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Lernziele
Physikalische Grundlagen akustischer SignaleSchallwellenAusbreitung
WahrnehmungAufnahmeDigitalisierungKompressionAudiobearbeitung
WS 2019/2020 Jörg Cassens – Audio 4 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Outline
1 Schall
2 Wahrnehmung
3 Digitalisierung
4 Kompression
5 Bearbeitung
WS 2019/2020 Jörg Cassens – Audio 5 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Schall
Mechanische Bewegung eines physikalischen Mediums wie Lu� oder WasserExplosionen im Weltall
Breitet sich als Druckwelle ausUnterschiedliche Ausbreitungsgeschwindigkeit in unterschiedlichen Medien(dichter ist schneller)In Lu� etwa 331 m/s bei 0 Grad Celsius, 343 m/s bei 20 GradZumeist periodische SignaleVom Menschen wahrnehmbar etwa 18 Hz bis 20 kHz (etwa 17 m bis 1,7 cm)
WS 2019/2020 Jörg Cassens – Audio 6 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Grundlegende Größen
WS 2019/2020 Jörg Cassens – Audio 7 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Grundlegende Größen
Amplitude: Maximaler Wert in einer SchwingungPhase: Ein DurchlaufPhasenverschiebung: Verschiebung des Nulldurchgangs (0-360 Grad)Frequenz: Anzahl der Schwingungen pro ZeiteinheitWellenlänge: Der Weg, den das Signal bei gegebenerAusbreitungsgeschwindigkeit zurücklegt
WS 2019/2020 Jörg Cassens – Audio 8 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Longitudinalwelle vs. Transversalwelle
+ Wikipedia – User Debianux
WS 2019/2020 Jörg Cassens – Audio 9 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Longitudinalwelle
+ Wikipedia
WS 2019/2020 Jörg Cassens – Audio 10 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Hörbare Frequenzen
Der vom Menschen hörbare FrequenzraumBeachte: für Sprache reicht ein weitaus kleinerer Teil aus
WS 2019/2020 Jörg Cassens – Audio 11 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Ausbreitung
Konzentrische Ausbreitung um den EntstehungspunktIntensität nimmt mit dem Quadrat der Entfernung abSchallwellen können absorbiert, reflektiert, gebrochen und gebeugt werdenSchallwellen werden an Objekten gebeugt, deren Abmessungen in etwa in derGrößenordnung der Wellenlänge liegenLiegt in Bereichen, bei denen Elemente der Architektur eine Rolle spielenkönnen
Tiefe Frequenzen “fließen” um eine Säule herumHohe Frequenzen werden abgeblockt
WS 2019/2020 Jörg Cassens – Audio 12 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Klangerzeugung
Wesentliche Aspekte lassen sich z.B. bei der Betrachtung vonSaiteninstrumenten erkennenWird eine Saite in Schwingungen versetzt entstehen mehrere TöneEine Saite schwingt zwischen den festen ElementenMit relativ wenig Energiezufuhr kommen Frequenzen aus, die an denFixpunkten einen Nulldurchgang haben
Grund- oder ResonanzfrequenzVielfache dieser Schwingung (Obertöne)
Übertragbar auf andere KlangerzeugerFlächen (Trommeln)Lu�säulen in den Blasinstrumenten
WS 2019/2020 Jörg Cassens – Audio 13 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
ObertöneHarmonische oder Obertöne
WS 2019/2020 Jörg Cassens – Audio 14 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Obertöne: Beispiel
+ demonstrations.wolfram.com/Overtones
WS 2019/2020 Jörg Cassens – Audio 15 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Tonleiter
Westliches Tonsystem mit den zwölf Tönen einer Oktave läßt sichnäherungsweise aus Obertönen konstruierenSei f die Frequenz des Grundtons, dann hat die Oktave darüber die doppelteFrequenz, 2f , die reine Quinte über der Oktave 3f , die große Terz 5f etc.Obertonreihen erzeugen reine StimmungIn der westlichen musikalischen Praxis werden temperierte Stimmungenverwendet (gleich klingende Intervalle) bezüglich der Grundtöne
Gezielt etwas unrein gestimmt, um kleine Tohnhöhenunterschiede zu verteilenNicht-Übereinstimmung von Quinten und Terzen
Verschiedene Tonarten mit 12 TastenZusammenspiel unterschiedlicher Instrumente
J.S. Bach: Das wohltemperierte KlavierBlechblasinstrumente spielen in reiner Stimmung
WS 2019/2020 Jörg Cassens – Audio 16 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
FrequenzspektrumAnalog Histogramm bei Bildern
WS 2019/2020 Jörg Cassens – Audio 17 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Addition
Bei Mischung von 2 Signalen werden diese addiertMischung mit sich selber: konstruktive InterferenzMischung mit invertiertem (180 Grad phasenverschobenem) Signal –destruktive InterferenzMischung zweier nahe beieinander liegenden Signale kann zur Schwebungführen
Nutzbar bei der Stimmung von InstrumentenBei der Mischung zweier Signal kann das eine das andere modulieren
Frequenz, Amplitude, PhaseGrundlage erster Synthesizer
Nicht-periodische Signale (Geräusch)
WS 2019/2020 Jörg Cassens – Audio 18 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Addition
WS 2019/2020 Jörg Cassens – Audio 19 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Addition: Beispiel
+ demonstrations.wolfram.com/SuperpositionOfSoundWaves
WS 2019/2020 Jörg Cassens – Audio 20 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Annäherung: RechteckUngerade Vielfache der Grundfrequenz
WS 2019/2020 Jörg Cassens – Audio 21 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Gibbs
+ demonstrations.wolfram.com/GibbsPhenomenonInTheTruncatedDiscreteTimeFourierTransformOfT/
WS 2019/2020 Jörg Cassens – Audio 22 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Outline
1 Schall
2 Wahrnehmung
3 Digitalisierung
4 Kompression
5 Bearbeitung
WS 2019/2020 Jörg Cassens – Audio 23 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Akustische Wahrnehmung
WS 2019/2020 Jörg Cassens – Audio 24 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Akustische Wahrnehmung (contd.)
WS 2019/2020 Jörg Cassens – Audio 25 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Maskierung
Bei nahe beieinander liegenden Reizen kann ein energiereiches Signal einenahe liegendes, schwächeres Signal maskieren (Frequenzmaskierung)Auch schwache Reize vor oder nach starken Reizen (zeitliche Maskierung)
WS 2019/2020 Jörg Cassens – Audio 26 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Maskierung: Beispiel
+ Audio Demo-Dateien
WS 2019/2020 Jörg Cassens – Audio 27 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Lautstärke
Messung in Dezibel (dB)Logarithmische Skala (6 dB) Verdoppelung des SchalldrucksVerdoppelung der Lautstärke? It’s complicated. . .
Physischer Schalldruckpegel stark abhängig von FrequenzUnterschiede bei ansteigender Lautstärke stärker wahrgenommen als beiabnehmenderGewöhnungse�ekte z.B. bei lauter Musik, dieser E�ekt ist aber nur kurzzeitigwirksamGeht in die Psychoakustik
Hörschwelle: leiseste bei 2 kHz gerade noch hörbare Geräusch = 0 dBCharakteristische Lautstärke
Sprache: 30-70 dBSchmerzwahrnehmung: 120 dB
WS 2019/2020 Jörg Cassens – Audio 28 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Lautstärke: Beispiel
+ Audio Demo-Dateien
WS 2019/2020 Jörg Cassens – Audio 29 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Lautstärke (contd.)
WS 2019/2020 Jörg Cassens – Audio 30 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Lautstärke und Frequenz
+ Wikipedia
WS 2019/2020 Jörg Cassens – Audio 31 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Richtungshören
Interaurale Zeitdi�erenz (ITD): Unterschied der Laufzeit zwischen beidenOhren. Gleiche zeitliche Unterschiede führen bei höheren Frequenzen zuhöheren Phasenverschiebungen, diese sind besser wahrzunehmenInteraurale Intensitätsdi�erenz (IID): Teilweise Abschwächung derLautstärke, vor allem bei hohen FrequenzenHead-Related Transfer Function (HRTF): bei dem Weg um den Kopf werdenbestimmte Frequenzanteile verstärkt, andere verschluckt
WS 2019/2020 Jörg Cassens – Audio 32 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Richtungshören (contd.)
Wir versuchen, zusammen mit ITD, IID und HRTF die Richtung zu bestimmenbesser bei hohen Frequenzen
ITD und IID würden für vor unter hinter uns liegende Geräuschquellen dasgleiche Ergebnis bringenAllein HRTF unterscheidet dieseAuch: Einbringung von Wissen
Flugzeuge sind über unsHilfe durch andere Sinne
Die See ist vor uns
WS 2019/2020 Jörg Cassens – Audio 33 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Richtungshören (contd.)
WS 2019/2020 Jörg Cassens – Audio 34 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Outline
1 Schall
2 Wahrnehmung
3 Digitalisierung
4 Kompression
5 Bearbeitung
WS 2019/2020 Jörg Cassens – Audio 35 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Digitalisierung
Was sind geeignete Werte für Diskretisierung und Quantisierung?Vor der Digitalisierung beschränken auf etwa 20-20.000 Hz
Abtasttheorem sagt aus, wie o� wir messen müssenWahrnehmbare Lautstärke etwa zwischen 0 dB und 120 dB (Schmerzgrenze)
Dynamikumfang etwa 120 dBDa 6 dB einer Verdoppelung der Signalstärke entsprechen ist der Dynamikumfangetwa 2120/6 = 220 : 1Etwa 20 bits reichen aus um den vollen Umfang der menschlichenLautstärkewahrnehmung auszudrücken
Caveat: Was sind die kleinsten wahrnehmbaren Lautstärkeunterschiede?Daumenregel 1 dB
In der Praxis 16 (CD) bis 24 Bit
WS 2019/2020 Jörg Cassens – Audio 36 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Abtasttheorem: Beispiel
+ demonstrations.wolfram.com/PureTonesWithSampleRate
WS 2019/2020 Jörg Cassens – Audio 37 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
PCM
Pulse Code ModulationSamples als Bitfolgen liegen hintereinanderUnkomprimiertes FormatStandard G.711 für die Sprachübertragung
Abtastfrequenz 8 kHzAuflösung 8 BitISDN B-Kanal mit 64 kBit/s
Di�ential PCM: nur die Di�erenz zwischen Samples übertragenAdaptive Di�ential PCM: Auch Anzahl Bit variabel
WS 2019/2020 Jörg Cassens – Audio 38 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Outline
1 Schall
2 Wahrnehmung
3 Digitalisierung
4 Kompression
5 Bearbeitung
WS 2019/2020 Jörg Cassens – Audio 39 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
MPEG
MPEG = Moving Picture Expert GroupGremium der ISO und der IEC (International Electrotechnical Commission)MPEG-1 und MPEG-2 für Video mit integriertem AudioCodierungen für Bild und Ton jeweils getrennt beschriebenAußerdem: Varianten, sogenannte LayerMP3 ist MPEG-1 Layer 3MPEG auch verwendet bei
DAB (Digital Audio Broadcast)DVB (Digital Video Broadcast)DVD
WS 2019/2020 Jörg Cassens – Audio 40 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
PsychoakustikVerlustfreie Verfahren führen zu relativ wenig KompressionMP3 basiert auf einem psychoakustischen Modell der TonwahrnehmungNutzt Maskierungse�ekte ausEmpirisch ermittelt27 so genannte kritische Bänder
Ein kritische Band ist der Bereich, in dem Töne stärker als ein bestimmterGrenzwert miteinander interagierenEine solche Interaktion ist z.B. die Maskierung
WS 2019/2020 Jörg Cassens – Audio 41 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
PsychoakustikMusikalische Betrachtung
Kritische Bänder sind in der Nähe des mittleren C eines Klaviers etwa eine TerzbreitZu den höhen Tönen engerZu den tiefen Tönen weiter
FrequenzbetrachtungAuf linearer SkalaHohe Frequenzen breiterTiefe Frequenzen schmaler
WS 2019/2020 Jörg Cassens – Audio 42 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Kritische BänderAussagen, welche Frequenzen andere Frequenzen maskieren
Zentrale Idee: Maskierte und Unhörbare Anteile nicht übertragenArbeit im Frequenzraum
WS 2019/2020 Jörg Cassens – Audio 43 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
MP3 Standard
Der Standard beschreibt die Codierung relativ abstraktFraunhofer ReferenzimplentierungVerschieden Encoder produzieren unterschiedliche Ergebnisse
Einige Stufen werden definiertBitraten 32-320 kbit/s (MPEG-1)Sampling 32-48 kHz (MPEG-1)
Das Decodieren ist genauer geregeltUnterschiedliche Encoder sollten auf dem gleichen Eingabedaten den gleichenBitstrom erzeugen (modulo Rundungsfehler)
Die Beschreibung des Verfahrens ist vereinfacht
WS 2019/2020 Jörg Cassens – Audio 44 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild
PCM-Audio
Filterbank MDCTQuanti-sierung
Hu�manCodierung
Bitstrom-Generie-
rung
mp3-Audio
FFT 1024Psycho-
akustischesModell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 45 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Sampling
Sehr kurze Zeitabschnitte (36 samples = 0,8 ms)Mit Hilfe einer Filterbank in 32 Bänder zerlegt“Windowing”: Auswahl von Zeitabschnitten (Frames) für die weitere CodierungUnterschiedliche Arten von “Windows” für unterschiedliche Signale
“Long Window” bei wenigen Änderungen“Short Window” bei größeren Änderungen
Danach Modifizierte Diskrete Kosinustransformation (MDCT)Darstellung bzgl. 18 Grundfrequenzen innerhalb der jeweiligen Subbändererreichte Darstellung: 32 (Bänder) * 18 Frequenzen = 576 BasisfrequenzenHohe zeitliche Auflösung
WS 2019/2020 Jörg Cassens – Audio 46 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Frequenzauflösung
Parallel wird das Eingangssignal mittels schneller Fourier-Transformation ineine Frequenzraumdarstellung bzgl. 1024 Bändern überführtWesentlich niedrigere zeitliche Auflösung, aber bessere Information überFrequenz und PhaseDies ist günstiger für die Berechnung der MaskierungAuf Basis dieser Zerlegung wird die Maskierung zwischen einzelnen FrequenzenbestimmtAus den Koe�izienten der FFT und dem psychoakustischen Modell wirdberechnet, welche Frequenzanteile des zerlegten Signals maskiert und somitnicht wahrgenommen wird
WS 2019/2020 Jörg Cassens – Audio 47 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Verlustbeha�ete Codierung
Genauer: aus den Koe�izienten der FFT und dem psychoakustischen Modellwird berechnet,
wie die Quantisierung der Koe�izienten aussieht undwelche Window-Größen angewandt werden sollen
Davon abhängig werden die MDCT-Koe�izienten quantifiziert, wobei vieleNullwerte entstehenDie Quantisierung ist auch davon abhängig, welche Bitrate zur Verfügung stehtDer entstehende Teil wird mit Hu�man kodiert
Anpassung der Quantisierung an die zur Verfügung stehenden Codetabellen
Zusätzlich Ausnutzen der Redundanz zwischen Stereokanälen
WS 2019/2020 Jörg Cassens – Audio 48 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-AudioParallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Prinzipschaltbild Revisited
PCM-Audio
Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing
Filterbank
Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen
MDCT
Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite
Quanti-sierung
Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)
Hu�manCodierung
Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt
Bitstrom-Generie-
rung
mp3-Audio
Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit
FFT 1024
Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an
Psycho-akustisches
Modell
Vereinfachtes Prinzipschaltbild nach Watkinson [2004]
WS 2019/2020 Jörg Cassens – Audio 49 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Varianten und Weiterentwicklungen
Das MP3-Format hat wesentlich dazu beigetragen, daß Musik online verteiltwerden konnte
Wesentlich reduzierte Dateigrößen bei akzeptabler QualitätNutzen eines psychoakustischen Modells wurde gezeigtUnabhängige Implementierungen, zum Teil als Freie So�ware
Neben MP3 gibt es inzwischen eine Reihe verlustbeha�eter AudioformateAdvanced Audio Coding (AAC)Ogg/VorbisOpus
Auch bei MP3 weitere OptimierungenVariable Bitrate (VBR), durchschnittliche Bitrate (ABR), konstante Bitrate (CBR)Optimierung des psychoakustischen Modells bei der Codierung
WS 2019/2020 Jörg Cassens – Audio 50 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Spektren
+ Wikipedia
WS 2019/2020 Jörg Cassens – Audio 51 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Opus
+ Wikipedia
WS 2019/2020 Jörg Cassens – Audio 52 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Verlustfrei
mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?
Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal
WS 2019/2020 Jörg Cassens – Audio 53 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Verlustfrei
mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?
Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal
WS 2019/2020 Jörg Cassens – Audio 53 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
FLAC
FLAC: Free Losless Audio CodecKompression darf rechenintensiv sein, die Dekompression muß in Echtzeitablaufen könnenBeschränkung auf Fixpoint-Berechnungen erlaubt Realisierung in HardwareUnterstützt
PCM-Quantisierung von 4-32 BitSampling-Raten von 1Hz bis etwa 655 kHz1-8 Kanäle
FLAC-Datei enthält Metadaten und AudiodatenDaumenregel: während universelle, verlustfreie Kompressionsverfahren beiAudiodaten etwa 10-20% Kompression erreichen können liegt FLAC bei 40-60%
WS 2019/2020 Jörg Cassens – Audio 54 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
FLAC: Vorgehen
1 Zerlegung: Bilden von Blöcken von 1000-6000 Samples2 Dekorrelierung: Ausnutzen von Redundanz zwischen Kanälen (rechts/links bei
Stereo, weitere Kanäle)3 Modellierung: Predictor für das Audiosignal wird erstellt
Verbatim (Kopie)LinearPolynomfunktion oderLinear Predictive Coding
4 Fehlersignal: Der Unterschied des Predictors zum tatsächlichen Signal(Residual Signal) wird codiert
Entropiebasiert, Rice-Kodierung
5 Framing: Alles Kanäle eines Blocks werden mit Metadaten (Fehlererkennung,Timestamps, . . . ) in einen Frame geladen
WS 2019/2020 Jörg Cassens – Audio 55 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
FLAC: Modellierung
VerbatimDas Audiosignal wird ohne Kompression kopiert
LinearDas Signal wird mit einer Linearfunktion angenähertStille, konstante Töne
PolynomfunktionDas Signal wird mittels einer Polynomfunktionen angenähertSchnell, weniger genau als LPC
Linear Predictive CodingVereinfachtes Modell des Klangerzeugers, z.B. des menschlichen Stimmtraktes
Summer am Ende eines RohresDazu Zisch- und Knalllaute
Danach müssen nur die Parameter dieses Modells bestimmt (und übertragen)werden
WS 2019/2020 Jörg Cassens – Audio 56 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
FLAC: Fehlersignal
Das Fehlersignal wird mittels eines Entropiebasierten KompressionsverfahrengespeichertIm Gegensatz zu Hu�man oder dem Arithmetischen Encoding kommt einVerfahren zum Einsatz, welches Annahmen über dieWahrscheinlichkeitsverteilung machtRice-Encoding: Codiere kleine Werte mit möglichst kurzen WortenVerschiedene Parametrisierung möglichGrundsätzlich gut geeignet für geometrische Verteilungen
Hier könne Kompressionsraten im Bereich der bei Hu�man möglichen Ratenerreicht werden
Qualität des Predictors ausschlaggebend für die Verteilung der Werte desFehlersignals
WS 2019/2020 Jörg Cassens – Audio 57 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Outline
1 Schall
2 Wahrnehmung
3 Digitalisierung
4 Kompression
5 Bearbeitung
WS 2019/2020 Jörg Cassens – Audio 58 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Bearbeitung
Neben der Audiobearbeitung auch die AudioverarbeitungTendentielle Unterteilung
Verarbeitung: Automatische VerarbeitungskettenBearbeitung: Interaktive Veränderung von Audiodaten
Ändern der Amplitude (Lautstärke)Wenn benachbarte Signalwerte einbezogen werden, spricht man von FilternWeiterhin kann es sinnvoll sein, Frequenz und Phase zu ändernSimulation von E�ekten wie Echo oder Hall
WS 2019/2020 Jörg Cassens – Audio 59 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Amplitude
Bezugspegel von 0 dBHistorisch aus der analogen Audiotechnik:
0 dB = 1 mW, 600 Ohm, Spannung 0.7775 V
E�ektivwert:
seffektiv =
√1T
∫T
s2(t)dt
Maximalpegel: Höchster darstellbarer SignalwertArbeitspegel sollte genug Abstand halten
WS 2019/2020 Jörg Cassens – Audio 60 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Dynamik
WS 2019/2020 Jörg Cassens – Audio 61 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Pegelanpassung
Übersteuerung: höchste Signalwerte liegen außerhalb des darstellbarenBereichs der Quantisierung
An den Rändern Clipping; starke Änderungen im Signalverlauf (Unstetigkeiten)Wirken sich als hohe Frequenzanteile ausIn analoger Technik nicht so stark ausgeprägt, da der Abfall i.d.R. nicht so steil ist
Untersteuerung: Nutzt nicht den gesamten Darstellungsbereich derQuantisierung aus
Höchste Signalwerte liegen deutlich unter dem größten darstellbaren WertStörungen mit gleicher Amplitude sind also im Verhältnis lauterSignal-Rausch-Abstand schmilzt
Abhilfe: NormalisierungEbenso Kompensation DC-O�set
WS 2019/2020 Jörg Cassens – Audio 62 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Veränderung Hüllkurvez.B. Ein-/Ausblenden
WS 2019/2020 Jörg Cassens – Audio 63 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Filter
Benachbarte Werte sind zeitlich benachbartBilder: räumlich benachbart
Analogtechnik: Verwendung von Bauteilen, die ein zeitabhängiges Verhaltenaufweisen
SpulenKondensatoren
Digitaltechnik: Algorithmisch, z.B. Digital Signal Processor (DSP)
WS 2019/2020 Jörg Cassens – Audio 64 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Frequenzfilter
WS 2019/2020 Jörg Cassens – Audio 65 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Faltungsfilter
Analog zu den Faltungsfilters der BildbearbeitungWeichzeichner und Tiefpaß (Boxcar)
g(x) =13(1, 1, 1) ∗ (f(x − 1), f(x), f(x + 1))
Hochpaß
g(x) = (−1, 3,−1) ∗ (f(x − 1), f(x), f(x + 1))
WS 2019/2020 Jörg Cassens – Audio 66 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Equalizer
Parametrisch oder (hier) grafisch
WS 2019/2020 Jörg Cassens – Audio 67 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Parametrischer Equalizer
Ein oder mehrere parallel geschaltete BandfilterEinzelne Parameter jedes Filters können einzeln manipuliert werden
MittenfrequenzGüte (Steilheit der Flanken)Faktor für Verstärkung/Dämpfung
Benötigen mehr Erfahrung als einfache grafische EqualizerSind in der Lage, komplexere Probleme zu lösen
Resonanzfrequenz eines Raumes
WS 2019/2020 Jörg Cassens – Audio 68 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
DynamikkompressionDynamik läßt sich als Verhältnis von größten und kleinsten Amplitudeninnerhalb eines Zeitfensters quantifizierenJe nach Länge des Fensters unterscheidet man Mikrodynamik(Sekundenbruchteile) und Makrodynamik (Sekunden und Minuten)Mikrodynamik macht z.B. den Charakter eines Instrumentes aus,Makrodynamik den Lautstärkeaufbau eines Musikstücks
WS 2019/2020 Jörg Cassens – Audio 69 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Audacity Compressor
+ Filtering and E�ects
WS 2019/2020 Jörg Cassens – Audio 70 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Video 6.1: Loudness Wars
+ Matt Mayfield Music: Loudness Wars (1:53)
WS 2019/2020 Jörg Cassens – Audio 71 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Weitere
Veränderung von Frequenz/PhaseResampling: andere samplingrate (bewirkt Änderung der Signalfrequenz)Time stretching: Länge des Signals verändern, ohne die Tonhöhe zu beeinflussen– kurze Abschnitte des Signals werden wiederholt (in Grenzen machbar)
Auch umgekehrt, z.B. um vorgeschriebene Hinweise in der Werbung zu verkürzenPhasing/Flanging/Chorus: Analog zu den 3 Saiten eines Klaviers
Echo und HallEcho: Original und zeitversetzte, abgeschwächte ReflexionHall: (mehrfach Reflexion), nachbildbar über Impulsantwort
RestaurationRauschen (Noise, Hiss), Klicken (Clicks), Knistern (Crackle) - Denoising überFingerprint, Declicking über Interpolation des anderen Kanals
WS 2019/2020 Jörg Cassens – Audio 72 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
SchneidenHarter Schnitt: möglichst im Nulldurchgang, in Pausen
Weicher SchnittKreuz- oder Sturzblende
WS 2019/2020 Jörg Cassens – Audio 73 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
Audio
Jörg Cassens
Institut für Mathematik und Angewandte Informatik
MedieninformatikWS 2019/2020
WS 2019/2020 Jörg Cassens – Audio 74 / 74
Schall
Wahrnehmung
Digitalisierung
Kompression
Bearbeitung
Literatur
References I
Alle Abbildungen, wenn nicht anders angegeben, aus Malaka et al. [2009].
Rainer Malaka, Andreas Butz, and Heinrich Hussmann. Medieninformatik – EineEinführung. Pearson Studium, Munich, 2009.
John Watkinson. The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4. Technology &Engineering. Taylor & Francis, 2004.
WS 2019/2020 Jörg Cassens – Audio 75 / 74