JörgCassens - mi.kriwi.demi.kriwi.de/mi/MI-06-Audio-JC-slides.pdf · Schall Wahrnehmung Digitalisierung Kompression Bearbeitung Literatur Pingo +pingo.coactum.de/596956 WS2019/2020JörgCassens–Audio

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audio

Jörg Cassens

Institut für Mathematik und Angewandte Informatik

MedieninformatikWS 2019/2020

WS 2019/2020 Jörg Cassens – Audio 1 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Pingo

+ pingo.coactum.de/596956


http://pingo.coactum.de/596956

http://pingo.coactum.de/596956

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

EinleitungVisuelle Reize vielleicht dominant, Töne aber sehr wichtig

Wir können wegschauen, aber nicht weghören

Einzig steuerbarer Parameter häufig die LautstärkeAkustische Warnsignale deshalb akustisch weil wirksamWahrnehmung o� unbewußt, ungewollt, nebenherBeeinflussung der Wahrnehmung

Filmmusik

Transportiert z.B. Stimmungen anderer PersonenDefinition von Kulturen über die MusikGesellscha�liche Funktion

HymnenKampfliederStadiongesänge

Audiodesign inzwischen wesentlicher Bestandteil der Produktentwicklung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lernziele

Physikalische Grundlagen akustischer SignaleSchallwellenAusbreitung

WahrnehmungAufnahmeDigitalisierungKompressionAudiobearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Schall

Mechanische Bewegung eines physikalischen Mediums wie Lu� oder WasserExplosionen im Weltall

Breitet sich als Druckwelle ausUnterschiedliche Ausbreitungsgeschwindigkeit in unterschiedlichen Medien(dichter ist schneller)In Lu� etwa 331 m/s bei 0 Grad Celsius, 343 m/s bei 20 GradZumeist periodische SignaleVom Menschen wahrnehmbar etwa 18 Hz bis 20 kHz (etwa 17 m bis 1,7 cm)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Grundlegende Größen


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Grundlegende Größen

Amplitude: Maximaler Wert in einer SchwingungPhase: Ein DurchlaufPhasenverschiebung: Verschiebung des Nulldurchgangs (0-360 Grad)Frequenz: Anzahl der Schwingungen pro ZeiteinheitWellenlänge: Der Weg, den das Signal bei gegebenerAusbreitungsgeschwindigkeit zurücklegt


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Longitudinalwelle vs. Transversalwelle

+ Wikipedia – User Debianux


https://de.wikipedia.org/wiki/Datei:Longitudinalwelle_Transversalwelle.png

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Longitudinalwelle

+ Wikipedia


https://upload.wikimedia.org/wikipedia/commons/6/62/Onde_compression_impulsion_1d_30_petit.gif

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Hörbare Frequenzen

Der vom Menschen hörbare FrequenzraumBeachte: für Sprache reicht ein weitaus kleinerer Teil aus


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Ausbreitung

Konzentrische Ausbreitung um den EntstehungspunktIntensität nimmt mit dem Quadrat der Entfernung abSchallwellen können absorbiert, reflektiert, gebrochen und gebeugt werdenSchallwellen werden an Objekten gebeugt, deren Abmessungen in etwa in derGrößenordnung der Wellenlänge liegenLiegt in Bereichen, bei denen Elemente der Architektur eine Rolle spielenkönnen

Tiefe Frequenzen “fließen” um eine Säule herumHohe Frequenzen werden abgeblockt


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Klangerzeugung

Wesentliche Aspekte lassen sich z.B. bei der Betrachtung vonSaiteninstrumenten erkennenWird eine Saite in Schwingungen versetzt entstehen mehrere TöneEine Saite schwingt zwischen den festen ElementenMit relativ wenig Energiezufuhr kommen Frequenzen aus, die an denFixpunkten einen Nulldurchgang haben

Grund- oder ResonanzfrequenzVielfache dieser Schwingung (Obertöne)

Übertragbar auf andere KlangerzeugerFlächen (Trommeln)Lu�säulen in den Blasinstrumenten


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

ObertöneHarmonische oder Obertöne


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Obertöne: Beispiel

+ demonstrations.wolfram.com/Overtones


http://demonstrations.wolfram.com/Overtones/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Tonleiter

Westliches Tonsystem mit den zwölf Tönen einer Oktave läßt sichnäherungsweise aus Obertönen konstruierenSei f die Frequenz des Grundtons, dann hat die Oktave darüber die doppelteFrequenz, 2f , die reine Quinte über der Oktave 3f , die große Terz 5f etc.Obertonreihen erzeugen reine StimmungIn der westlichen musikalischen Praxis werden temperierte Stimmungenverwendet (gleich klingende Intervalle) bezüglich der Grundtöne

Gezielt etwas unrein gestimmt, um kleine Tohnhöhenunterschiede zu verteilenNicht-Übereinstimmung von Quinten und Terzen

Verschiedene Tonarten mit 12 TastenZusammenspiel unterschiedlicher Instrumente

J.S. Bach: Das wohltemperierte KlavierBlechblasinstrumente spielen in reiner Stimmung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FrequenzspektrumAnalog Histogramm bei Bildern


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition

Bei Mischung von 2 Signalen werden diese addiertMischung mit sich selber: konstruktive InterferenzMischung mit invertiertem (180 Grad phasenverschobenem) Signal –destruktive InterferenzMischung zweier nahe beieinander liegenden Signale kann zur Schwebungführen

Nutzbar bei der Stimmung von InstrumentenBei der Mischung zweier Signal kann das eine das andere modulieren

Frequenz, Amplitude, PhaseGrundlage erster Synthesizer

Nicht-periodische Signale (Geräusch)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition: Beispiel

+ demonstrations.wolfram.com/SuperpositionOfSoundWaves


http://demonstrations.wolfram.com/SuperpositionOfSoundWaves/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Annäherung: RechteckUngerade Vielfache der Grundfrequenz


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Gibbs

+ demonstrations.wolfram.com/GibbsPhenomenonInTheTruncatedDiscreteTimeFourierTransformOfT/


http://demonstrations.wolfram.com/GibbsPhenomenonInTheTruncatedDiscreteTimeFourierTransformOfT/

http://demonstrations.wolfram.com/GibbsPhenomenonInTheTruncatedDiscreteTimeFourierTransformOfT/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Akustische Wahrnehmung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Akustische Wahrnehmung (contd.)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Maskierung

Bei nahe beieinander liegenden Reizen kann ein energiereiches Signal einenahe liegendes, schwächeres Signal maskieren (Frequenzmaskierung)Auch schwache Reize vor oder nach starken Reizen (zeitliche Maskierung)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Maskierung: Beispiel

+ Audio Demo-Dateien


http://mi.kriwi.de/mi/demo_audio/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke

Messung in Dezibel (dB)Logarithmische Skala (6 dB) Verdoppelung des SchalldrucksVerdoppelung der Lautstärke? It’s complicated. . .

Physischer Schalldruckpegel stark abhängig von FrequenzUnterschiede bei ansteigender Lautstärke stärker wahrgenommen als beiabnehmenderGewöhnungse�ekte z.B. bei lauter Musik, dieser E�ekt ist aber nur kurzzeitigwirksamGeht in die Psychoakustik

Hörschwelle: leiseste bei 2 kHz gerade noch hörbare Geräusch = 0 dBCharakteristische Lautstärke

Sprache: 30-70 dBSchmerzwahrnehmung: 120 dB


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke: Beispiel

+ Audio Demo-Dateien


http://mi.kriwi.de/mi/demo_audio/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke (contd.)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke und Frequenz

+ Wikipedia


http://en.wikipedia.org/wiki/File:Lindos4.svg

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören

Interaurale Zeitdi�erenz (ITD): Unterschied der Laufzeit zwischen beidenOhren. Gleiche zeitliche Unterschiede führen bei höheren Frequenzen zuhöheren Phasenverschiebungen, diese sind besser wahrzunehmenInteraurale Intensitätsdi�erenz (IID): Teilweise Abschwächung derLautstärke, vor allem bei hohen FrequenzenHead-Related Transfer Function (HRTF): bei dem Weg um den Kopf werdenbestimmte Frequenzanteile verstärkt, andere verschluckt


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören (contd.)

Wir versuchen, zusammen mit ITD, IID und HRTF die Richtung zu bestimmenbesser bei hohen Frequenzen

ITD und IID würden für vor unter hinter uns liegende Geräuschquellen dasgleiche Ergebnis bringenAllein HRTF unterscheidet dieseAuch: Einbringung von Wissen

Flugzeuge sind über unsHilfe durch andere Sinne

Die See ist vor uns


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören (contd.)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Digitalisierung

Was sind geeignete Werte für Diskretisierung und Quantisierung?Vor der Digitalisierung beschränken auf etwa 20-20.000 Hz

Abtasttheorem sagt aus, wie o� wir messen müssenWahrnehmbare Lautstärke etwa zwischen 0 dB und 120 dB (Schmerzgrenze)

Dynamikumfang etwa 120 dBDa 6 dB einer Verdoppelung der Signalstärke entsprechen ist der Dynamikumfangetwa 2120/6 = 220 : 1Etwa 20 bits reichen aus um den vollen Umfang der menschlichenLautstärkewahrnehmung auszudrücken

Caveat: Was sind die kleinsten wahrnehmbaren Lautstärkeunterschiede?Daumenregel 1 dB

In der Praxis 16 (CD) bis 24 Bit


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Abtasttheorem: Beispiel

+ demonstrations.wolfram.com/PureTonesWithSampleRate


http://demonstrations.wolfram.com/PureTonesWithSampleRate/

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PCM

Pulse Code ModulationSamples als Bitfolgen liegen hintereinanderUnkomprimiertes FormatStandard G.711 für die Sprachübertragung

Abtastfrequenz 8 kHzAuflösung 8 BitISDN B-Kanal mit 64 kBit/s

Di�ential PCM: nur die Di�erenz zwischen Samples übertragenAdaptive Di�ential PCM: Auch Anzahl Bit variabel


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

MPEG

MPEG = Moving Picture Expert GroupGremium der ISO und der IEC (International Electrotechnical Commission)MPEG-1 und MPEG-2 für Video mit integriertem AudioCodierungen für Bild und Ton jeweils getrennt beschriebenAußerdem: Varianten, sogenannte LayerMP3 ist MPEG-1 Layer 3MPEG auch verwendet bei

DAB (Digital Audio Broadcast)DVB (Digital Video Broadcast)DVD


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PsychoakustikVerlustfreie Verfahren führen zu relativ wenig KompressionMP3 basiert auf einem psychoakustischen Modell der TonwahrnehmungNutzt Maskierungse�ekte ausEmpirisch ermittelt27 so genannte kritische Bänder

Ein kritische Band ist der Bereich, in dem Töne stärker als ein bestimmterGrenzwert miteinander interagierenEine solche Interaktion ist z.B. die Maskierung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PsychoakustikMusikalische Betrachtung

Kritische Bänder sind in der Nähe des mittleren C eines Klaviers etwa eine TerzbreitZu den höhen Tönen engerZu den tiefen Tönen weiter

FrequenzbetrachtungAuf linearer SkalaHohe Frequenzen breiterTiefe Frequenzen schmaler


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Kritische BänderAussagen, welche Frequenzen andere Frequenzen maskieren

Zentrale Idee: Maskierte und Unhörbare Anteile nicht übertragenArbeit im Frequenzraum


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

MP3 Standard

Der Standard beschreibt die Codierung relativ abstraktFraunhofer ReferenzimplentierungVerschieden Encoder produzieren unterschiedliche Ergebnisse

Einige Stufen werden definiertBitraten 32-320 kbit/s (MPEG-1)Sampling 32-48 kHz (MPEG-1)

Das Decodieren ist genauer geregeltUnterschiedliche Encoder sollten auf dem gleichen Eingabedaten den gleichenBitstrom erzeugen (modulo Rundungsfehler)

Die Beschreibung des Verfahrens ist vereinfacht


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild

PCM-Audio

Filterbank MDCTQuanti-sierung

Hu�manCodierung

Bitstrom-Generie-

rung

mp3-Audio

FFT 1024Psycho-

akustischesModell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Sampling

Sehr kurze Zeitabschnitte (36 samples = 0,8 ms)Mit Hilfe einer Filterbank in 32 Bänder zerlegt“Windowing”: Auswahl von Zeitabschnitten (Frames) für die weitere CodierungUnterschiedliche Arten von “Windows” für unterschiedliche Signale

“Long Window” bei wenigen Änderungen“Short Window” bei größeren Änderungen

Danach Modifizierte Diskrete Kosinustransformation (MDCT)Darstellung bzgl. 18 Grundfrequenzen innerhalb der jeweiligen Subbändererreichte Darstellung: 32 (Bänder) * 18 Frequenzen = 576 BasisfrequenzenHohe zeitliche Auflösung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Frequenzauflösung

Parallel wird das Eingangssignal mittels schneller Fourier-Transformation ineine Frequenzraumdarstellung bzgl. 1024 Bändern überführtWesentlich niedrigere zeitliche Auflösung, aber bessere Information überFrequenz und PhaseDies ist günstiger für die Berechnung der MaskierungAuf Basis dieser Zerlegung wird die Maskierung zwischen einzelnen FrequenzenbestimmtAus den Koe�izienten der FFT und dem psychoakustischen Modell wirdberechnet, welche Frequenzanteile des zerlegten Signals maskiert und somitnicht wahrgenommen wird


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustbeha�ete Codierung

Genauer: aus den Koe�izienten der FFT und dem psychoakustischen Modellwird berechnet,

wie die Quantisierung der Koe�izienten aussieht undwelche Window-Größen angewandt werden sollen

Davon abhängig werden die MDCT-Koe�izienten quantifiziert, wobei vieleNullwerte entstehenDie Quantisierung ist auch davon abhängig, welche Bitrate zur Verfügung stehtDer entstehende Teil wird mit Hu�man kodiert

Anpassung der Quantisierung an die zur Verfügung stehenden Codetabellen

Zusätzlich Ausnutzen der Redundanz zwischen Stereokanälen


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-AudioParallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur


PCM-Audio


Filterbank


MDCT


Quanti-sierung


Hu�manCodierung


Bitstrom-Generie-

rung

mp3-Audio


FFT 1024


Psycho-akustisches

Modell



Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Varianten und Weiterentwicklungen

Das MP3-Format hat wesentlich dazu beigetragen, daß Musik online verteiltwerden konnte

Wesentlich reduzierte Dateigrößen bei akzeptabler QualitätNutzen eines psychoakustischen Modells wurde gezeigtUnabhängige Implementierungen, zum Teil als Freie So�ware

Neben MP3 gibt es inzwischen eine Reihe verlustbeha�eter AudioformateAdvanced Audio Coding (AAC)Ogg/VorbisOpus

Auch bei MP3 weitere OptimierungenVariable Bitrate (VBR), durchschnittliche Bitrate (ABR), konstante Bitrate (CBR)Optimierung des psychoakustischen Modells bei der Codierung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Spektren

+ Wikipedia


http://commons.wikimedia.org/wiki/File:AudiodatenkompressionManowarThePowerOfThySword.jpg

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Opus

+ Wikipedia


http://en.wikipedia.org/wiki/File:Opus_quality_comparison_colorblind_compatible.svg

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustfrei

mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?

Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustfrei

mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?

Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC

FLAC: Free Losless Audio CodecKompression darf rechenintensiv sein, die Dekompression muß in Echtzeitablaufen könnenBeschränkung auf Fixpoint-Berechnungen erlaubt Realisierung in HardwareUnterstützt

PCM-Quantisierung von 4-32 BitSampling-Raten von 1Hz bis etwa 655 kHz1-8 Kanäle

FLAC-Datei enthält Metadaten und AudiodatenDaumenregel: während universelle, verlustfreie Kompressionsverfahren beiAudiodaten etwa 10-20% Kompression erreichen können liegt FLAC bei 40-60%


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Vorgehen

1 Zerlegung: Bilden von Blöcken von 1000-6000 Samples2 Dekorrelierung: Ausnutzen von Redundanz zwischen Kanälen (rechts/links bei

Stereo, weitere Kanäle)3 Modellierung: Predictor für das Audiosignal wird erstellt

Verbatim (Kopie)LinearPolynomfunktion oderLinear Predictive Coding

4 Fehlersignal: Der Unterschied des Predictors zum tatsächlichen Signal(Residual Signal) wird codiert

Entropiebasiert, Rice-Kodierung

5 Framing: Alles Kanäle eines Blocks werden mit Metadaten (Fehlererkennung,Timestamps, . . . ) in einen Frame geladen


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Modellierung

VerbatimDas Audiosignal wird ohne Kompression kopiert

LinearDas Signal wird mit einer Linearfunktion angenähertStille, konstante Töne

PolynomfunktionDas Signal wird mittels einer Polynomfunktionen angenähertSchnell, weniger genau als LPC

Linear Predictive CodingVereinfachtes Modell des Klangerzeugers, z.B. des menschlichen Stimmtraktes

Summer am Ende eines RohresDazu Zisch- und Knalllaute

Danach müssen nur die Parameter dieses Modells bestimmt (und übertragen)werden


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Fehlersignal

Das Fehlersignal wird mittels eines Entropiebasierten KompressionsverfahrengespeichertIm Gegensatz zu Hu�man oder dem Arithmetischen Encoding kommt einVerfahren zum Einsatz, welches Annahmen über dieWahrscheinlichkeitsverteilung machtRice-Encoding: Codiere kleine Werte mit möglichst kurzen WortenVerschiedene Parametrisierung möglichGrundsätzlich gut geeignet für geometrische Verteilungen

Hier könne Kompressionsraten im Bereich der bei Hu�man möglichen Ratenerreicht werden

Qualität des Predictors ausschlaggebend für die Verteilung der Werte desFehlersignals


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Bearbeitung

Neben der Audiobearbeitung auch die AudioverarbeitungTendentielle Unterteilung

Verarbeitung: Automatische VerarbeitungskettenBearbeitung: Interaktive Veränderung von Audiodaten

Ändern der Amplitude (Lautstärke)Wenn benachbarte Signalwerte einbezogen werden, spricht man von FilternWeiterhin kann es sinnvoll sein, Frequenz und Phase zu ändernSimulation von E�ekten wie Echo oder Hall


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Amplitude

Bezugspegel von 0 dBHistorisch aus der analogen Audiotechnik:

0 dB = 1 mW, 600 Ohm, Spannung 0.7775 V

E�ektivwert:

seffektiv =

√1T

∫T

s2(t)dt

Maximalpegel: Höchster darstellbarer SignalwertArbeitspegel sollte genug Abstand halten


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Dynamik


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Pegelanpassung

Übersteuerung: höchste Signalwerte liegen außerhalb des darstellbarenBereichs der Quantisierung

An den Rändern Clipping; starke Änderungen im Signalverlauf (Unstetigkeiten)Wirken sich als hohe Frequenzanteile ausIn analoger Technik nicht so stark ausgeprägt, da der Abfall i.d.R. nicht so steil ist

Untersteuerung: Nutzt nicht den gesamten Darstellungsbereich derQuantisierung aus

Höchste Signalwerte liegen deutlich unter dem größten darstellbaren WertStörungen mit gleicher Amplitude sind also im Verhältnis lauterSignal-Rausch-Abstand schmilzt

Abhilfe: NormalisierungEbenso Kompensation DC-O�set


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Veränderung Hüllkurvez.B. Ein-/Ausblenden


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Filter

Benachbarte Werte sind zeitlich benachbartBilder: räumlich benachbart

Analogtechnik: Verwendung von Bauteilen, die ein zeitabhängiges Verhaltenaufweisen

SpulenKondensatoren

Digitaltechnik: Algorithmisch, z.B. Digital Signal Processor (DSP)


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Frequenzfilter


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Faltungsfilter

Analog zu den Faltungsfilters der BildbearbeitungWeichzeichner und Tiefpaß (Boxcar)

g(x) =13(1, 1, 1) ∗ (f(x − 1), f(x), f(x + 1))

Hochpaß

g(x) = (−1, 3,−1) ∗ (f(x − 1), f(x), f(x + 1))


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Equalizer

Parametrisch oder (hier) grafisch


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Parametrischer Equalizer

Ein oder mehrere parallel geschaltete BandfilterEinzelne Parameter jedes Filters können einzeln manipuliert werden

MittenfrequenzGüte (Steilheit der Flanken)Faktor für Verstärkung/Dämpfung

Benötigen mehr Erfahrung als einfache grafische EqualizerSind in der Lage, komplexere Probleme zu lösen

Resonanzfrequenz eines Raumes


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

DynamikkompressionDynamik läßt sich als Verhältnis von größten und kleinsten Amplitudeninnerhalb eines Zeitfensters quantifizierenJe nach Länge des Fensters unterscheidet man Mikrodynamik(Sekundenbruchteile) und Makrodynamik (Sekunden und Minuten)Mikrodynamik macht z.B. den Charakter eines Instrumentes aus,Makrodynamik den Lautstärkeaufbau eines Musikstücks


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audacity Compressor

+ Filtering and E�ects


http://mediaintro.teeks99.com/Audio/Audio-7-Filtering.html

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Video 6.1: Loudness Wars

+ Matt Mayfield Music: Loudness Wars (1:53)


http://www.youtube.com/watch?v=3Gmex_4hreQ

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Weitere

Veränderung von Frequenz/PhaseResampling: andere samplingrate (bewirkt Änderung der Signalfrequenz)Time stretching: Länge des Signals verändern, ohne die Tonhöhe zu beeinflussen– kurze Abschnitte des Signals werden wiederholt (in Grenzen machbar)

Auch umgekehrt, z.B. um vorgeschriebene Hinweise in der Werbung zu verkürzenPhasing/Flanging/Chorus: Analog zu den 3 Saiten eines Klaviers

Echo und HallEcho: Original und zeitversetzte, abgeschwächte ReflexionHall: (mehrfach Reflexion), nachbildbar über Impulsantwort

RestaurationRauschen (Noise, Hiss), Klicken (Clicks), Knistern (Crackle) - Denoising überFingerprint, Declicking über Interpolation des anderen Kanals


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

SchneidenHarter Schnitt: möglichst im Nulldurchgang, in Pausen

Weicher SchnittKreuz- oder Sturzblende


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audio

Jörg Cassens

Institut für Mathematik und Angewandte Informatik

MedieninformatikWS 2019/2020


Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

References I

Alle Abbildungen, wenn nicht anders angegeben, aus Malaka et al. [2009].

Rainer Malaka, Andreas Butz, and Heinrich Hussmann. Medieninformatik – EineEinführung. Pearson Studium, Munich, 2009.

John Watkinson. The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4. Technology &Engineering. Taylor & Francis, 2004.


Documents

JörgCassens - mi.kriwi.demi.kriwi.de/mi/MI-06-Audio-JC-slides.pdf · Schall Wahrnehmung Digitalisierung Kompression Bearbeitung Literatur Pingo +pingo.coactum.de/596956 WS2019/2020JörgCassens–Audio