Skriptum zur Vorlesung Spracherkennung - PatRecpatrec.cs.tu-dortmund.de/lectures/SS14/spracherkennung/spracherkennung.pdf · (p0 falschlicherweise als H¨ orschwelle des menschlichen

Skriptum zur Vorlesung Spracherkennung

Gernot A. Fink

SS 2014(Stand 22. April 2014)

Inhaltsverzeichnis

1 Einfuhrung 4

1.1 Was ist Spracherkennung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Warum ist Spracherkennung schwierig? . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Was geht heute schon mit Spracherkennung? . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Spracherkennung und Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Akustische Grundlagen 7

3 Sprachproduktion 9

3.1 Artikulationsorgane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2 “Artikulationstechniken” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Phonetische Beschreibung von ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3.1 ... Konsonanten [Kontoiden] . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3.2 ... Vokalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Sprachwahrnehmung 12

4.1 Reiz und Empfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1.1 Reizgroßen und Empfindungsgroßen . . . . . . . . . . . . . . . . . . . . . . 12

4.1.2 Reizstufen und Empfindungsstufen . . . . . . . . . . . . . . . . . . . . . . 12

4.1.3 Intensitats- und Positionsempfindungen . . . . . . . . . . . . . . . . . . . . 13

4.2 Physiologie des Gehors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.3 Wichtige Eigenschaften des menschlichen Gehors . . . . . . . . . . . . . . . . . . . 14

4.3.1 Ruhehorschwelle und Horflache . . . . . . . . . . . . . . . . . . . . . . . . 14

4.3.2 Verdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.3.3 Frequenzgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

22. April 2014 1

4.3.4 Lautstarkeempfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.3.5 Tonhohenempfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5 Spracherkennung mit einfachem Mustervergleich 17

6 Statistische Spracherkennung 23

7 Kurzzeitanalyse 24

7.1 Spektrale Analyse: Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . 24

7.2 Cepstrale Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

7.3 Gehorrichtige Verzerrung der Frequenzachse . . . . . . . . . . . . . . . . . . . . . 28

7.4 Berucksichtigung zeitlicher Veranderungen . . . . . . . . . . . . . . . . . . . . . . 28

7.5 Zusammenfassung (Kurzzeitanalyse) . . . . . . . . . . . . . . . . . . . . . . . . . . 31

8 Hidden-Markov-Modelle 32

8.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

8.2 Emissionsmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8.3 Verwendungskonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

8.4 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

8.4.1 Die Produktionswahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 39

8.4.2 Die “optimale” Produktionswahrscheinlichkeit . . . . . . . . . . . . . . . . 41

8.5 Dekodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

8.6 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

8.6.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

8.6.2 Trainingsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

8.6.3 Mehrere Observationsfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . 50

8.7 Initiale Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8.7.1 Initiale Ubergangswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 55

8.7.2 Initiale Emissionsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . 56

8.7.3 Segmental k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

8.8 Parameter-Tying . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

8.8.1 Einfaches Tying . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

22. April 2014 2

8.8.2 Mixture-Tying / Semikontinuierliche HMMs . . . . . . . . . . . . . . . . . . 57

8.9 Praktischer Einsatz von HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

8.9.1 Modellierung akustischer Ereignisse . . . . . . . . . . . . . . . . . . . . . . 59

8.9.2 Verbundmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

8.9.3 Suchverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

8.9.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

8.9.5 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

9 Sprachmodellierung 69

9.1 n-Gramm-Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

9.2 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

9.3 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

9.3.1 Prinzipielles Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

9.3.2 Robuste Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . 71

9.3.3 Optimierung verallgemeinerter Verteilungen . . . . . . . . . . . . . . . . . 74

9.3.4 Reprasentation von n-Gramm-Modellen . . . . . . . . . . . . . . . . . . . . 75

10 Gesamtsysteme zur automatischen Spracherkennung 78

10.1 Prinzipieller Systemaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

10.2 Integrierte Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

10.2.1 HMM-Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

10.2.2 Mehrphasensuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

10.2.3 Suchraumkopien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

10.3 Das Philips Forschungssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10.3.1 Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10.3.2 Akustisch-phonetische Modellierung . . . . . . . . . . . . . . . . . . . . . 81

10.3.3 Sprachmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10.3.4 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

11 Ausblick: Handschrifterkennung 82

22. April 2014 3

Kapitel 1

Einfuhrung

1.1 Was ist Spracherkennung?

• “automatisch” immer implizit angenommen

• im Idealfall:

“... die korrekte textuelle Darstellung des Gesprochenen ... rekontruieren ...”

[ST95, S. 4]

Stellung der Spracherkennung: siehe Abb. 1

1.2 Warum ist Spracherkennung schwierig?

• Kontinuitat

Wahrnehmung: Folge von Wortern, Silben, Lauten

Sprachsignal: keine (akustischen) Grenzmarkierungen

Einzelworterkenner↔ isolierte Worter↔ Erkennung kontinuierlicher Sprache

• Variabilitat

akustisch(Storgerausche,

Aufnahme-bedingungen,

...)

— lautlich(Betonung,

Kontext,...)

— zwischen Sprechern(Sprechweise [Tempo, Lautstarke,

Emotion, Kooperativitat, ...], Dialekt,Idiolekt, Geschlecht, Alter, ...)

22. April 2014 4

sprecherabhängig sprecherunabhängig

akustik-abhängig

akustik-unabhängig (z.B. Mikro)

• Komplexitat

– hohe Datenrate des (abgetasteten) Signals

∗ 16.000 Werte / Sekunde (etablierter “Standard”)

∗ 120–150 Worter / Minute muhelos in gesprochener Kommunikation

– Inventar-/Wortschatzgroße (hier: fur das Deutsche)

∗ 40–50 Phone (= Laute)

∗ ca. 10.000 Silben

∗ ca. 100.000 Worter

Folie: Wortschatzumfang moglicher Spracherkennungsanwendungen (Abb. 2)

• Ambiguitat (↗ eher Problem der Interpretation)

– Homophonie (Rad↔ Rat = [ra:t], Auslautverhartung im dt.)

– Wortgrenzen (Stau-becken↔ Staub-ecken,↗ Prosodie)

– Satzbau, Bedeutung, ...

Folie: Veranschaulichung (VORSICHT!) der Schwierigkeiten bei Spracherkennung (Abb. 3)

1.3 Was geht heute schon mit Spracherkennung?

• Kommandosysteme

– (Radiowecker)

– Namenswahl im Telefon (nur Vorstufe, reines Patternmatching)

– nicht sicherheitsrelevante Funktionen im Fahrzeug (Telefon, Radio, ...)

• Diktiersysteme

– fur spezielle Berufsgruppen (Arzte [Radiologen], Rechtsanwalte)

– fur “kooperative” Normalverbraucher

22. April 2014 5

• Datenbanksuche/-indizierung

bei großen Sprachdatenarchiven (z.B. von Rundfunksendungen)

• Schulung

– Fremdsprachenerwerb

– bei Sprechstorungen

• Dialogsysteme (meist telefonisch)

– “Ja”/“Nein”, Ziffern, Menufuhrung

– Auskunftssysteme, z.B. Fahrplan- oder Kinoauskunft

– Buchungssysteme / Telefonbanking

– Personliche Assistenten (z.B. Siri)

• ... sowie militarische Varianten!

Hinweis: Fur Spracherkennung fehlt immer noch die “Killerapplikation”!

Was geht nicht (besser: nie) mit Spracherkennung?

... die “phonetische Schreibmaschine”!

... auch nicht in menschlicher Form (z.B. Sekretarin)!

Maschinelle vs. menschliche Erkennungsleistung

Folie: Vergleich maschineller und menschlicher Erkennungsleistung (Abb. 4)

1.4 Spracherkennung und Mustererkennung

SE ist spezielles Problem der Mustererkennung; erfordert Musterklassifikation und Segmentierungbzw. Klassifikation im Kontext

Folie: Schematischer Aufbau eines Mustererkennungssystems (Abb. 5)

22. April 2014 6

Kapitel 2

Akustische Grundlagen

• Schall = Wellenausbreitung (best. mit dem menschlichen Gehor wahrnehmbarer Frequenzen)in einem Medium [i.d.R. Luft]

– kann als Anderung zum Atmospharendruck (Schalldruck p) gemessen werden, Einheit:1Pa = 1 N

m2

Sensitivitat des Gehors: 10−5Pa...10−2Pa

(auch als Schalldruckintensitat ∼ p2)

– ublicherweise logarithmische Darstellung als Schalldruckpegel

L = 20 logp

p0

dB

mit Festlegung des Referenzpegels

p0 = 2 · 10−5Pa

(p0 falschlicherweise als Horschwelle des menschlichen Gehors bei 1 kHz angenommen,de facto zu niedrig)

– Schalldruckpegel typischer Gerausche (z.T. nach [ST95, S. 40])

0 dB Referenzpegel∼ 6 dB Horschwelle fur 1kHz-Ton(20 dB landliche Gegend bei Nacht)20 dB Flustern50 dB Zimmerlautstarke80 dB belebte Straße

120 dB laute Rock-Gruppe130 dB Schmerzschwelle140 dB Gewehrschuß nahe bei

Ausblick: Lautheitswahrnehmung ist frequenzabhangig (→ Equalizer)

22. April 2014 7

• Schallarten:

– reiner Ton = sinusformige Schwingung konstanter Frequenz (Frequenz = # Schwingungen/ Sekunde in Hz)

1 Hzim Frequenzbereich(Fourriertransformation)

1s

2s

– Ton = reiner (Grund-)Ton + harmonische Teiltone (d.h. Grundfrequenz + Vielfache derGrundfrequenz)

1 Hz

1s

∗ wird i.d.R. als Einheit wahrgenommen

∗ Art der Zusammesetzung (d.h. Intensitaten der (Teil-)Tone = Klangfarbe)

– Klang = Zusammensetzung von Tonen

z.B. auch ≈ Vokale

Unterscheidungsmerkmal = Klangfarbe

– Gerausch = nichtperiodisch, wechselnde Frequenzanteile

– Sprache

Folie: Beispiele fur Sprachlaute siehe Abb. 6

22. April 2014 8

Kapitel 3

Sprachproduktion

3.1 Artikulationsorgane

Folie: Ubersicht uber die Artikulationsorgane des Menschen (Abb. 7)

3.2 “Artikulationstechniken”

• fundamentale Anregung = Luftstrom (i.d.R. exhalatorisch, d.h. [durch Ausatmen aus der Lungeerzeugt])

• optional: periodische Impulsfolge erzeugt durch Schwingungen der Stimmbander

• “Umformung” des Anregungssignals im Ansatzrohr (= Mund-, Nasen- und Rechenraum) [furVokale: Vokaltrakt]

Luftstromaus der Lunge

Glottis geschlossen(aber elastisch)

= stimmhafte Anregung

Engebildungim Ansatzrohr?

Resonanz- undAntiresonanzbildungweißes Rauschen

stimmlosGlottis geöffnet

Konsonant

Vokal

nein

ja

Engebildung

Sprachproduktionsmodell (= Source-Filter-Modell) inkl. Unterscheidung Vokal/Konsonant

22. April 2014 9

Anmerkungen:

– auch Lippenabstrahlung!

– Mathematische Produktionsmodelle tun sich schwer mit Konsonanten.

– Phonetiker tun sich schwer mit Unterscheidung Vokal↔ Konsonant

3.3 Phonetische Beschreibung von ...

3.3.1 ... Konsonanten [Kontoiden]

• Phonation: stimmhaft ↔ simmlos[z], [b], [m] [s], [p]

Spezialfall: Glottisverschluß/-schlag, z.B. ver[?]eisen↔ verreisen

Hinweis: phonetische Symbole nach IPA (SAMPA)

• Artikulationsort

bestimmt durch Stellung aktiver und passiver Artikulationsorgane im Ansatzrohr zueinander,die an der Engebildung bebeiligt sind.

Folie: Artikulationsorgane im Ansatzrohr (Abb. 8), (auch: Meßaufbau)

• Artikulationsart

– Nasalierung nasal ↔ oral[m] [a], [p]

– Offnungsgrad Verschluss ↔ Friktionsenge ↔ friktionslose Enge(= Reibe...)

[p] [f] [l]

– Engebildung zentral ↔ lateral[z] [j]

⇒ Kategorien: Nasale Plosive Frikative Laterale Vibranten[n] [p], [t], [k] [f], [S] [l] [r]

Folie: Konsonantenklassifikation (Abb. 9)

3.3.2 ... Vokalen

• artikulierender Zungenteilvorne — mitte — hinten

−→Kontinuum!

22. April 2014 10

• Zungenhohe

hoch — mitte — tiefgeschlossen — halbgeschlossen — halboffen — offen

[i] −→ [a]

Kontinuum

• Lippenrundungungerundet — gerundet

[i] [y]

• Dauerkurz — lang

“Bett” [E] “Fahre” [E:]

Volaldreieck/-viereck/-trapez durch Zungenteil vs. -hohe definiert:

(Vokaldreieck nach C. F. Hellweg, 1781)

Speziallfall: Diphthonge = “Vokale” mit Gleitbewegungen der Artikulatoren

Anmerkung: Vokaldreieck ergibt sich auch, wenn 1. + 2. Hauptresonanzfrequenz (= Formanten) desAnsatzrohres aufgetragen werden.

Folie: Vokaltrapez im Deutschen (Abb. 10)

Folie: Empirisches und abstrahiertes Vokaldreieck auf Verbmobil-Stichprobe (Abb. ???)

Ausblick: Phonologie

• Untersuchung der bedeutungsunterscheidenden Sprachlaute (= Phoneme)

• Konstruktion eines Phoneminventars fur eine Sprache

Phonem ↔ Phon/Lautbedeutungsunterscheidend perzeptiv unterscheidbar

/C, x/ “Ich-ach-Laut” [C] + [x]

Achtung: Im Bereich der Spracherkennung / Musterkennung wird oft nicht korrekt zwischen Phonenund Phonemen unterschieden!

Ausblick: Prosodie

• Untersuchung suprasegmentaler Eigenschaften von Sprache, wie:

Tonhohe, Lautheit, zeitliche Strukturierung (Dauer, Pausen, Rhythmus), Sprechtempo, Stimm-lage, Stimmqualitat, Klangfarbe, ...

• Grundfrequenz [= akustisch]→ Tonhohe [Empfindung]

Manner ∼ 70 – 140 HzFrauen ∼ 130 – 300 Hz

22. April 2014 11

Kapitel 4

Sprachwahrnehmung

4.1 Reiz und Empfindung

Reiz = Schall −→ Horempfindung↪→ Wo messen? (am Trommelfell ... zu schwierig, i.d.R. außerhalb, da Zusammenhangbekannt)

4.1.1 Reizgroßen und Empfindungsgroßen

Reizgroßen: z.B.Schallpegel [dB]Freqzenz [Hz]

} d.h. naturwissenschaftl. Beschreibung des Reizes

(d.h. einzelne Komponenten des Reizes)

Einzelne Komponenten der Empfindung = Empfindungsgroßen

Lautstarke [sone]Tonhohe [mel]

Reiz: 60 dB, 1 kHz −→ Empfindung: 4 sone, 850 mel

Problem: jede Empfindungsgroße wird von allen Reizgroßen beeinflußt i.a. aber von einer dominiert

Zusammenhang dominierende Reizgroße / Empfindungsgroße = Empfindungsfunktion

4.1.2 Reizstufen und Empfindungsstufen

kleine Reizanderungen fuhren nicht notwendig zu kleinen Emfindungsanderungen

22. April 2014 12

Empfindungsfunktion, d.h. Zu-sammenhang zwischen ReizgroßeA und Empfindunggroße B (aus[Zwi82, S. 4])

4.1.3 Intensitats- und Positionsempfindungen

Empfindungsgroßen, diekontinuierlich mit Orten zusammenhangen,

anwachsen an denen sie wahrgenommen werdenAchtung: Zusammenhang nicht intuitiv,

sondern uber Entstehnung der Empfindung!Vibration Ort der VibrationHelligkeit Raumwinkel im AugeLautstarke Tonhohe (!)

Unterschied: Empfindungsstufen sindabhangig von Empfindungsgroße konstant

4.2 Physiologie des Gehors

zwei Bereiche unterscheidbar:

• Reizweiterleitung / Vorverarbeitung→ Antransportorgan(Außen-, Mittel- und Innenohr)

Hinweis: Frequenzcharakteristik des Signals wird beibehalten!

• neuronale Verarbeitung (ab Haarzellen [Corti’sches Organ])

Folie: Aufbau des menschlichen Ohrs (Abb. 11)

Folie: Schematischer Aufbau des Innenohrs (Abb. 12)

Folie: Frequenz-Orts-Transformation in der Schnecke (Abb. 13)

Folie: Corti’sches Organ (Abb. 14)

22. April 2014 13

4.3 Wichtige Eigenschaften des menschlichen Gehors

4.3.1 Ruhehorschwelle und Horflache

Ruhehorschwelle = Schalldruckpegel eines Sinustons, der (in Abhangigkeit von der Fre-quenz) gerade noch wahrgenommen wird

Horflache = Bereich zwischen Ruhehorschwelle und Schmerzgrenze ≥ Gefahr-dungsgrenze (Schadigung bei Uberschreiten, fur 8h Beschallung proArbeitstag)

Folie: Horflache (Abb. 15)

Hinweis: Großen variieren individuell, angegeben sind Mittelwerte

4.3.2 Verdeckung

(auch bezeichnet als Maskierung)

Simultane Verdeckung

... durch Storschall, z.B. weißes Rauschen

Folge: Ton a) ist unhorbar

b) wird als leiser empfunden

c) oder ist ohne Beeintrachtigung horbarHinweis: Storschall und Reiz, dessen Wahrnehnung beeinflußt wird treten gleichzeitig auf!

Folie: Mithorschwelle (Abb. 16)

Zeitliche Verdeckung

Vor- und Nachverdeckung, d.h. zeitlicher Verlauf eines Reizes beinflußt dessen Wahrnehmung voroder nach dem Auftreten eines bestimmten Maskierungssignals.

Folie: Ubersicht uber Maskierungseffekte (Abb. 17)

Vorverdeckung: (Ruckwartsmaskierung) Uberraschend, aber erklarbar: “intensivere” Signale wer-den schneller verarbeitet (hohere Relevanz)

→ quantitativ schwer zu erfassen (schwacher Effekt)

Nachverdeckung: (Vorwartsmaskierung)

“Erholung” des Gehors von Reaktion auf akustischen Reiz

→ quantitativ relativ gut zu erfassen (starker Effekt)

22. April 2014 14

abhangig von

• Frequenz des Maskierungstons (Maske)

• Intensitat der Maske⇒ je starker, desto starker der Maskierungseffekt

• Dauer der Maske⇒ je langer, desto starker der Maskierungseffekt

• Verzogerung zwischen Maske und Testton⇒Maskierungseffekt nimmt mit zunehmenderVerzogerung ab

Folie: Graphische Darstellung des Effektes der Vorwartsmaskierung (Abb. 18)

Hinweise: • Beide Maskierungseffekte ausgenutzt bei Audiokodierung (z.B. MP3)

• Fur Spracherkennung vereinzelt Vorwartsmaskierung ausgenutzt (erhohteGerauschrobustheit)

4.3.3 Frequenzgruppen

Frequenzgruppe = Zusammenfassung nahe beieinanderliegender Frequenzen bei der (Lautheits-)Wahrnehmung(z.B. an der Ruhehorschwelle meßbar)

Experiment mit Versuchsperson, die konstante Ruhehorschwelle im Bereich um 1 kHz hat:

1. beginne mit 1 Ton⇒ 920 Hz, 3 dB gerade horbar

2. weiter mit zusatzlichem Ton in Abstand von 20 Hz

3. Versuchsperson Lautstarke auf “gerade horbar” einregeln lassen

→ bis 8 Teiltone fallt Einzelintensitat

→ ab dann konstant

Graphik/Folie: Bestimmung der Frequenzgruppenbreite (Abb. 19)

22. April 2014 15

Folie: Frequenzgruppenbreite (Abb. 20)

Tonheit [Bark] = Aneinanderreihung nicht-uberlappender Frequenzgruppen im Horbereich bis16 kHz

Folie: Tonheit / aneinanderreihbare Frequenzgruppen (Abb. 21)

4.3.4 Lautstarkeempfindung

• Phonzahl eines Testimpulses = Pegel in dB eines als gleichlaut empfundenen 1 kHz Tons

• Lautheit [sone] berucksichtigt Lautstarkeverhaltnis

Festlegung:1 kHz Ton, 40 phon → 1 soneL-mal so laut → L sone

Folie: Kurven gleicher Lautstarke (Abb. 22)

4.3.5 Tonhohenempfindung

Frequenz-Orts-Transformation im Innenohr→ Tonhohenempfindung = Positionsempfindung (vs. Intensitatsempfindung)

Empfindungsfunktion der Tonhohenempfindung z.B. durch Messung von Verhaltniswerten (mit Ver-suchspersonen)

Willkurliche Festlegung: 131 Hz = 131 mel

Folie: Zusammenhang f ↔ f2

(Abb. 23)

Folie: Verhaltnistonhohe / mel-Skala (Abb. 24)

Zusammenfassung

Skalen der Basilarmembran (nach [Zwi82, S. 65]):

Lange der BM = 24 Bark = 32 mm = 640 Stufen = 2400 mel = 3600 Haarzellen1 Bark = 1,3 mm = 27 Stufen = 100 mel = 150 Haarzellen

0,7 Bark = 1 mm = 20 Stufe = 75 mel = 110 Haarzellen0,04 Bark = 50 µm = 1 Stufe = 3,8 mel = 5,6 Haarzellen0.01 Bark = 13 µm = 0,26 Stufen = 1 mel = 1,5 Haarzellen

0,007 Bark = 9 µm = 0,18 Stufen = 0,7 mel = 1 Haarzelle

Folie: Skalen der Basilarmembran (Abb. 25)

22. April 2014 16

Kapitel 5

Spracherkennung mit einfachemMustervergleich

Idee: gesprochene Außerung (= Testmuster) wird mit verschiedenen gespeicherten Außerungen (=Referenzmuster) verglichen

Zuordnung erfolgt zum “ahnlichsten” Referenzmuster

Problem: “Ahnlichkeit”?→ mathematisch z.B. uber Abstandsmaße definierbar

⇒ Vorgehen auf Klassifikation mit Nachster-Nachbar-Klassifikator zuruckgefuhrt

Gesucht: geignetes Abstandsmaß fur (digitalisierte) eindimensionale Signale

• einfache Differenzbildung?

• Differenzbildung nach Langennormierung?

Unbefriedigend, da mit signifikanten aber irrelevanten und nichtlinearen Unterschieden in derzeitlichen Ausdehnung von sprachsignalen zu rechnen ist (Sprechgeschwindigkeit etc.)

⇒ Differenzbildung mit nichtlinearer Langen/Zeitnormierung!(= Dynamic Time Warping [DTW])

Folie: Beispiele zur Abstandsbildung (Abb. 26)

DTW: Formale Beschreibung

Gegeben zwei (Signal-)MusterX undY (Referenz- und Testmuster) als Folgen von einzelnen (Abtast-)Werten gemaß

X = x1x2 . . . xTx und Y = y1y2 . . . yTy

mit i.a. unterschiedlicher Lange, d.h. Tx 6= Ty.

22. April 2014 17

Der Abstand einzelner Wertepaare xi, yj sei gegeben durch

d(xi(k), yj(k)) =: d(c(k)) mit c(k) = (i(k), j(k))

(d.h. c(k) identifiziert ein zugeordnetes Wertepaar uber die Indices).

Der unnormierte Gesamtabstand der Muster X und Y sei definiert durch die Summe der Einzel-abstande der durch die Zuordnungsfunktion F

F = c(1), c(2), . . . c(K)

zugeordneten Wertepaare:

D′(X,Y ,F ) =K∑k=1

d(c(k)) =K∑k=1

d(xi(k), yj(k))

Das bedeutet:

• bei linearer Zuordnung i(k) = j(k) = k ⇒ c(k) = (k, k)

D′(X,Y ,Flin) =K∑k=1

d(xk, yk)

• bei beliebiger Zuordnungs- = Zeitverzerrungsfunktion F

Prinzipskizze zur Arbeitsweise des DTW-Algorithmus (aus [Hua90, S. 75]):

22. April 2014 18

Normierungsbedingungen

Problem: D′(X,Y , ) wachst mit zunehmender Lange der beteiligten Muster

Losung: Normierung auf die Lange der Zeitverzerrungsfunktion F gemaß

D(X,Y ,F ) =

∑Kk=1 d(c(k))w(k)∑K

k=1w(k)

wobei w(k) die Lange des k-ten Teilstucks von F reprasentiert.

Problem:∑w(k) ist abhangig von F — unschon!

Zwei Methoden zur vereinfachenden Wahl von w(k):

• symmetrisch

w(k) = (i(k)− (i(k − 1)) + (j(k)− j(k − 1))

⇒∑w(k) = Tx + Ty =: N

• asymmetrisch

w(k) = j(k)− (j(k − 1) [Bezug zum Testmuster]

⇒∑w(k) = Ty =: N

⇒ D(X,Y ,F ) = 1N

K∑k=1

d(c(k))w(k)

Losungsprinzip

Problem: Da Verzerrungsfunktion beliebig, welcher Abstand, wird als Musterabstand angesehen?

⇒ minimal erreichbarer Abstand!

Gesucht D∗(X,Y ) = D(X,Y ,F ∗) = minF D(X,Y ,F )

d.h. die Verzerrungsfunktion, fur die der Abstand der Muster minimal wird. Dieser wird alsMusterabstand betrachtet.

Einschrankung: Theoretisch alle F moglich, aber aufgrund Aufgabenstellung nur solche sinnvoll,die folgende Restriktionen erfullen:

• End-Punkt-Restriktion

i(1) = j(1) = 1 und i(K) = Tx, j(K) = Ty

d.h. Signal-Anfangs- und Endpunkte werden einander zugeordnet

• Monotonie und “Kontinuitats”-Bedingung

Fur Zuordnungspaare c(k) und c(k − 1) muss gelten:

i(k) ≥ i(k − 1) und j(k) ≥ j(k − 1) [Monotonie]

22. April 2014 19

und (z.B.):

i(k)− i(k − 1) = 1 und j(k)− j(k − 1) ≤ 2 [Kontinuitat]

Damit ergibt sich fur c(k − 1):

c(k − 1) =

(i(k)− 1, j(k))

(i(k)− 1, j(k)− 1)

(i(k)− 1, j(k)− 2)

Auch andere Kontinuitatsbedingungenmoglich, z.B.:

Aber dann Achtung bei Normierung und Optimalitat!

• Suchbereich

Zur Vermeidung “unsinniger” Verzerrungsfunktionen kann der Suchbereich eingeschranktwerden, z.B.:

X

Y

oder

X

Y

Berechnung von D∗

Sei G(c(K)) = D(X,Y ,F ∗)K∑k=1

w∗(k) d.h. der unnormierte absolute optimale Abstand vonX und

Y (inkl. der Pfadgewichte w(k)!).

G(c(K)) = minc(1),c(1)...c(K−1)

K∑k=1

d(c(k))w(k) =

[c(K) fest, restliches F frei]

= minc(1),c(1)...c(K−1)

{K−1∑k=1

d(c(k))w(k) + d(c(K))w(K)

}=

[w(K) leider abhangig von c(K − 1)]

= minc(K−1

minc(1),c(1)...c(K−2)

(K−1∑k=1

d(c(k))w(k)

)︸︷︷︸

=G(c(K−1))

+d(c(K))w(K)

22. April 2014 20

= minc(K−1

{G(c(K − 1)) + d(c(K))w(K)}

Generell ergibt sich folgende rekursive Beziehung:

G(c(k)) = minc(k−1

{G(c(k − 1)) + d(c(k))w(k)}

und unter Verwendung der Monotonie- und Kontinuitatsbedingungen sowie asymmetrischer Gewich-tung der Verzerrungsfunktion (w(k) = 1 ∀k) erhalt man:

G( i, j︸︷︷︸≈c(k)

) = min

G(i− 1, j)

G(i− 1, j − 1)

G(i− 1, j − 2)

+ d(xi, yj) ∀i, j : i+ j > 2

Zur Initialisierung definiert man G(1, 1) = d(x1, y1).

Hinweis: Losungsschema folgt dem Prinzip der dynamischen Programmierung, die wiederum aufdem (Bellmannschen) Optimalitataprinzip aufbaut: Die Optimalitat jeder Entscheidung einesN -stufigen Optimierungsproblems hangt nur vom Systemzustand auf der Stufe n− 1 ab.

22. April 2014 21

DTW-Rechenschema

... zur Bestimmung des minimalen Abstandes D∗ zweier Muster

TY

TX

. . .

. . .1 2 3 4 5

1

2

3

4

5

Pfad-restriktionen

DTW-Rechenschema

22. April 2014 22

Kapitel 6

Statistische Spracherkennung

Das statistische (informationstheoretische) Paradigma der Spracherkennung (“Kanalmodell”)

LINGUISTISCHE QUELLE AKUSTISCHER KANAL SPRACHERKENNUNG

Text-produltion

Wort-artikulation

Merkmals-extraktion

Modell-dekodierung

w

P (X|w)

X w

P (w) argmaxw

P (w|X)

Ziel: Berechnung einer moglichst guten Naherung w fur die ursprungliche Wortfolge w

w = argmaxw

P (w|X) =

[Bayes-Regel]

= argmaxw

P (w)P (X|w)

P (X)=

[da P (X) konstant bzgl. Maximierung]

argmaxw

P (w)P (X|w)

⇒ 2 Modellierungsanteile:

“Akustisches” Modell P (X|w) (Wortrealisierung, HMM)Sprachmodell P (w) (Wortfolgen, n-Gramm-Modell)

22. April 2014 23

Kapitel 7

Kurzzeitanalyse

... d.h. Merkmalsberechnung im Sinne der Mustererkennung

Ziel: Parametrische Charakterisierung kurzer Sprach-(Signal-)Abschnitte

7.1 Spektrale Analyse: Fourier-Transformation

Fourier-Transformation (FT) = Transformationen von Funktionen im Zeitbereich in den Frequenz-bereich

auch: Fourier-Reihenentwicklung = Aufspaltung einer periodischenFunktion in sin / cos-Anteile

↓Fourier-Integral = s.o. fur nichtperiodische Funktionen↓

Fourier-Transformation ≈ kombinierte Berechnung der Parametereines Fourier-Integrals(mit eiϕ = cosϕ+ i sinϕ)

Beispiele zur FT (gerade Fkt: nur Realteil, ungerade Fkt. nur Imaginarteil):

22. April 2014 24

− πT0

πT0

2πT0

2AT0sin(T0ω)(T0ω)

2AT0

f(x)

2πw0

A cos(w0x)

A

−T0 T0

A

Re{F (ω)}

ω0

−ω0 ω0

A

−T0 T0

−ω0

Definition der FT

a) kontinuierlich:

F (ω) = FT{f(x)} =

∫ ∞−∞

f(x) e−iωxdx

Inverse:f(x) = FT−1{F (ω)} =

1

2π

∫ ∞−∞

F (ω)eiωxdω

Falls f(x) reell: F (−ω) = F (ω)∗ (mit z = x+ iy ist z∗ = x− iy)

Wichtige Eigenschaft: FT{f ∗ g} = FT{f} · FT{g}

b) diskret:

22. April 2014 25

Voraussetzung: [fj] istM -periodisch (und diskret)⇒ (diskretes) Spektrum ist auchM -periodisch,DFT kann auf nur einer Periode von [fj] berechnet werden

Fµ =M−1∑j=0

fj e−i2πµjM [Fµ] = DFT{[fj]}

Inverse:

fj =1

M

M−1∑µ=0

Fµ ei2πµjM [fj] = DFT−1{[Fµ]}

Bemerkungen zur Anwendung der (D)FT in der Spracherkennung

• Man betrachtet nicht komplette Sprachsignale, sondern kurze Signalabschnitte (sogenannte fra-mes, Lange ca. 20 ms).

Annahme: Frequenzcharakteristik innerhalb eines Frames naherungsweise stationar!

• Anwendung der DFT ist eigentlich falsch, da Sprachsignale keine M -periodischen Funktionensind!

– aber: jeder Frame wird gedanklich als periodisch fortgesetzt angenommen

(Problem mit Periodenlange und Bandbegrenzung)

– Kurzzeitversion des Signals (= Frame) wird nicht mit Rechteckfenster (→ schlechter Fre-quenzgang), sondern z.B. mit Hammingfenster gebildet:

wn = 0, 54− 0.46 · cos2πn

T − 1

1

0 T-1

• Es gibt eine schnell berechenbare Version der DFT falls M = 2B (B beliebig)⇒ FFT

• Da fur die menschliche Sprachwahrnehmung Phaseninformation (d.h. Winkel zwischen Real-und Imaginarteil der FT) irrelevant (??!), wird nur das sogenannte Leistungsdichtespektrum(Betragsspektrum) |F (ω)| bzw. |Fµ| betrachtet.

• Eine grobe Nachbildung der menschlichen Lautstarkewahrnehmung ergibt sich durch Logarith-mierung des Leistungsdichtespektrums gemaß log |F (ω)| bzw. log |Fµ|.

• DFT allein liefert keine sinnvollen Merkmale!

Spektrum ist durch Grundfrequenz und deren Harmonische “verrauscht”.

22. April 2014 26

⇒ sinnvoller Modellspektrum a la LPC bzw. “Etwas, das nur die Modellcharakteristik enthalt”.

≈ Im Prinzip wieder Trennung von Vokaltraktinformation und Anregungssignal

7.2 Cepstrale Analyse

(= Spezialfall der homomorphen Analyse)

“gemaßigt formale” Herleitung

Basis: einfaches Sprachproduktionsmodell

f = e ∗ v mit f = [fj]

(mit Sprachsignal f , Anregung e, Faltung *, Impulsantwort des Vokaltrakts v)

Dann gilt:DFT{f} = DFT{e ∗ v} = DFT{e} · DFT{v}

log DFT{f} = log(DFT{e ∗ v}) = log DFT{e}+ log DFT{v}

DFT−1{log DFT{f}} = DFT−1{log(DFT{e∗v})} = DFT−1{log DFT{e}}+DFT−1{log DFT{v}}

Hinweise:

• DFT−1{log DFT{. . .}} ⇒ “Pseudo”-Zeitbereich

• Faltung von Anregung und Vokaltraktantwort→ additive Uberlagerung

• in der Praxis: log | . . . |

• Da DFT−1 “ahnlich” zu DFT bedeutet dies im Wesentlichen eine Frequenzanalyse des Lei-stungsdichtespektrums log |DFT{f}|

• Einheit des Cepstrums ist die Quefrenz

Grobstruktur des Leistungsdichtespektrums→ niedrige Quefrenz

Feinstruktur (= Grundfreqeuz + Harmonische)→ hohe Quefrenz

(ex. verschiedene Kunstworter, die durch Silbenvertauschung entstanden: Saphe, Alanysis, ...;ursprungliche Anwendung: Seismologie; siehe [Bog63])

• Cepstralkoeffizienten sind naherungsweise unkorreliert und der Wichtigkeit nach sortiert

Folie: Cepstrum und Beispiele zur Lifterung siehe Abb. 27 und Abb. 28

22. April 2014 27

7.3 Gehorrichtige Verzerrung der Frequenzachse

... gemaß Bark/mel-Skala

Erreicht durch (Bandpaß-)Filterbank, deren Mittenfrequenzen aquidistant auf der mel-Skala liegenmit Bandbreiten von 100 mel (= 1 bark)

Exkurs: Filterung (Hoch-, Tief-, Bandpaß)

Laßt sich z.B. im Frequenzbereich realisieren

"Signal"

Rauschanteil

|F(w)|

Hochpaß

Tiefpaß

Bandpaß

Folie: Mel-Filterbank siehe Abb. 29

Anwendung z.B.: 16 kHz Abtastrate, 16 ms Fenster⇒ 256 Abtastwerte/Frame|DFT{f}| ⇒ 128 spektrale Energienmel-Filterbank (Breite 1 Frequenzgruppe, 50% Uberlappung)⇒ 32 Bandpaßenergien

7.4 Berucksichtigung zeitlicher Veranderungen

Leider: Spektrale Eigenschaften von Sprache sind nur in idealisierten Situationen fur wenige Laut-klassen (Vokale, Frikative) stationar anzunehmen!

(z.B. Plosive, Diphothonge sowieso nie stationar)

Idealisierte Spektrogramme:

22. April 2014 28

naherungweise stationares, kontinuierliches und abruptes Spektralverhaltenverschiedener Lautklassen, nach [ST95, S. 69]

i.A. gelten selbst idealisierte Bedingungen nicht⇒ Information uber zeitliche Veranderung notwendig

Betrachtet man (das Spektrum/) die Merkmale x als Funktion der Zeit⇒ zeitliche Veranderung = Ableitung

3 Grundtypen von Verfahren

(xj ist Merkmalsvektor zum diskreten Zeitpunkt j)

a) Bildung der diskreten Ableitung

∆xj = xj+∆t − xj−∆t x′j =

(xj

∆xj

)

b) Berechnung einer Regressionsgerade (= Annaherung des Funktionsverlaufs durch eine Gerade)≈ Glattung der diskreten Ableitung

c) Zusammenfassung benachbarter Merkmalsvektoren (mit anschließender Dimensionsreduktion,z.B. durch PCA)

x′j = (xj−1,xj,xj+1)T

Hohere Ableitungen

a) im diskreten Fall durch iterierte Anwendung der diskreten Ableitung

∆nxj = ∆n−1xj+∆t −∆n−1xj−∆t

Nachteil: verarbeiteter/benotigter Signalbereich wachst um 2 ·∆t mit jeder Anwendung, d.h.

1. Ableitung: 2 ·∆t+ 1 Zeitpunkte

2. Ableitung: 4 ·∆t+ 1 Zeitpunkte

⇒ wachsende Glattung

22. April 2014 29

xj−2∆txj−∆t xj xj+∆t xj+2∆t

∆xj−∆t ∆xj ∆xj+∆t

∆∆xj ≈ ∆2xj

b) z.B. mit Hilfe von Regressionspolynomen hoherer Ordnung, gemaß:

∆nxj =

∆t∑t=−∆t

pn(t, 2∆t+ 1)xj+t

∆t∑t=−∆t

p2n(t, 2∆t+ 1)

Dabei bilden die Polynome pn ein orthogonales Funktionensystem:

p0(t, α) = 1

p1(t, α) = t

p2(t, α) = t2 − 112

(α2 − 1)

. . .

Fur die (verbreitete) Wahl von ∆t = 2 (d.h. mit einer Fensterbreite von 2∆t + 1 = 5 Frameserhalt man:

∆xj =

∆t∑t=−∆t

p1(t, 2∆t+ 1)xj+t

∆t∑t=−∆t

p21(t, 2∆t+ 1)

=

2∑t=−2

txj+t

2∑t=−2

t2

∆2xj =

∆t∑t=−∆t

p2(t, 2∆t+ 1)xj+t

∆t∑t=−∆t

p22(t, 2∆t+ 1)

=

2∑t=−2

(t2 − 2)xj+t

2∑t=−2

(t2 − 2)2

22. April 2014 30

7.5 Zusammenfassung (Kurzzeitanalyse)

0 T-1

1

(Hamming-Fenster o.Ä)

Srpachsignal

Kurzzeitsignal

logarith. Leistungsdichtespektrum

Fensterbildung

Vorhersagekoffizienten

aµ

|DFT{...}|

Betragsspektrum |Fµ|

verzerrtesBetragsspektrum

gehorrichtig

mel

log

DFT−1

Cepstrum cν

Lifterung cν ← 0, ∀ν > N

DFT

Ableitung o.A.

gangige Merkmale

Modellspektrum

DFT

Lineare-vorhersage

c′ν , ∆c′ν, ∆∆c′ν

c′ν

22. April 2014 31

Kapitel 8

Hidden-Markov-Modelle

... d.h. statistische Modelle zur Klassifikation im Kontext / integrierter Segmentierung und Klassifi-kation

8.0 “Anschauliche” Herleitung

1 Erinnern uns an Spracherkennung mit DTW (= Dynamischer Zeitverzerrung)

a b b x y

a

b

x

y

optimaler Verzerrungspfad

Ref

erez

mus

ter

Testmuster

s1

s2

s3

s4

Achtung: Beispiele in dieser Komplexitat immer fragwurdig!

2 Akzeptierender endlicher Automat (akzeptiert in Zustanden!)

22. April 2014 32

a x yb

Pfadrestriktion

bei

3 Umkehrung: Generierender endlicher Automat

4 Nicht alle Folgen (= Muster) gleich wahrscheinlich

⇒ Zustandsubergangswahrscheinlichkeiten

a b x y

0.2 0.7 0.1 0.4

0.8 0.3 0.9 0.6

5 Generierung von Symbolen auch statistisch

⇒ Emissionswahrscheinlichkeiten

a b x y

0.2 0.7 0.1 0.4

0.8 0.3 0.9 0.6

...

P (b|s1) = 0.2

s1

P (a|s1) = 0.7

P (x|s1) = 0.05

6 Modell beschreibt statistische Produktion von Mustern

Annahme: Jedes Muster entsteht gemaß eines solchen Modells!

Muster kann beobachtet werden (= Observationsfolge abbxy)nicht jedoch das Modell (= hidden, d.h. versteckt).

Fragestellungen an Hidden-Markov-Modelle

1. Wie gut beschreibt ein Modell (ggf. von mehreren) bestimmte Daten?

2. Wie tut es das (d.h. durch welche “internen Ablaufe” = Zustandsfolge)?

22. April 2014 33

3. Wie erstellt man ein geeignetes Modell?(d.h. eines, das bestimmte Daten moglichst gut beschreibt)

22. April 2014 34

8.1 Definition

Ein Hidden-Markov-Modell (HMM) beschreibt einen zweistufigen stochastischen Prozeß.

Die 1. Stufe bildet einen diskreten stochastischen Prozeß, der als Folge von Zufallsvariablen

S = S1, S2, ...ST

beschrieben werden kann. Diese konnen Werte aus einer diskreten, endlichen Zustandsmenge (d.h.von Zustanden)

St ∈ {1, 2, ...N}

annehmen. Der Prozeß beschreibt also probabilistisch Zustandsubergange in einem diskreten, endli-chen Zustandsraum.

Der stochastische Prozeß S ist:

• stationar, d.h. unabhangig von der (absoluten) Zeit t

• kausal, d.h. die Wahrscheinlichkeitsverteilung der Zufallsvariablen St hangt nur von vergange-nen Zustanden ab (d.h. den Werten von Zufallsvarialben St′ mit t′ < t) und ggf.

• einfach, d.h. die Verteilung von St ist nur vom unmittelbaren Vorgangerzustand abhangig (=HMM 1. Ordnung)

P (St|S1, S2, . . . St−1) = P (St|St−1)

Der stochastische Prozeß S kann als endlicher Automat mit Zustandsmenge {1, 2, ...N} aufgefaßtwerden. Zustandsubergange erfolgen gemaß der Zustandsubergangswahrscheinlichkeiten

P (St = j|St−1 = i)

Diese lassen sich in einer Zustandsubergangswahrscheinlichkeitsmatrix

A = {aij|aij = P (St = j|St−1 = i)}

zusammenfassen. Anfangszustande werden gemaß (der Startwahrscheinlichkeiten)

π = {πi|πi = P (S1 = i)}

eingenommen.

Die so erzeugte Folge von Zustanden ist nicht beobachtbar (= hidden).

Beobachtbar ist dagegen die Folge der Observationen

O = O1, O2 . . . OT

22. April 2014 35

die vom dem stochastischen Prozeß der 2. Stufe zu jedem Zeitpunkt in Abhangigkeit vom aktuellenZustand (allein!) erzeugt (= emittiert⇒ Emissionen) wird gemaß:

P (Ot|O1 . . . Ot−1, S1 . . . St) = P (Ot|St)

Bei diskreten HMMs stammen die Observationen aus einem endlichen Symbolinventar ({o1, o2, ...oK}).Mann kann dann die Matrix der Ausgabewahrscheinlichkeiten angeben als:

B = {bjk|bjk = P (Ot = ok|St = j)}

Ein HMM λ (wird in der Literatur ublicherweise so bezeichnet) ist daher vollstandig beschriebendurch das Tripel (π,A,B) aus Start- und Zustandsubergangswahrscheinlichkeiten sowie zustands-spezifischen Emissionsverteilungen (Anzahl N der Zustande implizit).

Beispiel: “Borsen-HMM”

Folie: Modellierung des Kursverhaltens an der Borse als HMM siehe Abb. 30

8.2 Emissionsmodellierung

Diskrete HMMs nur fur symbolische Daten (z.B. genetische Sequenzen) einsetzbar.

Bei Signalanalyse Verarbeitung vektorwertiger Großen erforderlich

⇒ Quantisierungsschritt notwendig (aber: Quantisierungsfehler!) oder

⇒ Verwendung kontinuierlicher Ausgabeverteilungen (kontinuierliche HMMs)

Kontinuierliche Emissionsdichten

Observationen X = x1,x2, ...,xT sind Folgen von Vektoren xt ∈ IRn aus einem n-dimensionalenVektorraum.

Hinweis: Observationsfolge nur mit X bezeichet, wenn explizit als kontinuierliche/vektorwertigeDaten gekennzeichnet, sonstO!

Zur Modellierung der Ausgaben eines HMMs definiert man dann einen Vektor von Emissionsdichten:

bj(x) = p(x|St = j)

Hinweis: Dichte 6= Wahrscheinlichkeit

22. April 2014 36

a) simpel = Normalverteilungen

• Zentraler Grenzwertsatz der Statistik⇒ viele naturliche Zufallsprozesse naherungsweisenormalverteilt

• mathematisch einfach, geschlossene Losungen moglich

bj(x) = N (x|µ,K) =1√|2πK|

e−1

2(x− µ)TK−1(x− µ)

(mit Mittelwert µ und KovarianzmatrixK)

Hinweis: im eindimensionalen Fall:

N (x|µ, σ2) =1√

2πσ2e−(x− µ)2

2σ2

Problem: Normalverteilung ist unimodal, d.h. nur zur Modellierung von Datenverteilungenmit einem Haufungsgebiet geeignet.

b) Mischverteilungen

Ziel: Approximation von beliebigen Verteilungen mit mehreren komplexen Haufungsgebieten

⇒ Mischverteilungen, d.h. Linearkombination bestimmter Basisdichten (z.B. Normalvertei-lungen)

p(x) =∞∑k=1

ckN (x|µk,Kk) ≈M∑k=1

ckN (x|µk,Kk)

(mit Mischungskomponenten N (x|...) und Mischungsgewichten ck,∑

k ck = 1)

Hinweis: Man kann zeigen, daß sich jede allgemeine Verteilung durch eine solche Mischver-teilung beliebig genau approximieren laßt (d.h. evtl. mit beliebig großer Anzahl M vonMischungskomponenten)

⇒ kontinuierliche HMMs (continuous [mixture|density] HMM)

bj(x) =

Mj∑k=1

cjkN (x|µjk,Kjk) =

Mj∑k=1

cjk gjk(x)

d.h. eine Mischverteilung pro Zustand mit je Mj Mischungsverteilungen (Mittelwert +Kovarianzmatrix) und Mischungsgewichten cjk

CDHMM = 3-stufiger Zufallsprozeß:

1. Zustand St = j einnehmen

2. Mischverteilungskomponente mt = k selektieren gemaß cjk

3. Ausgabevektor xt gemaß gjk(x) erzeugen

22. April 2014 37

8.3 Verwendungskonzepte

Annahme: Betrachtete Muster (= Sprachsignale bzw. deren Reprasentation als Merkmalsvektorfol-gen) sind Ausgaben eines — zumindest prinzipiell — vergleichbaren stochastischen Modells!

Fragestellungen(nicht “3 Probleme→ 3 Algorithmen” a la Rabiner!)

• Wie gut beschreibt ein Modell (=HMM) bestimmte Daten (= Observationsfolge)?

(auch als Evaluierungsproblem bezeichnet)

⇒ Produktionswahrscheinlichkeit P (O|λ) (bzw. Naherung) berechnen

Liefert Maß fur “Ubereinstimmung” modellierter Eigenschaften (HMM λ) und beobachteterDaten (ObervationsfolgeO).

Hinweis: P (O|λ) kann auch als Basis fur Klassifikation dienen!

• Welches von mehreren Modellen λi beschreibt bestimmte Daten am besten?

Annahme: λi beschreiben Daten verschiedener Klassen, z.B. verschiedene isoliert gesprocheneWorter.

⇒ Klassifikation nach maximaler a-postieriori Wahrscheinlichkeit

P (λj|O) = maxi

P (O|λi)P (λi)

P (O)

Da P (O) bzgl. Maximierung konstant, Vereinfachung moglich:

λj = argmaxλi

P (λi|O) = argmaxλi

P (O|λi)P (λi)

P (O)= argmax

λi

P (O|λi)P (λi)

Hinweis: Bei gleicher a-priori Wahrscheinlichkeit P (λi) der Klassen entscheidet Produktions-wahrscheinlichkeit

Problem: Klassifikation nur auf vollstandig segmentierten Daten moglich!

• Wie erzeugt ein Modell bestimmte Daten?

(auch als Dekodierungsproblem bezeichnet)

Annahme: Modelle sind strukturiert, entsprechen bedeutungstragenden Einheiten einer Ob-servationsfolge (z.B. einzelnen Wortern oder Lauten)

⇒ Produktionswahrscheinlichkeit liefert keine relevante Information!

⇒ “Aufdeckung” der internen Ablaufe bei der Erzeugung der Daten wichtig, d.h. Zustandsfol-ge s = s1, s2, ...sT

22. April 2014 38

Aber: Ruckschluß nur probabilistisch moglich, d.h. Berechnung der Zustandsfolge s∗, die Da-ten mit maximaler Wahrscheinlichkeit erzeugt

⇒ Segmentierung kann aus s∗ abgeleitet werden (z.B. optimale Laut- oder Wortfolge)

• Wie erzeugt man ein geeignetes Modell?

... “geeignet” fur die Modellierung bestimmter Daten (d.h. zur Beschreibung deren statistischerEigenschaften)

Achtung: I.a. keine Losungsmethode bekannt!

⇒ Losung nur unter Einschrankungen moglich: Verbesserung eines bestehenden Modells

(auch als Trainingsproblem bezeichnet)

d.h. Berechnung aktualisierter Modellparameter λ = (π, A, B), die gegebene Daten Omit gleicher oder großerer Wahrscheinlichkeit erzeugen:

P (O|λ) ≥ P (O|λ)

Problem: Modellstruktur (= # Zustande, i.d.R. auch Kanten) und initiale Parameter mussen(heuristisch?!) vorgegeben werden!

8.4 Bewertung

Verbreitetstes Maß: Produktionswahrscheinlichkeit, aber auch “Varianten” moglich

8.4.1 Die Produktionswahrscheinlichkeit

Betrachten zunachst intiutiv einfache, aber ineffiziente Methode zur Berechnung der Produktions-wahrscheinlichkeit P (O|λ):

a) alle Pfade s = s1, s2, ...sT durch das Modell λ aufzahlen und jeweils die Pfadwahrscheinlich-keit berechnen:

P (s|λ) = πss as1s2 as2s3 ...asT−1sT =T∏t=1

ast−1st mit as0i = πi

b) fur jeden Pfad s die Produktionswahrscheinlichkeit vonO geg. s und λ bestimmen:

P (O|s, λ) = bs1(O1) bs2(O2)...bsT (OT ) =T∏t=1

bst(Ot)

c) Wahrscheinlichkeit fur Produktion insgesamt ergibt sich gemaß:

P (O|λ) =∑s

P (O, s|λ) =∑s

P (O|s, λ)P (s|λ) =∑s

T∏t=1

ast−1st bst(Ot)

22. April 2014 39

Problem des Verfahrens: Aufwand exponentiell O(NT T )

Losung(en) beruhen auf Ausnutzung der Markov-Eigenschaft von HMMs, d.h. ihrem endlichen“Gedachtnis”, das nur die Speicherung eines internen Zustands erlaubt!

⇒ sobald Zustand j zu Zeitpunkt t eingenommen, ist Pfad, auf dem dieser erreicht wurde, furweiteres Verhalten des Modelle irrelevant!

⇒ alle Zustandsfolgen konnen rekombiniert werden! (HMMs 1. Ordnung)

Forward-Algorithmus

... zur effizienten Berechnung der Produktionswahrscheinlichkeit P (O|λ)

Man definiert die Vorwartsvariablen αt(i):

αt(i) = P (O1, O2, . . . Ot, st = i|λ)

d.h. Wahrscheinlichkeit fur die Erzeugung der partiellen Observationsfolge O1, O2, ...Ot und demErreichen des Zustands i zum Zeitpunkt tForward-AlgorithmusMan definiert: αt(i) = P (O1, O2, . . . Ot, st = i|λ)

1. Initialisierung

α1(i) := πibi(O1)

2. Rekursion

fur alle Zeitpunkte t, t = 1 . . . T − 1:

αt+1(j) :=

{∑i

αt(i) aij

}bj(Ot+1)

3. Rekursionsabschluss

P (O|λ) =N∑i=1

αT (i)

Berechnungsaufwand: O(N2T )

22. April 2014 40

Rechenschema zur Bestimmung der Vorwartsvariablen αt(i)

��

��

�

Zeit

Zustande

��

��

�

� ��

��

Hinweis: Produktionswahrscheinlichkeit P (O|λ) betrachtet Erzeugung der Observationsfolge ent-lang aller moglichen Pfade durch das Modell.

Auch: Betrachtung nur der optimalen Moglichkeit

8.4.2 Die “optimale” Produktionswahrscheinlichkeit

... betrachtet nur Erzeugung der Observationsfolge entlang des Pfades s∗, fur den sich die beste indi-viduelle Produktionswahrscheinlichkeit ergibt:

P ∗(O|λ) = P (O, s∗|λ) = maxsP (O, s|λ)

Effiziente Berechnung durch leichte Abwandlung des Forward-Algorithmus moglich (Methode istTeil des Viterbi-Algorithmus [spater]).

Man definiert die partiellen Pfadwahrscheinlichkeiten δt(i):

δt(i) = maxs1,s2,...st−1

P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)

d.h. die maximale Wahrscheinlichkeit, die partielle Observationsfolge O1, O2, ...Ot entlang eines be-liebigen Pfades s1, s2, . . . st−1, st mit Endzustand st = i zu erzeugen.

Hinweis: Algorithmus analog Forward-Algorithmus, nur∑

i −→ maxi:

22. April 2014 41

Algorithmus zur Berechnung der max. ProduktionswahrscheinlichkeitMan definiert: δt(i) = max

s1,s2,...st−1

P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)

1. Initialisierung

δ1(i) = πibi(O1)

2. Rekursion


δt+1(j) = maxi{δt(i)aij} bj(Ot+1)


P ∗(O|λ) = P (O, s∗|λ) = maxiδT (i)

Hinweis: P ∗(O|λ) stellt in der Praxis gute Naherung fur die Produktionswahrscheinlichkeit dar, dadie optimale Moglichkeit zur Generierung von O entlang von s∗ numerisch die ubrigen Summandendominiert.Rechenschema zur Bestimmung der partiellen Pfadwahrscheinlichkeiten δt(i)

��

��

Zeit

Zustande

��

��

��

�

� ��!

"$# �

22. April 2014 42

8.5 Dekodierung

Annahme: Zustande eines Modells konnen mit bestimmten bedeutungsvollen Einheiten des Anwen-dungsgebiets assoziiert werden (z.B. Laute, Worter)

⇒ globales Gutemaß (z.B. Produktionswahrscheinlichkeit) nicht mehr ausreichend!

⇒ interne Ablaufe bei Erzeugung der Obervationsfolge aufdecken (d.h. Folge der Zustande)

Problem: Obersvationsfolge prinzipiell entlang jeder Zustandsfolge generierbar

⇒ Ruckschluß nur probabilistisch moglich

Ziel: Bestimme Zustandsfolge s∗, die bei geg. Modell λ Observationsfolge O mit maximaler a-posteriori Wahrscheinlichkeit erzeugt

s∗ = argmaxs

P (s|O, λ)

Umformung mit Bayes-Regel ergibt:

P (s|O, λ) =P (O, s|λ)

P (O|λ)

Da Produktionswahrscheinlichkeit P (O|λ) fur Maximierung unerheblich (konstant), ergibt sich:

s∗ = argmaxs

P (s|O, λ) = argmaxs

P (O, s|λ)

Maximum wird erreicht fur “optimale” Produktionswahrscheinlichkeit P ∗(O|λ) = P (O, s∗|λ), da-her kann s∗ durch Erweiterung des Algorithmus zur Berechung von P (O, s∗|λ) bestimmt werden.

Hinweis: s∗ ist i.a. nicht eindeutig bestimmt!Viterbi-Algorithmus zur Bestimmung der optimalen Zustandsfolge s∗

Man definiert: δt(i) = maxs1,s2,...st−1

P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)

1. Initialisierung

δ1(i) := πibi(O1) ψ1(i) := 0

2. Rekursion


δt+1(j) := maxi{δt(i)aij} bj(Ot+1) ψt+1(j) := argmax

i{δt(i)aij}


P ∗(O|λ) = P (O, s∗|λ) = maxiδT (i)

s∗T := argmaxj

δT (j)

4. Ruckverfolgung des optimalen Pfades

fur alle Zeitpunkte t, t = T − 1 . . . 1:

s∗t = ψt+1(s∗t+1)

22. April 2014 43

8.6 Parameterschatzung

Problem: Kein Verfahren bekannt, das zu geg. Stichprobe ein in irgendeiner Hinsicht optimales Mo-dell liefert

Aber: Wenn Modellstruktur (d.h. Anzahl Zustande und Art der Emissionsmodellierung) sowie sinn-volle initiale Werte fur Modellparameter vorgegeben, konnen diese schrittweise verbessert wer-den (= Training des Modells)

8.6.1 Grundlagen

Trainingsverfahren unterscheiden sich je nach verwendetem Qualitatsmaß (zur Bewertung der Mo-dellierungsgute)

Generell gilt: Verfahren realisieren Wachstumstransformation auf geg. Modellparametern, so dassverandertes Modelll λ bessere oder gleichbleibende Modellierungsgute liefert:

P (. . . |λ) ≥ P (. . . |λ)

Intuitives Prinzip des Parametertrainings:

1. Aktionen des Modells bei der Erzeugung einer Observationsfolge “beobachten”

2. Anzahl relevanter Ereignisse (Zustandsubergange + Emissionen) “zahlen”

(wegen probabilistischer Formulierung kann nur erwartete Anzahl bestimmt werden)

3. Modellparameter durch relative Haufigkeiten ersetzen

Aktualisierte Modellparameter konnen daher prinzipiell wie folgt bestimmt werden (hier nur fur dis-krete HMMs):

aij =erwartete Anzahl der Ubergange von Zustand i nach j

erwartete Anzahl der Ubergange von Zustand i aus

bi(ok) =erwartete Anzahl der Emissionen von ok in Zustand ierwartete Gesamtanzahl der Emissionen in Zustand i

⇒ fur Ruckschluss auf Zustandsubergange/Emissionen muß Wahrscheinlichkeit bestimmt werden,dass Zustand i zu bestimmtem Zeitpunkt t vorlag (= Zustandswahrscheinlichkeit)!

2 grundlegende Methoden, abhangig vom betrachteten Optimierungskriterium:

• “optimale´´ Produktionswahrscheinlichkeit P (O, s∗|λ), d.h. entlang des optimalen Pfades: Vor-liegen von Zustand i zu best. Zeitpunk t kann direkt auf opt. Zustandsfolge s∗ uberpruft werden

P ∗(St = i|O, λ) = χt(i) =

1 falls s∗t = i und s∗ = argmaxs

P (s,O|λ)

0 sonst

22. April 2014 44

• Produktionswahrscheinlichkeit P (O|λ), d.h. entlang beliebigen Pfades: probabilistischer Ruck-schluß→ aufwendiger!

Forward-Backward-Algorithmus

... zur Berechnung der Zustandswahrscheinlichkeit P (St = i|O, λ) d.h. der a-posteriori Wahrschein-lichkeit eines Zustandes i zum Zeitpunkt t bei gegebener ObservationsfolgeO und bekanntem Modellλ

Prinzipiell brute force Ansatz moglich, aber zu ineffizient!

Erinnern uns: Vorwartsvariable αt(i) liefert bereits – in begrenztem Umfang – Information uber Vor-liegen von Zustand i zu Zeitpunkt t! Lediglich Wahrscheinlichkeit fur Erganzung der partiellen Ob-servationsfolge fehlt.

Man definiert die Ruckwartsvariablen βt(j):

βt(j) = P (Ot+1, Ot+2, . . . OT |st = j, λ)

Kann effizient mit Gegenstuck des Forward-Algorithmus berechnet werden⇒ Backward-Algorithmus

Hinweis: Beide Algorithmen werden i.d.R. als Einheit betrachtet.

Mit Hilfe von αt(i) und βt(j) kann Zustandswahrscheinlichkeit bestimmt werden (Bayes-Regel).

P (St = i|O, λ) =P (St = i,O|λ)

P (O|λ)

P (O|λ): Ergebnis des Forward-Algorithmus

P (St = i,O|λ) = P (O1, O2, . . . Ot, St = i|λ)P (Ot+1, Ot+2, . . . OT |St = i, λ) = αt(i)βt(i)

Die Zustandswahrscheinlichkeit (ublicherweise als γt(i) bezeichnet) ergibt sich dann zu:

γt(i) = P (St = i|O, λ) =αt(i)βt(i)

P (O|λ)

22. April 2014 45

Forward-Backward-AlgorithmusMan definiert:αt(i) = P (O1, O2, . . . Ot, st = i|λ) βt(i) = P (Ot+1, Ot+2, . . . OT |st = i, λ)

1. Initialisierung

α1(i) := πibi(O1) βT (i) := 1

2. Rekursion

fur alle Zeitpunkte t, t = 1 . . . T − 1: bzw. t = T − 1 . . . 1:

αt+1(j) :=∑i

{αt(i)aij} bj(Ot+1) βt(i) :=∑j

aijbj(Ot+1)βt+1(j)


P (O|λ) =N∑i=1

αT (i) P (O|λ) =N∑i=1

πibi(O1)β1(i)

Rechenschema zur Bestimmung der Ruckwartsvariablen βt(i)

��

Zeit

Zustande

��

��

�

� ��

��

22. April 2014 46

8.6.2 Trainingsverfahren

Zustandswahrscheinlichkeit (probabilistisch: γt(i), bzw. “deterministisch”: χt(i)) Basis der Verfahren⇒ zeitliche Zuordnung von Modellzustanden und Observationen

Baum-Welch-Algorithmus

Verbreitetstes Verfahren zum Training von HMMs (Optimierungskriterium: Produktionswahrschein-lichkeit P (O|λ))

Fur verbessertes Modell λ gilt: P (O|λ) ≥ P (O|λ)

Hinweis: Fur “vollstandiges” Parametertraining mehrfache Anwendung erforderlich!

⇒ Abbruchkriterium z.B. zu geringe Verbesserung von P (O|λ)

Modellparameter werden durch ihre bedingten Erwartungswerte ersetzt (Variante des EM-Algorithmus)

Hilfsgroßen:

• Zustandswahrscheinlichkeit γt(i)

• Wahrscheinlichkeit P (St = i, St+1 = j|O, λ) eines Ubergangs von Zustand i nach j zumZeitpunkt t:

γt(i, j) = P (St = i, St+1 = j|O, λ) =

=P (St = i, St+1 = j,O|λ)

P (O|λ)=αt(i) aij bj(Ot+1) βt+1(j)

P (O|λ)

22. April 2014 47

Rechenschema zur Bestimmung der von γt(i, j)

Zustande

Zeit

��

��

� ��

�

� ��

� ��

Aktualisierte Modellparameter ergeben sich gemaß:

• Ubergangswahrscheinlichkeiten

aij =

T−1∑t=1

P (St = i, St+1 = j|O, λ)

T−1∑t=1

P (St = i|O, λ)

=

T−1∑t=1

γt(i, j)

T−1∑t=1

γt(i)

• (Startwahrscheinlichkeiten analog/trivial)

• Emissionswahrscheinlichkeiten (diskret)

bj(ok) =

T∑t=1

P (St = j, Ot = ok|O, λ)

T∑t=1

P (St = j|O, λ)

=

∑t :Ot=ok

P (St = j|O, λ)

T∑t=1

P (St = j|O, λ)

=

∑t :Ot=ok

γt(j)

T∑t=1

γt(j)

Hinweis: Vorliegen eines Observationssymbols kann direkt uberpruft werden

⇒ P (St = j, Ot = ok|O, λ) liefert nur dort positive Anteile fur Summation

• Emissionsdichten (kontinuierlich)→ schwieriger!

22. April 2014 48

Zusatzliche Hilfsgroße: Wahrscheinlichkeit, zum Zeitpunkt t im Zustand j k-te Mischverteilungs-komponente zur Erzeugung der Observation Ot zu verwenden:

ξt(j, k) = P (St = j,Mt = k|O, λ) =

N∑i=1

αt−1(i) aij cjk gjk(Ot) βt(j)

P (O|λ)

Aktualisierte Modellparameter der Emissionsdichten erhalt man gemaß:

• Emissionsgewichte

cjk =

T∑t=1

P (St = j,Mt = k|O, λ)

T∑t=1

P (St = j|O, λ)

=

T∑t=1

ξt(j, k)

T∑t=1

γt(j)

• Mittelwertvektoren

µjk =

T∑t=1

P (St = j,Mt = k|O, λ)xt

T∑t=1


=

T∑t=1

ξt(j, k)xt

T∑t=1

ξt(j, k)

• Kovarianzmatrizen

Kjk =

T∑t=1

P (St = j,Mt = k|O, λ) (xt − µjk)(xt − µjk)T

T∑t=1


=

T∑t=1

ξt(j, k) (xt − µjk)(xt − µjk)T

T∑t=1

ξt(j, k)

Folie: Baum-Welch-Algorithmus siehe Abb. 31

Viterbi-Training

Grundprinzip vergleichbar Baum-Welch-Algorithmus, allerdings:

• Optimierungskriterium: “optimale” Produktionswahrscheinlichkeit P ∗(O|λ) = P (O, s∗|λ))

⇒ alternative Def. der Zustandswahrscheinlichkeit: χt(i)

Fur verbessertes Modell λ gilt: P ∗(O|λ) ≥ P ∗(O|λ)

Aktualisierte Modellparameter ergeben sich – z.B. – gemaß:

22. April 2014 49

• Ubergangswahrscheinlichkeiten

aij =

T−1∑t=1

P (St = i, St+1 = j|s∗,O, λ)

T−1∑t=1

P (St = i|s∗,O, λ)

=

T−1∑t=1

χt(i)χt+1(j)

T−1∑t=1

χt(i)

• Emissionswahrscheinlichkeiten (diskret): analog

• Emissionsdichten: extrem komplex, evtl. naherungsweise

Folie: Viterbi-Training siehe Abb. 32

8.6.3 Mehrere Observationsfolgen

Stichproben sind i.d.R. in einzelne Abschnitte untergliedert (bei Spracherkennung: einzelne Auße-rungen / Turns)

⇒ eigentlich einzelne Observationsfolgen

Parameter sollen aber auf der Basis aller Daten aktualisiert werden.

⇒ Statistiken zur Parameterschatzung mussen uber alle Observationsfolgen akkumuliert werden

Beispiel: Neuschatzung der Mittelwertvektoren kontinuierlicher Emissionsdichten

Geg. Stichprobe ω = {O1,O2, . . .OL} von L einzelnen ObservationsfolgenOl

Mittelwertvektoren aktualisieren gemaß:

µjk =

L∑l=1

T∑t=1

ξlt(j, k)xt

L∑l=1

T∑t=1

ξlt(j, k)

22. April 2014 50

8.7 Initiale Modellparameter

8.7.0 Vektorquantisierung

Ziel:

• Codierung vektorwertiger Eingabedaten (Sprache, Bilder) in endliche Menge von Re-prasentanten z.B. zum Zwecke der Komprimierung / Ubertragung

• Partitionierung des Eingabedatenraums (≈ Clusteranalyse)

Definition: Ein (Vektor-)Quantisierer Q ist als die Abbildung eines k-dimensionalen VektorraumsIRk in eine endliche Teilmenge Y ⊂ IRk

Q : IRk 7→ Y

mit dem Codebuch Y = {y1,y2, . . .yN}, d.h. der Menge der Reprasentanten- oder Prototy-penvektoren yi.

Mit jedem Quantisierer Q der Große N ist eine Partition des IRk assoziiert in Zellen

R1, R2, . . . RN

wobei in Ri alle diejenigen Vektoren x ∈ IRk liegen, die von Q dem Prototypen (bzw. Code-wort) yi zugeordnet werden:

Ri = Q−1(yi) = {x ∈ IRk|Q(x) = yi}

Folgerungen:

• Q definiert eine vollstandige, disjunkte Zerlegung des IRk, d.h.:

N⋃i=1

Ri = IRk und Ri ∩Rj = ∅ ∀i, j mit i 6= j

• Der Quantisierer Q ist eindeutig definiert durch die Angabe des Codebuchs Y und derzugehorigen Partition {Ri}.• Ein Quantisierer kann in der Praxis als Kombination eines Codierers C und eines Deko-

dierers D aufgefaßt werden. Mit der Indexmenge I = {1, 2, ...N} ergibt sich:

C : IRk → I und D : I → Y ⇒ Q = D ◦ C

• Da i.a. Q(x) 6= x ist, entsteht bei der Quantisierung von gemaß der Zufallsvariablen Xverteilten Vektoren ein mittlerer Fehler

ε(Q) = E{ε(X|Q)} = E{d(X,Q(X))} =

∫IRk

d(x, Q(x)) p(x) dx

wobei d(., .) ein geeignetes Abstandsmaß und p(x) die Verteilungsdichte von X ist.

22. April 2014 51

Optimalitat von Vektorquantisierern

Satz (“Nachster-Nachbar-Bedingung”): Fur ein geg. Codebuch Y erfullt die optimale Partition{Ri}

Ri ⊆ {x|d(x,yi) ≤ d(x,yj) ∀j 6= i}und

Q(x) = yi falls d(x,yi) ≤ d(x,yj) ∀j 6= i

d.h. Q wahlt den nachsten Nachbarn von x aus.

⇒ d(x, Q(x)) = miny∈Y

d(x,y)

Hinweis: Bei d(x,yi) = d(x,yj) fur i < j wahle Q(x) = yi.

Beweis: Fur ein geg. Codebuch kann der mittlere Fehler nach unten abgeschatzt werden gemaß

ε(Q) =

∫IRk

d(x, Q(x)) p(x) dx ≥∫

IRk

{miny∈Y

d(x,y)} p(x) dx

Diese untere Schranke wird mit der “Nachster-Nachbar-Bedingung” erreicht!

Hinweis: Argumentation greift nur, da sowohl p(x) als auch d(., .) nicht-negativ werden!

Satz (“Zentroid-Bedingung”): Fur eine geg. Partition {Ri} sind die optimalen Codebuchvektorenyi die Zentroiden der jeweiligen Zellen, d.h.

yi = cent(Ri)

wobei

y∗ = cent(R) falls E{d(X,y∗)|X ∈ R} ≤ E{d(X,y)|X ∈ R} ∀y ∈ R

d.h. der Zentroid minimiert den mittleren Fehler der Quantisierung innerhalb einer Zelle Ri.

Hinweis: Fur elliptisch symmetrische Abstandsmaße der Form (x−y)TK−1(x−y) ist der Zentroididentisch mit dem bedingten Erwartungswert

cent(R) = E{X|X ∈ R} =

∫R

x p(x|x ∈ R)dx

Beweis:

ε(Q) =N∑i=1

∫Ri

d(x,yi)p(x)dx =N∑i=1

P (X ∈ Ri)

∫Ri

d(x,yi)p(x|x ∈ Ri)dx

Da dieRi disjunkt sind, konnen alleN Terme unabhangig voneinander minimiert werden indemyi so gewahlt wird, dass∫

Ri

d(x,yi)p(x|x ∈ Ri)dx = E{d(X,yi)|X ∈ R} −→ min!

Dieses Minimum wird genau dann erreicht, wenn yi = cent(Ri)!

Hinweis: Fur optimalen Quantisierer hangen Codebuch und Partition unmittelbar voneinander ab.⇒ Angabe des Codebuchs ausreichend (wird i.d. Praxis mit Quantisierer identifiziert)

22. April 2014 52

Algorithmen zum Design von Vektorquantisierern

Problem: analytische Losung nicht bekannt!

Idee: Iterative Verbesserung eines initialen Codebuchs Y 0 geg. eine “Trainingssequenz” ω = {x1,x2, . . .xT}von Beispielvektoren xi ∈ IRk

1. Algorithmus nach LLoyd

Idee: Duale Sichtweise auf Vektorquantisierer ausnutzen: Codebuch⇔ Partition

Folie: LLoyd-Algorithmus siehe Abb. 33

Hinweis: Fur euklidischen Abstand:

ym+1i = cent(Rm

i ) =1

|Ri|∑x∈Ri

x

Lemma: Fur eine endliche Trainingsmenge ω erzeugt der Algorithmus nach Lloyd immer eine Folgevon Vektorquantisierern, deren mittlerer Fehler in endlich vielen Schritten konvergiert.

Probleme:• Es wird i.a. nur ein lokales Minimum des mittleren Quantisierungsfehlers gefunden. Das

finale Codebuch ist also nicht notwendigerweise optimal!

(Problem kann ggf. durch Stochastische Relaxation umgangen werden.)

• Anzahl N der Codebuchvektoren muß vorgegeben werden.

• Initialisierungsschritt nicht spezifiziert!

2. Algorithmus nach Linde, Buzo & Gray (LBG)

Folie: LBG-Algorithmus siehe Abb. 34

Vorteile:• Initialisierung klar definiert⇒ Risiko lokale Minima zu finden geringer.

• Durch iterative Vergroßerung des Codebuchs wird Klassifikationsaufwand zu Beginn derOptimierung reduziert.

3. k-means-Algorithmus (nach MacQueen)

Achtung: misbrauchliche Verwendung der Bezeichung auch fur Lloyd-Algorithmus!

Annahme: Trainingsmenge ω ist zufallige, unabhangig voneinander erzeugte Folge von Vektoren.

Folie: k-means-Algorithmus siehe Abb. 35

Hinweis: Fur das k-means-Verfahren kann asymptotische Konvergenz fur T →∞ gezeigt werden.

22. April 2014 53

Schatzung von Mischverteilungsmodellen

Vektorquantisierer beschreiben Datenverteilungen nur mit N Reprasentantenvektoren. Lokale Streu-ungseigenschaften werden nicht berucksichtigt.

⇒ genauere Darstellung mit Mischverteilungsmodellen, i.d.R. auf der Basis von Normalverteilungs-dichten

Einfachste (aber schlechte!) Methode: Aufbauend auf Ergebnis des VQ Normalverteilungsdichteschatzen:

• Mittelwertvektor µi ← Zentroid yi

• Kovarianz durch empirische Kovarianz der Zelle Ri approximieren:

Ki ←1

|Ri|∑x∈Ri

(x− µi)(x− µi)T

Besser: Verzerrung des Vektorraums durch Kovarianz schon beim Quantisierungsprozeß berucksich-tigen.

⇒ Mahalanobis-Abstand (= Erweiterung d. euklid. Abstands):

dMahalanobis(x,µ) = (x− µ)TK−1(x− µ)

Hinweis: entspricht fast vollstandig dem Exponentialterm einer Normalverteilung

⇒ Erweiterung zu Normalverteilungsdichte einfach

Hinweise:

• Dichte ist Zugehorigkeits- und nicht Abstandsmaß, d.h.

Ri = {x|i = argmaxjN (x|µj,Kj)}

• Minimierung des mittleren Quantisierungsfehlers fur Dichteschatzung nicht angemessen (Dich-teparameter bei VQ auf endlichem Gebiet Ri berechnet, Normalverteilungsdichte ist aber imgesamten IRk definiert!).

EM-Algorithmus (fur Mischverteilungsmodelle)

EM: Allg. Verfahren zur Optimierung stat. Modelle mit versteckten Zufallsvariablen (hier: Mischungs-komponenten, bei HMMs: Zustande und ggf. Mischungskomponenten der Emissionsdichten)

Mischverteilungsmodell mit N Komponentendichten und Parametern θ = ({ci}, {µi}, {Ki}) defi-niert als:

p(x|θ) =N∑i=1

ci N (x|µi,Ki)

22. April 2014 54

Prinzipielles Ziel: Wahrscheinlichkeit der Daten ω = {x1,x2, . . .xT} in Abhangigkeit von den Para-meter maximieren.

Explizit mit Likelihoodfunktion:

L′(θ|ω) = p(x1,x2, . . .xT |θ)

Haufig wird Logarithmus der Likelihoodfunktion betrachtet:

L(θ|ω) = lnL′(θ|ω) = ln p(x1,x2, . . .xT |θ) =∑x∈ω

ln p(x|θ)

(monotone Funktion verandert Ergebnis der Maximierung nicht!)

2 Phasen des EM-Algorithmus:

• Schatzwerte fur nicht beobachtet Wahrscheinlichkeitsgroßen bestimmen (expectation oder E-step)

Hier: Zuordnung von Datenvektoren zu Normalverteilungsdichten, d.h. a-posteriori Wahrschein-lichkeiten der Einzeldichten / Musterklassen ωi:

P (ωi|x, θ) =P (ωi|θ) p(x|ωi, θ)

p(x|θ) =P (ωi|θ) p(x|ωi, θ)∑j P (ωj|θ) p(x|ωj, θ)

=

=ci N (x|µi,Ki)∑j cj N (x|µj,Kj)

• Schatzwerte fur Modellparameter bestimmen, die Likelihood der Daten maximieren (maximi-sation oder M-step)

Problem: Fur iterative Optimierung mussen initiale Parameter vorgegeben werden!

Wegen Modellkomplexitat keine zufallige Festlegung moglich!

⇒ Aus Ergebnis eines VQ ableiten

Folie: EM-Algorithmus fur Mischverteilungsmodelle siehe Abb. 36

8.7.1 Initiale Ubergangswahrscheinlichkeiten

a) trivial: uniform festlegen, da “nicht so wichtig”

b) heuristisch: manuell (d.h. von Experten) festlegen

(Rechtfertigung unklar, Vorgehen ex. aber im Bereich der Bioinformatik)

c) automatisch: auf nach Modellzustanden gelabelter Stichprobe auszahlen

Problem: Aufwand (falls manuell) oder existierendes Basisssystem erforderlich!

d) (halb-)automatisch: Segmentierung auf Modellebene + heuristische Regeln fur Ableitung derUbergangswahrscheinlichkeiten (abhangig von prinzipieller↗Modelltopologie)

22. April 2014 55

8.7.2 Initiale Emissionsparameter

... konnen auf klassifizierter Stichprobe geschatzt werdenProblem: Phonetisch detaillierte Annotierung von Sprachsignalen sehr aufwendig: “Echtzeitfaktor”

> 300

⇒ i.d.R. automatische Segmentierung mit einem bereits bestehenden Erkennungssystem (Henne-Ei-Problem!)

Prinzip: Zuordnung jedes Frames zum zugehorigen Modellzustand (deterministisch)

a) diskret:

bj(ok) =Anzahl ok in Frames fur Zustand j

Anzahl Frames fur Zustand j

=

∑t

P (Ot = ok, St = j) ← binar∑t

P (St = j) ← binar

(analog Updategleichung fur diskrete Modelle, nur keine Abhangigkeit von Modell, nur implizitvon Observationen!)

b) kontinuierlich: Mischverteilungsmodell pro Zustand erforderlich!

Naherungsweise Gewinnung durch Vektorquantisierung (ggf. mit speziellem Abstandsmaß ≈Normalverteilung pro Codebuchvektor)

Mischungsgewichte naherungsweise ≈ a-priori Wahrscheinlichkeiten der Codebuchklassen

8.7.3 Segmental k-means

... zur kombinierten (Pseudo-)Initialisierung von Emissionen und Ubergangswahrscheinlichkeiten

Hinweis: Weitere Iterationen auch zum Modelltraining (Naherungsweises Verfahren zum Viterbi-Training von kontinuierlichen HMMs)

Folie: Segmental-k-means-Algorithmus siehe Abb. 37

Grundsatzliche Probleme (bei Initialisierung & Training)

Große Anzahl von Parametern leicht definierbar!

Aber: Stichproben sind endlich!

⇒ Robuste Schatzung nicht fur beliebig viele Parameter moglich

Hinweis: Wird evident z.B. wenn K−1 nicht mehr berechnet werden kann, da lineare Abhangigkei-ten vorliegen

22. April 2014 56

8.8 Parameter-Tying

(ungeschickte deutsche Bezeichnung “Verklebung” in [ST95])

“Tying” ≈Wiederverwendung / Indentifizierung (im Sinne von Zusammenfassung)

⇒ geringere Anzahl von Modellparametern

⇒ robustere Parameterschatzung

8.8.1 Einfaches Tying

... fur Zustande, d.h. zwei (oder mehr) Zustande eines Modells teilen sich alle Parameter (Ubergangs-wahrscheinlichkeiten und Emissionsdichten).

/m//a//m/

/p/ /a/ /p/

/a/

/a/

Entsprechende Zusammenfassung von Zustanden ...

a) ensteht implizit bei der Konstruktion großerer Modelle aus kleineren Bausteinen, die an unter-schiedlichen Stellen im Gesamtmodell repliziert (wieso das?) werden,

b) kann vom System-Designer vorgegeben oder ...

c) ggf. automatisch durch Clusteranalyse eines großeren Ausgangszustandsraums gefunden wer-den (Problem: Woher kommen Parameter initialer Zustande?)

8.8.2 Mixture-Tying / Semikontinuierliche HMMs

(erfunden von Huang, daher Vorsicht bei dessen Einschatzungen!)

... alle Zustande eines kontinuierlichen (Mischverteilungs-) HMMs teilen sich die Mischungskompo-nenten (= Codebuch).

22. April 2014 57

⇒Mischungskomponenten (engl. mixtures) sind global, nur Mischungsgewichte lokal

Bei M mixtures gilt:

bj(x) =M∑k=1

cjkN (x|µk,Kk) =M∑k=1

cjk gk(x)

Dekodierung eines semi-kontinuierlichen HMMs kann als zweistufiges Verfahren realisiert werden:

1) Mischungsdichtewerte berechnen (= “weiche Vektorquantisierung”)

2) Mischungsgewichte ≈ Ausgabewahrscheinlichkeiten eines diskreten HMMs

Aber: alle Mischungsanteile werden bei der Berechnung der Emissionswahrscheinlichkeit beruck-sichtigt!

22. April 2014 58

8.9 Praktischer Einsatz von HMMs

8.9.1 Modellierung akustischer Ereignisse

... i.d.R. Worter, aber auch Pausen, Hasitationen (“ah”, “hm”, ...), Gerausche (menschliche [z.B. At-men, Lippenschmatzen] und “technische”).

Allgemeine, voll-vernetzte Modellstruktur (d.h. Ubergange von jedem Zustand zu beliebigen Nach-folgern moglich = ergodisches HMM) fur zeitlich fortschreitende Prozesse wie Sprache nicht sinn-voll.

→ Modelltopologien werden geeignet eingeschrankt

Fur die Spracherkennung verwendete Modelltopologien von HMMs, nach [ST95, S. 128]

22. April 2014 59

Ganzwortmodelle

... “eigentlich” beste/ideale Moglichkeit der Modellierung

Probleme:

• Trainierbarkeit:

bei sinnvoller Wortschatzgroße i.d.R. nicht genugend Trainingsbeispiele fur alle Modelle

• Trainingsvokabular muss Testvokabular (d.h. Wortschatz der beim Einsatz des Systems erkanntwerden muss) vollstandig enthalten (keine im Training nicht vorkommenden Worter sind re-prasentierbar)!

• Riesige Parameteranzahl

⇒ Verwendung von Wortuntereinheiten

Wortuntereinheiten

Prinzip: Analyse durch Synthese

Hier: Wortmodelle werden aus kleineren Modellen zusammengebaut

z.B. λ(Wort) = λ(/v/) ◦ λ(/O/) ◦ λ(/r/) ◦ λ(/t/)

Wesentliche Gesichtspunkte

• Segmentierung (und Rekombination)

Problem: Variationen uber Segmentgrenzen hinweg konnen i.d.R. nicht erfaßt werden, d.h.Problemzonen enstehen an Segmentgrenzen

Abhilfe:

– moglichst wenige Segmentgrenzen (d.h. moglichst große Segmente bzw. Einheiten)

– Segmentgrenzen im “stationaren” Bereich

– implizite Berucksichtigung von Kontext

• Abstraktionsniveau (allgemein↔ speziell)

je allgemeiner, desto leichter tainierbar

je spezieller desto bessere Modellierungseigentschaften

⇒ Abwagung erforderlich!

• Definitionsgrundlage

Phonetik / Statistik, Signalverarbeitung / ?

22. April 2014 60

Kontextunabhangige Modelle

a) Lautmodelle aka “Phonemmodelle”

(Achtung: Bezeichnung Phonemmodell eigentlich falsch, da Phoneme bedeutungsunterschei-dende Einheiten; perzeptiv unterscheidbare = Phone/Laute)

z.B. 3 oder 6 Zustande; Topologie linear oder Bakis (fruher auch komplexere Topologien, z.B.in SPHINX)

Vorteile:

– kleines Inventar (ca. 50 im Deutschen [sprachenabhangig!])

– sehr allgemein, Konstruktion beliebiger Worter einfach moglich

Nachteil:

– artikulatorische Einflusse benachbarter Segmente werden nicht erfaßt!

b) Silbenmodelle

Vorteile:

– wenige Segmentgrenzen, daher Einflusse innerhalb der Silbe erfaßt

– ?? alle Worter konstruierbar?

Nachteile:

– je nach Sprache ggf. riesiges Inventar (ca. 20.000 im Englischen, bis zu 500.000 imDeutschen moglich, ≤ 1000 im Italienischen, nur ca. 100 im Japanischen [ST95,S. 174])

– siehe Phonemmodelle

c) Diphone

modelliert werden nicht zwei Laute, sonder der Ubergang zwischen zwei Lauten:

Graphik: Beispiel a:x@n

Vorteile:

– artikulatorische Verschleifungen zwischen Lauten werden modelliert

– noch handhabbares Inventar (|“Phonem”|2)

Nachteil:

– Annahme stationarer Lautzentren fragwurdig

Hinweis: Heute (noch) fur Sprachsynthese eingesetzt

d) Halbsilben

Vorteil gegenuber Silben: deutlich kleineres Inventar

Nachteil gegenuber Silben: mehr Grenzen

22. April 2014 61

e) Doppelhalbsilben

modelliert wird von Silbenkern zu Silbenkern (kein “Kurzen” Doppel→halb moglich :-)

Graphik: Beispiel Spra:xE6kEnUN

f) Fenone

Modelle fur Lautklassen, die durch eine Clusteranalyse des Merkmalsraums ermittelt werden(aus IBM Tangora).

Kontextabhangige Wortuntereinheiten

a) Wort(-klassen)-abhangige Lautmodelle

– fur alle Worter⇒ = Ganzwortmodellierung

– tatsachlich angewendet fur Wortklassen (z.B. funktionswortabhangige Lautmodelle vs.andere Modelle; Motivation: erwartete starkere Verschleifungen)

b) Triphone

... “beruhmteste” kontextabhangige Wortuntereinheiten

... modellieren einen Laut im Kontext des linken und rechten unmittelbaren Nachbarlauts

z.B. λ(/a:x@n/) = λ(/a:/x) ◦ λ(a:/x/@) ◦ ...(wobei: <Kontext>/<modellierter Laut>/<Kontext>)

Vorteile:

– Koartikulation kann durch kontextabhangige Modellierung berucksichtigt werden

– gute Rekombinierbarkeit

Nachteil:

– riesiges Modellinventar (|“Phonem”|3)⇒ Trainingsproblem!

c) Generalisierte Triphone

Ziel: Gerneralisierung liefert haufiger beobachtete, d.h trainierbare Einheiten

(Generalisierung = Abschwachung der Kontextrestriktion)

Verfahren:

– phonetisch: Lautkontext→ Lautklasse

– empirisch/statistisch: Clusteranalyse auf der Basis (vorlaufiger) Modellparameter (ei-nes Modells ohne Generalisierung)

– kombiniert: Steuerung der Clusterbildung durch phonetisch motivierte Entscheidungsbaume

22. April 2014 62

z.B. phonetische Generalisierung:

p/r/a:

Spr/r/a:x@

r/a/VokalPlosiv/r/a:

p/r/Plosiv/r/Vokal/r/a:

/r/Vokal Plosiv/r/

/r/ Monophon

generalisierteTriphone

Triphon

Vorteil: Auswahl beliebiger Modelle in der Generalisierungshierarchie moglich (aberauch notig!)

d) Polyphone

analog zu Triphonen, Lautkontext allerdings beliebig lang

z.B. Sp/r/a:x@ = Polyphon

Generalisierung durch (symbolische) Kurzung des Kontexts

Zusammenfassung: Wortuntereinheiten

• Generell Abwagung zwischen Modellierungsgenauigkeit (Spezifitat der Modelle) und Trainier-barkeit (bzw. Parameteranzahl) notwendig.

• Derzeit erfolgreichstes Verfahren: Kontextabhangige Lautmodelle (i.d.R. als [geeignet genera-lisierte] Triphone)

• Kontextabhangige Modellierung wird i.d.R. kombiniert mit

– Monophonen

– einzelnen Ganzwortmodellen und

– evtl. auch wortklassenabhangigen Modellen

22. April 2014 63

8.9.2 Verbundmodelle

Kombination und Verschaltung von HMMs in einfacher Weise wie bei endlichen Automaten moglich(Notwendig: Modelle haben “Ausgang” bzw. Endzustande, was in der Literatur ublicherweise nichtnotiert wird).

D.h. geg. z.B. Wortmodelle λ(w1), λ(w2), ...λ(wn)→ Außerungsmodell

• Anfangszustande sind alle Anfangszustande der λ(wi)

• Endzustande jedes λ(wi) werden mit jedem Anfangszustand der λ(wj) verbunden

⇒ zur einfacheren Reprasentation Verwendung von “Pseudoknoten” (d.h. Knoten ohne Emissio-nen, die nur zur Kantenbundelung dienen)

. .

.. .

. → n2 Kanten

22. April 2014 64

Effiziente Reprasentation z.B. als “Lexikonbaum” (von Wortuntereinheiten, hier: Monophonen) moglich

. . .

. . .

. . .

. . .

Abend

aber

ab

achte

ach

Wörter mit Präfix "ab"

/a:/ /b/ /6/

acht

/a/

/x//t/

/@/

/@/

/n/ /t/

/z/

/p/

• erhebliche Reduktion der Zustandsanzahl moglich (da speziell in Wortanfangen ⇒ deutlicheEffizienzsteigerung)

• zusatzliche Aufspaltung bei Verwendung von Wortuntereinheiten mit Rechtskontext erforder-lich

8.9.3 Suchverfahren

... zur Effizienzsteigerung oder zur “Verbesserung” (im Sinne von Reichhaltigkeit) der Erkennungs-ergebnisse

Beam-Search

Ziel: Viterbi-Matrix nur in kleinen relevanten Bereichen um den optimalen Pfad berechnen

Methode: Nicht alle Zustande i werden fur die Berechnung der δt(j) = maxi{...} betrachtet, son-dern nur eine Teilmenge aktiver Zustande At in Abhangigkeit von der derzeit optimalen Pfad-bewertung δ∗t .

Def.: Menge aktiver Zustande zum Zeitpunkt t:

At = {i|δt(i) ≥ B δ∗t } mit δ∗t = maxjδt(j) und 0 < B � 1

(mit beam-Breite B)

Achtung: Durch Einschrankung des Suchbereichs ist das Verfahren zwangslaufig suboptimal!

22. April 2014 65

Vorwarts-Ruckwartssuche

• Vorwarts-Suche mit vergrobertem akustisch-phonetischen Modell

• Dann Ruckwartssuche mit speziellerer/aufwendigerer Modellierung in dem durch den vorgan-gegangenen Suchschritt (Vorwarts-Suche) eingeschrankten Bereich

Analog: Mehrphasensuche (i.d.R. mit Sprachmodell↗)

n-best-Suche

Ziel: Neben optimaler Losung (im Sinne der Modellierung!) noch n− 1 weitere erzeugen als Alter-nativen fur die weitere Verarbeitung (z.B. Sprachverstehen)

Methoden:

• optimal: zu jedem Zeitpunkt n Vorgangerknoten speichern statt einem, aber: Aufwand!

• lattice-n-best: n Vorgangerknoten nur an Wortgrenzen

Problem: Rekombination innerhalb von Wortern loscht evtl. alternative Teilpfade

⇒ suboptimal

• word-dependent-n-best: wie lattice-n-best, aber Pfade werden bei unterschiedlichenVorgangerwortern erhalten

⇒ suboptimal

Wortgraphen

... im Prinzip kompakte Darstellung von n-best-Listen

Aber: Es werden logische Knooten gebildet, die evtl. Wortubergange in einem kleinen zeitlichenIntervall zusammenfassen:

w1

w2

w3

w3

w3

w1

w2

Problem: Bewertung der Kanten bei logisch zeitlich ausgedehnten Knoten.

22. April 2014 66

8.9.4 Evaluierung

• Berechnung der optimalen Wortfolge (Testwortfolge) [6= Keyword Spotting]

• “Vergleich” mit tatsachlicher Wortfolge (Referenzwortfolge)

⇒ Berechnung des Levenshtein-Abstands zwische Test- und Referenzwortfolge

= Bestimmung der minimalen Anzahl von Ersetzungen, Loschungen und Einfugungen (=Fehler) um Referenzwortfolge in Testwortfolge zu transformieren

z.B.:Referenz: Tand Tand ist das Gebilde von MenschenhandTest: Tand Tand ist Gebilde vom Mensch erfand

Worter = 7, Sub = 2, Del = 1, Ins = 1

Hinweis: Fehlklassifikation ggf. fragwurdig, da ohne Alignmentinformation!

Anerkannte Gutemaße

Wortfehlerrate (word error rate)

WER =Anzahl Fehler

Anzahl Referenzworterhier

4

7≈ 57%

Wortakkuratheit (word accuracy)

WA = 100%−WER =Anzahl Referenzworter− Anzahl Fehler

Anzahl Referenzworterhier

7− 4

7≈ 43%

Achtung: negative WA moglich!

Vorsicht bei allen anderen Gutemaßen!

8.9.5 Stichproben

... mindestens zwei unbedingt erforderlich: Trainings- und Test-Stichprobe

Immer: Test 6⊂ Training! ... oder Test ∩ Training = ∅

Anforderung: Reprasentativitat fur die Zielanwendung

z.B. in Bezug auf: Anzahl Sprecher, Geschlechter, Dialekte, Altersklassen, Sprechweisen, Wort-schatz, Aufnahmebedingungen (insbes. Hintergrundgerausche, akustische Verzerrungen), ...

[Anekdote: Kino-Auskunft in Frankreich: es rufen lauter Kinder an =:-[

22. April 2014 67

Beziehungen zwischen Test- und Trainingsstichprobencharakteristik beeinflussen stark bis entschei-dend die Ergebnisse:

• Trainingssprecher im Test −→ gut, aber no-no!

• Testvokabular ⊆ Trainingsvokabular −→ besser

• Testvokabular ⊃ / 6= Trainingsvokabular −→ schlechter

• gleiche Aufnahmebedingungen −→ gut

• unterschiedliche ... −→ schlecht bis kathastrophal!

⇒ je “gleicher” die Stichprobencharakteristik desto besser!

Typischer Verlauf der Erkennungsqualitat in Abhangigkeit vom Training:

Initialisierung

100%

Test != Training

(Traininig wird auswendig gelernt)zu viele Parameter

optimale Erkennungsleistung

Trainingsiterationen

WA

Test = Training

Achtung: Teststichprobe kann mittrainiert werden!

daher am besten: Kreuzvalidierungsstichprobe zusatzlich zu Training + Test (zum Parameteropti-mierung)

idealerweise: Teststichprobe nur genau einmal verwenden!

(kann sich niemand leisten!)

22. April 2014 68

Kapitel 9

Sprachmodellierung

d.h. Restriktion potentiell moglicher Wortfolgen z.B. mit

• formalen Grammatiken (kontextfrei, regular [Harpy])

⇒ gultige vs. ungultige (ganze!) Außerungen

• stochastische Grammatiken (formale Grammatiken + Wahrscheinlichkeiten fur Regeln)

⇒ wahrscheinliche↔ unwahrscheinliche vs. ungultige Außerungen

• “rein statistisch´´

⇒ wahrscheinlich↔ unwahrscheinlich

9.1 n-Gramm-Sprachmodelle

Basis: Faktorisierung von P (w) gemaß:

P (w) = P (w1, w2, . . . wT )

= P (w1)P (w2|w1) . . . P (wT |w1, . . . , wT−1)

=T∏i=1

P (wi| w1, . . . , wi−1︸︷︷︸Geschichte des Wortes wi

)

• Bei potentiell unbegrenzter Lange der “Geschichte” ist P (w) i. d. Praxis so nicht berechenbar!

• Vereinfachung durch Beschrankung der Geschichte auf n− 1 Vorgangerworter

P (w) ≈T∏t=1

P ( wt |wt−n+1, . . . , wt−1

︸︷︷︸nSymbole

)

22. April 2014 69

⇒ Man spricht dann von n-Gramm-Modellen (typisch: n = 2⇒ Bigramm, n = 3⇒ Trigramm)

z.B. Bi-Gramm-Modell:

P (w) ≈T∏i=1

P (wi|wi−1)

• P (wi| . . .) kann “einfach” bei Wortubergangen mit der akustischen Bewertung (des HMMs)verrechnet werden.

9.2 Bewertung

... (analog HMMs o.A.) Leistungsfahigkeit auf unbekannten Daten

Bewertungsmaß: Perplexitat (aus Generierungswahrscheinlichkeit abgeleitet)

P(w) =1

|w|√P (w)

=1

T√P (w1, w2, . . . , wT )

= P (w1, w2, . . . , wT )−1T

(= Kehrwert des geometrischen Mittels der einzelnen Symbolwahrscheinlichkeiten)

Herleitung aus der (Kreuz-)Entropie einer (formalen) Sprache:

H(p|q) = −∑i

pi︸︷︷︸data

log2 qi︸︷︷︸model

−→ −∑t

1

T︸︷︷︸empirical data

log2 P (wt|...)︸︷︷︸model

= − 1

Tlog2

∏t

P (wt|...)

P(w) = 2H(w|P (·|...)) = 2−1T

log2

∏t P (wt|...) = P (w1, w2, . . . , wT )−

1T

Interpretationsmoglichkeit:

• Informationsquelle generiert statistisch Symbole aus endlichem Vokabular V ⇒ Prozeßsoll moglichst genau vorhergesagt werden!

aber: nur statistische Voraussagen moglich

• “Schlimmster” Fall: Symbolerzeugung genugt einer Gleichverteilung uber V , d.h. P (wi) =1|V | unabhangig vom Kontext

⇒ P(w) = |V |• Bei anderer Verteilung (best. Worter wahrscheinlicher etc.) erhalt man immer eine gerin-

gere Perplexitat ρ < |V |⇒ Vorhersageproblem ist damit so schwierig wie bei einer “uninformierten” Quelle (per

Gleichverteilung agierend) mit Vokabularumfang |V ′| = ρ

Ziel der Sprachmodellierung: Moglichst geringe Perplexitat fur unbekannte Texte!

Faustformel in der Praxis (fur Erkennung mit HMMs/n-Gramm-Modellen):

22. April 2014 70

Die Wortfehlerrate reduziert sich proportional zur Quadratwurzel der Perplexitat!

9.3 Parameterschatzung

9.3.1 Prinzipielles Vorgehen

... anhand einer Lernstichprobe (in textueller Reprasentation) mit N Wortvorkommen.

• Bestimmung der Haufigkeiten (counts) c(. . .) fur alle (vorkommenden!) n-Gramme

⇒ Schatzwert P (w1, w2, . . . wn) =c(w1, w2, . . . wn)

N(= relative Haufigkeit)

• Bestimmung der bedingten Wahrscheinlichkeiten gemaß:

P (wn|w1, w2, . . . wn−1) =P (w1, w2, . . . . . . wn)

P (w1, w2, . . . wn−1)=c(w1, w2, . . . . . . wn)

c(w1, w2, . . . wn−1)

Problem: viele n-Gramme sind nicht beobachtet

⇒ “unseen events” mit c(. . . wn) = 0⇒ P (wn| . . .) = 0

⇒ P (. . . , w1, · · ·wn, . . . ) = 0 fur alle Wortfolgen die nicht-beobachtetes n-Gramm enthalten!

Beachte: Dies ist nicht die Ausnahme, sondern die Regel!

d.h. die die Mehrzahl der n-Gramm-Zahlungen in konkreten Anwendungen sind Null!

aber: Es muß davon ausgegangen werden, daß dies nur auf begrenztes Trainingsmaterial zuruck-zufuhren ist!

d.h. Schatzwert fur P (wn| . . .) unzuverlassig, da keine Trainingsbeispiele!

⇒ Glattung der n-Gramm-Wahrscheinlichkeiten erforderlich

(großtes Problem bei Verwendung von n-Gramm-Modellen!)

9.3.2 Robuste Parameterschatzung

Ziel: Naherungsweise Ermittlung von Schatzwerten fur Wahrscheinlichkeiten nicht-beobachteter Er-eignisse

Vorgehen:

1. Modifikation (i.d.R. Reduktion) der n-Gramm-Auszahlungen c(. . .) und Gewinnung von“Wahrscheinlichkeitsmasse” fur unseen events

22. April 2014 71

Man erhalt eine reduzierte Haufigkeitsverteilung:

f ∗(z|y) =c∗(yz)

c(y)<c(yz)

c(y)

(d.h. Modifikation des Schatzverfahrens)

2. Umverteilung der Nullwahrscheinlichkeit auf unseen events (i.d.R. mit gleicher Geschich-te y) gemaß einer allgemeineren Verteilung

Umverteilung von Wahrscheinlichkeitsmasse

Primitive (Intuitiv naheliegende) Moglichkeit:

• Alle zu Null geschatzten Wahrscheinlichkeiten auf positiven Wert anheben (z.B. durch Additionvon 1 zu allen Haufigkeiten)

⇒ adding one

Aber: Liefert deutlich schlechtere Ergebnisse als im folgenden vorgestellte Methoden (Wahrschein-lichkeit seltener Ereignisse wird systematisch uberschatzt)!

Discounting

Prinzip: Wahrscheinlichkeitsmasse wird durch reduktion der empirischen Haufigkeiten gewonnen(daruch keine Veranderung der Gesamtwahrscheinlichkeitsmasse!)

⇒ discounting

f ∗(z|y) =c∗(yz)

c(y ·) =c(yz)− β(yz)

c(y ·) ∀yz, c(yz) > β(yz)

Man erhalt als “Manovriermasse” die sogenannte Nullwahrscheinlichkeit (in Abhangigkeit vom Kon-text y:

λ(y) =

∑yz:c(yz)>0

min{β(yz), c(yz)}

c(y ·)

Achtung: Spezialfall, wenn 0 < c(yz) ≤ β(yz)!

Moglichkeiten zur Wahl/Festlegung von β(yz):

Linear Discounting: β(...) ist proportional zur empirischen Haufigkeit c(...):

⇒ β(yz) = α c(yz)

Veranderte relative Haufigkeiten ergeben sich dann gemaß:

f ∗(z|y) =(1− α)c(yz)

c(y ·) = (1− α)f(z|y) ∀yz, c(yz) > 0 und 0 < α < 1

22. April 2014 72

Gute Wahl fur α: relative Haufigkeit nur einmal beobachteter Ereignisse:

α =d1(· ·)c(· ·) =

d1

c

Nachteil: Zahlungen haufiger Ereignisse werden am starksten verandert!

Absolute Discounting: konstantes β(...) unabhangig von counts:

f ∗(z|y) =c∗(yz)

c(y ·) =c(yz)− βc(y ·) = ∀yz, c(yz) > β

Nullwahrscheinlichkeit ergibt sich zu:

λ(y) =

∑yz:c(yz)>0

β

c(y ·) = βd1+(y ·)c(y ·)

Hinweis: Wahl von β ublicherweise β ≤ 1 (β = 1 liefert gute Ergebnisse [= shift one])

Einbeziehung allgemeinerer Verteilungen

Gewinnung von Wahrscheinlichkeitsmasse nicht ausreichted fur befriedigende Schatzwerte

⇒ Umverteilung der Nullwahrscheinlichkeit erfordert zusatzliches Wissens!

⇒ allgemeinere Verteilung

Interpolation

Prinzip: Linearkombination aus spezieller und allgemeinerer Verteilung

P (z|y) = (1− α) f(z|y) + α q(z|y) 0 ≤ α ≤ 1

Verbreitete Wahl der allgemeineren Verteilung: (n − 1)-Gramm-Verteilung (entsteht durch Kurzungder Kontextrestriktion)

q(z|y) = q(z|y1, y2, . . . yn−1)← P (z|y2, . . . yn−1) = P (z|y)

z.B. fur Tri- bzw. Bi-Gramm-Modelle:

q(z|xy) ← P (z|y)

q(z|y) ← P (z)

Naheliegende Wahl des Interpolationsgewichts: Nullwahrscheinlichkeit

P (z|y) =

f ∗(z|y) + λ(y)q(z|y) c∗(yz) > 0

λ(y)q(z|y) c∗(yz) = 0

22. April 2014 73

Backing-Off

Prinzip: Allgemeinere Verteilung nur bei verschwindenden Schatzwerten verwenden

P (z|y) =

f ∗(z|y) c∗(yz) > 0

λ(y)Kyq(z|y) c∗(yz) = 0

Hinweis: Skalierungsfaktor Ky notwendig fur Normierungsbedingung∑

z P (z|y) = 1

Problem: Auch allgemeinere Verteilungen erfordern robuste Schatzung

⇒ Prinzip rekursiv anwenden (auch bei Interpolation)!

z.B. Back-off-Modell fur Trigramm:

P (z|xy) =

f ∗(z|xy)

λ(xy)Kxy

f ∗(z|y)

λ(y)Ky

f ∗(z)

λ(·)K· 1|V |

c∗(xyz) > 0

c∗(xyz) = 0 ∧ c∗(yz) > 0

c∗(yz) = 0 ∧ c∗(z) > 0

c∗(z) = 0

Genereller Vorteil: Da f ∗(z|y) 6= 0 nur fur gesehene n-Gramme mussen << |V |n Werte gespei-chert werden!

9.3.3 Optimierung verallgemeinerter Verteilungen

Bisher: Allgemeinere Verteilung entsteht durch Kurzung des Kontexts

aber: Festlegung ist heuristisch, nicht notwendig optimal!

Beispiel:

• Best. Wort z ist in geg. Stichprobe sehr haufig, ...

• ... tritt aber nur in einem best. Kontext y auf

(z.B. “York” im Kontext “New”, “Grußen” nach “Mit freundlichen”)

• Wenn z in anderen Kontexten y′ nicht beobachtet wurde:

⇒ allg. Verteilung q(z|y′) dominiert Schatzwert fur P (z|y′) (bei backing-off und Interpolation)

• Fur q(z|y′)← P (z) ist P (z|y′) proportional zu c(z)

⇒ relativ hohe Wahrscheinlichkeit fur z in Kontext, in dem Wort nie beobachtet wurde!

22. April 2014 74

Plausibler: Kleine Wahrscheinlichkeit, da z nur in einem Kontext haufig!

Losung nach Kneser & Ney [Kne95]: Analytische Bestimmung (d.h. optimale) der allgemeinerenVerteilung q(·) bei der Verwendung von backing-off nach 2 moglichen Kriterien:

• Randverteilung

(n-1)-Gramm-Verteilung P (z|y) ergibt sich als Randverteilung von P (y, z|y)

Man erhalt:q(z|y) =

d1+(·yz)

d1+(·y·) =d1+(·yz)∑

z′d1+(·yz′)

Losung betrachtet nur Anzahl der Kontexte, in denen ein Wort beobachtet wurde und nicht mehrdessen Haufigkeit in diesen Kontexten.

• Leave-One-Out

Prinzip des leave-one-out: Parameterschatzung mit Hilfe von Kreuzvalidierung, die ein Maß furdie Generalisierungsfahigkeit eines Modells liefert.

Man erhalt:q(z|y) =

d1(·yz)

d1(·y·) =d1(·yz)∑

z′d1(·yz′)

Losung kann als relative Haufigkeiten interpretiert werden, bei denen nur singletons (d.h. nurgenau einmal beobachtete Ereignisse) betrachtet werden.

(Plausibel, da Haufigkeit der singletons gute Schatzung fur die Haufigkeit nicht beobachteterEreignisse liefert)

9.3.4 Reprasentation von n-Gramm-Modellen

Bereits Speicherung nur von Parametern beobachteter Ereignisse (zzgl. Nullwahrscheinlichkeit) er-gibt deutlich effizientere Reprasentation (z.B. als Tabellen).

Prafixbaum zur Speicherung von n-Gramm-Parametern am Beispiel eines Tri-Gramm-Modells

22. April 2014 75

y⊥

z

y

z

x

z

x

λ(x)Kx

f ∗(x)

λ(xy)Kxy

f ∗(y|x)

f ∗(z|xy)

f ∗(z)

λ(yz)Kyz

f ∗(z|y)λ(y)Ky

λ(z)Kz

f ∗(y)

Problem: Durch via backing off oder Interpolation rekursiv definierte Modelle erfordern Mehrfach-zugriffe!

Mogliche Zugriffstypen fur n-Gramm-Modellparameter am Beispiel eines Tri-Gramm-Modells mitbacking off :

n-gram hit :Es soll die Bewertung eines beobachteten Ereignisses xyz bestimmt werden, d.h. c∗(xyz) > 0.

P (z|xy)← f ∗(z|xy)

n-gram miss (einfach):Das Ereignis xyz wurde nicht beobachtet, d.h. c∗(xyz) = 0, aber es existieren andere n-Gramme mit der Geschichte yz, d.h. c(yz) > 0.

P (z|xy) 6← f ∗(·|xy)⇒ P (z|xy)← λ(xy)KxyP (z|y)

history miss (einfach):Die Geschichte xy eines n-Gramms existiert nicht im vorliegenden Modell, sondern nur derenSuffix y.

P (z|xy) 6← f ∗(·|x·)⇒ P (z|xy)← P (z|y)

Kombinierter Suffix-Prafix-Baum zur Speicherung von n-Gramm-Parametern am Beispiel eines Tri-Gramm-Modells.

22. April 2014 76

z

z

z f ∗(z)

f ∗(z|y)

λ(y)Ky

λ(xy)Kxy

f ∗(z|xy)

y

x

⊥

22. April 2014 77

Kapitel 10

Gesamtsysteme zur automatischenSpracherkennung

10.1 Prinzipieller Systemaufbau

... fur sogenannte one-pass decoder, d.h. Systeme, die in einem Verarbeitungsdurchlauf die Segmen-tierung erzeugen.

Merkmals−extraktion

Codebuch−auswertung

Integrierte Pfadsuche

Sprach−modell−entwurf

HMM−Training

Vektor−

sierungquanti− Linguistisches

Wissen

psycho−akustischesWissen

heuristischeMethoden

besteWort−kette

�� S � NP VPNP � N

Aufbau des zeitsynchronen ESMERALDA-Erkenners

Hinweis: Bei Systemen, die im Batch-Betrieb arbeiten konnen und ggf. auch bei manchen on-lineSystemem wir die Segmentierung haufig in mehreren Dekodierungsdurchlaufen erzeugt.

22. April 2014 78

10.2 Integrierte Suche

... d.h. unter Verwendung von HMMs und n-Gramm-Modellen gemaß:

w = argmaxw

P (w)P (X|w)

Hinweis: In der Praxis ist eine direkte Verrechnung so nicht ausreichend. Bewertungen des akusti-schen Modells P (X|w) und des Sprachmodells P (w) mussen gewichtet verrechnet werden

P (w)ρP (X|w)

mit linguistic matching factor ρ ≈ 3− 7.

10.2.1 HMM-Netzwerke��

��

��

��

��

�

�

�

HMM-Netzwerk bei trivialem Lexikon {a, b, c} und Verwendung eines Bi-Gramm-Sprachmodells.

��

� ��

� ��

� ��

� ��

� ��

��

��

��

�

�

��

��

��

22. April 2014 79

HMM-Netzwerk bei trivialem Lexikon {a, b, c} und Verwendung eines Tri-Gramm-Sprachmodells.Pro Wortmodell y existieren Kopien [x]y zur Kodierung der notwendigen Kontextrestriktionen.

10.2.2 Mehrphasensuche

... ggf. zur Anwendung von Sprachmodellen mit langerer Kontextrestriktion erst in nachfolgendenSuchphasen.

Problem: Integrierte Suche mit Sprachmodellen hoherer Ordnung aufwendig!

Losung: Verwendung verschiedener, aufeinanderfolgender “Suchphasen” mit steigender Modell-komplexitat

Vorgehen:

1. HMM-Dekodierung (z.B. mit Bi-Gramm), liefert alternative Losungen (i.d.R. n-best)

2. Auswertung der n-Gramm-Bewertung (z.B. Tri-Gramm) zur Neubewertung (engl. resco-ring)

⇒ existierende Losungen werden anders sortiert!

3. fur weitere Steigerung der Modellkomplexitat: weiter mit 1.

Folie(n): Beispiel zur Mehrphasensuche

10.2.3 Suchraumkopien

(wortbasiert) ... bei Verwendung eines Lexikonbaums

�

��

�

�

�

...

��

� ��

��

� ��

� � ��

��

��

��

22. April 2014 80

Beispielhafte Darstellung des Gesamtsuchraums bei Verwendung von Baumkopien und einem Tri-Gramm-Modell mit fiktivem Lexikon L = {a, b, c}.

10.3 Das Philips Forschungssystem

10.3.1 Merkmalsextraktion

• statische Merkmale

• dynamische Merkmale

• Lineare Diskriminanzanalyse (LDA)

10.3.2 Akustisch-phonetische Modellierung

• HMM-Struktur: Bakis, 3×2 Zustande

• Emissionsmodellierung: Mischung von Laplace-Dichten

10.3.3 Sprachmodellierung

“nichtlineare Interpolation” = absolute disctounting + Interpolation

10.3.4 Suche

• Lexikonorganisation: Prafixbaum

• Lexikonbaum und Bi-Gramm-Sprachmodell: Baumkopien

• Sprachmodell-Lookahead

22. April 2014 81

Kapitel 11

Ausblick: Handschrifterkennung

... als methodisch prinzipiell vergleichbare Problemstellung

22. April 2014 82

Literaturverzeichnis

[Bog63] B. Bogert, M. Healy, J. Tukey: The Quefrency Analysis of Time Series for Echoes, inM. Rosenblatt (Hrsg.): Proc. Symp. on Time Series Analysis, Wiley, New York, 1963, S.209–243.

[Buß83] H. Bußmann: Lexikon der Sprachwissenschaft, Kroner, Stuttgart, 1983.

[Hoh05] S. Hohenner: Automatische Spracherkennung fur agierende Systeme, Dissertation, Univer-sitat Bielefeld, Technische Fakultat, 2005.

[Hua90] X. Huang, Y. Ariki, M. Jack: Hidden Markov Models for Speech Recognition, Nr. 7 inInformation Technology Series, Edinburgh University Press, Edinburgh, 1990.

[Kne95] R. Kneser, H. Ney: Improved Backing-Off for M-Gram Language Modeling, in Proc. Int.Conf. on Acoustics, Speech, and Signal Processing, Bd. 1, Adelaide, 1995, S. 181–184.

[Koh77] K. Kohler: Einfuhrung in die Phonetik des Deutschen, Erich Schmidt Verlag, Berlin, 1977.

[Kum05] F. Kummert: Vorlesung Musterklassifikation, Skriptum, 2005.

[Lip97] R. P. Lippmann: Speech Recognition by Machines and Humans, Speech Communication,Bd. 22, Nr. 1, 1997, S. 1–15.

[Nie03] H. Niemann: Klassifikation von Mustern, 2003.

[ST95] E. G. Schukat-Talamazzini: Automatische Spracherkennung, Vieweg, Wiesbaden, 1995.

[Zwi82] E. Zwicker: Psychoakustik, Springer, Berlin, Heidelberg, New York, 1982.

22. April 2014 83

Abbildung 1: Stellung der Spracherkennung

22. April 2014 84

Kapitel'(Einf ,uhrung

derartrigoroseEntkopplungdersogenannten 0akustischen3vonder 0linguistischen3Ver6

arbeitung8dieseterminologischwederpr ;azisenocheinwandfreieCharakterisierungent6

stammtdemklassischenJargonderSpracherkennungsforschungundistganzoAensichtlich

vonebenjenemoCgCDekompositionsgedankengetragen8wirdvondenempirischenDaten

psycholinguistischerUntersuchungeninkeinerWeisegest ;utztHFraJKLundstelltdemzufolge

ganzsichernichtdieeinzigeerfolgversprechendetechnischeRealisierungsalternativedarC

!"EntwurfsparameterspracherkennenderSysteme

DerthematischeGegenstanddieserArbeitistdieautomatischeSpracherkennungPdChCdie

TransformationeineralsZeitsignalvorliegendensprachlichen; AuSerungunbekanntenInhalts

indieRechtschriftformCAnhanddertypischenEntwurfsparametereinesSpracherkennungs6

modulsPwelchediepraktischeN ;utzlichkeitdesSystemsPaberauchdenSchwierigkeitsgrad

derdamitaufgeworfenenFragestellungenentscheidendmitbestimmenPsollennunmehreini6

geGrundbegriAedieserTechnologieerl ;autertwerdenCWirunterscheidengrobdreiGruppen

vonEinVuSfaktorenWdieDarbietungsformPdenSprachumfangunddenGradderSprecher2

abh 3angigkeitC ZurDarbietungsformz ;ahlenwirnebenderSprachaufnahmequalit ;atPdieetwadurchdie

WahlderverwendetenAufnahmeapparaturYzCBCdas ;oAentlicheTelefonnetzoderaberein

HiFi6Mikrofon]unddieAbschirmungsbedingungengegen ;uberSt ;orger ;auschengepr ;agtistP

ganzwesentlichdieUnterscheidungPobderSprecherseineEingabe5ie6end ;auSertoderaber

angehaltenistPkurzePausenintervallezwischenaufeinanderfolgendeW ;ortereinzuschiebenP

umdasGesch ;aftderautomatischenErkennungzuerleichternCImerstenFallesprechenwir

vonVerbundworterkennungPimzweitenFalldagegenvonEinzelworterkennungYoderauch

Isoliertworterkennung]CHandeltessichumVieSendgesprocheneS ;atzeodergarmehrs ;atzi6

geTextpassagenPsow ;ahlenwirauchdieBezeichnungkontinuierlicheSpracherkennungzur

AbgrenzungvondereinfacherenErkennungpausenfreige ;auSerterZiAern6oderKommando6

wortfolgenC Alarmstopschalter Men .u0Steuerung3J5N7 Zahlen5Zi:ern Ger .atebedienung Auskunftsdialogca@ABBBBB

Alltagssprache Diktiermaschine DeutschohneFremdw .orterF G FBHx GBJGBB KBBJGBBB LBBBJGBBBB GBBBBJKBBBB

Abbildung()* Wortschatzumfangpotentiel3

lerSpracherkennungsanwen3

dungenA

bbild

ung

2:W

orts

chat

zum

fang

mog

liche

rSpr

ache

rken

nung

sanw

endu

ngen

(aus

[ST

95,S

.6])

22. April 2014 85

Abbildung 3: Veranschaulichung der Schwierigkeiten bei Spracherkennung anhand eines Beispielsaus der (Hand-)Schrifterkennung (aus [ST95, S. 9])

22. April 2014 86

Kor

pus

Bes

chre

ibun

gVo

kabu

lar

Fehl

erra

teFe

hler

rate

Men

sch

Mas

chin

eB

uchs

tabe

nge

lese

nes

Alp

habe

t26

1.6%

5%R

esou

rce

Man

agem

ent

gele

sene

Satz

e1,

000

0.1%

3.6%

Wal

lStr

eet

5.00

0Jo

urna

lge

lese

neSa

tze

(unb

egre

nzt)

0.9%

7.2%

Nor

thA

mer

ican

65.0

00B

usin

ess

New

sge

lese

neSa

tze

(unb

egre

nzt)

0.4%

6.6%

spon

tane

67%

Switc

hboa

rdTe

leph

on-

2.00

04%

↓G

espr

ache

(unb

egre

nzt)

40%

Abb

ildun

g4:

Ver

glei

chm

asch

inel

leru

ndm

ensc

hlic

herS

prac

herk

ennu

ngsl

eist

ung,

nach

Lip

pman

n,19

97:[

Lip

97]

22. April 2014 87

Abb

ildun

g5:

Sche

mat

isch

erA

ufba

uei

nes

Mus

tere

rken

nung

ssys

tem

s

22. April 2014 88

0

10

20

30

40

50

60

70

80

90

0 2000 4000 6000

30

40

50

60

70

80

90

100

110

0 2000 4000 6000

˙10

0

10

20

30

40

50

60

70

80

0 2000 4000 6000

˙15000

˙10000

˙5000

0

5000

10000

15000

20000

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

[S] [p] [R] [a:] [x] [E6] [k] [E] [n] [U] [N]

[S] [a:] [n]

Abbildung 6: Signal des Wortes “Spracherkennung” sowie Frequenzdarstellung einzelner Laute

22. April 2014 89

Abbildung 7: Ubersicht uber die Artikulationsorgane des Menschen (aus [Koh77, S. ?])

22. April 2014 90

Abbildung 8: Artikulationsorgane im Ansatzrohr (aus [Koh77, S. ?])

22. April 2014 91

Abb

ildun

g9:

Kon

sona

nten

klas

sifik

atio

n(a

us[K

oh77

,S.?

],vg

l.au

ch[B

uß83

,S.X

XX

])

22. April 2014 92

Abbildung 10: Vokaltrapez im Deutschen (aus [Koh77, S. ?])

22. April 2014 93

Abb

ildun

g11

:A

ufba

ude

sm

ensc

hlic

hen

Ohr

s(“

Sche

mat

isch

eD

arst

ellu

ngvo

nA

usse

n-,M

ittel

-und

Inne

nohr

”,au

s[Z

wi8

2,S.

22])

22. April 2014 94

Abb

ildun

g12

:Sc

hem

atis

cher

Auf

bau

des

Inne

nohr

s,de

rsog

.Sch

neck

e(a

us[Z

wi8

2,S.

2?])

22. April 2014 95

Abb

ildun

g13

:Fr

eque

nz-O

rts-

Tran

sfor

mat

ion

inde

rSch

neck

e(a

us[Z

wi8

2,S.

25])

22. April 2014 96

Abb

ildun

g14

:C

orti’

sche

sO

rgan

(aus

[Zw

i82,

S.2?

])

22. April 2014 97

Abb

ildun

g15

:H

orfla

che,

d.h.

Ber

eich

zwis

chen

Ruh

ehor

schw

elle

und

Schm

erzg

renz

e(a

us[Z

wi8

2,S.

34])

22. April 2014 98

Abb

ildun

g16

:M

ithor

schw

elleLT

von

Test

tone

nve

rdec

ktdu

rch

Wei

ßesR

ausc

hen

mit

vers

chie

dene

mD

icht

epeg

ell W

Ral

sFun

ktio

nTe

stto

nfre

quen

zf T

.(au

s[Z

wi8

2,S.

38])

22. April 2014 99

Abb

ildun

g17

:U

bers

icht

uber

Mas

kier

ungs

effe

kte

22. April 2014 100

Abb

ildun

g18

:G

raph

isch

eD

arst

ellu

ngde

sE

ffek

tes

derV

orw

arts

mas

kier

ung

(aus

[Hoh

05,S

.44]

)

22. April 2014 101

Abb

ildun

g19

:B

estim

mun

gde

rFre

quen

zgru

ppen

brei

tean

derR

uheh

orsc

hwel

le(a

us[Z

wi8

2,S.

47])

22. April 2014 102

Abb

ildun

g20

:B

reite

∆f G

derF

requ

enzg

rupp

eal

sFu

nkio

nde

rFre

quen

zf

(aus

[Zw

i82,

S.51

]).

22. April 2014 103

Abb

ildun

g21

:A

nzah

lde

rbi

szu

rFr

eque

nzf

anei

nand

erre

ihba

ren

Freq

uenz

grup

pen

ergi

btde

nZ

usam

men

hang

zwis

chen

der

Tonh

eitz

und

der

Freq

uenzf

(aus

[Zw

i82,

S.53

]).

22. April 2014 104

Abb

ildun

g22

:K

urve

ngl

eich

erL

auts

tark

efu

rdas

eben

eSc

hallf

eld:

Lau

tsta

rkep

egelL

indb

sow

ieL

auth

eitL

Nin

phon

(aus

[Zw

i82,

S.74

]).

22. April 2014 105

Abb

ildun

g23

:Z

usam

men

hang

zwis

chen

derF

requ

enzf 1

und

derF

requ

enzf 1/2,d

iedi

eha

lbe

Tonh

ohen

empfi

ndun

ghe

rvor

ruft

(aus

[Zw

i82,

S.58

])

22. April 2014 106

Abb

ildun

g24

:V

erha

ltnis

tonh

oheHv

inm

elal

sFu

nktio

nde

rFre

quen

zf

(aus

[Zw

i82,

S.60

])

22. April 2014 107

Abb

ildun

g25

:Sk

alen

derT

onho

hetr

ansf

orm

iert

aufd

ieL

ange

derB

asila

rmem

bran

(aus

[Zw

i82,

S.65

])

22. April 2014 108

Abbildung 26: Muster X und Y und ihr Abstandsmaß: (c) ohne Langenanpassung, (d) mit linearerNormierung und (e) mit nicht-linearer Langenanpassung (aus [Hua90, S. 72])

22. April 2014 109

Abb

ildun

g27

:L

ogar

ithm

iert

esL

eist

ungs

dich

tesp

ektr

umlo

g|Fµ|u

ndC

epst

ralk

oeffi

zien

ten

eine

svo

kalis

chen

Spra

chse

gmen

ts,n

ach

[ST

95,S

.59]

;A

chtu

ng:C

epts

tral

erPe

aken

tspi

chtG

rund

freq

uenz

und

Har

mon

isch

en

22. April 2014 110

Abb

ildun

g28

:G

elif

tert

eL

eist

ungs

dich

tesp

ektr

umde

sSp

rach

segm

ents

aus

Abb

.27,

nach

[ST

95,S

.60]

22. April 2014 111

Abbildung 29: Mel-Filterbank mit Dreiecks-Bandpaß-Filtern fur 25 Frequenzgruppen, nach [ST95,S. 55]

22. April 2014 112

0.1

0.2

0.7

0.2

0.3

0.5

0.4

0.3

0.3

fal-

lend

stei

-ge

nd

glei

ch

P(-

-) =

0.1

5P

(-)

= 0.

4P

(0) =

0.3

P(+

) = 0

.1P

(++)

= 0

.05

P(-

-) =

0.0

1P

(-)

= 0.

1P

(0) =

0.3

P(+

) = 0

.4P

(++)

= 0

.19

P(-

-) =

0.0

5P

(-)

= 0.

2P

(0) =

0.5

P(+

) = 0

.2P

(++)

= 0

.05

π __st

eige

nd: 0

.2gl

eich

: 0.5

falle

nd: 0

.3

=(

(

S : 1

S : 2

S : 3

Abbildung 30: Modellierung des Kursverhaltens an der Borse als HMM, nach [Kum05]

22. April 2014 113

Man definiert:

γt(i) = P (St = i|O, λ) =αt(i)βt(i)

P (O|λ)

γt(i, j) = P (St = i, St+1 = j|O, λ) =αt(i) aij bj(Ot+1) βt+1(j)

P (O|λ)

ξt(j, k) = P (St = j,Mt = k|O, λ) =

N∑i=1

αt−1(i) aij cjk gjk(Ot) βt(j)

P (O|λ)

1. InitialisierungWahle ein geeignetes Startmodell λ = (π,A,B) mit Initialwerten πi fur Start- bzw.aij fur Ubergangswahrscheinlichkeiten sowie Gewichten cjk und Basisdichten gjk(x) =N (x|µjk,Kjk) zur Definition der Emissionsdichten bjk(x) =

∑k

cjk gjk(x).

2. OptimierungBerechne aktualisierte Schatzwerte λ = (π, A, B) der Modellparameter:

aij =

T−1∑t=1

γt(i, j)

T−1∑t=1

γt(i)πi = γ1(i)

cjk =

T∑t=1

ξt(j, k)

T∑t=1

γt(j)

µjk =

T∑t=1

ξt(j, k)xt

T∑t=1

ξt(j, k)Kjk =

T∑t=1

ξt(j, k) (xt − µjk)(xt − µjk)T

T∑t=1

ξt(j, k)

3. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P (O|λ) gegenuber λ deutlich verbes-sert wurde

setze λ← λ und weiter mit Schritt 2

sonst Ende!

Abbildung 31: Baum-Welch-Algorithmus zur Parameterschatzung fur kontinuierliche HMMs.

22. April 2014 114

Man definiert:

χt(i) =

1 falls s∗t = i und s∗ = argmaxs

P (s,O|λ)

0 sonst

1. InitialisierungWahle ein geeignetes Startmodell λ = (π,A,B) mit Initialwerten πi fur Start- bzw. aij furUbergangswahrscheinlichkeiten sowie diskreten Emissionswahrscheinlichkeiten bj(ok).

2. SegmentierungBerechne mit Hilfe des Viterbi-Algorithmus die optimale Zustandsfolge s∗ zur Erzeugungder DatenO bei geg. Modell λ.

3. OptimierungBerechne aktualisierte Schatzwerte λ = (π, A, B) fur alle Modellparameter (außer π):

aij =

T−1∑t=1

χt(i)χt+1(j)

T−1∑t=1

χt(i)

bj(ok) =

∑t :Ot=ok

χt(j)

T∑t=1

χt(j)

4. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P ∗(O|λ) gegenuber λ deutlich ver-bessert wurde


sonst Ende!

Abbildung 32: Viterbi-Training zur Parameterschatzung fur diskrete HMMs.

22. April 2014 115

Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte Co-debuchgroße N sowie eine untere Schranke ∆εmin fur die relative Verbesserung des Quantisie-rungsfehlers

1. Initialisierungwahle ein geeignetes initiales Codebuch Y 0 der Große N(z.B. durch zufallige Auswahl von N Vektoren y0

i aus ω)

initialisiere Interationszahler m← 0

2. Optimierung der Partitionbestimme fur das aktuelle Codebuch Y m die optimale Partition durch Klassifikation allerVektoren xt mit t = 1 . . . T in Zellen

Rmi = {x|ymi = argmin

y∈Ymd(x,y)}

bestimme dabei den mittleren Quantisierungsfehler

ε(Y m) = 1T

T∑t=1

miny∈Ym

d(xt,y)

3. Aktualisierung des Codebuchsfur alle Zellen Rm

i mit i = 1 . . . N berechne neue Reprasentanten

ym+1i = cent(Rm

i )

diese bilden das neue Codebuch Y m+1 = {ym+1i |1 ≤ i ≤ N}

4. Terminierungberechne die relative Abnahme des Quantisierungsfehlers seit der letzten Iteration

∆εm =ε(Y m−1)− ε(Y m)

ε(Y m)

falls die relative Abnahme groß genug war, d.h. ∆εm > ∆εmin

setze m← m+ 1 und weiter mit Schritt 2

sonst Ende!

Abbildung 33: Lloyd-Algorithmus zum Design von Vektorquantisierern

22. April 2014 116

Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte Co-debuchgroße N sowie eine untere Schranke ∆εmin fur die relative Verbesserung des Quantisie-rungsfehlers

1. Initialisierungwahle ein geeignetes initiales Codebuch Y 0 der Große N0

(z.B. trivial als Y 0 = {cent(ω)} mit N0 = 1)


2. Splittingerzeuge aus dem aktuellen Codebuch Y m ein neues Codebuchmit Nm+1 = 2Nm Reprasentanten

Y m+1 = {y1 + ε,y1 − ε,y2 + ε,y2 − ε, . . .yNm + ε,yNm − ε}mit einem geeigneten, betragsmaßig kleinen “Storvektor” ε

3. Optimierungoptimiere das neu erzeugte Codebuch Y m+1 mit dem Lloyd-Algorithmus

4. Terminierungfalls die gewunschte Klassenanzahl noch nicht erreicht ist


sonst Ende!

Abbildung 34: LBG-Algorithmus zum Design von Vektorquantisierern

22. April 2014 117

Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren und die gewunschteCodebuchgroße N

1. Initialisierungwahle als initiales Codebuch Y 0 die ersten N Vektoren der Stichprobe

Y 0 = {x1,x2, . . .xN}initialisiere Interationszahler m← 0

2. Iterationfur alle noch nicht bearbeiteten Vektoren xt, N < t ≤ T

(a) Klassifikationbestimme fur xt den optimalen Reproduktionsvektor ymi im aktuellen Codebuch Y m

ymi = argminy∈Ym

d(xt,y)

(b) Aktualisierung der Partitionbestimme die neue Partition durch Aktualisierung der Zelle des ermittelten Code-buchvektors

Rm+1j =

{Rmj ∪ {xt} falls j = i

Rmj sonst

(c) Aktualisierung des Codebuchsbestimme ein neues Codebuch durch Aktualisierung des Reprasentanten der im vor-angegangenen Schritt veranderten Zelle

ym+1j =

{cent(Rm+1

j ) falls j = iymj sonst

Abbildung 35: k-means-Algorithmus zum Design von Vektorquantisierern

22. April 2014 118

Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte AnzahlN von Basisverteilungsdichten sowie eine untere Schranke ∆Lmin fur die relative Verbesserungder Likelihood-Funktion

1. Initialisierungwahle initiale Parameter θ0 = (c0

i ,µ0i ,K

0i ) des Mischverteilungsmodells


2. Schatzungberechne fur jeden Vektor x ∈ ω mit dem aktuellen Modell θm Schatzwerte fur die a-posteriori Wahrscheinlichkeiten der Musterklassen

P (ωi|x, θm) =cmi N (x|µmi ,Km

i )∑j

cmj N (x|µmj ,Kmj )

berechne fur das aktuelle Modell θm die Likelihood der Daten

L(θm|ω) = ln p(x1,x2, . . . ,xT |θm) =∑x∈ω

ln∑j

cmj N (x|µmj ,Kmj )

3. Maximierungberechne aktualisierte Parameter θm+1 = (cm+1

i ,µm+1i ,Km+1

i )

cm+1i =

∑x∈ω

P (ωi|x, θm)

|ω|

µm+1i =

∑x∈ω

P (ωi|x, θm)x∑x∈ω

P (ωi|x, θm)

Km+1i =

∑x∈ω

P (ωi|x, θm) (x− µm+1i )(x− µm+1

i )T∑x∈ω

P (ωi|x, θm)

4. Terminierungberechne die relative Anderung der Likelihood seit der letzten Iteration

∆Lm =L(θm|ω)− L(θm−1|ω)

L(θm|ω)

falls die relative Verbesserung groß genug war, d.h. ∆Lm > ∆Lmin


sonst Ende!

Abbildung 36: EM-Algorithmus zur Schatzung von Mischverteilungsmodellen.

22. April 2014 119

Gegeben sei die Anzahl Mj der pro Modellzustand zu schatzenden Mischverteilungskomponen-ten (haufig wahlt man Mj = M identisch fur alle Zustande j)

1. InitialisierungErzeuge rudimentare Segmentierung der Trainingsdaten (auf Zustandsebene!) mit heuri-stischem Verfahren

(z.B. lineare Segmentierung, da HMMs fur Spracherkennung prinzipiell lineare Strukturhaben)

weiter mit Schritt 2 b)

2. Segmentierung

(a) Berechne mit Hilfe des Viterbi-Algorithmus die optimale Zustandsfolge s∗ zur Er-zeugung der DatenO bei geg. Modell λ.

(b) Berechne aktualisierte Ubergangswahrscheinlichkeiten aij:

aij =

T−1∑t=1

χt(i)χt+1(j)

T−1∑t=1

χt(i)

3. NeuschatzungFur alle Zustande j, 0 ≤ j ≤ N :

(a) ClusteranalyseBerechne auf der Teilstichprobe X(j) ein Vektorquantisierungscodebuch Y ={y1, . . .yMj

} und die zugehorige Partition {R1, . . . RMj} mit Hilfe des k-means-

Algorithmus

(b) Berechnung der ModellparameterBerechne aktualisierte Emissionsparameter:

cjk =|Rk||X(j)|

µjk = yk

Kjk =1

|Rk|∑x∈Rk

(x− µk)(x− µk)T

4. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P ∗(O|λ) gegenuber λ deutlich ver-bessert wurde


sonst Ende!

Abbildung 37: Segmental-k-means-Algorithmus zur Initialisierung / Parameterschatzung fur HMMs

22. April 2014 120

Abbildung 38: Prinzipiell Anordnung von Dichten in allgemeinem kontinuierlichem HMM (links)und bei semi-kontinuierlicher Modellierung (rechts), nach [ST95, S. 144]

22. April 2014 121

Documents

Skriptum zur Vorlesung Spracherkennung - PatRecpatrec.cs.tu-dortmund.de/lectures/SS14/spracherkennung/spracherkennung.pdf · (p0 falschlicherweise als H¨ orschwelle des menschlichen