Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech
Speech@FITVysoké učení technické v Brně
Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke
ZRE, 29.4.2009
2
Osnova• Použité zkratky• Trénovací / testovací data• Popis systémů
– FastLVCSR: KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu.
– HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním.
– Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu.
– Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě.
• Porovnání systémů - Brno• Závěr a porovnání všech systémů
3
Použité zkratky a termíny• KWS - detektor klíčových slov• Ak. KWS - Akustický KWS• LVCSR - slovní rozpoznávač• Hybrid LVCSR - slovně/podslovní rozpoznávač• Lattice - (svaz/mřížka) dopředný acyklický graf
hypotéz• LM - jazykový model• AM - akustický model• RT - real time faktor (1 jádro v CPU)• Term - klíčové slovo• OOV - slovo mimo rozpoznávací slovník
44
Trénovací / testovací data• Trénování
– Akustický model: 35.75h řeči– Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky
(513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov– Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová
data(0,8G)– Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT)– Slovník HybridLVCSR: 1 mil. slov + 2700 fonémových multigramů, výslovnosti
pomocí transc (ČVUT)
• Testování2h dat, 502 termů, 1712 výskytů
Termy lišící se pouze v jediném fonému: 39 (186 výskytů)Termy, které jsou podslovy jiných termů: 19 (90 výskytů)
Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73
5
FastLVCSR• Rychlý LVCSR s malým slovníkem včetně
hledaných termů. 2-gram LM, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR
• Start systému ~x minut.• Při změně seznamu klíčových slov je třeba
zpracovat všechny nahrávky znova.• Paměťové nároky ~x00 MB RAM.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu)
6
FastLVCSR
Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.
7
HybridLVCSR• LVCSR s velkým slovníkem (1 mil.) a schopností
rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR
• Start systému ~x minut.• Nahrávky se zpracovávají jen jednou a ukládají do
indexu.• Při změně seznamu klíčových slov lze rychle
vyhledávat v indexu (~0.00001RT).• Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro
index.• Dobře zvládá krátká slova a podslova.• RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)
8
HybridLVCSRSystém IV OOV AllSlovní 82.73 / 28.56 0.00 / 0.00 81.24 / 29.38Podslovní 19.28 / 80.50 34.29 / 65.71 19.60 / 80.20Kombinace 82.96 / 28.15 34.29 / 65.71 82.16 / 28.62
• Z 502 termů bylo 28 OOV (1 mil. slovník).
• Z 1712 výskytů bylo 35 OOV.• Možnost detekce OOV
zlepšilo úspěšnost o 1%.• Podobně jako u FastLVCSR
má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.
9
Akustický CD-GM• Akustický KWS, 12G x-word, kont. závislé fonémy,
CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR).
• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba
zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,3 (příznaky) + dekódování (údaj z grafu)
10
Akustický CD-GM
Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.
11
Akustický CI-NN• Rychlý akustický KWS, kont. nezávislé fonémy,
CMN/CVN. Jako akustický model je použita neuronová síť.
• Start systému ~x sekund.• Při změně seznamu klíčových slov je třeba
zpracovat všechny nahrávky znova.• Paměťové nároky ~x0MB RAM.• RT: 0,5 (příznaky + dekódování)
1212
Porovnání systémů - přesnost
Termset FastLVCSR HybridLVCSR Ak. CDcut Ak. NNCelý 84.1 / 27.6 82.2 / 28.6 80.5 / 36.7 67.2 / 48.6
Změna 1phn 76.7 / 33.3 77.6 / 33.3 74.3 / 44.1 60.6 / 53.8Podslova 82.7 / 27.8 81.8 / 27.8 56.3 / 56.7 43.6 / 70.0
1313
Porovnání systémů - délka slov
Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá.
Počet fonémů 4 5 6 7 8 9 >9Počet termů 12 74 100 99 109 61 47Počet výskytů 122 415 462 354 174 112 73
1414
Porovnání systémů - 1fon.Termy lišící se pouze v jediném fonému: 39 (186 výskytů)
Podobná slova snižují úspěšnost akustických systémů.
1515
Porovnání systémů - podslovaTermy, které jsou podslovy jiných termů: 19 (90 výskytů)
Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost.
16
Porovnání systémů - rychlostZávislost úspěšnosti na rychlosti systému.LVCSR: +0.5RT (vtln, cmllr fast)
Ak. CD-GM: +0.3RT (vtln)
17
Porovnání systémů - ak. modelyPříklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).
18
Shrnutí• Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické
– FastLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu.
– HybridLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu.
– Akustický CD-GM je vhodný pro spolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR.
– Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).