Upload
adam-abonyi
View
108
Download
2
Embed Size (px)
Citation preview
ROZPOZNÁVÁNÍ JAZYKŮ
Evelina Gabašová
Adam Abonyi
2008
„MYSLÍTE, ŽE JE OSTRAVŠTINA
ČEŠTINA?“
ÚKOL
Rozpoznávání jazyků pomocí neuronových sítí
Srovnání výsledků neuronové sítě a
jednoduchého statistického přístupu
Klasifikace jazyků v rámci jazykových rodin
DATA A JEJICH PŘEDZPRACOVÁNÍ
Zdroje dat: Project Gutenberg a další knihovny
elektronických textů
Četnosti bigramů (dvojic písmen jdoucích za
sebou) v textu charakteristické pro jednotlivé jazyky
729 dvojic – vektor relativních četností
Zjednodušení abecedy
odstranění diakritiky
PCA analýza
PCA ANALÝZA
Redukce velikosti vstupu z 729 na 10
STATISTICKÝ PŘÍSTUP
Vytvoření vektorů průměrných četností dvojic
písmen pro každý jazyk
Klasifikace: porovnání vektoru relativních
četností bigramů v rozpoznávaném jazyce s
vytvořenými vektory průměrů pomocí
a) euklidovské vzdálenosti
b) cosinu úhlu mezi vektory
Obě míry se ukázaly jako ekvivalentní
NEURONOVÉ SÍTĚ
Bez PCA analýzy:
Vstupní vektor velikosti 729
Pomalé učení
Velká chybovost
S PCA analýzou
Vstupní vektor velikosti pouze 10
Rychlé učení
Neuvěřitelně malá chybovost
VÝSLEDKY ROZPOZNÁVÁNÍ 5 JAZYKŮ
0
5
10
15
20
25
30
Počet chyb
NN(10-5) s PCA
Cos
NN(729-50-5)
44% chyba
7% chyba
0% chyba
• 430 trénovacích vzorů
• 141 testovacích vzorů
VÝSLEDKY ROZPOZNÁVÁNÍ 8 JAZYKŮ
0
1
2
3
4
5
6
7
Počet chyb
NN(10-8)
Cos
0% chyba
10% chyba
• 540 trénovacích vzorů
• 135 testovacích vzorů
JAZYKOVÉ RODINY
Ugrofinské
jazyky
maďarština, finština, estonština, laponština
Indoevropské
jazyky
Románské jazyky latina, italština,
francouzština,
španělština,
portugalština...
Keltské jazyky irština, welština
Germánské jazyky angličtina, němčina,
holandština,
norština...
Slovanské jazyky čeština, slovenština,
polština, ruština...
NEURONOVÁ SÍŤ COSÍNOVÁ METODA
čeština
21%
němčina
7%angličtina
14%
francouzšti
na
31%
polština
27%
němčina
7%
angličtina
27%francouzšti
na
59%
španělština
7%
Latina
španělština
100%
španělština
100%
Katalánština
NEURONOVÁ SÍŤ COSÍNOVÁ METODA
Finština
španělština
97%
italština
3%čeština
28%
španělština
41%polština
3%
italština
28%
Esperanto
čeština
21%
angličtina
3%
maďarština
76%čeština
88%
němčina
2%
angličtina
2%
maďarština
2%
italština
6%
NEURONOVÁ SÍŤ COSÍNOVÁ METODA
Welština
čeština
100%
čeština
100%
Slovenština
němčina
8%
angličtina
92%
čeština
25%
angličtina
33%
polština
42%
NEURONOVÁ SÍŤ COSÍNOVÁ METODA
Deník Ostravaka
čeština
100%
čeština
100%
ZÁVĚREM
PCA analýza může pro některé úlohy řádově
snížit velikost vstupního prostoru
V jednoduchosti je síla
Úlohu doporučuje 8 z osmi neuronů