15
ROZPOZNÁVÁNÍ JAZYKŮ Evelina Gabašová Adam Abonyi 2008

Rozpoznání jazyků

Embed Size (px)

Citation preview

Page 1: Rozpoznání jazyků

ROZPOZNÁVÁNÍ JAZYKŮ

Evelina Gabašová

Adam Abonyi

2008

Page 2: Rozpoznání jazyků

„MYSLÍTE, ŽE JE OSTRAVŠTINA

ČEŠTINA?“

Page 3: Rozpoznání jazyků

ÚKOL

Rozpoznávání jazyků pomocí neuronových sítí

Srovnání výsledků neuronové sítě a

jednoduchého statistického přístupu

Klasifikace jazyků v rámci jazykových rodin

Page 4: Rozpoznání jazyků

DATA A JEJICH PŘEDZPRACOVÁNÍ

Zdroje dat: Project Gutenberg a další knihovny

elektronických textů

Četnosti bigramů (dvojic písmen jdoucích za

sebou) v textu charakteristické pro jednotlivé jazyky

729 dvojic – vektor relativních četností

Zjednodušení abecedy

odstranění diakritiky

PCA analýza

Page 5: Rozpoznání jazyků

PCA ANALÝZA

Redukce velikosti vstupu z 729 na 10

Page 6: Rozpoznání jazyků

STATISTICKÝ PŘÍSTUP

Vytvoření vektorů průměrných četností dvojic

písmen pro každý jazyk

Klasifikace: porovnání vektoru relativních

četností bigramů v rozpoznávaném jazyce s

vytvořenými vektory průměrů pomocí

a) euklidovské vzdálenosti

b) cosinu úhlu mezi vektory

Obě míry se ukázaly jako ekvivalentní

Page 7: Rozpoznání jazyků

NEURONOVÉ SÍTĚ

Bez PCA analýzy:

Vstupní vektor velikosti 729

Pomalé učení

Velká chybovost

S PCA analýzou

Vstupní vektor velikosti pouze 10

Rychlé učení

Neuvěřitelně malá chybovost

Page 8: Rozpoznání jazyků

VÝSLEDKY ROZPOZNÁVÁNÍ 5 JAZYKŮ

0

5

10

15

20

25

30

Počet chyb

NN(10-5) s PCA

Cos

NN(729-50-5)

44% chyba

7% chyba

0% chyba

• 430 trénovacích vzorů

• 141 testovacích vzorů

Page 9: Rozpoznání jazyků

VÝSLEDKY ROZPOZNÁVÁNÍ 8 JAZYKŮ

0

1

2

3

4

5

6

7

Počet chyb

NN(10-8)

Cos

0% chyba

10% chyba

• 540 trénovacích vzorů

• 135 testovacích vzorů

Page 10: Rozpoznání jazyků

JAZYKOVÉ RODINY

Ugrofinské

jazyky

maďarština, finština, estonština, laponština

Indoevropské

jazyky

Románské jazyky latina, italština,

francouzština,

španělština,

portugalština...

Keltské jazyky irština, welština

Germánské jazyky angličtina, němčina,

holandština,

norština...

Slovanské jazyky čeština, slovenština,

polština, ruština...

Page 11: Rozpoznání jazyků

NEURONOVÁ SÍŤ COSÍNOVÁ METODA

čeština

21%

němčina

7%angličtina

14%

francouzšti

na

31%

polština

27%

němčina

7%

angličtina

27%francouzšti

na

59%

španělština

7%

Latina

španělština

100%

španělština

100%

Katalánština

Page 12: Rozpoznání jazyků

NEURONOVÁ SÍŤ COSÍNOVÁ METODA

Finština

španělština

97%

italština

3%čeština

28%

španělština

41%polština

3%

italština

28%

Esperanto

čeština

21%

angličtina

3%

maďarština

76%čeština

88%

němčina

2%

angličtina

2%

maďarština

2%

italština

6%

Page 13: Rozpoznání jazyků

NEURONOVÁ SÍŤ COSÍNOVÁ METODA

Welština

čeština

100%

čeština

100%

Slovenština

němčina

8%

angličtina

92%

čeština

25%

angličtina

33%

polština

42%

Page 14: Rozpoznání jazyků

NEURONOVÁ SÍŤ COSÍNOVÁ METODA

Deník Ostravaka

čeština

100%

čeština

100%

Page 15: Rozpoznání jazyků

ZÁVĚREM

PCA analýza může pro některé úlohy řádově

snížit velikost vstupního prostoru

V jednoduchosti je síla

Úlohu doporučuje 8 z osmi neuronů