8
Matej Sabo Vyhľadávanie informácií 2010/2011

Vkladanie diakritiky s využitím štatistickej analýzy textu

Embed Size (px)

DESCRIPTION

Vkladanie diakritiky s využitím štatistickej analýzy textu. Matej Sabo Vyh ľadávanie informácií 2010/2011. Opis problému. Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov- > „naučenie sa ako vkladať diakritiku“. - PowerPoint PPT Presentation

Citation preview

Page 1: Vkladanie diakritiky s využitím štatistickej analýzy textu

Matej Sabo

Vyhľadávanie informácií 2010/2011

Page 2: Vkladanie diakritiky s využitím štatistickej analýzy textu

Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov

-> „naučenie sa ako vkladať diakritiku“

Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako...

Page 3: Vkladanie diakritiky s využitím štatistickej analýzy textu

Užitočnosť programu (šetrenie času, námahy)

Použitie v praxi Forma experimentu

Page 4: Vkladanie diakritiky s využitím štatistickej analýzy textu
Page 5: Vkladanie diakritiky s využitím štatistickej analýzy textu

Dve druhy databáz:1. Zoznam všetkých slov (dva txt súbory o veľkosti

cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát

2. Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy:

Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova

nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

Page 6: Vkladanie diakritiky s využitím štatistickej analýzy textu

Java (Eclipse) -> multiplatformovosť Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch:

◦ main – trieda Main◦ gui – trieda používateľského rozhrania◦ logic – ostatných 6 tried s hlavnou logikou

programu

Page 7: Vkladanie diakritiky s využitím štatistickej analýzy textu

Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní:

◦ Testovanie na článkoch Sme a texte diplomovej práce

◦ Úspešnosť správneho prekladu slova podľa databázy – 97,5%

Ďalšie možnosti zlepšenia Nevýhody:

◦ Potreba databáz (20 MB)◦ Dlhšie trvanie pre väčšie súbory (asi minúta pri 50

stranách)

Page 8: Vkladanie diakritiky s využitím štatistickej analýzy textu

Matej Sabo