Upload
inga-dixon
View
60
Download
8
Embed Size (px)
DESCRIPTION
Vkladanie diakritiky s využitím štatistickej analýzy textu. Matej Sabo Vyh ľadávanie informácií 2010/2011. Opis problému. Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov- > „naučenie sa ako vkladať diakritiku“. - PowerPoint PPT Presentation
Citation preview
Matej Sabo
Vyhľadávanie informácií 2010/2011
Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov
-> „naučenie sa ako vkladať diakritiku“
Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako
Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako...
Užitočnosť programu (šetrenie času, námahy)
Použitie v praxi Forma experimentu
Dve druhy databáz:1. Zoznam všetkých slov (dva txt súbory o veľkosti
cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát
2. Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy:
Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova
nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch
Java (Eclipse) -> multiplatformovosť Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch:
◦ main – trieda Main◦ gui – trieda používateľského rozhrania◦ logic – ostatných 6 tried s hlavnou logikou
programu
Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní:
◦ Testovanie na článkoch Sme a texte diplomovej práce
◦ Úspešnosť správneho prekladu slova podľa databázy – 97,5%
Ďalšie možnosti zlepšenia Nevýhody:
◦ Potreba databáz (20 MB)◦ Dlhšie trvanie pre väčšie súbory (asi minúta pri 50
stranách)
Matej Sabo