Upload
vaclav-novak
View
890
Download
0
Embed Size (px)
Citation preview
Vıcejazycne sledovanı a vyhledavanı
Vaclav NovakYellow Snow, Captaworks
New Media Inspiration, leden 2012
Yeseter
• Novy vıcejazycny vyhledavac ve spolecenskych mediıch◦ Sbıra vybrane diskuze, blogy, fora a socialnı sıte◦ Trıdı nalezene zmınky do temat a tematickych skupin◦ Zobrazuje statistiky a grafy pro temata, zdroje a autory◦ Umoznuje pokrocile vyhledavanı a exporty◦ Prıdavne funkce (reporting, alerting, workflow, detekce spamu,
sentiment, zebrıcek sdılenych odkazu, nastavitelna nastenka,rebranding, vyrazenı zdroju pro urcity projekt, real-time API)
• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz
• Uzivatele:◦ Firmy, o kterych se mluvı◦ Marketing◦ Veda, politia a vyzkum (sociologie, stranicke sekretariaty)◦ Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)
2 z 14
Rozpoznanı jazyka
• U diskuznıch for a blogu se lze rıdit domenou
• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne
Problemove zdroje
• YouTube
• Google+
• Narecı, nespisovne tvary
• Chybejıcı diakritika
• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥
3 z 14
Nejhorsı zmınka vubec
4 z 14
Kratke texty
5 z 14
Smısene texty
6 z 14
Podivna slova
7 z 14
Kategorizace temat (snımky z online.wlip.cz)
• Vıcejazycne projekty sdılejı strukturu temat
• Lze srovnavat tytez grafy pro ruzne zeme:
8 z 14
Srovnatelne vizualizace: temata znacky: HU × CZ
9 z 14
Nesrovnatelne vizualizace? temata domen: PL × CZ
10 z 14
Stemming
• Stemming umoznuje vyhledavat ruzne tvary tehoz slova
•”Nokie“,
”Nokiım“,
”Nokii“,
”Nokia“
• Nekdy nezadoucı:”Matrix“ ×
”Matrika“,
”Sportif“ ×
”Sportage“
• Ruzne typy jazyku vyzadujı ruzny prıstup:◦ Aglutinacnı: nekolik prıpon mad’arstina, turectina◦ Flektivnı: jedna koncovka cestina, rustina◦ Izolacnı: nejjednodussı, temer nenı treba mandarınstina, anglictina◦ Introflektivnı: tezky: variace uvnitr slova arabstina◦ Polysynteticky: tezky: nezname hranice slov papuanstina
• Ve skutecnosti jsou jazyky smesı typu a majı tendenci se presouvat.
11 z 14
Specifika stemmingu v socialnıch mediıch
• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (
”Ikea“ →
”Ikey“ vs.
”Nokia“ →
”Nokie“,
”HM“ →
”HMka“)
◦ Narecı (”votravujou“,
”nabızej“,
”kupujo“)
◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (
”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste
blız,to jak te miluji“)◦ Diakritika (klıcova slova (
”CS“), koncovky)
12 z 14
Smery resenı
• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (kolik lidı to dokaze?)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti
Opravy a desambiguace
+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı
Fuzzy matching
− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost
13 z 14
Dalsı vyvoj zpracovanı jazyku v Yeseteru
• Ladenı modelu parametru stemmingu pro jednotlive jazyky• Sblızenı moznostı ad hoc hledanı a klasifikace do temat◦ Klasifikace umoznuje vyberove zakazanı stemmingu a operator MINUS◦ Ad hoc hledanı umoznuje fuzzy matching v okruhu omezenem
Levenshteinovskou vzdalenostı◦ Ad hoc hledanı umı zohlednit blızkost slov
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• yeseter.com
• wlip.cz
14 z 14
Dalsı vyvoj zpracovanı jazyku v Yeseteru
• Ladenı modelu parametru stemmingu pro jednotlive jazyky• Sblızenı moznostı ad hoc hledanı a klasifikace do temat◦ Klasifikace umoznuje vyberove zakazanı stemmingu a operator MINUS◦ Ad hoc hledanı umoznuje fuzzy matching v okruhu omezenem
Levenshteinovskou vzdalenostı◦ Ad hoc hledanı umı zohlednit blızkost slov
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• yeseter.com
• wlip.cz
14 z 14