Upload
vaclav-novak
View
1.335
Download
3
Embed Size (px)
Citation preview
Yeseter: Prehled platformy
Vaclav NovakYellow Snow, Captaworks
Aplikace NLP, MFF UK, unor 2012
Obsah prezentace
• Funkce Yeseteru
• Uzivatele
• Technologie a jejich problemy
2 z 25
Sber vybranych diskuzı, blogu, for a socialnıch sıtı
• Zpravodajske servery: clanky a diskuze◦ lidovky.cz, finmag.cz, lupa.cz, aktualne.cz?,komorkomania.pl
• Blogy a jejich diskuze◦ blog.respekt.cz, blogatu.ro, akka-xx.blogspot.com,dan-blog.ro
• Diskuznı fora◦ htc-club.ro, forum.ngs.ru, hojko.com, diskuze.libimseti.cz
• Socialnı sıte◦ LinkedIn, Facebook, Google+, Twitter, iWiW, YouTube?
3 z 25
Zpusoby extrakce potrebnych informacı
• RSS kanaly◦ Resenı pro blogy, zpravodajske servery◦ Problem se zkracovanım prıspevku
• XPath skripty◦ Diskuznı fora, zpravodajske servery bez RSS◦ Oblıbena platforma phpBB casto RSS neposkytuje
• API◦ Facebook, Twitter, YouTube, Google+◦ Problem s kvotami a pokrytım relevantnıch statusu
• Skripty pouzıvajıcı autentifikaci◦ LinkedIn, iWiW
4 z 25
Zpracovanı nalezenych dokumentu
Zmínka● detekce jazyka● stemming● analýza sentimentu● identifikace témat
Projekt ProjektProjekt Projekt
5 z 25
Trıdenı zmınek do temat a tematickych skupin
Skupiny
Témata
Klíčová slova
Banky Produkty
ČSOB KB Hypotéky Europlatby
ČSOB Komerční banka komerčka Mojehypotéka
ČSOB KB Hypotéky Europlatby
Projekt
6 z 25
Statistiky a grafy pro temata
7 z 25
Statistiky a grafy pro zdroje
8 z 25
Statistiky a grafy pro autory
9 z 25
Statistiky a grafy pro sentiment
10 z 25
Nejsdılenejsı odkazy
11 z 25
Umoznuje pokrocile vyhledavanı a exporty
• Vyhledavanı s ”?”a ”*”
• Fuzzy matchovanı podobnych slov
• Hledanı frazı
• Omezenı na vzdalenost mezi hledanymi slovy
• Logicke operatory a zavorkovanı
12 z 25
Prıdavne funkce
• Reporting (dennı reporty)
• Alerting (Uzivatelsky definovana temata)
• Workflow se zmınkami
• Detekce relevance (moznost rucnı anotace pro trenovanı)
• Sentiment
• Nastavitelna nastenka
• Vyrazenı zdroju pro urcity projekt
• Real-time API (JSON streaming)
13 z 25
Uzivatele
• Firmy, o kterych se mluvı
• Marketing
• Veda, politia a vyzkum (sociologie, stranicke sekretariaty)
• Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)
• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz
14 z 25
Technologie
• Stroje: Amazon EC2 instance s distribucı Ubuntu
• Webova aplikace: Java Tomcat + MongoDB + GWT
• Vizualizace dat: Google Chart Tools + Dojo
• Ovladanı vizualizacı a vyhledavanı: Perl + Starman + Tenjin +Dojo
• Uchovanı a indexace dat: CouchDB + ElasticSearch / Lucene +MySQL
• Zpracovanı a predavanı dat: Perl/Starman, JSON
15 z 25
Uchovanı dokumentu
• Zhruba 500 tisıc zmınek denne, 60 milionu pro analyzu, zbytekv prohledavatelnem archivu
• Dokumentova databaze CouchDB (NoSQL)
• Vyhody: obousmerna replikace, rychly zapis novych dat
• Nevyhody: velikost souboru, nezralost, nemoznost dotazovanı,obrı ID
16 z 25
Problem pro DB: chybne kodovanı na Facebooku
17 z 25
Indexace a vyhledavanı
• ElasticSearch: distribuovana Java RESTsluzba vyuzıvajıcı index Lucene
• Opensource varianta serveru IDOL odAutonomy / HP, bez prıdavnychanalytickych funkcı
• Podobne projektu SOLR, distribuovane,mısto XML JSON
• Lze pouzıt i na jednodussı statistiky, alepak prestava byt skalovatelny
• Slozitejsı statistiky vyzadujıcı SELF JOINjsou reseny specializovanymi tabulkamiv MySQL
18 z 25
Problemy rozpoznanı jazyka
• U diskuznıch for a blogu se lze rıdit domenou
• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne
Problemove zdroje
• YouTube
• Google+
• Narecı, nespisovne tvary
• Chybejıcı diakritika
• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥
19 z 25
Problemove texty
20 z 25
Rozpoznanı jazyka
• Modul pro samotne rozpoznanı jazyka: Josef Toman, UFAL
• Nenı dostatecny, je nutne pridat i model uzivatele
• Jen Twitter ma ale 300 milionu uzivatelu
21 z 25
Stemming
• Stemming umoznuje vyhledavat ruzne tvary tehoz slova
•”Nokie“,
”Nokiım“,
”Nokii“,
”Nokia“
• Nekdy nezadoucı:”Matrix“ ×
”Matrika“,
”Sportif“ ×
”Sportage“
• Pro tato slova majı uzivatele k dispozici moznost zakazanıstemmingu
• Ruzne typy jazyku (podle strukturnı typologie) vyzadujı ruznyprıstup
• Morfessor: nastroj pro automaticke nalezenı afixu jazyka nazaklade korpusu
22 z 25
Specifika stemmingu v socialnıch mediıch
• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (
”Ikea“ →
”Ikey“ vs.
”Nokia“ →
”Nokie“,
”HM“ →
”HMka“)
◦ Narecı (”votravujou“,
”nabızej“,
”kupujo“)
◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (
”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste
blız,to jak te miluji“)◦ Diakritika (klıcova slova (
”CS“), koncovky)
23 z 25
Smery resenı
• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (u tweetu nekdy nedokaze bez sirsıho
kontextu ani clovek)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti
Opravy a desambiguace
+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı
Fuzzy matching
− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost
24 z 25
Dalsı vyvoj Yeseteru
• Ladenı parametru stemmingu pro jednotlive jazyky
• Mobilnı prıstup
• Automaticka extrakce diskuznıch for
• Dalsı vizualizace a moznosti nastavenı
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• yeseter.com
• wlip.cz
25 z 25
Dalsı vyvoj Yeseteru
• Ladenı parametru stemmingu pro jednotlive jazyky
• Mobilnı prıstup
• Automaticka extrakce diskuznıch for
• Dalsı vizualizace a moznosti nastavenı
Dekuji. Dalsı novinky a podrobnosti:
• twitter.com/hlidka
• yeseter.com
• wlip.cz
25 z 25