Download pptx - Hodnotenie stránok pomocou mikroblogu Twitter

Hodnotenie stránok pomocou mikroblogu TwitterVyhľadávanie informáciíTomáš Majer

Twitter

•Najväčší mikroblog▫Milióny tweetov denne - viac ako 50

•Nezávislé hodnotiace médium•Veľa tweetov obsahuje odkazy na stránky

▫cca 22% obsahuje retazec http://•Väčšina odkazov je skracovaných

▫Tinyurl, byt.li...

Motivácia

•Veľké množstvo dát na analýzu•Aktuálnosť•Nezávislosť•Štúdium nových technológií

▫Hadoop - MapReduce

Problémy

•Rozbehanie hadoopu▫Neschopnosť spojazdniť s Eclipse

•Viaceré verzie, vždy nejaká nová výnimka...

•Nakoniec som kopíroval jar na server a tam ručne spúšťal

Dataset

•http://140kit.com/•2 dátove súbori

▫tweets.csv - 1 997 44▫users.csv - 367 824

•Na identifikáciu používateľa som používal username

http://140kit.com/

http://140kit.com/

Rankovací algoritmus

Implementácia

• Vstup: users.csv• Výstup: usercount – súbor s 2 číslami, kde je

počet používateľov a celkový počet nasledovníkov• Implementácia: Text(users.csv) -> Map -> 0,

“username followers” -> Reduce -> totalUsers totalFollowers

UserCount

• Vstup: tweets.csv• Výstup: tweetcount – zoznam userov spolu

s počtom ich tweetov v datasete• Implementácia: Text(tweets.csv) -> Map ->

username 1 -> Reduce -> username tweetCount

TweetCount

Implementácia

• Vstup: usercount + tweetcount + users.csv• Výstup: userrank – zoznam userov spolu a

ich rankom• Implementácia: Text(users.csv) -> Map ->

username userRank

UserRank

• Vstup: tweets.csv + userrank• Výstup: urlrank – zoznam urliek s ich

rankom• Implementácia: Text(tweets.csv) -> Map ->

url rank -> Reduce -> url totalRank

UrlRank

Zhodnotenie

•Veľmi prínosné “akademické cvičenie”▫Hadoop

•Pri väčšej námahe a dostatočnom výpočtovom výkone by sa dalo využiť aj v praxi

•Zaujímave technologie ktoré by som vedel využiť v praxi▫Mahout▫Pig