Hodnotenie stránok pomocou mikroblogu TwitterVyhľadávanie informáciíTomáš Majer
•Najväčší mikroblog▫Milióny tweetov denne - viac ako 50
•Nezávislé hodnotiace médium•Veľa tweetov obsahuje odkazy na stránky
▫cca 22% obsahuje retazec http://•Väčšina odkazov je skracovaných
▫Tinyurl, byt.li...
Motivácia
•Veľké množstvo dát na analýzu•Aktuálnosť•Nezávislosť•Štúdium nových technológií
▫Hadoop - MapReduce
Problémy
•Rozbehanie hadoopu▫Neschopnosť spojazdniť s Eclipse
•Viaceré verzie, vždy nejaká nová výnimka...
•Nakoniec som kopíroval jar na server a tam ručne spúšťal
Dataset
•http://140kit.com/•2 dátove súbori
▫tweets.csv - 1 997 44▫users.csv - 367 824
•Na identifikáciu používateľa som používal username
Rankovací algoritmus
Implementácia
• Vstup: users.csv• Výstup: usercount – súbor s 2 číslami, kde je
počet používateľov a celkový počet nasledovníkov• Implementácia: Text(users.csv) -> Map -> 0,
“username followers” -> Reduce -> totalUsers totalFollowers
UserCount
• Vstup: tweets.csv• Výstup: tweetcount – zoznam userov spolu
s počtom ich tweetov v datasete• Implementácia: Text(tweets.csv) -> Map ->
username 1 -> Reduce -> username tweetCount
TweetCount
Implementácia
• Vstup: usercount + tweetcount + users.csv• Výstup: userrank – zoznam userov spolu a
ich rankom• Implementácia: Text(users.csv) -> Map ->
username userRank
UserRank
• Vstup: tweets.csv + userrank• Výstup: urlrank – zoznam urliek s ich
rankom• Implementácia: Text(tweets.csv) -> Map ->
url rank -> Reduce -> url totalRank
UrlRank
Zhodnotenie
•Veľmi prínosné “akademické cvičenie”▫Hadoop
•Pri väčšej námahe a dostatočnom výpočtovom výkone by sa dalo využiť aj v praxi
•Zaujímave technologie ktoré by som vedel využiť v praxi▫Mahout▫Pig