9
Hodnotenie stránok pomocou mikroblogu Twitter Vyhľadávanie informácií Tomáš Majer

Hodnotenie stránok pomocou mikroblogu Twitter

  • Upload
    eliot

  • View
    35

  • Download
    0

Embed Size (px)

DESCRIPTION

Hodnotenie stránok pomocou mikroblogu Twitter. Vyhľadávanie informácií Tomáš Majer. Twitter. Najväčší mikroblog Milióny tweetov denne - viac ako 50 Nezávislé hodnotiace médium Veľa tweetov obsahuje odkazy na stránky c ca 22% obsahuje retazec http :// - PowerPoint PPT Presentation

Citation preview

Page 1: Hodnotenie stránok pomocou mikroblogu Twitter

Hodnotenie stránok pomocou mikroblogu TwitterVyhľadávanie informáciíTomáš Majer

Page 2: Hodnotenie stránok pomocou mikroblogu Twitter

Twitter

•Najväčší mikroblog▫Milióny tweetov denne - viac ako 50

•Nezávislé hodnotiace médium•Veľa tweetov obsahuje odkazy na stránky

▫cca 22% obsahuje retazec http://•Väčšina odkazov je skracovaných

▫Tinyurl, byt.li...

Page 3: Hodnotenie stránok pomocou mikroblogu Twitter

Motivácia

•Veľké množstvo dát na analýzu•Aktuálnosť•Nezávislosť•Štúdium nových technológií

▫Hadoop - MapReduce

Page 4: Hodnotenie stránok pomocou mikroblogu Twitter

Problémy

•Rozbehanie hadoopu▫Neschopnosť spojazdniť s Eclipse

•Viaceré verzie, vždy nejaká nová výnimka...

•Nakoniec som kopíroval jar na server a tam ručne spúšťal

Page 5: Hodnotenie stránok pomocou mikroblogu Twitter

Dataset

•http://140kit.com/•2 dátove súbori

▫tweets.csv - 1 997 44▫users.csv - 367 824

•Na identifikáciu používateľa som používal username

Page 6: Hodnotenie stránok pomocou mikroblogu Twitter

Rankovací algoritmus

Page 7: Hodnotenie stránok pomocou mikroblogu Twitter

Implementácia

• Vstup: users.csv• Výstup: usercount – súbor s 2 číslami, kde je

počet používateľov a celkový počet nasledovníkov• Implementácia: Text(users.csv) -> Map -> 0,

“username followers” -> Reduce -> totalUsers totalFollowers

UserCount

• Vstup: tweets.csv• Výstup: tweetcount – zoznam userov spolu

s počtom ich tweetov v datasete• Implementácia: Text(tweets.csv) -> Map ->

username 1 -> Reduce -> username tweetCount

TweetCount

Page 8: Hodnotenie stránok pomocou mikroblogu Twitter

Implementácia

• Vstup: usercount + tweetcount + users.csv• Výstup: userrank – zoznam userov spolu a

ich rankom• Implementácia: Text(users.csv) -> Map ->

username userRank

UserRank

• Vstup: tweets.csv + userrank• Výstup: urlrank – zoznam urliek s ich

rankom• Implementácia: Text(tweets.csv) -> Map ->

url rank -> Reduce -> url totalRank

UrlRank

Page 9: Hodnotenie stránok pomocou mikroblogu Twitter

Zhodnotenie

•Veľmi prínosné “akademické cvičenie”▫Hadoop

•Pri väčšej námahe a dostatočnom výpočtovom výkone by sa dalo využiť aj v praxi

•Zaujímave technologie ktoré by som vedel využiť v praxi▫Mahout▫Pig