Click here to load reader
Upload
michal-stefanow
View
717
Download
0
Embed Size (px)
DESCRIPTION
http://nekatwork.blogspot.com/search/label/master%20thesis
Citation preview
Information ExtractionFrom Short Textual Messages
Ekstrakcja informacji z krótkich wiadomości tekstowych
Michał Stefanów, [email protected]: dr inż. Michał Korzycki
http://nekatwork.blogspot.com/search/label/master%20thesis
12 maj 2010: agenda
• Twitter: co to jest i dlaczego właśnie to
• Background: czyli o czym będę pisać na wstępie
• Informacje: gdzie ich szukać
• Analiza problemu: jak to ugryźć
• Implementacja: jakie narzędzie
• Marketingowe zastosowanie: chciałbym
• Dodatkowe dane: biblioteka ANEW
• Serwis mikroblogowy
• Opis limitowany do 140 znaków
• Powstał w 2006
• Ponad 100mln użytkowników
• 80% ruchu przez urządzenia mobilne
• Twitterati – „ towarzyska elita internetowa”(Polityka 15 marca 2010: Marek Ostrowski, Adam Szostkiewicz ‐ Era Twittera)
• Dostęp do API
Background
• definicja: komunikat, informacja
• ewolucja na przestrzeni czasu, ze szczególnym uwzględnieniem nowych mediów
• analiza wpływu na współczesne metody komunikacji, życie publiczne, używany język
• usługi poboczne (TwitPic, bit.ly) i integracja z innymi serwisami
Gdzie szukać informacji
• TREŚĆ (content is the king)• sposób publikacji (WWW, API, SMS, GPRS)• miejsce publikacji (geolokalizacja)• użycie tagów „#”• użycie adnotacji „@”• zawartość linków, słów kluczowych w linkach czy też samo ich występowanie linków
• aktualne tematy (tzw. trending topics)• zawartość tweetów należących do osób obserwowanych lub obeserwujących
• Language code vs GoogleTranslateAPI
Analiza Problemu
• przedstawienie algorytmów
• moc obliczeniowa
• pamięć operacyjna
• wykorzystane serwisy pomocnicze (trending topic, trendsmap)
• analiza skuteczności poszczególnych rozwiązań
Implementacja
• Java
• XML
• Ograniczenia API
• Platforma do przechowywania danychPracownia Projektowa, mgr Witold Rakoczy
Marketingowe zastosowanie
• Status na Twitterze jest limitowany do140 znaków (przeważnie mniej)
• SMS w systemach komórkowych w Polsce: 160 znaków
• GoogleAdwords: dodawanie linków sponsorowanych do wyników wyszukiwania
Twitter was inspired by SMS and we continue to embrace this simple but ubiquitous technology. In fact, Twitter's 140 character limit was designed specifically to allow for any tweet to be read.
Dodatkowe informacje
• ANEW:Affective Norms for English Words
„provides a set of normative emotional ratings for a large number of words in the English language”
http://csea.phhp.ufl.edu/media/anewmessage.html
Bibliografia
• Artykuły prasowe
• Artykuły internetowe
• Dokumentacje
• Detecting Sadness in 140 Charactershttp://www.webecologyproject.org/2009/08/detecting‐sadness‐in‐140‐characters/
http://nekatwork.blogspot.com/search/label/master%20thesis