10

Click here to load reader

Michał Stefanów - State of Art

Embed Size (px)

DESCRIPTION

http://nekatwork.blogspot.com/search/label/master%20thesis

Citation preview

Page 1: Michał Stefanów - State of Art

Information ExtractionFrom Short Textual Messages

Ekstrakcja informacji z krótkich wiadomości tekstowych

Michał Stefanów, [email protected]: dr inż. Michał Korzycki

http://nekatwork.blogspot.com/search/label/master%20thesis

Page 2: Michał Stefanów - State of Art

12 maj 2010: agenda

• Twitter: co to jest i dlaczego właśnie to

• Background: czyli o czym będę pisać na wstępie

• Informacje: gdzie ich szukać

• Analiza problemu: jak to ugryźć

• Implementacja: jakie narzędzie

• Marketingowe zastosowanie: chciałbym

• Dodatkowe dane: biblioteka ANEW

Page 3: Michał Stefanów - State of Art

Twitter

• Serwis mikroblogowy

• Opis limitowany do 140 znaków

• Powstał w 2006

• Ponad 100mln użytkowników

• 80% ruchu przez urządzenia mobilne

• Twitterati – „ towarzyska elita internetowa”(Polityka 15 marca 2010: Marek Ostrowski, Adam Szostkiewicz ‐ Era Twittera)

• Dostęp do API

Page 4: Michał Stefanów - State of Art

Background

• definicja: komunikat, informacja

• ewolucja na przestrzeni czasu, ze szczególnym uwzględnieniem nowych mediów

• analiza wpływu na współczesne metody komunikacji, życie publiczne, używany język

• usługi poboczne (TwitPic, bit.ly) i integracja z innymi serwisami

Page 5: Michał Stefanów - State of Art

Gdzie szukać informacji

• TREŚĆ (content is the king)• sposób publikacji (WWW, API, SMS, GPRS)• miejsce publikacji (geolokalizacja)• użycie tagów „#”• użycie adnotacji „@”• zawartość linków, słów kluczowych w linkach czy też samo ich występowanie linków

• aktualne tematy (tzw. trending topics)• zawartość tweetów należących do osób obserwowanych lub obeserwujących

• Language code vs GoogleTranslateAPI

Page 6: Michał Stefanów - State of Art

Analiza Problemu

• przedstawienie algorytmów

• moc obliczeniowa

• pamięć operacyjna

• wykorzystane serwisy pomocnicze (trending topic, trendsmap)

• analiza skuteczności poszczególnych rozwiązań

Page 7: Michał Stefanów - State of Art

Implementacja

• Java

• XML

• Ograniczenia API

• Platforma do przechowywania danychPracownia Projektowa, mgr Witold Rakoczy

Page 8: Michał Stefanów - State of Art

Marketingowe zastosowanie

• Status na Twitterze jest limitowany do140 znaków (przeważnie mniej)

• SMS w systemach komórkowych w Polsce: 160 znaków

• GoogleAdwords: dodawanie linków sponsorowanych do wyników wyszukiwania

Twitter was inspired by SMS and we continue to embrace this simple but ubiquitous technology.  In fact, Twitter's 140 character limit was designed specifically to allow for any tweet to be read.

Page 9: Michał Stefanów - State of Art

Dodatkowe informacje

• ANEW:Affective Norms for English Words

„provides a set of normative emotional ratings for a large number of words in the English language”

http://csea.phhp.ufl.edu/media/anewmessage.html

Page 10: Michał Stefanów - State of Art

Bibliografia

• Artykuły prasowe

• Artykuły internetowe

• Dokumentacje 

• Detecting Sadness in 140 Charactershttp://www.webecologyproject.org/2009/08/detecting‐sadness‐in‐140‐characters/

http://nekatwork.blogspot.com/search/label/master%20thesis