Upload
esther-seyffarth
View
68
Download
0
Embed Size (px)
Citation preview
Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?Wie funktioniert eigentlich @Pentametron?
Computerlinguistische Perspektiven auf Twitter
SprachwissenschaftlichesInstitut
StuTS 54November 2013
Düsseldorf
Esther SeyffarthRuhr-Uni Bochum
Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?Was können Linguistinnen mit Twitter anstellen?
� Sentimentanalyse?� … bezüglich bestimmer Produkte/Hersteller
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 2 ]
� … bezüglich bestimmer Produkte/Hersteller� … in politischen Zusammenhängen
� Korpus zur Erforschung von Dialektfragen?� z. B. “yall” / “y’all” / “ya’ll”
� Recherche für Nachrichten?� möglicherweise mit automatischer Textgenerierung auf Basis von Tweets
ÜberblickÜberblickÜberblickÜberblick
� Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?� Vorstellung des CMU
Pronunciation Dictionary
� Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?Wie (gut) funktioniert Twitter zur Sentimentanalyse?� Vorhersage von Wahlergebnissen anhand von Twitterdaten
StrukturierungStrukturierungStrukturierungStrukturierung
SprachwissenschaftlichesInstitut
� Vorhersage von Wahlergebnissen anhand von Twitterdaten� Bedeutungstragende Merkmale von Tweets
� Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte?� Ausbreitung von Krankheiten auswerten anhand von Tweets� Automatisch Nachrichtentexte generieren
� DiskussionDiskussionDiskussionDiskussion
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 3 ]
AnalyseAnalyseAnalyseAnalyse
SyntheseSyntheseSyntheseSynthese
Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?
SprachwissenschaftlichesInstitut
� @Pentametron verfasst keine Tweets selbst, sondern retweetet nur fremde Nachrichten.
� Was wird dafür benötigt?� Zugriff auf eine große Menge an Tweets� Eine Möglichkeit, die Silbenstruktur und die möglichen Reimwörter zu
analysieren• z. B. mithilfe des CMU Pronunciation Dictionary
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 4 ]
Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?
�CMU Pronunciation Dictionary
� Erreichbar unter: http://www.speech.cs.cmu.edu/cgi-bin/cmudict� Erstellt von Kevin Lenzo: http://www.linkedin.com/in/kevinlenzo
� Maschinenlesbare phonetische Transkription von über 125.000 englischen Wörtern
SprachwissenschaftlichesInstitut
Wörtern
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 5 ]
Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?Wie funktioniert @Pentametron?
Good feelings = [equal] good reality.
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 6 ]
G UH1 D . F IY1 L IH0 NG Z . IY1 K W AH0 L . G UH1 D . R IY2 AE1 L AH0 T IY2 .
σσσσ1111 σσσσ2222 σσσσ3333 σσσσ4444 σσσσ5555 σσσσ6666 σσσσ7777 σσσσ8888 σσσσ9999 σσσσ10101010
Y UW1 . R IH1 L IY0 . R IH1 L IY0 . R IH1 L IY0 . B AA1 DH ER0 . M IY1 .
You really really really bother me
SprachwissenschaftlichesInstitut
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 7 ]
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
Is social media a valid indicator of political behavior?
...
Our results show that the percentage of Republicanthe percentage of Republicanthe percentage of Republicanthe percentage of Republican----candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican candidate name mentions correlates with the Republican vote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent election.
SprachwissenschaftlichesInstitut
Joseph DiGrazia, Karissa McKelvey, Johan Bollen, Fabio Rojas:More Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political BehaviorMore Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 8 ]
vote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent electionvote margin in the subsequent election.
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
�Probleme des quantitativen Ansatzes:
� Die Vorhersagen wurden durch Twitter um nurum nurum nurum nur 2,8%2,8%2,8%2,8% zuverlässiger
� Positiver oder negativer Kontext?
SprachwissenschaftlichesInstitut
• If in fact tweet data are an “unusually” good predictor of elections, then Anthony Weiner Anthony Weiner Anthony Weiner Anthony Weiner should be optimistic about his mayoral aspirations given his ‘explosion’ of tweet attention and despite his free fall in the polls. In fact, this study’s finding that the tweet content is inconsequential prompted Salon.com to post the following headline: “Good news for Weiner: All Twitter publicity is good publicity.”
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 9 ]
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
� Probleme des quantitativen Ansatzes:
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 10 ]
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
�Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten):
� Positive oder negative Gefühlsausdrücke?
� Mentions oder Nonmentions? Links?
SprachwissenschaftlichesInstitut
� Mentions oder Nonmentions? Links?
� Hashtags? Von Standardsprache abweichende Zeichensetzung?
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 11 ]
Twitter und SentimentanalyseTwitter und SentimentanalyseTwitter und SentimentanalyseTwitter und Sentimentanalyse
�Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten):
� Beliebtheit/Verbreitung?
SprachwissenschaftlichesInstitut
� Emoticons?
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 12 ]
SprachwissenschaftlichesInstitut
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 13 ]
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 14 ]
Adam Sadilek, Henry Kautz, Vincent Silenzio (2012):Modeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social InteractionsModeling Spread of Disease from Social Interactions
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten
�Machine Learning
� Trainingskorpus:5128 per Hand als “sick tweets” oder “normal tweets” annotierte Tweets
SprachwissenschaftlichesInstitut
� 1,6 Mio Tweets wurden auf dieser Basis vom System als “sick” oder “normal” klassifiziert
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 15 ]
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten
�CoCoCoCo----Location: Location: Location: Location: User halten sich innerhalb einer bestimmten Zeitspanne im gleichen 100m*100m-Gebiet auf
�Co-Location ist relevant bei ansteckenden Krankheiten, die
SprachwissenschaftlichesInstitut
�Co-Location ist relevant bei ansteckenden Krankheiten, die sich durch physikalischen Kontakt ausbreiten
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 16 ]
�Probleme:
� Symptome ≠Diagnose!
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 17 ]
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten
�Probleme:
� Viele User bleiben unsichtbar (z. B. weil GPS-Daten nicht vorliegen oder Symptome vom System nicht erkannt werden)
SprachwissenschaftlichesInstitut
� Im Artikel wurden nur Tweets von 1/30 aller Bewohner von NYC betrachtet, Geodaten waren nur für 1/3000 vorhanden
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 18 ]
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten�Ergebnisse:
� Bezüglich Zuverlässigkeit:• The correlationcorrelationcorrelationcorrelation between the prevalence of infectious diseases
predicted by our model and the predictions made by Google Flu Trends specifically for New York City is 0.730.730.730.73.
• Krieck et al. (2011) ... show that selfselfselfself----reported symptoms reported symptoms reported symptoms reported symptoms are the most reliable signal in detecting if a tweet is relevant to an outbreak
SprachwissenschaftlichesInstitut
most reliable signal in detecting if a tweet is relevant to an outbreak or not. This is because people often do not know what their true problem is until diagnosed by an expert, but they can readily write they can readily write they can readily write they can readily write about how they feel. about how they feel. about how they feel. about how they feel.
� Bezüglich Co-Location:• For instance, having 40 encounters with sick individuals with a 1-
hour slack makes one ill with 20% probability.
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 19 ]
Twitter und NachrichtenTwitter und NachrichtenTwitter und NachrichtenTwitter und Nachrichten�Projekte zur automatischen Generierung von
Nachrichtentexten
SprachwissenschaftlichesInstitut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 20 ]
FroPatI:FroPatI:FroPatI:FroPatI: From Pattern to Information
http://fropati.textrapic.eu
SprachwissenschaftlichesInstitut
Danke für dieDanke für dieDanke für dieDanke für dieAufmerksamkeit!Aufmerksamkeit!Aufmerksamkeit!Aufmerksamkeit!
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 21 ]
LiteraturLiteraturLiteraturLiteratur
� DiGrazia, McKelvey, Bollen, Rojas (2013): More Tweets, more votes http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2235423
� Auswertungen zu “More Tweets, more Votes”:� http://www.washingtonpost.com/blogs/the-fix/wp/2013/08/16/how-twitter-could-predict-
elections-a-rebuttal/� http://psychcentral.com/blog/archives/2013/08/17/can-twitter-predict-elections-not-yet/
� Hassan Saif, Yulan He, Harith Alani (2012): Semantic Sentiment Analysis of Twitter http://iswc2012.semanticweb.org/sites/default/files/76490497.pdf
SprachwissenschaftlichesInstitut
http://iswc2012.semanticweb.org/sites/default/files/76490497.pdf
� Regional Dialects Are Alive and Well on Twitter http://www.cmu.edu/news/archive/2011/January/jan7_twitterdialects.shtml
� Sadilek, Kautz, Silenzio (2012): Modeling Spread of Disease from Social Media http://www.aaai.org/ocs/index.php/ICWSM/ICWSM12/paper/view/4493/4999
� Google Flu Trends http://www.google.org/flutrends/about/how.html
Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 22 ]