Upload
department-of-communication-science-university-of-amsterdam
View
320
Download
0
Embed Size (px)
Citation preview
Meer dan sentimentscores: inzichten destillerenuit een enorme hoeveelheid data
Damian Trilling
[email protected]@damian0604
www.damiantrilling.net
Afdeling CommunicatiewetenschapUniversiteit van Amsterdam
Jaarbijeenkomst van hetNederlandstalig Platform voor Surveyonderzoek (NPSO)
22 September 2015
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam
• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitaledata
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam
• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitaledata
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam
• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitaledata
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Wie ben ik?
Damian Trilling
• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam
• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen
• richt zich vooral op de geautomatiseerde analyse van digitaledata
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Waar ga ik het over hebben?
1 Zegen en vloek: een enorme hoeveelheid dataZegen en vloekVerschillende benaderingen: wat wil je weten?
2 Welke methoden zijn er?Enkele voorbeeldenEen voorlopige indeling
3 Twee studiesHet tweede schermNieuws delen op social media
4 Conclusie
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerdformaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat jeniet hebt gevraagd
• je kunt geen daadwerkelijk gedragmeten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerdformaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat jeniet hebt gevraagd
• je kunt geen daadwerkelijk gedragmeten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerdformaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat jeniet hebt gevraagd
• je kunt geen daadwerkelijk gedragmeten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Waar surveys goed in zijn – en waarin niet
voordelen
• representatief (soms)
• flexibel: jij kunt de vragen bedenken
• data in een gestandardiseerdformaat: makkelijk te verwerken
• beproefde methode
nadelen
• je kunt niets te weten komen wat jeniet hebt gevraagd
• je kunt geen daadwerkelijk gedragmeten
• kosten
• surveymoeheid, validiteit?
• breed ipv diep
• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken
“⇒ we moeten iets met Big Data/social/media/. . . ”
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)surveyonderzoek. . .
In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerd
iedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)surveyonderzoek. . .
In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)surveyonderzoek. . .
In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Zegen en vloek
Een aanvulling op (en geen vervanging van)surveyonderzoek. . .
In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.
Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)
De grote vraag: Hoe analyseer je het?
Meer dan sentimentscores Damian Trilling
Verschillende benaderingen: wat wil je weten?
Stel we hebben 500.000 tweets (of comments, Facebookposts ofproductrecensies) over een bepaald onderwerp. . .
Verschillende benaderingen: wat wil je weten?
Stel we hebben 500.000 tweets (of comments, Facebookposts ofproductrecensies) over een bepaald onderwerp. . .
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Je zou natuurlijk. . .
• een steekproef kunnen trekken, deze handmatig coderen enlater “gewoon” statistisch analyseren
• alleen naar de interessantste/het vaakst geretweete/. . . tweetskunnen kijken en deze kwalitatief analyseren
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Verschillende benaderingen
Maar misschien is het beter om. . .
een methode te hebben die
• gebruik maakt van alle beschikbare informatie
• (hopelijk) diepe(re) of tenminste aanvullende inzichten levert
• maar tegelijkertijd een behapbaar overzicht geeft?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Enkele voorbeelden
Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topicalvariation in company news: An assessment of the diversity of topics in Dutchnewspaper coverage of media prominent corporations. Paper presented at BledCom,Bled, Slovenia.
Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:Introducing a toolkit for inductive automated frame analysis. Paper presented at theWorld Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Welke methoden zijn er?
Enkele voorbeelden
Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topicalvariation in company news: An assessment of the diversity of topics in Dutchnewspaper coverage of media prominent corporations. Paper presented at BledCom,Bled, Slovenia.
Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:Introducing a toolkit for inductive automated frame analysis. Paper presented at theWorld Association for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: aandacht over tijd
Hoe vaak worden bedrijven in het nieuws genoemd?Methode: turven.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (1)Methode: Topic modelling (Latent Dirichlet Allocation)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (2)Methode: Principal Component Analysis
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Enkele voorbeelden
Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (3)Methode: Visualisatie van samen genoemde woorden
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief eninductief
Deductief
• simpel: turven (zoektermen,woordenlijsten, . . . )
• geavanceerd: supervisedmachine learning
Inductief
• woordfrequenties enco-occurrences
• visualisatie• principale-
componentenanalyse(PCA)
• clusteranalyse• topic modelling, m.n.
latent dirichlet allocation(LDA)
• . . .
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief eninductief
Deductief
• simpel: turven (zoektermen,woordenlijsten, . . . )
• geavanceerd: supervisedmachine learning
Inductief
• woordfrequenties enco-occurrences
• visualisatie• principale-
componentenanalyse(PCA)
• clusteranalyse• topic modelling, m.n.
latent dirichlet allocation(LDA)
• . . .
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Ook bij automatische inhoudsanalyse: deductief eninductief
Deductief
• simpel: turven (zoektermen,woordenlijsten, . . . )
• geavanceerd: supervisedmachine learning
Inductief
• woordfrequenties enco-occurrences
• visualisatie• principale-
componentenanalyse(PCA)
• clusteranalyse• topic modelling, m.n.
latent dirichlet allocation(LDA)
• . . .
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op een hoop gooien of rekening houden met dezinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om metontkenningen etc. om tegaan
• maar werkt vaak wel! (goedgenoeg)
parsing (= zinnen ontleden)
• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen
• werkt voor sommige talenbeter dan voor andere
• gaat ervan uit dat mensen“nette” zinnen schrijven
• en dat is meer danproblematisch metsocial-media-data.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op een hoop gooien of rekening houden met dezinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om metontkenningen etc. om tegaan
• maar werkt vaak wel! (goedgenoeg)
parsing (= zinnen ontleden)
• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen
• werkt voor sommige talenbeter dan voor andere
• gaat ervan uit dat mensen“nette” zinnen schrijven
• en dat is meer danproblematisch metsocial-media-data.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Een voorlopige indeling
Alles op een hoop gooien of rekening houden met dezinsstructuur?
bag of words (BOW)
• simpel
• te simplistisch?
• niet in staat om metontkenningen etc. om tegaan
• maar werkt vaak wel! (goedgenoeg)
parsing (= zinnen ontleden)
• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen
• werkt voor sommige talenbeter dan voor andere
• gaat ervan uit dat mensen“nette” zinnen schrijven
• en dat is meer danproblematisch metsocial-media-data.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Het tweede scherm
Welke discussies worden tijdens tv-debatten op het tweede schermgevoerd?
Trilling, D. (2015). Two different debates? Investigating the relationship between apolitical debate on TV and simultaneous comments on Twitter. Social ScienceComputer Review, 33(3), 259–276. doi:10.1177/0894439314537886
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Onderzoeksvragen
In hoeverre komen de uitingen van politici tijdens een tv-debatterug in online discussies op het tweede scherm?
RQ1 Welke onderwerpen worden benadrukt door dekandidaten?
RQ2 Welke onderwerpen worden benadrukt doorTwittergebruikers?
RQ3 Met welke onderwerpen worden de kandidaten inverband gebracht op Twitter?
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van hetdebat
• tweets met hashtag#tvduell
• N = 120, 557 tweetsvan N = 24, 796gebruikers
• 22-9-2013,20.30-22.00
De analyse
• Een aantal zelfgeschreven Pythonscripts:
1 preprocessing (stemming,stopword removal)
2 woorden tellen3 log likelihood (corpus
comparison): hoe kenmerkend iseen woord voor een corpus?
4 visualisatie van co-occurrences
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van hetdebat
• tweets met hashtag#tvduell
• N = 120, 557 tweetsvan N = 24, 796gebruikers
• 22-9-2013,20.30-22.00
De analyse
• Een aantal zelfgeschreven Pythonscripts:
1 preprocessing (stemming,stopword removal)
2 woorden tellen3 log likelihood (corpus
comparison): hoe kenmerkend iseen woord voor een corpus?
4 visualisatie van co-occurrences
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Methode
Data
• transcript van hetdebat
• tweets met hashtag#tvduell
• N = 120, 557 tweetsvan N = 24, 796gebruikers
• 22-9-2013,20.30-22.00
De analyse
• Een aantal zelfgeschreven Pythonscripts:
1 preprocessing (stemming,stopword removal)
2 woorden tellen3 log likelihood (corpus
comparison): hoe kenmerkend iseen woord voor een corpus?
4 visualisatie van co-occurrences
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op tv
LL word Frequency Merkel Frequency Steinbruck
27,73 merkel 0 2019,41 arbeitsplatz [job] 14 015,25 steinbruck 11 09,70 koalition [coaltion] 7 09,70 international 7 09,70 gemeinsam [together] 7 08,55 griechenland [Greece] 10 18,32 investi [investment] 6 06,93 uberzeug [belief] 5 06,93 okonom [economic] 0 5
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Meest kenmerkende woorden op Twitter
LL word Frequency Merkel Frequency Steinbruck
32443,39 merkel 29672 030751,65 steinbrueck 0 177801507,08 kett [necklace] 1628 341241,14 vertrau [trust] 1240 12863,84 fdp [a coalition partner] 985 29775,93 nsa 1809 298626,49 wikipedia 40 502574,65 twittert [tweets] 40 469544,87 koalition [coalition] 864 77517,99 gold 669 34
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Het tweede scherm
Waarmee worden de politici geassocieerd?
Merkel
• halsketting
• vertrouwen (sarcastischbedoeld)
• NSA-schandaal
• coalitiepartijen
Steinbruck
• suggestie om iets op tezoeken op Wikipedia
• tweets van zijn eigenaccount tijdens het debat
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Nieuws delen op social media
Welke artikelen op nieuwssites worden het vaakst op social mediagedeeld?
Trilling, D., Tolochko, P., & Burscher, B. (2015, June). Viral news: How to predictnews sharing based on article characteristics. Paper presented at the WorldAssociation for Public Opinion Research Conference, Buenos Aires, Argentinia.
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpaginadownloaden
• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren
Sharing-data
• tijdsverschil van 1 maand of langer
• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpaginadownloaden
• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren
Sharing-data
• tijdsverschil van 1 maand of langer
• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
De data
Artikeldata
• januari 2014—augustus 2014
• automatische query van RSS-feeds 1x/uur
• naast opslaan van RSS-data: meteen volledige webpaginadownloaden
• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren
Sharing-data
• tijdsverschil van 1 maand of langer
• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
met supervised machine learning
• onderwerp (categorieen)
• binnenland/buitenland
• human interest (ja/nee)
• conflict (ja/nee)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
met supervised machine learning
• onderwerp (categorieen)
• binnenland/buitenland
• human interest (ja/nee)
• conflict (ja/nee)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met parsing, regular expressions etc.
• auteur (ANP? eigen journalist?)
• plaats/land
met supervised machine learning
• onderwerp (categorieen)
• binnenland/buitenland
• human interest (ja/nee)
• conflict (ja/nee)
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
met sentimentanalyse
• positiviteit
• negativiteit
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
met sentimentanalyse
• positiviteit
• negativiteit
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Wat kun je eruit halen?
met woordfrequenties
• aandacht voor hetzelfde onderwerp tussen nieuwssites
met sentimentanalyse
• positiviteit
• negativiteit
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
• Vergelijkbaar, maar meer spreiding:
• Geen shares: 30%
• Top-3: 48.689, 53,844 en 79,975 interacties
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
• Vergelijkbaar, maar meer spreiding:
• Geen shares: 30%
• Top-3: 48.689, 53,844 en 79,975 interacties
Meer dan sentimentscores Damian Trilling
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Nieuws delen op social media
Enkele resultaten
• Meeste artikelen <100 shares; maar enkele >4,000
• Geen shares: 10%
• Maar: 73% krijgen ≤ 10 shares
• Vergelijkbaar, maar meer spreiding:
• Geen shares: 30%
• Top-3: 48.689, 53,844 en 79,975 interacties
Meer dan sentimentscores Damian Trilling
FROM NEWSWORTHINESS TO SHAREWORTHINESS 31
Table 3Negative binomial regressions
Twitter Facebook
ControlsSite: AD 3.952∗∗∗ (3.888, 4.018) 8.469∗∗∗ (8.145, 8.804)Site: NRC 8.191∗∗∗ (7.979, 8.409) 13.831∗∗∗ (12.923, 14.812)Site: NU 15.872∗∗∗ (15.445, 16.312) 62.446∗∗∗ (58.326, 66.915)Site: Trouw 1.743∗∗∗ (1.710, 1.777) 0.859∗∗∗ (0.820, 0.900)Site: Volkskrant 2.365∗∗∗ (2.321, 2.409) 1.078∗∗ (1.029, 1.129)Days since t0 0.999∗∗∗ (0.999, 1.000) 1.002∗∗∗ (1.002, 1.002)Length (in 1000 characters) 1.165∗∗∗ (1.159, 1.171) 1.275∗∗∗ (1.257, 1.294)Topic: defense and foreign affairs 0.803∗∗∗ (0.786, 0.821) 0.671∗∗∗ (0.635, 0.708)Topic: political system 0.992 (0.968, 1.017) 0.797∗∗∗ (0.749, 0.847)Topic: economic policy 1.007 (0.980, 1.035) 0.631∗∗∗ (0.589, 0.675)Topic: social affairs & education 1.413∗∗∗ (1.376, 1.451) 1.436∗∗∗ (1.342, 1.538)Topic: law and order 0.871∗∗∗ (0.853, 0.889) 0.638∗∗∗ (0.607, 0.671)Topic: infrastructure 1.101∗∗∗ (1.071, 1.131) 0.953 (0.891, 1.020)Topic: science & technology 1.129∗∗∗ (1.070, 1.191) 2.037∗∗∗ (1.786, 2.334)Topic: culture & entertainment 1.136∗∗∗ (1.110, 1.162) 1.525∗∗∗ (1.439, 1.616)Topic: weather & disasters 0.787∗∗∗ (0.741, 0.836) 1.607∗∗∗ (1.394, 1.862)Topic: sports 0.636∗∗∗ (0.623, 0.648) 0.357∗∗∗ (0.341, 0.374)Shareworthiness based on news valuesDomestic topic 1.288∗∗∗ (1.271, 1.305) 1.837∗∗∗ (1.779, 1.896)Geographical distance: 0km 1.141∗∗∗ (1.097, 1.187) 0.958 (0.870, 1.054)Geographical distance: <500km 0.869∗∗∗ (0.831, 0.908) 0.526∗∗∗ (0.472, 0.585)Geographical distance: <1,000km 0.875∗∗∗ (0.837, 0.913) 0.568∗∗∗ (0.511, 0.632)Geographical distance: <2,000km 0.906∗∗∗ (0.870, 0.944) 0.712∗∗∗ (0.644, 0.786)Geographical distance: <5,000km 0.953∗ (0.917, 0.990) 0.731∗∗∗ (0.664, 0.803)Geographical distance: <10,000km 0.942∗∗ (0.906, 0.979) 0.709∗∗∗ (0.644, 0.779)Cultural distance: Non-Western country 0.956∗ (0.921, 0.992) 1.108∗ (1.010, 1.218)Cultural distance: Western country 1.140∗∗∗ (1.098, 1.183) 1.665∗∗∗ (1.522, 1.824)Negativity 1.026∗∗∗ (1.019, 1.033) 1.079∗∗∗ (1.061, 1.097)Conflict 1.105∗∗∗ (1.092, 1.119) 1.093∗∗∗ (1.061, 1.125)Human interest 1.002 (0.988, 1.017) 1.330∗∗∗ (1.281, 1.379)Shareworthiness based on online identityPositivity 1.043∗∗∗ (1.037, 1.049) 1.164∗∗∗ (1.146, 1.182)Press-agency 0.666∗∗∗ (0.657, 0.675) 0.276∗∗∗ (0.267, 0.285)topic popularity score 0.740∗∗∗ (0.705, 0.778) 2.142∗∗∗ (1.884, 2.439)Nagelkerke Pseudo-R2 .56 .36Log Likelihood −422,314.200 −381,856.200θ 1.307∗∗∗ (0.006) 0.188∗∗∗ (0.001)AIC 844,694.400 763,778.400
Note. N = 132, 682. Incidence rate ratios (IRRs) with confidence intervals. Values < 1indicate a negative effect, values > 1 a positive effect. ∗p < .05; ∗∗p < .01; ∗∗∗p < .001
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Conclusie
Computational social science (“Big Data”) -benadering is geenwondermiddel, maar een nuttige aanvulling.
Je kunt veel meer met de data dan je zou denken.
We moeten interdisciplinair samenwerken (sociale wetenschappen,informatica, (kwantitatieve) taalkunde)
Meer dan sentimentscores Damian Trilling
Boumans, J.W. & Trilling, D. (forthcoming).Time to take stock of the toolkit: Anoverview of relevant automated content analysis approaches and techniques for digitaljournalism scholars. Digital Journalism.
Beschouw de technieken die ik heb laten zien als eengereedschapskist waaruit je het meest geschikte werktuig voor jouwonderzoek moet kiezen.
Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie
Vragen?
[email protected]@damian0604
www.damiantrilling.net
Meer dan sentimentscores Damian Trilling