61
Meer dan sentimentscores: inzichten destilleren uit een enorme hoeveelheid data Damian Trilling [email protected] @damian0604 www.damiantrilling.net Afdeling Communicatiewetenschap Universiteit van Amsterdam Jaarbijeenkomst van het Nederlandstalig Platform voor Surveyonderzoek (NPSO) 22 September 2015

NPSO

Embed Size (px)

Citation preview

Meer dan sentimentscores: inzichten destillerenuit een enorme hoeveelheid data

Damian Trilling

[email protected]@damian0604

www.damiantrilling.net

Afdeling CommunicatiewetenschapUniversiteit van Amsterdam

Jaarbijeenkomst van hetNederlandstalig Platform voor Surveyonderzoek (NPSO)

22 September 2015

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Wie ben ik?

Damian Trilling

• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam

• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen

• richt zich vooral op de geautomatiseerde analyse van digitaledata

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Wie ben ik?

Damian Trilling

• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam

• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen

• richt zich vooral op de geautomatiseerde analyse van digitaledata

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Wie ben ik?

Damian Trilling

• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam

• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen

• richt zich vooral op de geautomatiseerde analyse van digitaledata

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Wie ben ik?

Damian Trilling

• is Universitair Docent Politieke Communicatie en Journalistiekaan de Universiteit van Amsterdam

• is geınteresseerd in de vraag hoe veranderingen in hetmedialandschap en technologische innovaties van invloed zijnop de manier waarop burgers het nieuws volgen

• richt zich vooral op de geautomatiseerde analyse van digitaledata

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Waar ga ik het over hebben?

1 Zegen en vloek: een enorme hoeveelheid dataZegen en vloekVerschillende benaderingen: wat wil je weten?

2 Welke methoden zijn er?Enkele voorbeeldenEen voorlopige indeling

3 Twee studiesHet tweede schermNieuws delen op social media

4 Conclusie

Meer dan sentimentscores Damian Trilling

Zegen en vloek: een enorme hoeveelheid data

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Waar surveys goed in zijn – en waarin niet

voordelen

• representatief (soms)

• flexibel: jij kunt de vragen bedenken

• data in een gestandardiseerdformaat: makkelijk te verwerken

• beproefde methode

nadelen

• je kunt niets te weten komen wat jeniet hebt gevraagd

• je kunt geen daadwerkelijk gedragmeten

• kosten

• surveymoeheid, validiteit?

• breed ipv diep

• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken

“⇒ we moeten iets met Big Data/social/media/. . . ”

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Waar surveys goed in zijn – en waarin niet

voordelen

• representatief (soms)

• flexibel: jij kunt de vragen bedenken

• data in een gestandardiseerdformaat: makkelijk te verwerken

• beproefde methode

nadelen

• je kunt niets te weten komen wat jeniet hebt gevraagd

• je kunt geen daadwerkelijk gedragmeten

• kosten

• surveymoeheid, validiteit?

• breed ipv diep

• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken

“⇒ we moeten iets met Big Data/social/media/. . . ”

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Waar surveys goed in zijn – en waarin niet

voordelen

• representatief (soms)

• flexibel: jij kunt de vragen bedenken

• data in een gestandardiseerdformaat: makkelijk te verwerken

• beproefde methode

nadelen

• je kunt niets te weten komen wat jeniet hebt gevraagd

• je kunt geen daadwerkelijk gedragmeten

• kosten

• surveymoeheid, validiteit?

• breed ipv diep

• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken

“⇒ we moeten iets met Big Data/social/media/. . . ”

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Waar surveys goed in zijn – en waarin niet

voordelen

• representatief (soms)

• flexibel: jij kunt de vragen bedenken

• data in een gestandardiseerdformaat: makkelijk te verwerken

• beproefde methode

nadelen

• je kunt niets te weten komen wat jeniet hebt gevraagd

• je kunt geen daadwerkelijk gedragmeten

• kosten

• surveymoeheid, validiteit?

• breed ipv diep

• niet geschikt om weinig voorkomendgedrag, kleine subpopulaties etc. teonderzoeken

“⇒ we moeten iets met Big Data/social/media/. . . ”

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Een aanvulling op (en geen vervanging van)surveyonderzoek. . .

In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerd

iedereen laat sporen achter op sociale media etc.

Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)

De grote vraag: Hoe analyseer je het?

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Een aanvulling op (en geen vervanging van)surveyonderzoek. . .

In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.

Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)

De grote vraag: Hoe analyseer je het?

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Een aanvulling op (en geen vervanging van)surveyonderzoek. . .

In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.

Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)

De grote vraag: Hoe analyseer je het?

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Zegen en vloek

Een aanvulling op (en geen vervanging van)surveyonderzoek. . .

In plaats van zelf “gecreeerde” surveydata data analyseren die doormensen zelf worden gecreeerdiedereen laat sporen achter op sociale media etc.

Maar er zijn ook grote datasets die alleen nooit systematischgeanalyseerd zijn (open data)

De grote vraag: Hoe analyseer je het?

Meer dan sentimentscores Damian Trilling

Verschillende benaderingen: wat wil je weten?

Stel we hebben 500.000 tweets (of comments, Facebookposts ofproductrecensies) over een bepaald onderwerp. . .

Verschillende benaderingen: wat wil je weten?

Stel we hebben 500.000 tweets (of comments, Facebookposts ofproductrecensies) over een bepaald onderwerp. . .

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Verschillende benaderingen

Je zou natuurlijk. . .

• een steekproef kunnen trekken, deze handmatig coderen enlater “gewoon” statistisch analyseren

• alleen naar de interessantste/het vaakst geretweete/. . . tweetskunnen kijken en deze kwalitatief analyseren

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Verschillende benaderingen

Maar misschien is het beter om. . .

een methode te hebben die

• gebruik maakt van alle beschikbare informatie

• (hopelijk) diepe(re) of tenminste aanvullende inzichten levert

• maar tegelijkertijd een behapbaar overzicht geeft?

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Welke methoden zijn er?

Enkele voorbeelden

Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topicalvariation in company news: An assessment of the diversity of topics in Dutchnewspaper coverage of media prominent corporations. Paper presented at BledCom,Bled, Slovenia.

Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:Introducing a toolkit for inductive automated frame analysis. Paper presented at theWorld Association for Public Opinion Research Conference, Buenos Aires, Argentinia.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Welke methoden zijn er?

Enkele voorbeelden

Jonkman, J.G.F., Trilling, D., Verhoeven, P., & Vliegenthart, R. (2015, June). Topicalvariation in company news: An assessment of the diversity of topics in Dutchnewspaper coverage of media prominent corporations. Paper presented at BledCom,Bled, Slovenia.

Trilling, D. & Jonkman, J. (2015, June). Packing and unpacking the Bag of Words:Introducing a toolkit for inductive automated frame analysis. Paper presented at theWorld Association for Public Opinion Research Conference, Buenos Aires, Argentinia.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Voorbeeld: aandacht over tijd

Hoe vaak worden bedrijven in het nieuws genoemd?Methode: turven.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (1)Methode: Topic modelling (Latent Dirichlet Allocation)

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (2)Methode: Principal Component Analysis

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Enkele voorbeelden

Voorbeeld: Onderwerpen identificerenWaar gaat economisch nieuws over? (3)Methode: Visualisatie van samen genoemde woorden

Meer dan sentimentscores Damian Trilling

Een voorlopige indeling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Ook bij automatische inhoudsanalyse: deductief eninductief

Deductief

• simpel: turven (zoektermen,woordenlijsten, . . . )

• geavanceerd: supervisedmachine learning

Inductief

• woordfrequenties enco-occurrences

• visualisatie• principale-

componentenanalyse(PCA)

• clusteranalyse• topic modelling, m.n.

latent dirichlet allocation(LDA)

• . . .

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Ook bij automatische inhoudsanalyse: deductief eninductief

Deductief

• simpel: turven (zoektermen,woordenlijsten, . . . )

• geavanceerd: supervisedmachine learning

Inductief

• woordfrequenties enco-occurrences

• visualisatie• principale-

componentenanalyse(PCA)

• clusteranalyse• topic modelling, m.n.

latent dirichlet allocation(LDA)

• . . .

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Ook bij automatische inhoudsanalyse: deductief eninductief

Deductief

• simpel: turven (zoektermen,woordenlijsten, . . . )

• geavanceerd: supervisedmachine learning

Inductief

• woordfrequenties enco-occurrences

• visualisatie• principale-

componentenanalyse(PCA)

• clusteranalyse• topic modelling, m.n.

latent dirichlet allocation(LDA)

• . . .

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Alles op een hoop gooien of rekening houden met dezinsstructuur?

bag of words (BOW)

• simpel

• te simplistisch?

• niet in staat om metontkenningen etc. om tegaan

• maar werkt vaak wel! (goedgenoeg)

parsing (= zinnen ontleden)

• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen

• werkt voor sommige talenbeter dan voor andere

• gaat ervan uit dat mensen“nette” zinnen schrijven

• en dat is meer danproblematisch metsocial-media-data.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Alles op een hoop gooien of rekening houden met dezinsstructuur?

bag of words (BOW)

• simpel

• te simplistisch?

• niet in staat om metontkenningen etc. om tegaan

• maar werkt vaak wel! (goedgenoeg)

parsing (= zinnen ontleden)

• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen

• werkt voor sommige talenbeter dan voor andere

• gaat ervan uit dat mensen“nette” zinnen schrijven

• en dat is meer danproblematisch metsocial-media-data.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Een voorlopige indeling

Alles op een hoop gooien of rekening houden met dezinsstructuur?

bag of words (BOW)

• simpel

• te simplistisch?

• niet in staat om metontkenningen etc. om tegaan

• maar werkt vaak wel! (goedgenoeg)

parsing (= zinnen ontleden)

• krachtige methode die jedichter bij de betekenis vaneen tekst kan brengen

• werkt voor sommige talenbeter dan voor andere

• gaat ervan uit dat mensen“nette” zinnen schrijven

• en dat is meer danproblematisch metsocial-media-data.

Meer dan sentimentscores Damian Trilling

Twee studies

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Het tweede scherm

Welke discussies worden tijdens tv-debatten op het tweede schermgevoerd?

Trilling, D. (2015). Two different debates? Investigating the relationship between apolitical debate on TV and simultaneous comments on Twitter. Social ScienceComputer Review, 33(3), 259–276. doi:10.1177/0894439314537886

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Onderzoeksvragen

In hoeverre komen de uitingen van politici tijdens een tv-debatterug in online discussies op het tweede scherm?

RQ1 Welke onderwerpen worden benadrukt door dekandidaten?

RQ2 Welke onderwerpen worden benadrukt doorTwittergebruikers?

RQ3 Met welke onderwerpen worden de kandidaten inverband gebracht op Twitter?

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Methode

Data

• transcript van hetdebat

• tweets met hashtag#tvduell

• N = 120, 557 tweetsvan N = 24, 796gebruikers

• 22-9-2013,20.30-22.00

De analyse

• Een aantal zelfgeschreven Pythonscripts:

1 preprocessing (stemming,stopword removal)

2 woorden tellen3 log likelihood (corpus

comparison): hoe kenmerkend iseen woord voor een corpus?

4 visualisatie van co-occurrences

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Methode

Data

• transcript van hetdebat

• tweets met hashtag#tvduell

• N = 120, 557 tweetsvan N = 24, 796gebruikers

• 22-9-2013,20.30-22.00

De analyse

• Een aantal zelfgeschreven Pythonscripts:

1 preprocessing (stemming,stopword removal)

2 woorden tellen3 log likelihood (corpus

comparison): hoe kenmerkend iseen woord voor een corpus?

4 visualisatie van co-occurrences

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Methode

Data

• transcript van hetdebat

• tweets met hashtag#tvduell

• N = 120, 557 tweetsvan N = 24, 796gebruikers

• 22-9-2013,20.30-22.00

De analyse

• Een aantal zelfgeschreven Pythonscripts:

1 preprocessing (stemming,stopword removal)

2 woorden tellen3 log likelihood (corpus

comparison): hoe kenmerkend iseen woord voor een corpus?

4 visualisatie van co-occurrences

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Meest kenmerkende woorden op tv

LL word Frequency Merkel Frequency Steinbruck

27,73 merkel 0 2019,41 arbeitsplatz [job] 14 015,25 steinbruck 11 09,70 koalition [coaltion] 7 09,70 international 7 09,70 gemeinsam [together] 7 08,55 griechenland [Greece] 10 18,32 investi [investment] 6 06,93 uberzeug [belief] 5 06,93 okonom [economic] 0 5

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Meest kenmerkende woorden op Twitter

LL word Frequency Merkel Frequency Steinbruck

32443,39 merkel 29672 030751,65 steinbrueck 0 177801507,08 kett [necklace] 1628 341241,14 vertrau [trust] 1240 12863,84 fdp [a coalition partner] 985 29775,93 nsa 1809 298626,49 wikipedia 40 502574,65 twittert [tweets] 40 469544,87 koalition [coalition] 864 77517,99 gold 669 34

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Het tweede scherm

Waarmee worden de politici geassocieerd?

Merkel

• halsketting

• vertrouwen (sarcastischbedoeld)

• NSA-schandaal

• coalitiepartijen

Steinbruck

• suggestie om iets op tezoeken op Wikipedia

• tweets van zijn eigenaccount tijdens het debat

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Nieuws delen op social media

Welke artikelen op nieuwssites worden het vaakst op social mediagedeeld?

Trilling, D., Tolochko, P., & Burscher, B. (2015, June). Viral news: How to predictnews sharing based on article characteristics. Paper presented at the WorldAssociation for Public Opinion Research Conference, Buenos Aires, Argentinia.

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

De data

Artikeldata

• januari 2014—augustus 2014

• automatische query van RSS-feeds 1x/uur

• naast opslaan van RSS-data: meteen volledige webpaginadownloaden

• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren

Sharing-data

• tijdsverschil van 1 maand of langer

• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

De data

Artikeldata

• januari 2014—augustus 2014

• automatische query van RSS-feeds 1x/uur

• naast opslaan van RSS-data: meteen volledige webpaginadownloaden

• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren

Sharing-data

• tijdsverschil van 1 maand of langer

• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

De data

Artikeldata

• januari 2014—augustus 2014

• automatische query van RSS-feeds 1x/uur

• naast opslaan van RSS-data: meteen volledige webpaginadownloaden

• Later: de gedownloade pagina’s parsen (Python) en relevanteinformatie extraheren

Sharing-data

• tijdsverschil van 1 maand of langer

• Facebook, Twitter, Google API-queries (Python) om aantalshares voor elke URL in de RSS-dataset te achterhalen

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met parsing, regular expressions etc.

• auteur (ANP? eigen journalist?)

• plaats/land

met supervised machine learning

• onderwerp (categorieen)

• binnenland/buitenland

• human interest (ja/nee)

• conflict (ja/nee)

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met parsing, regular expressions etc.

• auteur (ANP? eigen journalist?)

• plaats/land

met supervised machine learning

• onderwerp (categorieen)

• binnenland/buitenland

• human interest (ja/nee)

• conflict (ja/nee)

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met parsing, regular expressions etc.

• auteur (ANP? eigen journalist?)

• plaats/land

met supervised machine learning

• onderwerp (categorieen)

• binnenland/buitenland

• human interest (ja/nee)

• conflict (ja/nee)

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met woordfrequenties

• aandacht voor hetzelfde onderwerp tussen nieuwssites

met sentimentanalyse

• positiviteit

• negativiteit

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met woordfrequenties

• aandacht voor hetzelfde onderwerp tussen nieuwssites

met sentimentanalyse

• positiviteit

• negativiteit

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Wat kun je eruit halen?

met woordfrequenties

• aandacht voor hetzelfde onderwerp tussen nieuwssites

met sentimentanalyse

• positiviteit

• negativiteit

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Enkele resultaten

Twitter

• Meeste artikelen <100 shares; maar enkele >4,000

• Geen shares: 10%

• Maar: 73% krijgen ≤ 10 shares

Facebook

• Vergelijkbaar, maar meer spreiding:

• Geen shares: 30%

• Top-3: 48.689, 53,844 en 79,975 interacties

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Enkele resultaten

Twitter

• Meeste artikelen <100 shares; maar enkele >4,000

• Geen shares: 10%

• Maar: 73% krijgen ≤ 10 shares

Facebook

• Vergelijkbaar, maar meer spreiding:

• Geen shares: 30%

• Top-3: 48.689, 53,844 en 79,975 interacties

Meer dan sentimentscores Damian Trilling

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Nieuws delen op social media

Enkele resultaten

Twitter

• Meeste artikelen <100 shares; maar enkele >4,000

• Geen shares: 10%

• Maar: 73% krijgen ≤ 10 shares

Facebook

• Vergelijkbaar, maar meer spreiding:

• Geen shares: 30%

• Top-3: 48.689, 53,844 en 79,975 interacties

Meer dan sentimentscores Damian Trilling

FROM NEWSWORTHINESS TO SHAREWORTHINESS 31

Table 3Negative binomial regressions

Twitter Facebook

ControlsSite: AD 3.952∗∗∗ (3.888, 4.018) 8.469∗∗∗ (8.145, 8.804)Site: NRC 8.191∗∗∗ (7.979, 8.409) 13.831∗∗∗ (12.923, 14.812)Site: NU 15.872∗∗∗ (15.445, 16.312) 62.446∗∗∗ (58.326, 66.915)Site: Trouw 1.743∗∗∗ (1.710, 1.777) 0.859∗∗∗ (0.820, 0.900)Site: Volkskrant 2.365∗∗∗ (2.321, 2.409) 1.078∗∗ (1.029, 1.129)Days since t0 0.999∗∗∗ (0.999, 1.000) 1.002∗∗∗ (1.002, 1.002)Length (in 1000 characters) 1.165∗∗∗ (1.159, 1.171) 1.275∗∗∗ (1.257, 1.294)Topic: defense and foreign affairs 0.803∗∗∗ (0.786, 0.821) 0.671∗∗∗ (0.635, 0.708)Topic: political system 0.992 (0.968, 1.017) 0.797∗∗∗ (0.749, 0.847)Topic: economic policy 1.007 (0.980, 1.035) 0.631∗∗∗ (0.589, 0.675)Topic: social affairs & education 1.413∗∗∗ (1.376, 1.451) 1.436∗∗∗ (1.342, 1.538)Topic: law and order 0.871∗∗∗ (0.853, 0.889) 0.638∗∗∗ (0.607, 0.671)Topic: infrastructure 1.101∗∗∗ (1.071, 1.131) 0.953 (0.891, 1.020)Topic: science & technology 1.129∗∗∗ (1.070, 1.191) 2.037∗∗∗ (1.786, 2.334)Topic: culture & entertainment 1.136∗∗∗ (1.110, 1.162) 1.525∗∗∗ (1.439, 1.616)Topic: weather & disasters 0.787∗∗∗ (0.741, 0.836) 1.607∗∗∗ (1.394, 1.862)Topic: sports 0.636∗∗∗ (0.623, 0.648) 0.357∗∗∗ (0.341, 0.374)Shareworthiness based on news valuesDomestic topic 1.288∗∗∗ (1.271, 1.305) 1.837∗∗∗ (1.779, 1.896)Geographical distance: 0km 1.141∗∗∗ (1.097, 1.187) 0.958 (0.870, 1.054)Geographical distance: <500km 0.869∗∗∗ (0.831, 0.908) 0.526∗∗∗ (0.472, 0.585)Geographical distance: <1,000km 0.875∗∗∗ (0.837, 0.913) 0.568∗∗∗ (0.511, 0.632)Geographical distance: <2,000km 0.906∗∗∗ (0.870, 0.944) 0.712∗∗∗ (0.644, 0.786)Geographical distance: <5,000km 0.953∗ (0.917, 0.990) 0.731∗∗∗ (0.664, 0.803)Geographical distance: <10,000km 0.942∗∗ (0.906, 0.979) 0.709∗∗∗ (0.644, 0.779)Cultural distance: Non-Western country 0.956∗ (0.921, 0.992) 1.108∗ (1.010, 1.218)Cultural distance: Western country 1.140∗∗∗ (1.098, 1.183) 1.665∗∗∗ (1.522, 1.824)Negativity 1.026∗∗∗ (1.019, 1.033) 1.079∗∗∗ (1.061, 1.097)Conflict 1.105∗∗∗ (1.092, 1.119) 1.093∗∗∗ (1.061, 1.125)Human interest 1.002 (0.988, 1.017) 1.330∗∗∗ (1.281, 1.379)Shareworthiness based on online identityPositivity 1.043∗∗∗ (1.037, 1.049) 1.164∗∗∗ (1.146, 1.182)Press-agency 0.666∗∗∗ (0.657, 0.675) 0.276∗∗∗ (0.267, 0.285)topic popularity score 0.740∗∗∗ (0.705, 0.778) 2.142∗∗∗ (1.884, 2.439)Nagelkerke Pseudo-R2 .56 .36Log Likelihood −422,314.200 −381,856.200θ 1.307∗∗∗ (0.006) 0.188∗∗∗ (0.001)AIC 844,694.400 763,778.400

Note. N = 132, 682. Incidence rate ratios (IRRs) with confidence intervals. Values < 1indicate a negative effect, values > 1 a positive effect. ∗p < .05; ∗∗p < .01; ∗∗∗p < .001

Conclusie

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Conclusie

Computational social science (“Big Data”) -benadering is geenwondermiddel, maar een nuttige aanvulling.

Je kunt veel meer met de data dan je zou denken.

We moeten interdisciplinair samenwerken (sociale wetenschappen,informatica, (kwantitatieve) taalkunde)

Meer dan sentimentscores Damian Trilling

Boumans, J.W. & Trilling, D. (forthcoming).Time to take stock of the toolkit: Anoverview of relevant automated content analysis approaches and techniques for digitaljournalism scholars. Digital Journalism.

Beschouw de technieken die ik heb laten zien als eengereedschapskist waaruit je het meest geschikte werktuig voor jouwonderzoek moet kiezen.

Wie ben ik? Zegen en vloek Welke methoden zijn er? Twee studies Conclusie

Vragen?

[email protected]@damian0604

www.damiantrilling.net

Meer dan sentimentscores Damian Trilling