34
{Politika a sorok között} Politikai témájú szövegelemzések 2015.11.16., Politikai kommunikáció Balogh Kitti – statisztikus, adatelemző, Precognox

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Embed Size (px)

Citation preview

{Politika a sorok között}Politikai témájú szövegelemzések

2015.11.16., Politikai kommunikáció

Balogh Kitti – statisztikus, adatelemző, Precognox

{Tartalom}

»Szövegbányászat, tartalom-, diskurzuselemzés

»Politikai szövegelemzés példák:

» Főpolgármester-választással kapcsolatos tweetek elemzése predikciós céllal

» Romák médiareprezentációja egy szélsőjobboldali hírportálon

» A magyar politikai blogszféra az érzelmek hálójában

{Szövegbányászat}

»Szöveges elektronikus adatok feldolgozása és elemzése

»Adatok közötti eligazodás, keresés, rejtett összefüggések feltárása, kinyerése

»Egyre növekvő elektronikus adatmennyiség kb. 85% strukturálatlan adat (pl. emailek, hírek, weboldalak, közösségi média tartalmak)

{Hagyományos szövegelemzés}

»Tartalomelemzés

» Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése

» Kvantitatív elemzés

»Diskurzuselemzés

» Több megközelítés, pl. narratívaelemzés (Propp), konverzációelemzés (Goffman, Garfinkel), kritikai diskurzuselemzés (van Dijk, Wodak, Fairclough)

» A szöveg formai, tartalmi elemzésével társadalmi, kulturális, politikai összefüggések feltárása

» Hagyományosan kvalitatív

{Szövegbányászat és hagyományos szövegelemzés}

»Szövegbányászat vs. hagyományos szövegelemzés

» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg

» Automatikus vs. sok emberi erőforrást, időt igénylő

» Szubjektivitás csökkentése vs. szubjektivitás veszélye

» Reprodukálhatóság javítása vs. Reprodukálhatóság nehézsége/lehetetlensége

{Főpolgármester-választás előrejelzése}

»Módszertan

» Főpolgármester-jelöltek neveit tartalmazó tweetek leszedése

» R twitteR package

» 462 tweet

» választás előtti este (2014.10.11.)

» Tweetek szentiment- és emócióelemzése

» Szentiment- és emóciószótárak

» Gyakoriságok elemzése

» Relatív gyakoriságok szentimentenként, emóciónként

» Összehasonlítás közvélemény-kutatási adatokkal, majd az eredménnyel

{Főpolgármester-választás előrejelzése}

»Elmélet

» DiGrazia, McKelevy, Bollen és Rojas (2010): More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior

» Szentiment- és emócióelemzés

» Szövegek által közvetített vélemények, attitűdök, érzések detektálása pl. termékekkel, személyekkel, eseményekkel, témákkal kapcsolatban

» Szentiment: ált. 3 (negatív, semleges, pozitív) vagy 5 (nagyon negatív, negatív, semleges, pozitív, nagyon pozitív) kategória

» Emóció: ált. 6 alapérzelem (bánat, düh, undor, félelem, meglepődés, öröm)

» Pollyanna-hipotézis vs. negatív: több info

{Főpolgármester-választás előrejelzése}

»Elemzés

Tweetek gyakorisága emóció szerint

Tarlós Bokros Staudt Csárdi Bodnár Össz.

Düh 164 133 7 13 15 332

Szomorúság 6 6 1 1 1 15

Öröm 9 9 1 2 1 22

Félelem 1 0 0 0 0 1

Meglepődás 0 1 0 0 0 1

Undor 0 0 0 0 0 0

Ismeretlen 30 52 1 6 2 91

Össz. 210 201 10 22 19 462

{Főpolgármester-választás előrejelzése}

Tweetek gyakorisága szentiment szerint

Tarlós Bokros Staudt Csárdi Bodnár Össz.

Semleges 149 146 6 16 14 331

Pozitív 26 33 3 3 4 69

Negatív 35 22 1 3 1 62

Össz. 210 201 10 22 19 462

{Főpolgármester-választás előrejelzése}

Eredmények

Nézőpont,

2014.10.6-8.,

biztos szav.

(n=500)

Minden Düh Szom. Öröm Seml. Poz. Neg.

Tarlós 49,06% 52% 45,45% 49,40% 40,00% 40,91% 45,02% 37,68% 56,45%

Bokros 36,04% 25% 43,51% 40,06% 40,00% 40,91% 44,11% 47,83% 35,48%

Staudt 7,10% 6% 2,16% 2,11% 6,67% 4,55% 1,81% 4,35% 1,61%

Csárdi 5,69% 6% 4,76% 3,92% 6,67% 9,09% 4,83% 4,35% 4,84%

Bodnár 2,10% 1% 4,11% 4,52% 6,67% 4,55% 4,23% 5,80% 1,61%

{Főpolgármester-választás előrejelzése}

Tarlós Istvánt ill. Bokros Lajost említő tweetek emóciós szófelhői

{A kuruc.info romaellenes témái}

» Módszertan» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása

» 10.304 cikk

» Időszak: 2006-2015. február

» Cikkekhez tartozó időbélyeg

» Cikkek témáinak kinyerése

» Látens Dirichlet allokáció (LDA)

» Input: dokumentumok szavai, témák száma

» Output: dokumentumok témaeloszlása, témák szóeloszlása

» Kapott témák összevetése a szakirodalommal és kiértékelés

» Témák időbeli változásának vizualizációja

{A kuruc.info romaellenes témái}

»Elmélet» Romareprezentációs kutatások a magyar írott médiában

» Bogdán – Feischmidt - Guld (2010): „Csak másban”. Romareprezentáció a magyar médiában

» Kriza – Vidra (2010): A többség fogságában – kisebbségek médiareprezentációja

» Munk (2013): A romák reprezentációja a többségi média híreiben az 1960-as évektől napjainkig

» Bernáth – Messing (1998, 2003, 2012)

» Témák számának meghatározása Bernáth és Messing (2012) témastruktúrája + mat-i optimalizálás alapján: 27 téma

{A kuruc.info romaellenes témái}

» Minden téma megtalálható, kivéve:» Jogvédelem, kisebbségi jogok» Gazdaság, vállalkozás» Természeti katasztrófák

» Differenciáltabb témafelosztás:» Bűnözés» Politika, közpolitika» Diszkrimináció, előítéletek» Külföldi romák» Külpolitika, EU» Kivándorlás

» Kiértékelés» 600 cikk humán annotálása, 74%-os recall, 55% precesion

» Összevetés a szakirodalmi témastruktúrával, kiértékelés

{A kuruc.info romaellenes témái}

»Témák időbeli változásának vizualizációja» 27 téma, nehéz áttekinthetőség

» Szűcs Krisztina - tervezőgrafikus, data visualization designer, krisztinaszucs.com

» Interaktív adatvizualizáció

» Elérhető: labs.precognox.com/kurucinfo_adatviz/

{A kuruc.info romaellenes témái}

» Eredeti idősorok 1-9. téma:

{A kuruc.info romaellenes témái}

{A kuruc.info romaellenes témái}

{A kuruc.info romaellenes témái}

{A magyar politikai blogszféra}

»Módszertan» Magyar politikai blogok összegyűjtése

» Kb. 70 politikai blog

» Szövegek begyűjtése» Összegyűjtött listából kiindulva

» Szövegekben lévő linkeken továbbhaladva weboldalak hálózata

» Csúcs: weboldal, él: link

» 12.121 db egyedi url, 22.542 él

» Hálózat normalizálása, tisztítása» 1.441 db csomópont (pay-level url), 2.472 él

» Oldalakhoz kötődő szövegek emócióelemzése

{A magyar politikai blogszféra}

»Elmélet

» Hálózatelemzés

» Barabási Albert-László: Behálózva

» Gráfelmélet

» Kolaczyk – Csárdi: Statistical Analysis of Network Data with R

» Emóció-, szentimentelemzés

» Bing, Liu: Sentiment Analysis and Opinion Mining

{A magyar politikai blogszféra}

» Csúcsok közötti átlagos úthossz: 3.342

» Átmérő: 9» Kép: csúcsméret

PageRank szerint

{A magyar politikai blogszféra}

{A magyar politikai blogszféra}

{A magyar politikai blogszféra}

{A magyar politikai blogszféra}

» Bánat

{A magyar politikai blogszféra}

» Düh

{A magyar politikai blogszféra}

» Félelem

{A magyar politikai blogszféra}

» Meglepődés

{A magyar politikai blogszféra}

» Öröm

{A magyar politikai blogszféra}

» Undor

{A magyar politikai blogszféra}

»További tervek

» Gyűlöletbeszéd terjedése a hálózatban

» Csomópontok csoportosítása, visszaadja-e a politikai blokkokat, csoportokat

» Bizonyos témák vizsgálata szentiment-, ill. emócióelemzéssel

{Köszönöm szépen a figyelmet!}

Bővebben: kereses.blog.huprecognox.comlabs.precognox.com/kurucinfo_adatviz/

Kontakt: [email protected]