Upload
zoltan-varju
View
1.386
Download
4
Embed Size (px)
Citation preview
{Politika a sorok között}Politikai témájú szövegelemzések
2015.11.16., Politikai kommunikáció
Balogh Kitti – statisztikus, adatelemző, Precognox
{Tartalom}
»Szövegbányászat, tartalom-, diskurzuselemzés
»Politikai szövegelemzés példák:
» Főpolgármester-választással kapcsolatos tweetek elemzése predikciós céllal
» Romák médiareprezentációja egy szélsőjobboldali hírportálon
» A magyar politikai blogszféra az érzelmek hálójában
{Szövegbányászat}
»Szöveges elektronikus adatok feldolgozása és elemzése
»Adatok közötti eligazodás, keresés, rejtett összefüggések feltárása, kinyerése
»Egyre növekvő elektronikus adatmennyiség kb. 85% strukturálatlan adat (pl. emailek, hírek, weboldalak, közösségi média tartalmak)
{Hagyományos szövegelemzés}
»Tartalomelemzés
» Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése
» Kvantitatív elemzés
»Diskurzuselemzés
» Több megközelítés, pl. narratívaelemzés (Propp), konverzációelemzés (Goffman, Garfinkel), kritikai diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi, kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív
{Szövegbányászat és hagyományos szövegelemzés}
»Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság nehézsége/lehetetlensége
{Főpolgármester-választás előrejelzése}
»Módszertan
» Főpolgármester-jelöltek neveit tartalmazó tweetek leszedése
» R twitteR package
» 462 tweet
» választás előtti este (2014.10.11.)
» Tweetek szentiment- és emócióelemzése
» Szentiment- és emóciószótárak
» Gyakoriságok elemzése
» Relatív gyakoriságok szentimentenként, emóciónként
» Összehasonlítás közvélemény-kutatási adatokkal, majd az eredménnyel
{Főpolgármester-választás előrejelzése}
»Elmélet
» DiGrazia, McKelevy, Bollen és Rojas (2010): More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior
» Szentiment- és emócióelemzés
» Szövegek által közvetített vélemények, attitűdök, érzések detektálása pl. termékekkel, személyekkel, eseményekkel, témákkal kapcsolatban
» Szentiment: ált. 3 (negatív, semleges, pozitív) vagy 5 (nagyon negatív, negatív, semleges, pozitív, nagyon pozitív) kategória
» Emóció: ált. 6 alapérzelem (bánat, düh, undor, félelem, meglepődés, öröm)
» Pollyanna-hipotézis vs. negatív: több info
{Főpolgármester-választás előrejelzése}
»Elemzés
Tweetek gyakorisága emóció szerint
Tarlós Bokros Staudt Csárdi Bodnár Össz.
Düh 164 133 7 13 15 332
Szomorúság 6 6 1 1 1 15
Öröm 9 9 1 2 1 22
Félelem 1 0 0 0 0 1
Meglepődás 0 1 0 0 0 1
Undor 0 0 0 0 0 0
Ismeretlen 30 52 1 6 2 91
Össz. 210 201 10 22 19 462
{Főpolgármester-választás előrejelzése}
Tweetek gyakorisága szentiment szerint
Tarlós Bokros Staudt Csárdi Bodnár Össz.
Semleges 149 146 6 16 14 331
Pozitív 26 33 3 3 4 69
Negatív 35 22 1 3 1 62
Össz. 210 201 10 22 19 462
{Főpolgármester-választás előrejelzése}
Eredmények
Nézőpont,
2014.10.6-8.,
biztos szav.
(n=500)
Minden Düh Szom. Öröm Seml. Poz. Neg.
Tarlós 49,06% 52% 45,45% 49,40% 40,00% 40,91% 45,02% 37,68% 56,45%
Bokros 36,04% 25% 43,51% 40,06% 40,00% 40,91% 44,11% 47,83% 35,48%
Staudt 7,10% 6% 2,16% 2,11% 6,67% 4,55% 1,81% 4,35% 1,61%
Csárdi 5,69% 6% 4,76% 3,92% 6,67% 9,09% 4,83% 4,35% 4,84%
Bodnár 2,10% 1% 4,11% 4,52% 6,67% 4,55% 4,23% 5,80% 1,61%
{Főpolgármester-választás előrejelzése}
Tarlós Istvánt ill. Bokros Lajost említő tweetek emóciós szófelhői
{A kuruc.info romaellenes témái}
» Módszertan» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása
» 10.304 cikk
» Időszak: 2006-2015. február
» Cikkekhez tartozó időbélyeg
» Cikkek témáinak kinyerése
» Látens Dirichlet allokáció (LDA)
» Input: dokumentumok szavai, témák száma
» Output: dokumentumok témaeloszlása, témák szóeloszlása
» Kapott témák összevetése a szakirodalommal és kiértékelés
» Témák időbeli változásának vizualizációja
{A kuruc.info romaellenes témái}
»Elmélet» Romareprezentációs kutatások a magyar írott médiában
» Bogdán – Feischmidt - Guld (2010): „Csak másban”. Romareprezentáció a magyar médiában
» Kriza – Vidra (2010): A többség fogságában – kisebbségek médiareprezentációja
» Munk (2013): A romák reprezentációja a többségi média híreiben az 1960-as évektől napjainkig
» Bernáth – Messing (1998, 2003, 2012)
» Témák számának meghatározása Bernáth és Messing (2012) témastruktúrája + mat-i optimalizálás alapján: 27 téma
{A kuruc.info romaellenes témái}
» Minden téma megtalálható, kivéve:» Jogvédelem, kisebbségi jogok» Gazdaság, vállalkozás» Természeti katasztrófák
» Differenciáltabb témafelosztás:» Bűnözés» Politika, közpolitika» Diszkrimináció, előítéletek» Külföldi romák» Külpolitika, EU» Kivándorlás
» Kiértékelés» 600 cikk humán annotálása, 74%-os recall, 55% precesion
» Összevetés a szakirodalmi témastruktúrával, kiértékelés
{A kuruc.info romaellenes témái}
»Témák időbeli változásának vizualizációja» 27 téma, nehéz áttekinthetőség
» Szűcs Krisztina - tervezőgrafikus, data visualization designer, krisztinaszucs.com
» Interaktív adatvizualizáció
» Elérhető: labs.precognox.com/kurucinfo_adatviz/
{A magyar politikai blogszféra}
»Módszertan» Magyar politikai blogok összegyűjtése
» Kb. 70 politikai blog
» Szövegek begyűjtése» Összegyűjtött listából kiindulva
» Szövegekben lévő linkeken továbbhaladva weboldalak hálózata
» Csúcs: weboldal, él: link
» 12.121 db egyedi url, 22.542 él
» Hálózat normalizálása, tisztítása» 1.441 db csomópont (pay-level url), 2.472 él
» Oldalakhoz kötődő szövegek emócióelemzése
{A magyar politikai blogszféra}
»Elmélet
» Hálózatelemzés
» Barabási Albert-László: Behálózva
» Gráfelmélet
» Kolaczyk – Csárdi: Statistical Analysis of Network Data with R
» Emóció-, szentimentelemzés
» Bing, Liu: Sentiment Analysis and Opinion Mining
{A magyar politikai blogszféra}
» Csúcsok közötti átlagos úthossz: 3.342
» Átmérő: 9» Kép: csúcsméret
PageRank szerint
{A magyar politikai blogszféra}
»További tervek
» Gyűlöletbeszéd terjedése a hálózatban
» Csomópontok csoportosítása, visszaadja-e a politikai blokkokat, csoportokat
» Bizonyos témák vizsgálata szentiment-, ill. emócióelemzéssel
Bővebben: kereses.blog.huprecognox.comlabs.precognox.com/kurucinfo_adatviz/
Kontakt: [email protected]