36
KÉPES BESZÉD Szűcs Krisztina data visualization designer @szucsi Balogh Kitti statisztikus, adatelemző

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Embed Size (px)

Citation preview

KÉPES BESZÉD

Szűcs Krisztina data visualization designer

@szucsi

Balogh Kitti statisztikus, adatelemző

TARTALOM

MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?

HOGYAN NÉZ KI A HASZNÁLATA EGY NAGYJÁBÓL 10.000-ES KORPUSZON?

HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?

A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ

MIÉRT?

Nagy mennyiségű címkézetlen dokumentumpl. jogi, üzleti dokumentumok, cikkek, emailek

Probléma: Miről szólnak? Milyen csoportokra oszthatók?

Klaszterezés?Sokszor nehezen értelmezhető csoportok

Topik modellek!Természetes tematikus csoportokLegegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)

A LÁTENS DIRICHLET ALLOKÁCIÓ

MIT TUDUNK MEG?

OUTPUTINPUT dokumentumok témaeloszlásatémák szóeloszlása

dokumentumok szavaitémák száma (K)

Szeretem a narancsot és az almát.

Reggelire müzlit és almát készítek.

A lamantinok és a kutyák aranyosak.

A kutyám tegnap megevett egy narancsot a tállal együtt.

Nézd azt az aranyos sünit, hogyan rágcsálja az almát!

narancsalmareggeli

0.180.150.09

kutya aranyos lamantin

...

0.260.150.12

TOPIK 1

TOPIK 2

TOPIK K

A LÁTENS DIRICHLET ALLOKÁCIÓ

HOGYAN TANULJA MEG?

közelítő algoritmusok, pl. Gibbs mintavételezés

A LÁTENS DIRICHLET ALLOKÁCIÓ

MIRE LEHET HASZNÁLNI?

dokumentumok szervezése

összegzés

szövegekben való keresés

diskurzuselemzés

témák időbeli változásának követése

gyűlöletbeszéd

romareprezentáció vizsgálat, romaellenes témák

kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata

10.304 db cikk, 2006-2015. február

LDA ALKALMAZÁSI PÉLDA

LDA ALKALMAZÁSI PÉLDA

HASZNÁLT ESZKÖZÖK

LDA EGYÉB ESZKÖZÖKBENMALLET LDA

Python adatgyűjtés, adatfeldolgozás

magyarlánc nyelvi elemzés

R témák időbeli változása

Python Gensim

R topicmodels és lda

Mahout

Spark

LDA ALKALMAZÁSI PÉLDA

ADATGYŰJTÉS, ADATFELDOLGOZÁS

cikkek legyűjtése

cikkekhez tartozó időbélyeg kinyerése

nyelvi elemzés magyarlánccal (sztemmelés, POS)

POS tagek szerinti szűrés

stopszavazás

LDA ALKALMAZÁSI PÉLDA

TOPIKOK SZÁMA

romareprezentációs szakirodalom

Messing – Bernáth (1998, 2003, 2012) által használt témastruktúra – 15 téma

harmonikus átlag módszere – 27 topik

LDA ALKALMAZÁSI PÉLDA

ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL ÉS KIÉRTÉKELÉS

témastruktúra megfeleltethető a szakirodalomban használtnak

humán kiértékelés 600 cikken, recall = 74%, precesion = 55%

LDA ALKALMAZÁSI PÉLDA

27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG

LDA ALKALMAZÁSI PÉLDA

27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG

LDA ALKALMAZÁSI PÉLDA

27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

30

40

50

2014

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

30

2014

40

50

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

2014

40

50

30

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

30

40

50

2014

SZOCIÁLIS SEGÉLY, KÖZMUNKA

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

30

40

50

2014

SZOCIÁLIS SEGÉLY, KÖZMUNKA

2008 2010 2012

0

topikarányok összege az időszak cikkeiben

10

20

30

40

50

2014

SZOCIÁLIS SEGÉLY, KÖZMUNKA

Kolompár Orbán bírósági ügye

2008/09

Katapult Mentorprogramnál történt szabálytalanságok

2009/03

Kolompár Orbán és társainak bírósági ügye2009/07

Kolompár Orbán és társainak bírósági ügye2009/10

ROMA ÖNKORMÁNYZAT, ÖNSZERVEZŐDÉS

2008 2010 20120

10

20

30

40

50

2014

Cozma-gyilkosság2009/02

ROMA-NEM ROMA TÁRSADALMI PROBLÉMÁK, ELŐÍTÉLETESSÉG

2008 2010 20120

10

20

30

40

50

2014

Szebb Jövőért Polgárőr Egyesület

elkezd járőrözni Gyöngyöspatán

2011/03

Roma-nem roma konfliktusok Gyöngyöspatán2011/04

SZEBB JÖVŐÉRT POLGÁRŐR EGYESÜLET ÉS GYÖNGYÖSPATA

2008 2010 20120

10

20

30

40

50

2014

labs.precognox.com/kurucinfo_adatviz/

kereses.blog.hu precognox.com

[email protected]

krisztinaszucs.com