22
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

Embed Size (px)

Citation preview

Page 1: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

Multivariate Verfahren der Statistik bei der quantitativen

Textanalyse

Ernst Stadlober und Mario DjuzelicInstitut für Statistik

Technische Universität Graz

21. Juni 2002

Page 2: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

2

Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen

– TLS: Textlänge gegeben durch Anzahl der

Silben

– m1: mittlere Wortlänge aus

Anzahl der Silben (Silbenanzahl pro

Wort);

– m2: empirische Varianz

der Wortlänge

– log(TLS): logarithmierte Textlänge

– I: das erste Ord´sche Kriterium

I = m2 / m1

– S: das zweite Ord´sche Kriterium

S= m3 / m2

Page 3: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

3

Je zwei slowenische Texte der drei Texttypenmit sechs Kenngrößen (Variablen)

Anzahl der Texte, Mittelwertvektoren

Texttyp TLS m1 m2 log(TLS) I S1 liter. Prosa 4943 1.89 1.02 8.51 0.54 0.952 liter. Prosa 2791 1.93 1.06 7.93 0.55 0.86

0.900.52,8.05,0.96,1.84,4000,,52 11 xn

Texttyp TLS m1 m2 log(TLS) I S1 journ. Prosa 1537 2.21 1.75 7.34 0.79 1.092 journ. Prosa 1200 2.31 1.62 7.09 0.70 0.74

0.850.71,6.78,1.59,2.25,1084,,50 22 xn

Texttyp TLS m1 m2 log(TLS) I S1 Poesie 312 1.81 0.72 5.74 0.40 0.502 Poesie 402 1.75 0.91 6.00 0.52 1.27

0.690.39,5.41,0.68,1.74,270,,51 33 xn

Page 4: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

4

Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1

0.007376 0.0011930.002700 0.000984 0.005252 27.43391 S

0.001193 0.001291 0.003362 0.0019610.003593 18.00747 I

0.002700 0.003362 0.009193 0.005908 0.016770 75.17015 2m

0.000984 0.0019610.005908 0.0044700.019240 80.34962 1m

0.005252 0.0035930.016770 0.0192400.5040001961.689 log(TLS)

27.43391 18.0074775.17016 80.349621961.6898664007.55TLS

SI2m1mlog(TLS)TLS

1S

1 0.390.33 0.17 0.09 0.11 S

0.39 1 0.98 0.820.14 0.17 I

0.33 0.98 1 0.92 0.25 0.27 2

m

0.17 0.820.92 10.41 0.41 1

m

0.09 0.140.25 0.4110.94 log(TLS)

0.11 0.170.27 0.410.941TLS

SI2

m1

mlog(TLS)TLS

1R

Page 5: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

5

Gepoolte Kovarianzmatrix aus Gruppenkovarianzen S i und Sj

jjiiji

ij SnSnnn

S

112

1

Berechnung der multivariaten statistischen Distanzzwischen je zwei sechs-dimensionalen Mittelwertvektoren

5.4022

4.7661

5.5167

)()(,

)()(,

)()(,

321

233232

311

133131

211

122121

xxSxxxxD

xxSxxxxD

xxSxxxxD

t

t

t

Page 6: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

6

Literarische Prosa | Journalistische ProsaUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )2()1(kj xx )2()1(

kj ss ),( )2()1(kj xxD

T L S l i t e r . P r o s aj o u r n . P r o s a

3 9 9 9 . 9 8 11 0 8 4 . 1 6 0

2 9 4 3 . 4 7 07 8 4 . 4 6 9 1

1 . 3 4 2 0 8 8

l o g ( T L S ) l i t e r . P r o s aj o u r n . P r o s a

8 . 0 4 8 4 5 66 . 7 7 9 7 0 8

0 . 7 0 9 9 2 90 . 6 4 4 8 5 8

1 . 8 6 9 0 3 8

m 1 l i t e r . P r o s aj o u r n . P r o s a

1 . 8 3 5 2 9 62 . 2 4 5 3 9 4

0 . 0 6 6 8 5 50 . 1 2 9 8 8 1

3 . 9 9 3 5 3 4

m 2 l i t e r . P r o s aj o u r n . P r o s a

0 . 9 6 0 9 8 11 . 5 9 0 8 2 8

0 . 9 5 8 8 0 00 . 2 0 4 5 8 3

0 . 9 0 0 3 7 0

I l i t e r . P r o s aj o u r n . P r o s a

0 . 5 2 2 5 6 20 . 7 0 6 6 2 2

0 . 0 3 5 9 2 50 . 0 6 3 0 3 2

3 . 6 0 6 2 5 1

S l i t e r . P r o s aj o u r n . P r o s a

0 . 9 0 1 8 1 60 . 8 4 7 3 5 8

0 . 0 8 5 8 8 30 . 2 2 0 7 5 0

0 . 3 2 7 5 6 3

Page 7: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

7

Literarische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )3()1(kj xx )3()1(

kj ss ),( )3()1(kj xxD

T L S l i t e r . P r o s aP o e s i e

3 9 9 9 . 9 8 12 6 9 . 8 6 2 7

2 9 4 3 . 4 7 01 9 1 . 7 4 6 4

1 . 7 7 9 6 6 0

l o g ( T L S ) l i t e r . P r o s aP o e s i e

8 . 0 4 8 4 5 65 . 4 0 5 7 3 9

0 . 7 0 9 9 2 90 . 6 1 9 9 4 7

3 . 9 4 3 0 0 7

m 1 l i t e r . P r o s aP o e s i e

1 . 8 3 5 2 9 61 . 7 3 6 7 5 5

0 . 0 6 6 8 5 50 . 1 1 5 0 2 1

1 . 0 4 4 8 6 1

m 2 l i t e r . P r o s aP o e s i e

0 . 9 6 0 9 8 10 . 6 8 2 4 1 0

0 . 9 5 8 8 0 00 . 1 7 3 3 5 3

0 . 4 0 0 4 7 3

I l i t e r . P r o s aP o e s i e

0 . 5 2 2 5 6 20 . 3 9 0 4 7 5

0 . 0 3 5 9 2 50 . 0 7 9 0 6 2

2 . 1 4 7 3 7 0

S l i t e r . P r o s aP o e s i e

0 . 9 0 1 8 1 60 . 6 9 1 9 9 0

0 . 0 8 5 8 8 30 . 2 4 8 7 5 3

1 . 1 2 6 3 9 3

Page 8: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

8

Journalistische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen

V a r i a b l e T e x t t y p e n )3()2(kj xx )3()2(

kj ss ),( )3()2(kj xxD

T L S j o u r n . P r o s aP o e s i e

1 0 8 4 . 1 6 02 6 9 . 8 6 2 7

7 8 4 . 4 6 9 11 9 1 . 7 4 6 4

1 . 4 3 2 4 4 1

l o g ( T L S ) j o u r n . P r o s aP o e s i e

6 . 7 7 9 7 0 85 . 4 0 5 7 3 9

0 . 6 4 4 8 5 80 . 6 1 9 9 4 7

2 . 1 7 2 6 2 9

m 1 j o u r n . P r o s aP o e s i e

2 . 2 4 5 3 9 41 . 7 3 6 7 5 5

0 . 1 2 9 8 8 10 . 1 1 5 0 2 1

4 . 1 4 8 7 2 5

m 2 j o u r n . P r o s aP o e s i e

1 . 5 9 0 8 2 80 . 6 8 2 4 1 0

0 . 2 0 4 5 8 30 . 1 7 3 3 5 3

4 . 7 9 4 9 0 6

I j o u r n . P r o s aP o e s i e

0 . 7 0 6 6 2 00 . 3 9 0 4 7 5

0 . 0 6 3 0 3 20 . 0 7 9 0 6 2

4 . 4 1 6 7 8 6

S j o u r n . P r o s aP o e s i e

0 . 8 4 7 3 5 80 . 6 9 1 9 9 0

0 . 2 2 0 7 5 00 . 2 4 8 7 5 3

0 . 6 6 0 2 7 0

Page 9: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

9

Auswahl guter Kombinationen von Variablenaus dem Pool von p = 6 Variablen

1.7 1.9 2.1 2.3 2.5

m1

0.4

0.5

0.6

0.7

0.8

I

literarische Prosajournalistische Prosa

3 4 5 6 7 8 9 10

log(TLS)

0.2

0.3

0.4

0.5

0.6

0.7

I

Poesieliterarische Prosa

Scatterplot des Variablenpaares (log(TLS),I)

Scatterplot des Variablenpaares (m1,I)

Page 10: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

10

0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00

m2

0.2

0.4

0.6

0.8

I

Poesiejournalistische Prosa

Scatterplot des Variablenpaares (m2,I)

Page 11: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

11

SImmTLSTLS ijijijijijijij aaaaaaY 654321 21)log(

Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion

Linearkombination der p=6 Variablen

ijY -W erte für alle Beobachtungen

M ittelwerte der G ruppen: )()( , jij

iij YY

M ittelpunkt: 2)()( jij

iijij YYm

Standardisierte Größe:

ijij

ij

ij mYD

Z 1

Page 12: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

12

-4,5 -3,5 -2,5 -1,5 -0,4 0,6 1,6 2,6 3,6 4,6 5,6Diskriminante

0

4

8

12

abso

lute

Häu

fig

kei

ten

literarische Prosajournalistische Prosa

-4,8 -4,0 -3,2 -2,4 -1,5 -0,7 0,1 1,0 1,8 2,6 3,5

Diskriminante

0

2

4

6

8

10

12

abso

lute

Häu

fig

kei

ten

literarische ProsaPoesie

Histogramm der Diskriminante Z12 Multivariate statistische Distanz D12 = 5.5167

Histogramm der Diskriminante Z13

Multivariate statistische DistanzD13 = 4.7661

Page 13: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

13

-4,9 -3,9 -3,0 -2,0 -1,0 -0,1 0,9 1,8 2,8 3,7 4,7Diskriminante

0.0

2.5

5.0

7.5

10.0

12.5

15.0

abso

lute

Häu

figk

eite

n

Poesie journalistische Prosa

Histogramm der Diskriminante Z23

Multivariate statistische DistanzD23 = 5.4022

Page 14: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

14

Elimination redundanter Variablen in der Diskriminante Y12 mit Hilfe der t-Statistik

Trennung der

literarischen Prosatexte von den journalistischen Prosatexten

Analyse auf Grundlage aller sechs Variablen

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

TLS 0.0002 0.0005 0.3897 5.5130log(TLS) 4.0731 1.5774 2.5822 5.3086

m1 -117.3995 22.2230 -5.2828 4.7574m2 129.0193 32.5310 3.9660 5.0550I -314.3848 68.9248 -4.5613 4.9256S 0.6883 4.7043 0.1463 5.5163

Page 15: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

15

Analyse ohne die Variable S

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

TLS 0.00016 0.00051 0.31350 5.51311log(TLS) 4.10485 1.55328 2.64270 5.30094

m1 -118.0241 21.65793 -5.44946 4.72372m2 128.8789 32.35038 3.98384 5.05529I -312.4976 67.43930 -4.63376 4.91432

Analyse ohne die Variablen S und TLS

Variable Koeffizienten

)(12kbStandardfehler

)( )(12kbsft-Statistik

)(12kt -WerteReduzierte Distanz

)(12ˆ

kD

log(TLS) 4.52910 0.77546 5.84053 4.63313m1 -116.36175 20.96482 -5.57593 4.69730m2 126.89840 31.64950 4.00949 5.05128I -308.88416 66.27222 -4.66084 4.91072

Page 16: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

16

4,004,204,40

4,604,805,005,20

5,405,60

Distanz ohne log(TLS) Distanz ohne m1

Distanz ohne m2 Distanz ohne I

2,202,502,803,103,403,704,004,304,604,905,205,50

Distanz ohne TLS Distanz ohne log(TLS) Distanz ohne m2

4,40

4,60

4,80

5,00

5,20

5,40

5,60

Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne I

Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable

Literarische Prosa und journalistische Prosa

Journalistische Prosa und PoesieLiterarische Prosa und Poesie

Page 17: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

17

Literarische Prosa und journalistische Prosa

Reduzierte lineare Diskriminanzfunktion mit 4 Variablen

ImmTLSredY *88416.3082*8984.1261*36175.116)log(*52910.412

D12(red) = 5.5131 vs. D12 = 5.5167

Literarische Prosa und Poesie

Reduzierte lineare Diskriminanzfunktion mit 3 Variablen

2*6011.13)log(*0437.9*0014.013 mTLSTLSredY

D13(red) = 4.7311 vs. D13 = 4.7661

Journalistische Prosa und Poesie

Reduzierte lineare Diskriminanzfunktion mit 3 Variablen

ImTLSredY *6065.391*9766.22)log(*0937.323

D23(red) = 5.3366 vs. D23 = 5.4022

Page 18: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

18

-236 -231 -226 -221 -216 -211 -206 -201 -196

Y12(m1 ,m2 ,I)

5

6

7

8

9

log(

TLS)

literarische Prosajournalistische Prosa

-30 -20 -10 0 10

Y12(log(TLS),m2 ,I)

1.7

1.9

2.1

2.3

2.5

m1

literarische Prosajournalistische Prosa

Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I)

Scatterplot der Veränderlichen m1 und Y12(log(TLS),m2,I)

Page 19: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

19

3.5 6.0 8.5 11.0 13.5 16.0 18.5 21.0 23.5

Y13(TLS,m2)

3

5

7

9

log(

TLS)

Poesieliterarische Prosa

Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)

Page 20: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

20

40 50 60 70 80 90

Y23(m1 ,I)

4

5

6

7

8

log(

TLS)

Poesiejournalistische Prosa

30 40 50 60 70

Y23(log(TLS) ,I)

1.4

1.6

1.8

2.0

2.2

2.4

m1

Poesiejournalistische Prosa

Scatterplot der Veränderlichen log(TLS) und Y23(m1,I)

Scatterplot der Veränderlichen m1 und Y23(log(TLS),I)

Page 21: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

21

Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))mit Gruppenmittelwerten und Konzentrationsellipsen

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

5.99

10 12 14 16 18 20 22

-6-4

-20

2

2

2 222 22

2

22

22

2

2222

2

2 22

2 22

22

2

2

2

2

22 2 2

2222 2

2

2

2

222

2

2

2

22

2

2

1

1

1

1

1

1

1

1 1

1

1

1

1

11

1

1

1

1

11

1

11

11

1

1

1

1

11 11

11

1

1

1

111

1

1

1

1

1

1

1

11 3

3

3

3

33

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

33

3

3

3

33 33

3

33 3

3

33

3

3

33

3

3

3

3

3

3

33

10 12 14 16 18 20 22Z1

-6-4

-20

2

Z2

10 12 14 16 18 20 22

-6-4

-20

2

10 12 14 16 18 20 22

-6-4

-20

2

10 12 14 16 18 20 22

-6-4

-20

2

1...Poesie2...literarische Prosa3...journalistische Prosa

Page 22: Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität

22

Offene Fragen• Definition der Texttypologie

- Einteilung von Texten in Textkategorien?- welche Kriterien sind anzulegen?- statistische Eigenschaften (Population)?

• Definition eines VariablenpoolsBasis sind Textlänge und Wortlänge- welche abgeleiteten Merkmale soll man betrachten?- welche sind geeignet für Charakterisierung von Textgruppen?

• Diskriminanzfunktionen- welche Merkmale bestimmen gute Diskriminanzfunktionen?- lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale

getrennt werden wie im Slowenischen?)