45
1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen

1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

Embed Size (px)

Citation preview

Page 1: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

1

Multivariate Statistische Verfahren

Logistische Funktion, Logistische Regression und KlassifikationPoisson-Regression

Psychologisches Institut der Universität Mainz

SS 2012

U. Mortensen

Page 2: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

2

Überblick

Grundbegriffe der Dynamik

Logistische Funktionen, logistische Regression und Klassifikation

Zeitliche Entwicklungen: Ereignisanalyse (Analyse von ‚Wartezeiten‘)

Weitere Analysen von Häufigkeiten: Poisson-Regression, loglineare Analysen

Page 3: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

3

Vorbemerkungen: Exponentielles und logistisches Wachstum

Funktionen und ihre Ableitungen

2

2

sin( )

( ) sei irgendeine Funktion von . Etwa

( ) , eine Konstante( ) ,( )

( ) sin( ) cos( ) ,x cx

f x x

f x k kf x ax bf x ax

f x ax e bx eetc

( ) , eine KonstanteDie Funktion hat überall den gleichen Wert , dh sie verändert nirgends ihren Wert - die Veränderung hat überall den Wert Null.

f x k kk

( )Die Funktion ist linear - sie verändert sich für alle im gleichen Ausmaß ( Ort, Zeit - Bewegung mit konstanter Geschwindigkeit).

f x ax bx a

f x t

2( )Die Funktion wächst immer schneller - Veränderung des Wachsens mit .f x ax

x

Page 4: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

4

Wie kann man die Veränderung einer Funktion beschreiben?

( ) ( ) : Veränderung von zwischen und f x h f x f

x x h

( ) ( ) ( )

Rate der Veränderung an derStelle (Steigung der Sekante)

f x h f xf x

h

x

0

( ) ( ) ( )lim '( )

Infinitesimale Rate der Veränderung an derStelle (Steigung der Tangente) =Differentialquotient(Maß der Veränderung von an der Stelle x)

h

f x h f x df xf x

h dx

x

f

Page 5: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

5

Beispiele

( )

( ) ( ) ( )

für alle

f x ax b

f x h f x a x h ax

h hax ah ax

a hh

Die Rate der Veränderung istkonstant für alle .x

2

2 2 2 2 2

2 2 2

0

( )

( ) ( 2 )

22

lim 2 2 .h

f x ax

a x h ax a x h hx ax

h hax ah ahx ax

ah axh

ah ax ax

Die Rate der Veränderung istproportional zu .x

Page 6: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

6

Differential und Integral

Die Umkehrung der Differentiation ist die Integration:

Unbestimmtes Integral:

'( ) ( )f x dx f x c Bestimmtes Integral:

'( ) ( ) ( )b

af x dx f b f a

2

Beispiel:

axdx ax c 2 2 2 2

Beispiel:

( )b

axdx b a b a

( ) ( ) ( )xf u du F x P X x

Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsfunktion :f F

Page 7: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

7

Differentialgleichungen

Ausgangspunkt: ist die Funktion f(x) gegeben, so liegt die Ableitung f‘(x) fest, und umgekehrt: ist f‘(x) gegeben, so ist auch f(x) bestimmt (bis auf additive Konstante beim unbestimmten Integral)

Oft sucht man eine Funktion, von der man nur weiß, wie sie sich mit xVerändert, d.h. man hat eine Differentialgleichung, deren Lösung die gesuchte Funktion ist:

Beispiel:( )

( )df x

af xdx

Das Differential (die Ableitung) der gesuchten Funktion sei proportional zur Funktion.

Page 8: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

8

Auf diese Differentialgleichung wird man geführt, wenn man den Fall betrachtet, dass eine Größe stets um einen bestimmten Anteil ihres Wertes wächst:

Differentialgleichungen

Nach der Zeiteinheit 1 gelte

( 1) ( ) ( ) (1 ) ( ), d.h.

( 1)1 .

( )

h

f t f t f t f t

f t

f t

Es läßt sich zeigen, dass dann( )

gilt, d.h. ist die Exponentialfunktion, und ist die einzige Funktion, die der Gleichung

( )'( ) ( )

genügt.

atf t cef

f

df tf t af t

dt

Exponentielles Wachstum einer Population: Zeiten mit Quadraten sind „Verdoppelungszeiten“, dh Zeiten, zu denen sich die Population jeweils verdoppelt hat.

Außerdem

( 1) ( ) ( ) (1 ) ( ), d.h.

( 1) ( )( ).

1

f t f t f t f t

f t f tf t

Page 9: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

9

Differentialgleichungen

Gilt

( 1) ( ) ( ) (1 ) ( ),

bzw.

( )

so ist die Verdoppelungszeit durch

log 2 .7

log(1 )

gegeben.

d

at

f t f t f t f t

f t ce

t

Verdoppelungszeiten:

0

0

Verzinsung:

Das Anfangskapital sei , die jährliche Ver-

zinsung betrage 5%. Die Verdoppelungs-

zeit ist 14 Jahre, nach Verdoppelungs-

zeiten hat sich um 2 vervielfacht.k

x

k

x

0 0

Ölverbrauch:

Im Jahr hat man Barrel Öl verbraucht,

jährlich wird 1.5% ( =.015) mehr Öl verbraucht.

Dann hat sich nach 70 / 1.5 47 Jahren der

jährliche Verbrauch verdoppelt, d.h. in den letzten

Ja

d

t x

t

0

hren hat die Welt so viel Öl verbraucht wie in

der gesamten Zeit bis !t

Allgemein: benötigt man zum Verbrauch

einer Ressource Verdoppelungszeiten,

so hat man nach 1 Zeiten die Hälfte

verbraucht, und während der letzten Ver-

doppelungszeit verbraucht man den Rest!

n

n

Page 10: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

10

Differentialgleichungen

Exponentielles Wachstum der Weltbevölkerung

Page 11: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

11

Differentialgleichungen

Logistisches Wachstum

Pierre Verhulst (1804- 1849), belgischer Mathematiker

Ist die Wachstumsrate konstant, so ist das Wachstum exponentiell. Wie istDas Wachstum, wenn die Rate nicht konstant ist, es zB Sättigung im Wachstum gibt?

Verhulst bekam 1838 den Auftrag, das Wachstum der Stadt Paris vorherzusagen – die Vorhersage wurde für die Planung neuer Wohnungen (frz logis), Strassen, zugehöriger Kanalisation benötigt.

Verhulst nahm an, dass es für eine Stadt eine maximale Größe K (Trägerkonstante) geben müsse, da die Stadt aus dem Umland mit Wasser und Nahrung versorgt werden muß.

Page 12: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

12

Differentialgleichungen

Ist ( ) die Anzahl der Bewohner zur Zeit( )

, so muß 1 für alle sein.

N tN t

t tK

( )( ) setzt Verhulst nun

( )( )( ( )), mit ( ) .

ist maximale Population ("Trägerkonstante" )

Statt dN t

rN tdt

dN tN t K N t N t K

dtK

Offenbar folgt

0, ( ) ( )

, ( ) 0

N t Kt

r N t

( )( ) ( ).

Mit ( )

(zeitabhängige Proportionalitätskonstante)

( )1 hat man

dN tt N t

dt

t KN t

K

Die Veränderung ist einerseits

proportional zu ( ), andererseits

zur noch verbleibenden Ressource

( ). Je weniger von der Ressouce

noch vorhanden ist, desto kleiner die

Veränderung.

N t

N N t

Page 13: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

13

Differentialgleichungen

( ) ( ) ( ) ( )( ) ( ) ( ) 1 ( )

dN t N t N t N tt N t rN t rN t r

dt K K

( ) für ( ) klein (exponentielles Wachstum)( )

(1 ( ) / ) für ( ) groß (negativ expon. Wachstum)

rN t N tdN t

dt r N t K N t

Logistisches Wachstum der Lebenserwartung in Norwegen

Page 14: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

14

Differentialgleichungen

Das klassische Modell der Epidemiologie

Annahmen:1. Gegeben sei eine Population mit Umfang 2. Ein Element der Population hat das Merkmal oder hat es nicht3. Das Merkmal (Gerücht, Krankheit) wird durch Kontakt weitergegeben4. Alle Element

NA

e der Population sind gleich infizierbar.

Das "triviale" Modell:1. 2. ( ) Anzahl Infizierter zur Zeit , ( ) Zahl Infizierter zur Zeit durchschnittliche Anzahl von Kontakten noch nicht Infizierter.

Dann soll gelten

( ) ( )

NX t t X t h t h

X t h X t

( )hX t

Page 15: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

15

0

Es folgt

( ) ( ) ( ) ( )( ), so dass lim '( ) ( ),

d.h. ( ) wächst exponentiell!

h

x t h X t x t h X tX t X t X t

h h

X t

Differentialgleichungen

Das klassische Modell:, ( ) Infizierte, ( ) ( ) noch nicht Infizierte, und( ) ( ) konstant.

N X t S t N X tN X t S t

Jeder der ( ) Infizierten kann mit jedem nicht Infizierten Kontakt haben; die Anzahl der möglichen Kontakte ist dann ( ) ( ). Mithin

( ) ( ) ( ) ( ), d.h.

( ) ( ) ( ) ( ) ( ( )) ( ).

X tS t X t

X t h X t hS t X t

X t h X t S t X t N X t X th

( ) ( ( )) ( ). (logistische Gleichung)dX t N X t X tdt

Page 16: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

16

( )( ( )) ( ).

( ) ( ) / 0, d.h. kleiner werdende Veränderung der Anzahl Infizierter

X(t) 0 ( ) / 0, d.h. nur langsam wachsende Anzahl Infizierter

dX tN X t X t

dt

X t N dX t dt

dX t dt

Differentialgleichungen

Lösung der Differentialgleichung:

(0)( ) , ,

(0)1 )(Logistische Funktion)

t

N N XX t A N

XAe

Wachstumsverläufe für =.1 und .075, 100N

Page 17: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

17

Differentialgleichungen – Interaktion von Emotionen

1 2

111 1 12 2 1

212 1 22 2 2

1 2

Frustration, Aggression

gekoppelte Differentialgleichungen,, Störungen (etwa: ''Impulse'')

x xdx

a x a x udtdx

a x a x udt

u u

Dollard & Miller 1939: Frustration erzeugt Aggression

Einmal so…

Und das nächste Mal so:

Existiert ein überhaupt ein Zusammenhang?

Page 18: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

18

1 2 sind Konstante bzw. im Vergleich zu . langsam variierende

Funktionen, die durch andere Emotionen/Zuständlichkeiten beein-flußt werden.

ija x x

Differentialgleichungen – Interaktion von Emotionen

Keine Regression im üblichen Sinn!

Keine Regression im üblichen Sinn – Oszillation bis zur Gleichgewichtslage!

Reaktionen auf einen frustrierenden „Stoß“:

Page 19: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

19

Differentialgleichungen – Interaktion von Emotionen

Keine Regression im üblichen Sinn – eher eine Explosion!

Keine Regression im üblichen Sinn – eher ein permanentes Pendeln!

Untersuchungen im Rahmen des Allgemeinen Linearen Modells (ANOVA, Regressionsanalyse etc) erfassen die Dynamik grundsätzlich nicht!

Page 20: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

20

Logistische Verteilung, Regression und Klassifikation

Die logistische Verteilung

Es sei ( ) ( ), und es gelte

( )( ) ( )(1 ( ))

F x P X x

dF xf x F x F x

dx

1( )

( )1 exp

3

F xx

( ) , ( )E X Var X

Der Faktor / 3 resultiert aus der Normierung: es muß 0 ( ) 1 gelten.

F x

sei ein zufälliges Ereignis, sei eine Indikatorvariable:

0, wenn nicht eingetreten ist,1 sonst:

A Y

Y AY

( ) 1 ( )1

( )

1 exp3

P X x F x

x

trete ein, wenn , und tretenicht ein, wenn , so dass

( 0 | ) ( ),( 1 | ) 1 ( ).

A X x AX x

P Y x F xP Y x F x

Regression:Beispiel (stark vereinfacht): stehe für Herzinfarkt.

sei Ausmaß der Verkalkung der Herzkranzgefäße, x sei ein kritisches Ausmaß. Für folgt ein Infarkt,für nicht.

AX

X xX x

Klassifikation:Beispiel: bedeute, dass eine Person einer bestimmten Klasse angehört (zB für Job geeignet, oder "ist depressiv"), repräsentiert komplexes Merkmal ("Symptom"). signalisiert Zugeh

A

XX x örigkeit

zur Klasse.

Page 21: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

21

Logistische Verteilung, Regression und Klassifikation

Die Wahrscheinlichkeiten ( 1 | ) und ( 0 | ) hängen von den Parametern

und der Verteilung ( ) ab.

P Y x P Y x

F x

0 1

0 1

Um diese Abhängigkeit zu modellieren, schreibt man ( ) in reparametrisierter Form an:

1 1( ) ,

( ) 1 exp( )1 exp

3

mit , a3 3

F x

F xx a a

xa

1

2

1 1 2 2

kann von unabhängigen Variablen abhängen: die Anzahl Zigaretten, die eine Person täglich raucht, das Alter der Person, etcso dass .

xx

x x

Page 22: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

22

Logistische Verteilung, Regression und Klassifikation

Vergleich logistische Verteilung – Gauss-Verteilung

Page 23: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

23

1 2

1 20 1 1 1 2 2

0 1 1 2 2

0 0 1 1 1 2 1 2

( 1 | ) ( 1 | , ) ( 1 | , , ) und

1( 1| , , )

1 exp( ( ( )))1

1 exp( )

(erneute Reparametrisierung, b = - , b - , b - ).

P Y x P Y x P Y x x x

P Y x x xa a x x

b b x b x

a a a

Logistische Verteilung, Regression und Klassifikation

1 20 1 1 2 2

Dies ist die logistische Regression oder Klassifikation:1

( 1| , )1 exp( )

Frage: Impliziert dieser "Ansatz" die Annahme der logistischen Verteilung?

P Y x xb b x b x

Page 24: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

24

Logistische Verteilung, Regression und Klassifikation

1

2 1

1 11

Es soll entschieden werden, ob ein Objekt oder eine Person in die Kategorie ( 1)

oder in die Kategorie ( 0) gehört. ( , , ) seien Prädiktoren.

Dann gilt (Bayes)

( | ) ( ) (( | )

( )

n

C Y

C Y x x x

P x C P C P xP C x

P x

1 1

1 1 2 2

( )2 2

1 1

2 2

1 1

| ) ( )

( | ) ( ) ( | ) ( )

1 1 , logistische Funktion?

( | ) ( ) 11

( | ) ( )

mit

( | ) ( )( ) log .

( | ) ( )

a x

C P C

P x C P C P x C P C

P x C P C e

P x C P C

P x C P Ca x

P x C P C

log(Hier wird von Gebrauch gemacht!)aa e

1

1/ 2

sei multivariatGauss-verteilt:

1 1( | ) exp ( ) ' ( , 1, 2

2(2 ) | |i i in

x

f x C x x i

10 1 1

1( | )

1 exp( )

Nach ein wenig Algebra ergibt sich dann

n n

P C xb b x b x

Gauss-Verteilungen mit identischen Varianz-Kovarianz-Matrizen führen auf die logistische Funktion!

Page 25: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

25

Logistische Regression

1

0 1 1

1( | )

1 exp( )n n

P C xb b x b x

Wahrscheinlich-keit Wie multiple Regression –

Kein Fehlerterm!

Nichtlineare Beziehung zwischen den unabhängigen Variablen und der Wahrscheinlichkeit!

1

0 1 1

10 1 1

1

1

1

( | )1 exp( )

1 ( | ) exp( )

( | )

( ( ))

1

n n

n n

P C xb b x b x

P C xb b x b x

P C x

p P C x

p

p

Wettchance

0 1 1

1log Logit

n nb b x b x

p

p

Lineare Beziehung zwischen Prädiktoren und Logit!

Page 26: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

26

Logistische Verteilung, Regression und Klassifikation

Wahrscheinlichkeit einer Koronarerkrankung in Abhängigkeit vom Blutdruck

Page 27: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

27

Logistische Regression

• Wie werden die Koeffizienten geschätzt?• Wie werden sie interpretiert?

0 1 1

1log Logit

n nb x b x

p

pb

Schätzung:

2Da kein Fehler existiert, kann auch keine Summe

minimalisiert werden, d.h. die Methode der Kleinsten Quadrate

ist nicht anwendbar. Daher Schätzung nach der Maximim-

Likelihood-Methode.

ii

e e

Page 28: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

28

Logistische Regression -- Interpretation

Wettchance (Odds) und Wahrscheinlichkeit

Wahrscheinlichkeit als Funktion der Odds wird auf (0, 1) abgebildet

Odds als Funktion der Wahrscheinlichkeit wird auf (0, unendlich) abgebildet.

Page 29: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

29

Logistische Regression -- Interpretation

0 1 10 1 1

1exp( )

- die Prädiktoren gehen in die Odds ein!

n nb b xb xn n

pb b x b x e e e

pmultiplikativ

001 2

0

0

10

- definiert die Wahrscheinlichkeit des Ereignisses für "neutrale" Werte

der Prädiktoren.

b

n

px x x e

p

p

0 1 2 2

1

1 1reflektiert das Gewicht

11

von für gegebene Werte der übrigen Prädiktoren

n nb b xb b xx

b

pe e e e

px

Page 30: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

30

Logistische Regression – Odds, relatives Risiko, etc

Einige grundlegende Begriffe lassen sich anhand eines dichotomen Merkmals erläutern.

1 1 1 2

2 1 2 2

1 2

Die Quotienten

( | ) ( | ) und heißen Wettchancen (Odds)

( | ( | )

P B A P B A

P B A P B A

11 1 21 21 2

12 1 22 2

Die Odds lassen sich aus den Häufigkeiten der Tabelle errechnen:

und / /

/ /

n n n n

n n n n

Page 31: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

31

Logistische Regression – Odds, relatives Risiko, etc

1 1 2 2

2 1 1 2

11 22

12 21

Das Verhältnis

( | ) ( | )

( | ) ( | )

heißt Kreuzproduktverhältnis

P B A P B A

P B A P B A

n n

n n 1

2

Der Quotient

( | )

( | )

heißt relatives Risiko.

, 1, 2j

j

P B AR

P B Aj

1 1

1 2

Das relative Risiko für einen Herzinfarkt ist

demnach

( | )

( | )

104 /11037.5501

189 /11034HI

P B AR

P B A 2 1

2 2

Das relative "Risiko",

Herzinfarkt zu bekommen ist dann

( | ) 10933 / 110271.0078

( | ) 10875 / 11034

Die Risiken sind nicht komplementär!

keinHI

keinen

P B AR

P B A

Page 32: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

32

Logistische Regression – Odds, relatives Risiko, etc

1 11

2 1

Die Chance (Odds), einen Herzinfarkt zu bekommen, wenn man Aspirin nimmt, sind

( | ) 104 /11037.00951,

( | ) 10875 /11034

die Chance, einen Herzinfakrt zu bekommen, wenn man kein Aspirin

nimmt, sin

P B A

P B A

1 22

2 2

1 11 22

2 12 21

d

( | ) 189 /11034.01743

( | ) 10845 /11034

und das Kreuzproduktverhältnis ist

.00951.546

.01743

P B A

P B A

n n

n n

Page 33: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

33

Logistische Regression – Schätzung der Parameter

0 1

0 1 0 1 0 1

1

Es sei 1, wenn Aspirin gegeben wird, 0, wenn Placebo verabreicht wird.HI = Herzinfarkt

exp( )1 1(HI ja| Aspirin) ( 1), (HI nein|Aspirin) 1

1 exp( ) 1 exp( ) 1 exp( )

(HI ja|

x x

b bP x P

b b b b b b

P

0 1 0 1 0 10 1

exp( ) / (1 exp( ))(1 exp( ))Aspirin)exp( )

(HI nein|Aspirin) 1

b b b b b bb b

P

2 0

(HI ja| Placebo)Analog: dazu exp( )

(HI nein|Placebo)

Pb

P

0 1

0 1 0 1

0

11

2

Kreuzprod'verhältnis: log .606b b

b b b bb

ee e b

e

110 1

12

log log .017n

bn

Page 34: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

34

Logistische Regression – Zusammenfassung

2 1 1 1 2 2 1 2

1 1 1 1 1 2 2

1 21

1 1 2

Wettchancen (Odds)

Eine allgemeine Definition ist

( | ) 1 ( | ) ( | ) 1 ( | ) =

( | ( | ( | ) ( | )

= das interessierende Ereignis,

1:

= ,) )

und verschiedene Bedingu

P B A P B A P B A P B A

P B A P B A P B A P B A

B A

p

p

A

ngen.

1 1 2 1

1 2 2 2

1 2

Relatives Risiko:

( | ) ( | )

( | ) ( | ),

Vergleich der Wirkung verschiedener Bedingungen in Bezugauf jeweils ein (zufälliges) Ereignis.

P B A P B AR R

P B A P B A

!

2

Kreuzproduktverhältnis

liefert Parameterschätzung.

Page 35: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

35

Logistische Regression – Infektionsrisiko

Infektionsrisiko bei Kaiserschnittgeburten

1 2 3 1 2 3

1, nicht geplant 1, RF 1, AB, , , ( , , )

0, geplant 0, kein RF 0, kein ABx x x x x x x

0 1 1 2 2 3 3

(Infektion| )Logit = log (Haupteffektmodell)

(keine Infektion| )

P xb b x b x b x

P x

Page 36: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

36

Logistische Regression – Infektionsrisiko

0 3 31 1 2 2(Infektion| )

(keine Infektion| )b b xb x b xP xe e e e

P x

(Infektion| )Für spezielle Vektoren lassen sich Schätzungen der

(keine Infektion| )Parameter gewinnen:

ii

ii

P xx

P x

Ein nicht geplanter Kaiserschnitt erhöht die Chance einer Infektion um den Faktor exp(1.07) 2.92,

Ein vorhandener Risikofaktor erhöht die Chance einer Infektion um den Faktor exp(2.03) 7.6,

Ein Antibiotikum erniedrigt die Chance einer Infektion um den Faktor exp( 3.25) .039

Page 37: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

37

Logistische Regression – Infektionsrisiko

(Infektion)kein Antibiotikum Chance = 1

(keine Infektion)

(Infektion)mit Antibiotikum Chance = .0388

(keine Infektion)

P

P

P

P

0 1 1 2 2 3 3 4 1 2

Modelle mit Wechselwirkungen:

(Infektion| )log

(keine Infektion| )

(Wechselwirkung 'Planung des Kaiserschnitts - Risikofaktor)

P xb b x b x b x b x x

P x

Page 38: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

38

Logistische Regression – Infektionsrisiko

Page 39: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

39

Poisson-Regression

Man hat eine Stichprobe von Fällen, davon haben das interessierende Merkmal, haben es nicht. Der Anteil der Fälle in der Population mit dem Merkmal sei ,

und die Fälle werden unabhängig voneina

n kn k p

nder erhoben.

Bernoulli-Versuche mit "Erfolgs"wahrscheinlichkeit :

( | , ) (1 ) , ( ) , ( ) (1 )k n k

n p

nP K k n p p p E K np Var K np p

k

1 2Generell gilt , {0,1}

Approximationen: (1) Grenzwertsatz von deMoivre-Laplace :für großen Wert von :

(0,1) (Standardnormalverteilung)(1 )

(2) Grenzwertsatz von Poi

n ik x x x x

nn np

z Nnp p

sson: n und eine Konstante:

( | ) , 0,1,2,3!

( ) , Var( )

k

np

P K k e kk

E K K

Page 40: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

40

Poisson-Regression

Anmerkungen:

(1) muß nicht klein sein,(2) Man muß nicht von der Annahme ausgehen, dass unendlich groß ist. Man kann die Poisson-Verteilung einfach als eine eigene Verteilung definier

n

en, ohne auf die Herleitung als Approximation der Binomialverteilung auffassen.

heißt auch der "'Intensitätsparameter" der Verteilung.

Man kann zB die Häufigkeit bestimmter Ereignisse während eines Zeitintervallsder Dauer betrachten. Die Wahrscheinlichkeit von ist dann

(

t K k

P K

( )| , ) .

!

Wird das Ereignis (Unfall, Aktionspotential ("Feuern" eines Neurons), etc) unteridentischen Bedingungen betrachtet, hängt die beobachtete Anzahl von derDauer der Beobachtung bzw de

kt t

k t ek

s Zählvorgangs ab!

Page 41: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

41

Poisson-Verteilungen (lb = lambda)

lb = 3

lb = 10

lb = 5

Page 42: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

42

Poisson-Verteilungen - Beispiele

Generell: „Kleine“ Anzahlen

Poisson-verteilte Häufigkeiten zeigen „Cluster“ – das sind Anhäufungen von Ereignissen. Diese Anhäufungen resultieren aus der Zufälligkeit der Ereignisse und sind nicht notwendig Ausdruck irgendwelcher systematischer Tendenzen.

Systematische Tendenzen kann es ebenfalls geben – aber man muß prüfen, ob die Clusterings solche Tendenzen enthalten.

Beispiele: • Verletzungen von Kindern in einem Distrikt (http://www.ij-healthgeographics.com/content/7/1/51 )• Trauma-Forschung – domestic violence (Gagnon et al 2008)• Häufung von Galaxien (Saslaw, W. C. "Some Properties of a Statistical Distribution Function for Galaxy Clustering." Astrophys.

J. 341, 588-598, 1989. )• Häufigkeit epileptischer Anfälle in einer Gruppe von Patienten im Laufe eines Jahres• Häufigkeit von Arrythmien in 24-Stunden EEGs• Häufigkeiten von Infektionen in einer Stadt (existiert „infective agent“?)

Page 43: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

43

Poisson-Regression

Der Wert von reflektiert bestimmte Randbedingungen, = Konstantebedeutet, dass die Randbedingungen konstant sind.

Die Randbedingungen können durch bestimmte unabhängige Variablencharakterisiert sei

n. Wie läßt sich der Einfluß der einzelnen Variablen abschätzen?

0 1 1Ansatz 1:

Es muß notwendig 0 gelten ( ) Verzerrung der

n n

i

b b x b x

np b

0 1 1

Ansatz 2: log-lineares Modell:

exp( )

Keine Einschränkung bezüglich der

n n

i

b b x b x

b

Page 44: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

44

Poisson-Regression

0 1 1 1 1 2

Log-lineares Modell mit Wechselwirkungen

exp( )

_

n n nb b x b x b x x

Beispiel: (nach Frome 1983, Analysis of rates using Poisson Regression Models, Reanalyse der Daten von Doll Hill (1966): Lungenkrebs und Rauchen)

exp( ) exp( )exp( ) geschätzte Anzahljk j k j k

Lungenkrebstoter per

100 000 Mann-Jahre, Effekt der -ten Altersgruppe, Effekt -ter Effekt des Rauchensj kj k

Age Fit: exp( ), Smoking Effekt: exp( ) j k

Page 45: 1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

45

Poisson-Regression

Alternatives Modell (Whittemore & Keller 1978):

( , ) ( )

Betrag des Karzinogens per Zeiteinheit (konstante Rate) Zeitpunkt, von dem an dem Karzinogen ausgesetzt (time from f

t d ad t

dt

irst exposure) Hintergrund (= Nichtraucher) Inzidenzrate. ( 1) Todesrate für

Lungenkrebs. ( , ) liefert Hazard-Rate, wie sie in der (noch zu behandelnden)Ereignisanalyse verwendet wird.

adt d

Das Modell ist an molekularbiologischen Prozessen bei derKrebsentstehung orientiert. Der Ansatz der Modellbildung ist auch für psychologische Prozesse interessant.

Inferenzstatistische Fragen werden in einer separaten Präsentationvorgestellt.