17
Seite 1 06/17/22| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen: a) „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ ) b) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σ guess ( nur ein Parameter, μ, muss geschätzt werden) Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L 1 -Norm auf dem Raum aller Wahrscheinlichkeitsdichten) Nachtrag: Simulation zum Bias-Variance Tradeoff

Vergleich eines restriktiven Modells mit einem flexiblen Modell:

  • Upload
    hall

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Nachtrag: Simulation zum Bias-Variance Tradeoff. Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. - PowerPoint PPT Presentation

Citation preview

Page 1: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 104/22/23|

Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen.

Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen:

a) „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ )

b) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden)

Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)

Nachtrag: Simulation zum Bias-Variance Tradeoff

Page 2: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 204/22/23|

Nachtrag: Simulation zum Bias-Variance Tradeoff

anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden sollrepeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters)# soll für jede Stichprobengröße repeats Mal durchgeführt werden

mureal = 0sigmareal = 1# dies sind die tatsächlichen Parameter der Normalverteilung,# aus der die Stichproben gezogen werdensigmaguess = 0.9# dies ist die im restriktiven Modell angenommene (falsche bzw.# ungenaue) Standardabweichung. Hier kann experimentiert werden!

xval = seq(-8,8,length=500)yval = dnorm(xval)abstand1 = numeric(repeats)abstand2 = numeric(repeats)# rein technische Dinge

Page 3: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 304/22/23|

Nachtrag: Simulation zum Bias-Variance Tradeoff

x11() # öffnet einen Grafikbildschirmpar(mfrow=c(3,3)) # teilt den Grafikbildschirm in

# 3x3 kleine Fenster auffor (n in anzahl){

for (r in 1:repeats){

daten = rnorm(n,mureal,sigmareal)# ziehung der Stichprobemuhat = mean(daten)# ML-Schätzung des Erwartungswerts (beide Modelle)sigmahat = sd(daten)# ML-Schätzung der Std.Abw (flexibles Modell)abstand1[r] = mean(abs(yval-

dnorm(xval,muhat,sigmaguess)))abstand2[r] = mean(abs(yval-

dnorm(xval,muhat,sigmahat)))# Berechnung der Kolmogoroff-Smirnoff-Statistik# für beide geschätzten Modelle

} # end for r

Page 4: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 404/22/23|

Nachtrag: Simulation zum Bias-Variance Tradeoff

plot(density(abstand1),main=paste("Datengroesse :",n),xlim=c(0,0.05),lwd=2)

points(density(abstand2),col="red",type="l",lwd=2)abline(v=mean(abstand1),col="black",lty=3)abline(v=mean(abstand2),col="red",lty=3)cat(n," Beobachtungen: ",

mean(abstand1),„ vs.",mean(abstand2),"\n")# grafische und textuelle Ausgabe der Ergebnisse

} # end for n

Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)

Page 5: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 504/22/23|

0.00 0.01 0.02 0.03 0.04 0.05

010

2030

40

Datengroesse : 3

N = 10000 Bandw idth = 0.002293

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

3050

Datengroesse : 5

N = 10000 Bandw idth = 0.001773

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

020

4060

80

Datengroesse : 10

N = 10000 Bandw idth = 0.001215

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

050

100

150

Datengroesse : 20

N = 10000 Bandw idth = 0.0007698

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

020

030

0

Datengroesse : 50

N = 10000 Bandw idth = 0.0003618

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

020

040

060

0

Datengroesse : 100

N = 10000 Bandw idth = 0.0001966

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

040

080

012

00

Datengroesse : 200

N = 10000 Bandw idth = 9.787e-05

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

0020

0030

00

Datengroesse : 500

N = 10000 Bandw idth = 3.996e-05

Den

sity

0.00 0.01 0.02 0.03 0.04 0.050

2000

4000

6000

Datengroesse : 1000

N = 10000 Bandw idth = 2.04e-05

Den

sity

Simulation zum Bias-Variance TradeoffRestriktives ModellFlexibles Modell

Page 6: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Dimensionsreduktion:Hauptkomponentenanalyse (PCA)

Lineare Diskriminanzanalyse (LDA)

Maschinelles Lernen

 

Page 7: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 704/22/23|

Principal Components Analyse

Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß).

Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert.

Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ,

m sei der Schwerpunkt der Daten,

Wir suchen eine Projektion xj → m+aje, die folgendes Zielkriterium minimiert:

n

jj

n

jj

tj

n

jj

n

jjjjj

n

jjjn

xmxmeaea

xmeaxmea

xeameaaJ

1

2

11

22

1

2

11

)(2

)(),(

)( ),,...,(

n

jjxm

1

Page 8: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 804/22/23|

Principal Components Analyse

)(22),,...,(0 1!

kt

knk

xmeaeaaJa

Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) :

)( mxea kt

k

m

xk

m+ake

e

.

m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.

Page 9: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 904/22/23|

n

jj

t

n

jj

tj

n

jj

t

n

jj

n

jj

t

n

jj

n

jj

tj

tn

jj

t

xmSee

xmemxmxe

xmmxe

xmxmemxemxeeJ

1

2

1

2

1

1

2

1

2

1

2

11

2

)()(

))((

)()(2))(( )(

Setze in J(a1,…,an,e) ein : )( mxea kt

k

n

j

tjj mxmxS

1

))((mit der Streumatrix

Principal Components Analyse

Page 10: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1004/22/23|

Principal Components Analyse

Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1:

Lagrange Multiplikator - Methode:

)1( eSeeL t

eSee

L 22 0 !

eSe

See

eSeSee

SeeSeeee

LSeSee

See

LeSee

e

LSee

e

L

tk

kt

k

t

k

tt

k

t

k

tk

tk

tk

tk

2

)(

, denn

Somit muss

gelten, und wegen etSe = etλe = λ ist λ der maximale Eigenwert von S.

Page 11: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1104/22/23|

Principal Components Analyse

Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat.

Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann

2

1

11111 )...( ),...,,,...,(

n

jj

ddjj

ddn xeaeameeaaJ

n

jj

d

k

ktkd xmSeeeeJ1

2

1

1 )( ),...,(

Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch

m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu

Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.

Page 12: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1204/22/23|

Principal Components Analyse

Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen:

21222121 vvvvSvv ttt

211121112

12122121 )(

vvvvvv

SvvvSvSvvSvvttt

tttttt

Für λ1≠ λ2 folgt daraus

Somit ist 0)( 2121 vvt

021 vvt

(Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).

Page 13: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1304/22/23|

Lineare Diskriminanzanalyse (Fisher)

Sir Ronald Aylmer Fisher (1890-1962)

Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten!

Page 14: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1404/22/23|

Lineare Diskriminanzanalyse

Page 15: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1504/22/23|

Lineare Diskriminanzanalyse

Streuung der projizierten Gruppenmittel ist groß

Streuung innerhalb der proji-zierten Gruppen ist klein

Idee der LDA:Streuung innerhalb der projizierten Gruppen:

wSw

wmxmxw

mxws

jt

tj

jKlassexj

t

jKlassexj

tj

)()(

))((

22

w

jKlassex

j xjKlasse

m | |

1

21 SSSw

tj

jKlassexjj mxmxS )()(

Setze Dann ist wSwsss wt 2

221

2

Page 16: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1604/22/23|

Lineare Diskriminanzanalyse

Streuung der projizierten Gruppenmittel ist groß

Streuung innerhalb der proji-zierten Gruppen ist klein

Idee der LDA:Streuung zwischen den projizierten Gruppen:

wSw

wmmmmwmmw

bt

ttt

))(())(( 21212

21

w

tb mmmmS ))(( 2121

Die zu maximierende Zielfunktion lautet:

wSw

wSwwJ

wtb

t

)(

Page 17: Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Seite 1704/22/23|

Somit muss gelten

Lineare Diskriminanzanalyse

wSw

wSwwJ

wtb

t

)(

J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1.

Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren:

)1( wSwwSwL bt

wt

wSwSw

Lbw 22 0 !

wSwS bw

Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt

Beachte, dass ein Vielfaches von m1-m2 ist.

)(' 2111 mmSwSSw wbw

wmmmmwS tb ))(( 2121

also maximiert die Zielfunktion J(w).

)( 211 mmSw w