Matematick´a statistikahudecova/education/archive11/... · 2012-03-19 · Matematicka statistika...

Preview:

Citation preview

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Matematicka statistika

Sarka Hudecova

Katedra pravdepodobnosti a matematicke statistiky

Matematicko-fyzikalnı fakulta Univerzity Karlovy

letnı semestr 20121

1Zalozeno na materialech doc. Michala Kulicha

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nahodny vektor

casto potrebujeme vysetrovat vzajemny vztah nekolikanahodnych velicin

musıme sledovat jejich chovanı”spolecne“

prıklad: vztah hmotnosti, tlaku a koncentrace urcite latkyv krvi u cloveka apod.

Definice

Usporadanou n-tici X nahodnych velicin X1,X2, . . . ,Xn

nazyvame nahodny vektor.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nahodny vektor

Nahodny vektor budeme znacit velkym tlustym pısmenem(napr. X) anebo vyctem jeho slozek, tj.

X =

X1

...Xn

nebo X = (X1, . . . ,Xn)

T

Vetsinou se omezıme na nahodne vektory delky 2, tj. budemeuvazovat X =

(

X1

X2

)

anebo X =(

XY

)

.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nahodny vektor: prıklad

Prıklad (Deti)

Uvazovali jsme rodinu, ktera ma tri deti, a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.

zajıma nas rozdelenı nahodneho vektoru X =(

XY

)

odtud lze pocıtat tzv. sdruzene pravdepodobnosti typuP(X = 0,Y = 1), P(X ≤ 2,Y = 0) apod.

jaky je vztah mezi X a Y ? souvisı hodnoty X shodnotami Y ?

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Dalsı prıklady

Prıklady nahodnych vektoru:

vyska a hmotnost nahodne vybraneho cloveka

teplota, mnozstvı srazek a sıla vetru ve vybrany den

HDP, mıra inflace, . . . (jine ekonomicke ukazatele)nahodne vybrane evropske zeme

pohlavı a plat nahodne vybraneho cloveka

vzdelanı a politicky nazor nahodne vybraneho cloveka

porodnı hmotnost dıtete a vek jeho matky

. . .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Rozdelenı nahodneho vektoru

Rozdelenı nahodneho vektoru X =(

XY

)

rozlisujeme nahodny vektor se spojitym a diskretnımrozdelenım

spojite rozdelenı popıseme hustotou

je ted’ funkcı R2 → [0,∞)hodnota fX(x , y) udava, jak casto nahodny vektor padakolem bodu (x , y)ma vlastnosti analogicke hustote nahodne veliciny

diskretnı rozdelenı popıseme tzv. sdruzenymipravdepodobnostmi P(X = xi ,Y = yk) pro vsechnamozna xi a yk

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota nahodneho vektoru

Prıklad hustoty spojiteho dvourozmerneho rozdelenı:

x

−3−2−1

01

23

y

−3

−2

−10123

f0.00

0.05

0.10

0.15

0.20

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota nahodneho vektoru

Obrazek: Hustota z predchozıho obrazku nakreslena pomocı vrstevnic.

−3 −2 −1 0 1 2 3

−3

−2

−1

0

1

2

3

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Sdruzene a marginalnı rozdelenı

Rozdelenı nahodneho vektoru X =(

XY

)

obsahuje neconavıc, nez kdybychom znali jen rozdelenı samotne nahodneveliciny X a samotne nahodne veliciny Y .

To, co je tam navıc, je informace o vzajemnem vztahuobou velicin.

Terminologie

Rozdelenı nahodneho vektoru X =(

XY

)

nazyvamesdruzene rozdelenı nahodnych velicin X a Y .

Rozdelenı samotneho X a samotneho Y nazyvamemarginalnı rozdelenı nahodnych velicin X a Y .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Sdruzene a marginalnı rozdelenı

Interpretace:

sdruzene rozdelenı nam rıka, jak se chova (X ,Y ) spolecne(jakozto dvojice)

marginalnı rozdelenı popisuje chovanı jedne veliciny bezohledu na hodnoty druhe

Vztah sdruzeneho a marginalnıho rozdelenı:

ze sdruzeneho rozdelenı lze vzdy urcit marginalnı

opacne to obecne nenı mozne, tj. z marginalnıho nelzejednoznacne urcit rozdelenı sdruzene(k dane dvojici marginalnıch rozdelenı dokonce existujenekonecne mnoho odpovıdajıcıch sdruzenych rozdelenı)

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Diskretnı nahodny vektor: prıklad

Prıklad (Deti – viz drıve)

Uvazovali jsme rodinu, ktera ma tri deti a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.

Dostali jsme diskretnı nahodny vektor X =(

XY

)

:

ω X (ω) Y (ω)

SSS 0 2SSD 1 2SDS 1 1DSS 1 1DDS 2 0DSD 2 1SDD 2 1DDD 3 0

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad deti

Jiz drıve jsme zkoumali rozdelenı X a Y zvlast’, tj. marginalnırozdelenı:

x 0 1 2 3

P(X = x) 18

38

38

18

y 0 1 2

P(Y = y) 14

12

14

Rozdelenı X =(

XY

)

je dano pravdepodobnostmipij = P [X = xi ,Y = yj ], ktere jsou v nasledujıcı tabulce:

X\Y 0 1 2

0 0 0 18

1 0 14

18

2 18

14

0

3 18

0 0

Jak lze ze sdruzeneho rozdelenı spocıtat marginalnı?

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad deti

Sdruzene rozdelenı:X\Y 0 1 2

0 0 0 18

1 0 14

18

2 18

14

03 1

80 0

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad deti

Sdruzene rozdelenı:X\Y 0 1 2

0 0 0 18

1 0 14

18

2 18

14

03 1

80 0

Odtud

P [X = 0] = P [X = 0,Y = 0] + P [X = 0,Y = 1]+

+ P [X = 0,Y = 2] = 0 + 0 +1

8=

1

8P [X = 1] = P [X = 1,Y = 0] + P [X = 1,Y = 1]+

+ P [X = 1,Y = 2] = 0 +1

4+

1

8=

3

8

a analogicky P(X = 2) = 3/8 a P(X = 3) = 1/8.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Sdruzene a marginalnı rozdelenı

Veta

Necht’ X =(

XY

)

je diskretnı nahodny vektor s rozdelenımurcenym pravdepodobnostmi pij = P [X = xi ,Y = yj ].Marginalnı rozdelenı velicin X a Y pak jsou

P [X = xi ] =∞∑

j=1

P

[

X = xi ,Y = yj

]

=∞∑

j=1

pij ,

P [Y = yj ] =∞∑

i=1

P

[

X = xi ,Y = yj

]

=∞∑

i=1

pij .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Sdruzene a marginalnı rozdelenı

Pro spojite rozdelenı platı analogie predchozıho tvrzenı:

Veta

Necht’ X =(

XY

)

je nahodny vektor se spojitym rozdelenım sesdruzenou hustotou fX(x , y). Marginalnı hustoty velicin X a Y

pak jsou

fX (x) =

−∞

fX(x , y) dy ,

fY (y) =

−∞

fX(x , y) dx .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nezavislost nahodnych velicin

v praxi nas casto zajıma, zda je mezi velicinami X a Y

nejaky vztah

spec. se muzeme ptat, zda jsou nezavisle! hodnotyjedne veliciny nezavisı na hodnotach druhe

Prıklad

Necht’ X je znamka z Matematicke statistiky a Y je pocetnavstıvenych prednasek nahodne vybraneho studenta. Jsou tytodve veliciny nezavisle?

nezavislost! znamka nezavisı na poctu navstıvenychprednasek! P(X = i |Y = j) nezavisı na hodnotach j , tj.P(X = i |Y = j) = P(X = i)

uz vıme, ze toto odpovıda podmınceP(X = i ,Y = j) = P(X = i ,Y = j) pro vsechna i , j

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nezavislost nahodnych velicin

Definice

Nahodne veliciny X a Y nazveme nezavisle, pokud pro kazdedve mnoziny A,B ∈ R platı

P [X ∈ A,Y ∈ B ] = P [X ∈ A] · P [Y ∈ B ].

Nezavisle veliciny:

P [X ∈ A | Y ∈ B ] = P [X ∈ A] tj. hodnoty jedne nahodneveliciny nejsou ovlivneny hodnotami druhe.

ze znalosti hodnoty jedne veliciny nic nevıme o druhevelicine

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Charakterizace nezavislosti

Veta

1 Diskretnı nahodne veliciny X a Y jsou nezavisle, pravekdyz platı

P [X = xi ,Y = yj ] = P [X = xi ] · P [Y = yj ]

pro kazde xi , yj , kterych X a Y nabyvajı.

2 Spojite nahodne veliciny X a Y jsou nezavisle, prave kdyzplatı

fX(x , y) = fX (x) · fY (y) pro kazde x , y ∈ R.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad deti

Sdruzene rozdelenı:X\Y 0 1 2

0 0 0 18

1 0 14

18

2 18

14

03 1

80 0

Veliciny X a Y nejsou nezavisle .Zduvodnenı: napr. P [X = 3,Y = 2] = 0 a P [X = 3] = 1

8,

P [Y = 2] = 38. Takze

0 = P [X = 3,Y = 2] 6= P [X = 3] · P [Y = 2] =3

64.

Tudız pocet dcer a pocet starsıch bratru nejmladsıhosourozence jsou zavisle veliciny.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Nezavislost — poznamka

definici nezavislosti lze snadno rozsırit na vıce nez dvenahodne veliciny

platı obdobne charakterizace nezavislosti (sdruzenahustota je soucinem marginalnıch hustot apod.)

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Strednı hodnota souctu a soucinu

Veta

Necht’ X =(

XY

)

, kde X , Y jsou libovolne nahodne veliciny.

1 PlatıE (X + Y ) = EX + EY .

2 Pokud jsou X a Y nezavisle, pak platı

EXY = (EX )(EY ).

strednı hodnota souctu dvou (nebo vıce) nahodnychvelicin je rovna souctu jejich strednıch hodnot

pro nezavisle nahodne veliciny je strednı hodnota jejichsoucinu je rovna soucinu jejich strednıch hodnot

pro zavisle veliciny tomu tak muze, ale nemusı byt

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Kovariance

Jsou-li veliciny X a Y zavisle budeme chtıt popsatjejich zavislost

Definice

Uvazujme nahodny vektor X =(

XY

)

. Kovariancı nahodnychvelicin X a Y rozumıme hodnotu

cov (X ,Y ) = E [(X − EX )(Y − EY )]

kovariance vyjadruje vzajemny vztah X a Y

evidentne platı cov (X ,Y ) = cov (Y ,X ) acov (X ,X ) = varX .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Vlastnosti kovariance

Veta

1 Kovariance muze nabyvat jakychkoli realnych hodnot, alepro dve konkretnı veliciny musı platit

cov2(X ,Y ) ≤ varX · varY .

2 Platıcov (X ,Y ) = EXY − EX · EY .

3 Pokud jsou X a Y nezavisle, pak cov (X ,Y ) = 0.

pozor, tvrzenı 3 neplatı opacne (tj. z nulove kovariancenelze obecne nic usuzovat o nezavislosti)

3 plyne z 2, nebot’ pro nezavisle veliciny EXY = EXEY .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Interpretace kovariance

cov (X ,Y ) > 0! nahodne veliciny X a Y jsou zavisle v

”pozitivnım smyslu“

vyssı hodnoty X jsou svazany s vyssımi hodnotami Y (anizsı hodnoty X s nizsımi hodnotami Y )prıklad: vyska a vaha cloveka.

cov (X ,Y ) < 0! nahodne veliciny X a Y jsou zavisle v

”negativnım smyslu“

vyssı hodnoty X jsou svazany s nizsımi hodnotami Y (anizsı hodnoty X s vyssımi hodnotami Y )prıklad: hloubka dezenu pneumatiky a brzdna draha

cov (X ,Y ) = 0 neznamena, ze by mezi X a Y nebyl nutnezadny vztah (jeste se o tom zmınıme pozdeji)

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Kovariance: prıklad

Prıklad (Deti)

Uvazovali jsme rodinu, ktera ma tri deti, a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.

Dostali jsme nahodny vektor X =(

XY

)

s rozdelenım

X\Y 0 1 2

0 0 0 18

1 0 14

18

2 18

14

03 1

80 0

Spocıtame kovarianci nahodnych velicin X a Y . K vypoctupouzijeme vzorec

cov (X ,Y ) = EXY − EXEY .

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad: Deti

Vıme: X nabyva hodnot 0, 1, 2, 3 s pstmi po rade 18, 38, 38, 18,

Y nabyva hodnot 0, 1, 2 s pstmi po rade 14, 12, 14.

Z marginalnıch rozdelenı mame

EX = 0 · 18+ 1 · 3

8+ 2 · 3

8+ 3 · 1

8=

3 + 6 + 3

8= 1.5,

EY = 0 · 14+ 1 · 1

2+ 2 · 1

4=

2 + 2

4= 1.

Ze sdruzeneho rozdelenı

EXY = 0 · P [X = 0 ∪ Y = 0] + 1 · P [X = 1,Y = 1] +

+ 2 · (P [X = 1,Y = 2] + P [X = 2,Y = 1]) =

= 1 · 14+ 2 · 3

8=

1

4+

3

4= 1.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Prıklad: Deti

Odtud

cov (X ,Y ) = EXY − (EX )(EY ) = 1− 1.5 · 1 = −0.5

Takze cov (X ,Y ) = −0.5 < 0 tj. pocet dcer a pocet starsıchbratru nejmladsıho sourozence nejsou nezavisle. Cım vıce jedcer, tım mene je starsıch bratru.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Korelace

hodnoty kovariance se spatne interpretujı

z hodnoty cov (X ,Y ) 6= 0 pozname, ze X a Y jsou zavislea jakym smerem, ale nepozname, jak silne jsou zavisle

Definice

Uvazujme nahodny vektor X =(

XY

)

. Korelacı nahodnychvelicin X a Y rozumıme hodnotu

cor (X ,Y ) =cov (X ,Y )√varXvarY

.

korelace se nekdy znacı (X ,Y ) nebo ρXY

nekdy mluvıme o korelacnım koeficientu.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Vlastnosti korelace

Veta

1 Korelace ρXY vzdy lezı mezi −1 a 1 a

ρXY = 0 ⇔ cov (X ,Y ) = 0.

2 Pokud jsou X a Y nezavisle, pak cor (X ,Y ) = 0.

3 Platı

ρXY = 1 prave kdyz Y = a + bX

pro nejake a ∈ R a b > 0.

ρXY = −1 prave kdyz Y = a + bX

pro nejake a ∈ R a b < 0.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Interpretace korelace

korelace merı sılu linearnı zavislosti mezi X a Y

znamenko korelace udava smer zavislosti

jsou-li X a Y silne linearne zavisle (tj. hodnoty tetodvojice padajı nejcasteji nekde kolem prımky v R

2 snenulovou smernicı), pak je korelace blızko 1 nebo −1.

nezavisle veliciny majı vzdy nulovou korelaci

je-li korelace nulova, neznamena to, ze X a Y jsou nutnenezavisle(korelace je mırou pouze linearnı zavislosti)

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Interpretace korelace

−2 −1 0 1 2

−2

01

2

X

Yρ = 0.2

−2 −1 0 1 2

−2

02

Y

Y

ρ = 0.5

−2 −1 0 1 2

−2

01

2

Y

Y

ρ = 0.9

−2 −1 0 1 2

−2

02

Y

Yρ = −0.7

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Interpretace korelace

Je-li korelace nulova, neznamena to, ze X a Y jsou nutnenezavisle:

−1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

X

Y=

X2

Prıklad

Ma-li X rozdelenı symetricke kolem 0, pak EX = 0 aEX 3 = 0. Vezmeme-li Y = X 2, pak Y a X nejsou nezavisle azaroven cov (X ,Y ) = 0 a tudız i ρXY = 0.

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota dvourozmerneho rozdelenı s ruznymi

korelacemi

Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.

0.00

0.02

0.04

0.06

0.08

−3 −2 −1 0 1 2 3

−4

−2

0

2

4

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota dvourozmerneho rozdelenı s ruznymi

korelacemi

Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.3.

0.00

0.02

0.04

0.06

0.08

0.10

−3 −2 −1 0 1 2 3

−4

−2

0

2

4

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota dvourozmerneho rozdelenı s ruznymi

korelacemi

Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.6.

0.00

0.02

0.04

0.06

0.08

0.10

−3 −2 −1 0 1 2 3

−4

−2

0

2

4

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Hustota dvourozmerneho rozdelenı s ruznymi

korelacemi

Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.95.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

−3 −2 −1 0 1 2 3

−4

−2

0

2

4

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Vlastnosti strednı hodnoty a rozptylu

Necht’ X ,Y jsou nahodne veliciny, a, b ∈ R. Pak

1 E (a + bX ) = a + bEX ,

2 E (X + Y ) = EX + EY ,

3 var (a + bX ) = b2varX ,

4 var (X + Y ) = varX + varY + 2cov (X ,Y )

5 pro nezavisle veliciny var (X + Y ) = varX + varY

Matematicka

statistika

Nahodne

vektory

Nezavislost

Kovariance a

korelace

Vlastnosti kovariance

Dukaz bodu 4:

Mame

var (X + Y ) = E (X + Y )2 − [E (X + Y )]2 =

= E (X 2 + 2XY + Y 2)−− [(EX )2 + 2EXEY + (EY )2] =

= EX 2 − (EX )2 + EY 2 − (EY )2+

+ 2[EXY − EXEY ] =

= varX + varY + 2 cov (X ,Y ).

Recommended