Statistica descrittiva in due variabili

Preview:

Citation preview

Statistica descrittiva in due variabili

Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con

X = (x1, . . . ,xN) Y = (y1, . . . ,yN)

i valori osservati. In questo caso abbiamo due possibilità• Studiare le due variabili separatamente• Studiare se esistono dei legami tra le due variabili

Di fatto la cosa più importante, quando si misurano duecaratteri sullo stesso campione, è capire se le due variabilisono dipendenti, cioè se variazioni di una producono variazionidell’altra.

1 / 69

Tabella di contingenza

Per determinare se due variabili sono dipendenti o indipendentisi procede nel modo seguente.Si costruisce per primo una tabella a doppia entrata, o dicontingenza, che, per semplicità, descriveremo con unesempio.

2 / 69

Dati i vettori

X = (4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)

Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)

suddividiamo le ampiezze di X e Y in sotto intervalli, allo stessomodo con cui abbiamo operato per il calcolo delle frequenzeassolute.Nell’esempio X ha ampiezza 18 mentre quella di Y è 28.Possiamo quindi dividere l’ampiezza di X in due sotto intervallidi lunghezza 10 e quella di Y in tre di lunghezza 10.Si ottiene la seguente tabella

X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)

I2 = [11,21)

3 / 69

Tabella di contingenza

Adesso andiamo a riempire le caselle vuote della tabelle con lefrequenze osservate definite nel modo seguente

DefinizioneLa frequenza osservata nij rappresenta il numero di unitàstatistiche il cui valore della variabile X si trova nell’intervallo Ii

e simultaneamente il valore della variabile Y si trovanell’intervallo Jj.

Per calcolare le frequenze osservate conviene dare dei colori aisotto intervalli. Per esempio, usando il blu, il rosso ed il verde

X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)

I2 = [11,21)

4 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 2410 113 1518 74 1019 611 3015 810 2412 89 2017 288 266 2913 30

5 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11)[11,21)

6 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2[11,21)

7 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5[11,21)

8 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21)

9 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7

10 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3

11 / 69

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4

12 / 69

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4

Questa rappresenta la tabella di contingenza e le entraterappresentano le frequenze osservate.Completiamo la tabella inserendo le distribuzioni marginali chesi ottengono sommando in verticale ed in orizzontale lefrequenze osservate.

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Il numero in basso a destra, corrispondente alla somma dellefrequenze marginali, è pari al numero delle unità statistiche.

13 / 69

La tabella di contingenza permette di valutare come cambia ladistribuzione di una variabile (per esempio della Y)condizionata a particolari valori dell’altra (per esempio X).Nel nostro caso la distribuzione marginale orizzontale

9 8 13

dice come è distribuita la variabile Y nei tre sotto intervallisenza nessuna condizione della variabile X.Mentre la distribuzione

2 5 9

dice come è distribuita la variabile Y nei tre sotto intervallicondizionata ad avere la variabile X nell’intervallo [1,11)

14 / 69

Se le tre distribuzioni

2 5 9

7 3 4

9 8 13

sono equivalenti, allora la variabile Y non è condizionata dallavariabile X e quindi le variabili si dicono indipendenti.Ma cosa vuol dire equivalenti?Per confrontarle bisogna trasformarle in frequenze relativedividendole per i rispettivi totali di riga.Nel nostro caso si ha

2/16 5/16 9/16

7/14 3/14 4/14

9/30 8/30 13/30

che, trasformate in percentuale, diventano15 / 69

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 12.5% 31.25% 56.25[11,21) 50% 21.43% 28.57

30% 26.67% 43.33%

DefinizioneDue variabili sono indipendenti se le distribuzioni orizzontali,trasformate in percentuale, coincidono.

16 / 69

In generale, indicata con nij la frequenza osservatacorrispondente alla i-sima riga e alla j-sima colonna, la tabelladi contingenza diventa

X ↓ Y→ J1 J2 · · · Jc MarginaleI1 n11 n12 · · · n1c n1•I2 n21 n22 · · · n2c n2•... · · · · · · · · · · · ·

...Ir nr1 nr2 · · · nrc nr•

Marginale n•1 n•2 · · · n•c N

Con queste notazioni segue che due variabili sono indipendentise le distribuzioni

n11n1•

n12n1•· · · n1c

n1•... · · · · · ·

...nr1nr•

nr2nr•· · · nrc

nr•

sono uguali alla distribuzionen•1N

n•2N · · · n•c

N17 / 69

Considerando ciascuna componente si ottiene

nij

ni•=

n•jN

∀i, j

o, equivalentemente,

nij =ni• n•j

N∀i, j

DefinizioneI numeri

νij =ni• n•j

Nsono chiamati frequenze attese.

Quindi due variabili sono indipendenti se le frequenzeosservate coincidono con quelle attese.Ma noi stavamo cercando di capire quando due variabili sonoDIPENDENTI!

18 / 69

DefinizioneDiremo che due variabili sono dipendenti se le frequenzeosservate sono molto diverse da quelle attese.

ma cosa vuol dire molto diverse?

Per capire quanto sono diverse si può calcolare la distanzadelle frequenze osservate da quelle attese.

Tale distanza si può calcolare, tenendo conto del quadrato delledifferenze nij−νij, introducendo la quantità

χ2 =

r

∑i=1

c

∑j=1

(nij−νij)2

νij

19 / 69

Torniamo all’esempio

Frequenze osservate

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Frequenze attese

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 9·16

308·1630

13·1630 16

[11,21) 9·1430

8·1430

13·1430 14

9 8 13 30

20 / 69

Torniamo all’esempio

Frequenze osservate

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Frequenze attese

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 4.8 4.3 6.9 16[11,21) 4.2 3.7 6.1 14

9 8 13 30

χ2 =

(2−4.8)2

4.8+

(5−4.3)2

4.3+

(9−6.9)2

6.9

+(7−4.2)2

4.2+

(3−3.7)2

3.7+

(4−6.1)2

6.1' 5.11

21 / 69

Utilizzo del χ2

Ovviamente χ2 = 0 se e solo se le variabili sonomatematicamente indipendenti.

Da un punto di vista qualitativo si può dire che:• per valori di χ2 grandi le variabili sono dipendenti• per valori di χ2 piccoli le variabili sono indipendenti

In statistica è stato elaborato un test per calcolare con chefiducia, noto il valore del χ2, si possa affermare che duevariabili siano dipendenti.

Questo test prende il nome di Test del χ2

22 / 69

Calcolo della fiducia

Per calcolare la fiducia si calcola per primo un numero,denotato con df , che misura i gradi di libertà, definito come

df = (r−1)(c−1)

Calcolati il χ2 ed il df si utilizza la seguente tabella.df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

23 / 69

Il df individua una riga della tabella. Nella riga individuata sicerca il più grande numero minore del χ2. Partendo da questonumero si procede in verticale sino ad incontrare una casellanella prima riga della tabella. In questa tabella si troverà unvalore di α. Il valore di α rappresenta la sfiducia, cioè lapercentuale di errore che si commette nell’affermare che duevariabili sono dipendenti. Trasformando in percentuale si hache la fiducia è data da

F = 100(1−α)

24 / 69

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

25 / 69

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82

3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

26 / 69

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82

3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

27 / 69

Quindi α = 0.1, da cui la fiducia risulta:

F = 100(1−α) = 100(1−0.1) = 100(0.9) = 90%

Possiamo affermare che le due variabili sono dipendenti conuna fiducia del 90%.

28 / 69

Il caso 2×2

Se la tabella di contingenza è 2×2, cioè del tipo

X ↓ Y→ J1 J2

I1 a b a+bI2 c d c+d

a+ c b+d N

si può calcolare il χ2 senza calcolare le frequenze attesetramite la formula

χ2 = N

(ad−bc)2

(a+b)(c+d)(a+ c)(b+d)

29 / 69

Uso del test del χ2

Di solito l’uso del test del χ2 è riservato allo studio di duevariabili qualitative rilevate su un campione statistico.

Esempio

In uno studio di immunologia, vengono studiate 111 cavie nelmodo seguente:• 57 di esse ricevono una dose di batteri patogeni seguiti da

un antisiero;• le restanti 54 ricevono solo i batteri ma non l’antisiero.

Dopo un tempo sufficiente per il periodo di incubazione e per ildecorso della malattia si contano 38 cavie morte di cui:

• 12 avevano ricevuto il siero• 26 solo i batteri

L’antisiero è efficace?

30 / 69

Per valutare l’efficacia costruiamo una tabella di contingenzaindicando con:

BA = cavia inoculata con batteri e antisieroB = cavia inoculata con solo batteriD = cavia decedutaS = cavia sopravissuta

Si ottiene la seguente tabella di contingenza:

D SBA 12 57B 26 54

38 111

D SBA 12 45 57B 26 28 54

38 73 111

Dalla formula per il calcolo del χ2 per una tabella 2×2 si ottiene

χ2 = 111

(12 ·28−45 ·26)2

57 ·54 ·38 ·73w 9.042

31 / 69

Dalla tabella del χ2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47

si ottiene α = 0.005 da cui la fiducia

F = 100(1−0.005) = 99.5%

Possiamo quindi affermare che le due variabili sono dipendenticon una fiducia del 99.5. Questo significa che il l’antisiero èefficace.

32 / 69

Diagramma di dispersione

Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con

X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)

i valori osservati. Supponiamo inoltre di aver verificato che ledue variabili sono statisticamente dipendenti.Il problema naturale è capire quale tipo di dipendenzamatematica intercorre tra le due variabili. In altre parole ci sichiede se sia possibile determinare una funzione y = f (x) che,con una buona approssimazione, soddisfi:

Yi = f (Xi) i = 1, . . . ,N

Un primo tentativo è osservare il diagramma di dispersioneassociato alle variabili X e Y e costruito nel modo seguente.

33 / 69

Nuvole di punti

Si costruisce un nuovo vettore

P = X×Y = ((X1,Y1), . . . ,(XN ,XN)) = (P1, . . . ,PN)

In un sistema di riferimento cartesiano si traccia per ogniPi = (Xi,Yi) un punto di coordinate (Xi,Yi). Si ottiene in questomodo un diagramma di dispersione.Per esempio per i vettori

X = (4,18,10,16,1,10,0,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)

Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)

si ottiene

34 / 69

2.5 5 7.5 10 12.5 15 17.5

5

10

15

20

25

30

35 / 69

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

10

20

30

40

36 / 69

Tipo retta y = x+3

5 10 15 20 25 30 35

10

20

30

40

37 / 69

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

200

400

600

800

1000

1200

38 / 69

Tipo parabola y = x2

5 10 15 20 25 30 35

200

400

600

800

1000

1200

39 / 69

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

0.2

0.4

0.6

0.8

1

40 / 69

Tipo iperbole y = 1x

5 10 15 20 25 30 35

0.2

0.4

0.6

0.8

1

41 / 69

Regressione lineare

La situazione più semplice è quando il diagramma didispersione segue l’andamento di una retta. I problemi darisolvere in questa situazione sono essenzialmente due• esiste un modo quantitativo per decidere quanto il

diagramma di dispersione sia sufficientemente vicino aduna retta?

• nel caso fosse sufficientemente vicino come calcolol’equazione della retta?

Per dare una risposta a questi quesiti dobbiamo introdurre unnuovo indice.

42 / 69

La covarianza

Siano X e Y due variabili indicate, come al solito, con

X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)

DefinizioneSi chiama covarianza di X e Y il numero

Cov(X,Y) =1N

N

∑k=1

(Xk−X)(Yk−Y)

La covarianza misura come le due variabili covariano nel sensoseguente: se pensiamo ai singoli addendi della somma, cioè aitermini

(Xk−X)(Yk−Y)

questi saranno:• positivi se entrambi sono positivi o entrambi negativi• negativi se hanno segni opposti 43 / 69

quindi• se Cov(X,Y)> 0 vuol dire che mediamente ci sono più

termini positivi e questo implica che mediamente a valori diX maggiori della media corrispondono valori di Y maggioridella media e viceversa

• se Cov(X,Y)< 0 vuol dire che mediamente ci sono piùtermini negativi e questo implica che mediamente a valoridi X maggiori della media corrispondono valori di Y minoridella media e viceversa

44 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y

45 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y8−4 2−53−4 9−54−4 6−51−4 3−5

46 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y4 −3−1 40 1−3 −2

47 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3−1 40 1−3 −2

48 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6

49 / 69

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6

−10

Cov(X,Y) =−10

4=−2.5

50 / 69

Il coefficiente di correlazione lineare

A partire dalla covarianza si introduce un nuovo indicechiamato coefficiente di correlazione lineare è definito come

ρ(X,Y) =Cov(X,Y)

σX σY

Questo coefficiente indicherà, come vedremo più avanti, conche bontà una retta approssima il diagramma di dispersione diX e Y.

51 / 69

Retta di regressione lineare

In questa lezione andiamo a determinare uno strumentoqualitativo che ci permetta di individuare quanto due variabilidipendano da un legge di tipo lineare. Cioè del tipo

Y = mX+q

L’idea è di misurare quale errore si commette nel rappresentareil diagramma di dispersione di due variabili con una singolaretta.

52 / 69

Retta di regressione lineare

Nella figura

5 10 15 20 25 30 35

10

20

30

40

la retta verde non passa per tutti i punti, ma forse tra tutte lerette è quella che meglio rappresenta il diagramma didispersione.

• Come facciamo a determinare l’equazione della rettaverde in modo che sia la migliore possibile?

• Qual’è l’errore nel rappresentare il legame tra le duevariabili tramite l’equazione della retta verde?

53 / 69

Retta di regressione lineare sulla X

Dati i vettori

X = (X1,X2,X3,X4) Y = (Y1,Y2,Y3,Y4)

tracciamo assieme alla nuvola di punti una generica retta diequazione y = mx+q.

-1 1 2 3 4

1

2

3

4

5

y = mx+q

54 / 69

-1 1 2 3 4

1

2

3

4

5

}Pk = (Xk,Yk)

(Xk,mXk +q)

Per ogni punto Pk = (Xk,Yk) misuriamo la differenza tral’ordinata del punto Pk e l’ordinate del punto sulla retta diascissa Xk. In questo modo stiamo misurando l’errore che sicommette sulle ordinate a considerare il punto appartenentealla retta.

55 / 69

-1 1 2 3 4

1

2

3

4

5

}εk

Pk = (Xk,Yk)

(Xk,mXk +q)

Indicando con εk = Yk− (mXk +q) si ottiene un nuovo vettore

ε = (ε1, . . . ,εN).

Osservazioneεk > 0 se Pk si trova sopra la rettaεk < 0 se Pk si trova sotto la retta.

56 / 69

Gli erroriε = (ε1, . . . ,εN)

dipendono dalla scelta delle retta y = mx+q.Cerchiamo quindi delle condizioni sui coefficienti m e q in modoche gli errori siano il più possibile contenuti.Per fare questo utilizziamo i seguenti criteri:• la retta dovrebbe passare il più possibile al centro del

diagramma di dispersione, cioè per un punto che si trovasopra la retta dovrebbe esserci un altro punto che si trovasotto alla stessa distanza.

• il vettore degli errori dovrebbe essere il meno dispersopossibile.

I due criteri sono soddisfati se:1 la media di ε è zero;2 la deviazione standard di ε è la minore possibile.

57 / 69

La condizione ε = 0

CriterioLa media degli errori è zero se e solo se

Y−mX−q = 0 equivalentemente Y = mX+q

cioè il punto P = (X,Y) appartiene alla retta

58 / 69

La prima condizione ci permette di scrivere la retta cercatanella forma

y−Y = m(x−X)

Questo vuol dire che tutte le rette con media degli errori zeropassano per il punto del piano le cui coordinate sono le mediedi X e Y.

-1 1 2 3 4

-2

2

4

6

P = (X,Y)

59 / 69

La condizione σε minima

Per individuare univocamente la retta

y−Y = m(x−X)

dobbiamo determinare il coefficiente angolare m.

A questo scopo utilizziamo la seconda condizione, cioè quellache richiede che la deviazione standard σε degli errori sia laminore possibile.

Si trova

m =Cov(X,Y)

Var(X)

60 / 69

Retta di regressione lineare sulla X

In conclusione abbiamo ottenuto la seguente

Proposizione

Una retta soddisfa alle due condizioni• la media di ε è zero,• la deviazione standard di ε è la minore possibile,

se ha equazione

y−Y =Cov(X,Y)

Var(X)(x−X)

61 / 69

Retta di regressione lineare sulla Y

Torniamo alla definizione degli εk.

-1 1 2 3 4

1

2

3

4

5

}εk

Pk = (Xk,Yk)

(Xk,mXk +q)

Pensiamo adesso di definire gli εk tenendo conto degli erroriorizzontali, cioè

62 / 69

Retta di regressione lineare sulla Y

-1 1 2 3 4

1

2

3

4

5

εk

63 / 69

Retta di regressione lineare sulla Y

Con calcoli analoghi a quelli vista prima si ottiene la retta

y−Y =Var(Y)

Cov(X,Y)(x−X)

In conclusione si ottengono due rette di regressione lineare,una sulla X ed una sulla Y le cui equazioni sono:

rettasullaX y−Y = mX(x−X) mX = Cov(X,Y)Var(X)

rettasullaY y−Y = mY(x−X) mY = Var(Y)Cov(X,Y)

64 / 69

Rette di regressione lineare

Le due rette di regressione lineare rX e rY passano entrambeper lo stesso punto P = (X,Y) e formano un angolo α tra di loro.

-1 1 2 3 4

-2

2

4

6

P = (X,Y)

α rX

rY

65 / 69

Rette di regressione lineare

Possiamo distinguere i seguenti casi limite

• α w 0, in questo caso le due rette coincidono e la nuvola dipunti può essere ben rappresentata dall’unica retta diregressione lineare;

• α w π

2 , in questo caso le due rette sono ortogonali e lanuvola di punti non può essere rappresentata dalle rette diregressione lineare.

66 / 69

Rette di regressione lineare

2 4 6 8 10

2.5

5

7.5

10

12.5

15

17.5

2 4 6 8 10 12

2

4

6

8

10

α w 0 α grande

67 / 69

Analisi dell’angolo α

• se α w 0, le due rette coincidono e quindi mX w mY ;• se α w π

2 , in questo caso le due rette sono ortogonali ed inpiù quella sulla X diviene orizzontale (mX = 0) mentrequella sulla Y verticale (mY = ∞).

Possiamo quindi considerare la quantità

mX

mY

Dalle formule trovate prima si ha

mX

mY=

Cov(X,Y)Var(X)Var(Y)

Cov(X,Y)

=Cov(X,Y)2

Var(X)Var(Y)=

(Cov(X,Y)

σX σY

)2

= ρ2

68 / 69

Il coefficiente di correlazione lineare

Abbiamo quindi dimostrato che il coefficiente di correlazionelineare soddisfa mX

mY= ρ

2

da cui segue che• se ρ2 w 1, allora mX w mY ed in più

• se ρ w 1 la retta è crescente• se ρ w−1 la retta è decrescente

• se ρ2 w 0, le due rette sono quasi ortogonali.In termini di dipendenza lineare delle variabili X e Y si ha• se ρ2 w 1, le due variabili sono dipendenti da una legge

lineare• se ρ w 1 la nuvola di punti è crescente• se ρ w−1 la nuvola di punti è decrescente

• se ρ2 w 0, le due variabili non sono dipendenti da unalegge lineare.

69 / 69

Recommended