69
Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y . Indichiamo come al solito con X =(x 1 ,..., x N ) Y =(y 1 ,..., y N ) i valori osservati. In questo caso abbiamo due possibilità Studiare le due variabili separatamente Studiare se esistono dei legami tra le due variabili Di fatto la cosa più importante, quando si misurano due caratteri sullo stesso campione, è capire se le due variabili sono dipendenti, cioè se variazioni di una producono variazioni dell’altra. 1 / 69

Statistica descrittiva in due variabili

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistica descrittiva in due variabili

Statistica descrittiva in due variabili

Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con

X = (x1, . . . ,xN) Y = (y1, . . . ,yN)

i valori osservati. In questo caso abbiamo due possibilità• Studiare le due variabili separatamente• Studiare se esistono dei legami tra le due variabili

Di fatto la cosa più importante, quando si misurano duecaratteri sullo stesso campione, è capire se le due variabilisono dipendenti, cioè se variazioni di una producono variazionidell’altra.

1 / 69

Page 2: Statistica descrittiva in due variabili

Tabella di contingenza

Per determinare se due variabili sono dipendenti o indipendentisi procede nel modo seguente.Si costruisce per primo una tabella a doppia entrata, o dicontingenza, che, per semplicità, descriveremo con unesempio.

2 / 69

Page 3: Statistica descrittiva in due variabili

Dati i vettori

X = (4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)

Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)

suddividiamo le ampiezze di X e Y in sotto intervalli, allo stessomodo con cui abbiamo operato per il calcolo delle frequenzeassolute.Nell’esempio X ha ampiezza 18 mentre quella di Y è 28.Possiamo quindi dividere l’ampiezza di X in due sotto intervallidi lunghezza 10 e quella di Y in tre di lunghezza 10.Si ottiene la seguente tabella

X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)

I2 = [11,21)

3 / 69

Page 4: Statistica descrittiva in due variabili

Tabella di contingenza

Adesso andiamo a riempire le caselle vuote della tabelle con lefrequenze osservate definite nel modo seguente

DefinizioneLa frequenza osservata nij rappresenta il numero di unitàstatistiche il cui valore della variabile X si trova nell’intervallo Ii

e simultaneamente il valore della variabile Y si trovanell’intervallo Jj.

Per calcolare le frequenze osservate conviene dare dei colori aisotto intervalli. Per esempio, usando il blu, il rosso ed il verde

X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)

I2 = [11,21)

4 / 69

Page 5: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 2410 113 1518 74 1019 611 3015 810 2412 89 2017 288 266 2913 30

5 / 69

Page 6: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11)[11,21)

6 / 69

Page 7: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2[11,21)

7 / 69

Page 8: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5[11,21)

8 / 69

Page 9: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21)

9 / 69

Page 10: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7

10 / 69

Page 11: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3

11 / 69

Page 12: Statistica descrittiva in due variabili

Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.

X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10

17 32 24

10 113 15

18 74 10

19 611 3015 810 2412 89 20

17 288 266 29

13 30

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4

12 / 69

Page 13: Statistica descrittiva in due variabili

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4

Questa rappresenta la tabella di contingenza e le entraterappresentano le frequenze osservate.Completiamo la tabella inserendo le distribuzioni marginali chesi ottengono sommando in verticale ed in orizzontale lefrequenze osservate.

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Il numero in basso a destra, corrispondente alla somma dellefrequenze marginali, è pari al numero delle unità statistiche.

13 / 69

Page 14: Statistica descrittiva in due variabili

La tabella di contingenza permette di valutare come cambia ladistribuzione di una variabile (per esempio della Y)condizionata a particolari valori dell’altra (per esempio X).Nel nostro caso la distribuzione marginale orizzontale

9 8 13

dice come è distribuita la variabile Y nei tre sotto intervallisenza nessuna condizione della variabile X.Mentre la distribuzione

2 5 9

dice come è distribuita la variabile Y nei tre sotto intervallicondizionata ad avere la variabile X nell’intervallo [1,11)

14 / 69

Page 15: Statistica descrittiva in due variabili

Se le tre distribuzioni

2 5 9

7 3 4

9 8 13

sono equivalenti, allora la variabile Y non è condizionata dallavariabile X e quindi le variabili si dicono indipendenti.Ma cosa vuol dire equivalenti?Per confrontarle bisogna trasformarle in frequenze relativedividendole per i rispettivi totali di riga.Nel nostro caso si ha

2/16 5/16 9/16

7/14 3/14 4/14

9/30 8/30 13/30

che, trasformate in percentuale, diventano15 / 69

Page 16: Statistica descrittiva in due variabili

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 12.5% 31.25% 56.25[11,21) 50% 21.43% 28.57

30% 26.67% 43.33%

DefinizioneDue variabili sono indipendenti se le distribuzioni orizzontali,trasformate in percentuale, coincidono.

16 / 69

Page 17: Statistica descrittiva in due variabili

In generale, indicata con nij la frequenza osservatacorrispondente alla i-sima riga e alla j-sima colonna, la tabelladi contingenza diventa

X ↓ Y→ J1 J2 · · · Jc MarginaleI1 n11 n12 · · · n1c n1•I2 n21 n22 · · · n2c n2•... · · · · · · · · · · · ·

...Ir nr1 nr2 · · · nrc nr•

Marginale n•1 n•2 · · · n•c N

Con queste notazioni segue che due variabili sono indipendentise le distribuzioni

n11n1•

n12n1•· · · n1c

n1•... · · · · · ·

...nr1nr•

nr2nr•· · · nrc

nr•

sono uguali alla distribuzionen•1N

n•2N · · · n•c

N17 / 69

Page 18: Statistica descrittiva in due variabili

Considerando ciascuna componente si ottiene

nij

ni•=

n•jN

∀i, j

o, equivalentemente,

nij =ni• n•j

N∀i, j

DefinizioneI numeri

νij =ni• n•j

Nsono chiamati frequenze attese.

Quindi due variabili sono indipendenti se le frequenzeosservate coincidono con quelle attese.Ma noi stavamo cercando di capire quando due variabili sonoDIPENDENTI!

18 / 69

Page 19: Statistica descrittiva in due variabili

DefinizioneDiremo che due variabili sono dipendenti se le frequenzeosservate sono molto diverse da quelle attese.

ma cosa vuol dire molto diverse?

Per capire quanto sono diverse si può calcolare la distanzadelle frequenze osservate da quelle attese.

Tale distanza si può calcolare, tenendo conto del quadrato delledifferenze nij−νij, introducendo la quantità

χ2 =

r

∑i=1

c

∑j=1

(nij−νij)2

νij

19 / 69

Page 20: Statistica descrittiva in due variabili

Torniamo all’esempio

Frequenze osservate

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Frequenze attese

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 9·16

308·1630

13·1630 16

[11,21) 9·1430

8·1430

13·1430 14

9 8 13 30

20 / 69

Page 21: Statistica descrittiva in due variabili

Torniamo all’esempio

Frequenze osservate

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14

9 8 13 30

Frequenze attese

X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 4.8 4.3 6.9 16[11,21) 4.2 3.7 6.1 14

9 8 13 30

χ2 =

(2−4.8)2

4.8+

(5−4.3)2

4.3+

(9−6.9)2

6.9

+(7−4.2)2

4.2+

(3−3.7)2

3.7+

(4−6.1)2

6.1' 5.11

21 / 69

Page 22: Statistica descrittiva in due variabili

Utilizzo del χ2

Ovviamente χ2 = 0 se e solo se le variabili sonomatematicamente indipendenti.

Da un punto di vista qualitativo si può dire che:• per valori di χ2 grandi le variabili sono dipendenti• per valori di χ2 piccoli le variabili sono indipendenti

In statistica è stato elaborato un test per calcolare con chefiducia, noto il valore del χ2, si possa affermare che duevariabili siano dipendenti.

Questo test prende il nome di Test del χ2

22 / 69

Page 23: Statistica descrittiva in due variabili

Calcolo della fiducia

Per calcolare la fiducia si calcola per primo un numero,denotato con df , che misura i gradi di libertà, definito come

df = (r−1)(c−1)

Calcolati il χ2 ed il df si utilizza la seguente tabella.df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

23 / 69

Page 24: Statistica descrittiva in due variabili

Il df individua una riga della tabella. Nella riga individuata sicerca il più grande numero minore del χ2. Partendo da questonumero si procede in verticale sino ad incontrare una casellanella prima riga della tabella. In questa tabella si troverà unvalore di α. Il valore di α rappresenta la sfiducia, cioè lapercentuale di errore che si commette nell’affermare che duevariabili sono dipendenti. Trasformando in percentuale si hache la fiducia è data da

F = 100(1−α)

24 / 69

Page 25: Statistica descrittiva in due variabili

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

25 / 69

Page 26: Statistica descrittiva in due variabili

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82

3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

26 / 69

Page 27: Statistica descrittiva in due variabili

Vediamo il nostro esempio

χ2 = 5.11 df = (2−1)(3−1) = 2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82

3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79

27 / 69

Page 28: Statistica descrittiva in due variabili

Quindi α = 0.1, da cui la fiducia risulta:

F = 100(1−α) = 100(1−0.1) = 100(0.9) = 90%

Possiamo affermare che le due variabili sono dipendenti conuna fiducia del 90%.

28 / 69

Page 29: Statistica descrittiva in due variabili

Il caso 2×2

Se la tabella di contingenza è 2×2, cioè del tipo

X ↓ Y→ J1 J2

I1 a b a+bI2 c d c+d

a+ c b+d N

si può calcolare il χ2 senza calcolare le frequenze attesetramite la formula

χ2 = N

(ad−bc)2

(a+b)(c+d)(a+ c)(b+d)

29 / 69

Page 30: Statistica descrittiva in due variabili

Uso del test del χ2

Di solito l’uso del test del χ2 è riservato allo studio di duevariabili qualitative rilevate su un campione statistico.

Esempio

In uno studio di immunologia, vengono studiate 111 cavie nelmodo seguente:• 57 di esse ricevono una dose di batteri patogeni seguiti da

un antisiero;• le restanti 54 ricevono solo i batteri ma non l’antisiero.

Dopo un tempo sufficiente per il periodo di incubazione e per ildecorso della malattia si contano 38 cavie morte di cui:

• 12 avevano ricevuto il siero• 26 solo i batteri

L’antisiero è efficace?

30 / 69

Page 31: Statistica descrittiva in due variabili

Per valutare l’efficacia costruiamo una tabella di contingenzaindicando con:

BA = cavia inoculata con batteri e antisieroB = cavia inoculata con solo batteriD = cavia decedutaS = cavia sopravissuta

Si ottiene la seguente tabella di contingenza:

D SBA 12 57B 26 54

38 111

D SBA 12 45 57B 26 28 54

38 73 111

Dalla formula per il calcolo del χ2 per una tabella 2×2 si ottiene

χ2 = 111

(12 ·28−45 ·26)2

57 ·54 ·38 ·73w 9.042

31 / 69

Page 32: Statistica descrittiva in due variabili

Dalla tabella del χ2

df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001

1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83

2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47

si ottiene α = 0.005 da cui la fiducia

F = 100(1−0.005) = 99.5%

Possiamo quindi affermare che le due variabili sono dipendenticon una fiducia del 99.5. Questo significa che il l’antisiero èefficace.

32 / 69

Page 33: Statistica descrittiva in due variabili

Diagramma di dispersione

Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con

X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)

i valori osservati. Supponiamo inoltre di aver verificato che ledue variabili sono statisticamente dipendenti.Il problema naturale è capire quale tipo di dipendenzamatematica intercorre tra le due variabili. In altre parole ci sichiede se sia possibile determinare una funzione y = f (x) che,con una buona approssimazione, soddisfi:

Yi = f (Xi) i = 1, . . . ,N

Un primo tentativo è osservare il diagramma di dispersioneassociato alle variabili X e Y e costruito nel modo seguente.

33 / 69

Page 34: Statistica descrittiva in due variabili

Nuvole di punti

Si costruisce un nuovo vettore

P = X×Y = ((X1,Y1), . . . ,(XN ,XN)) = (P1, . . . ,PN)

In un sistema di riferimento cartesiano si traccia per ogniPi = (Xi,Yi) un punto di coordinate (Xi,Yi). Si ottiene in questomodo un diagramma di dispersione.Per esempio per i vettori

X = (4,18,10,16,1,10,0,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)

Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)

si ottiene

34 / 69

Page 35: Statistica descrittiva in due variabili

2.5 5 7.5 10 12.5 15 17.5

5

10

15

20

25

30

35 / 69

Page 36: Statistica descrittiva in due variabili

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

10

20

30

40

36 / 69

Page 37: Statistica descrittiva in due variabili

Tipo retta y = x+3

5 10 15 20 25 30 35

10

20

30

40

37 / 69

Page 38: Statistica descrittiva in due variabili

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

200

400

600

800

1000

1200

38 / 69

Page 39: Statistica descrittiva in due variabili

Tipo parabola y = x2

5 10 15 20 25 30 35

200

400

600

800

1000

1200

39 / 69

Page 40: Statistica descrittiva in due variabili

Tipi di diagrammi di dispersione

5 10 15 20 25 30 35

0.2

0.4

0.6

0.8

1

40 / 69

Page 41: Statistica descrittiva in due variabili

Tipo iperbole y = 1x

5 10 15 20 25 30 35

0.2

0.4

0.6

0.8

1

41 / 69

Page 42: Statistica descrittiva in due variabili

Regressione lineare

La situazione più semplice è quando il diagramma didispersione segue l’andamento di una retta. I problemi darisolvere in questa situazione sono essenzialmente due• esiste un modo quantitativo per decidere quanto il

diagramma di dispersione sia sufficientemente vicino aduna retta?

• nel caso fosse sufficientemente vicino come calcolol’equazione della retta?

Per dare una risposta a questi quesiti dobbiamo introdurre unnuovo indice.

42 / 69

Page 43: Statistica descrittiva in due variabili

La covarianza

Siano X e Y due variabili indicate, come al solito, con

X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)

DefinizioneSi chiama covarianza di X e Y il numero

Cov(X,Y) =1N

N

∑k=1

(Xk−X)(Yk−Y)

La covarianza misura come le due variabili covariano nel sensoseguente: se pensiamo ai singoli addendi della somma, cioè aitermini

(Xk−X)(Yk−Y)

questi saranno:• positivi se entrambi sono positivi o entrambi negativi• negativi se hanno segni opposti 43 / 69

Page 44: Statistica descrittiva in due variabili

quindi• se Cov(X,Y)> 0 vuol dire che mediamente ci sono più

termini positivi e questo implica che mediamente a valori diX maggiori della media corrispondono valori di Y maggioridella media e viceversa

• se Cov(X,Y)< 0 vuol dire che mediamente ci sono piùtermini negativi e questo implica che mediamente a valoridi X maggiori della media corrispondono valori di Y minoridella media e viceversa

44 / 69

Page 45: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y

45 / 69

Page 46: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y8−4 2−53−4 9−54−4 6−51−4 3−5

46 / 69

Page 47: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y4 −3−1 40 1−3 −2

47 / 69

Page 48: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3−1 40 1−3 −2

48 / 69

Page 49: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6

49 / 69

Page 50: Statistica descrittiva in due variabili

Calcolo della covarianza

Calcoliamo la covarianza dei vettori

X = (8,3,4,1) Y = (2,9,6,3)

Le medie sonoX = 4 Y = 5

Adesso costruiamo la tabella

Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6

−10

Cov(X,Y) =−10

4=−2.5

50 / 69

Page 51: Statistica descrittiva in due variabili

Il coefficiente di correlazione lineare

A partire dalla covarianza si introduce un nuovo indicechiamato coefficiente di correlazione lineare è definito come

ρ(X,Y) =Cov(X,Y)

σX σY

Questo coefficiente indicherà, come vedremo più avanti, conche bontà una retta approssima il diagramma di dispersione diX e Y.

51 / 69

Page 52: Statistica descrittiva in due variabili

Retta di regressione lineare

In questa lezione andiamo a determinare uno strumentoqualitativo che ci permetta di individuare quanto due variabilidipendano da un legge di tipo lineare. Cioè del tipo

Y = mX+q

L’idea è di misurare quale errore si commette nel rappresentareil diagramma di dispersione di due variabili con una singolaretta.

52 / 69

Page 53: Statistica descrittiva in due variabili

Retta di regressione lineare

Nella figura

5 10 15 20 25 30 35

10

20

30

40

la retta verde non passa per tutti i punti, ma forse tra tutte lerette è quella che meglio rappresenta il diagramma didispersione.

• Come facciamo a determinare l’equazione della rettaverde in modo che sia la migliore possibile?

• Qual’è l’errore nel rappresentare il legame tra le duevariabili tramite l’equazione della retta verde?

53 / 69

Page 54: Statistica descrittiva in due variabili

Retta di regressione lineare sulla X

Dati i vettori

X = (X1,X2,X3,X4) Y = (Y1,Y2,Y3,Y4)

tracciamo assieme alla nuvola di punti una generica retta diequazione y = mx+q.

-1 1 2 3 4

1

2

3

4

5

y = mx+q

54 / 69

Page 55: Statistica descrittiva in due variabili

-1 1 2 3 4

1

2

3

4

5

}Pk = (Xk,Yk)

(Xk,mXk +q)

Per ogni punto Pk = (Xk,Yk) misuriamo la differenza tral’ordinata del punto Pk e l’ordinate del punto sulla retta diascissa Xk. In questo modo stiamo misurando l’errore che sicommette sulle ordinate a considerare il punto appartenentealla retta.

55 / 69

Page 56: Statistica descrittiva in due variabili

-1 1 2 3 4

1

2

3

4

5

}εk

Pk = (Xk,Yk)

(Xk,mXk +q)

Indicando con εk = Yk− (mXk +q) si ottiene un nuovo vettore

ε = (ε1, . . . ,εN).

Osservazioneεk > 0 se Pk si trova sopra la rettaεk < 0 se Pk si trova sotto la retta.

56 / 69

Page 57: Statistica descrittiva in due variabili

Gli erroriε = (ε1, . . . ,εN)

dipendono dalla scelta delle retta y = mx+q.Cerchiamo quindi delle condizioni sui coefficienti m e q in modoche gli errori siano il più possibile contenuti.Per fare questo utilizziamo i seguenti criteri:• la retta dovrebbe passare il più possibile al centro del

diagramma di dispersione, cioè per un punto che si trovasopra la retta dovrebbe esserci un altro punto che si trovasotto alla stessa distanza.

• il vettore degli errori dovrebbe essere il meno dispersopossibile.

I due criteri sono soddisfati se:1 la media di ε è zero;2 la deviazione standard di ε è la minore possibile.

57 / 69

Page 58: Statistica descrittiva in due variabili

La condizione ε = 0

CriterioLa media degli errori è zero se e solo se

Y−mX−q = 0 equivalentemente Y = mX+q

cioè il punto P = (X,Y) appartiene alla retta

58 / 69

Page 59: Statistica descrittiva in due variabili

La prima condizione ci permette di scrivere la retta cercatanella forma

y−Y = m(x−X)

Questo vuol dire che tutte le rette con media degli errori zeropassano per il punto del piano le cui coordinate sono le mediedi X e Y.

-1 1 2 3 4

-2

2

4

6

P = (X,Y)

59 / 69

Page 60: Statistica descrittiva in due variabili

La condizione σε minima

Per individuare univocamente la retta

y−Y = m(x−X)

dobbiamo determinare il coefficiente angolare m.

A questo scopo utilizziamo la seconda condizione, cioè quellache richiede che la deviazione standard σε degli errori sia laminore possibile.

Si trova

m =Cov(X,Y)

Var(X)

60 / 69

Page 61: Statistica descrittiva in due variabili

Retta di regressione lineare sulla X

In conclusione abbiamo ottenuto la seguente

Proposizione

Una retta soddisfa alle due condizioni• la media di ε è zero,• la deviazione standard di ε è la minore possibile,

se ha equazione

y−Y =Cov(X,Y)

Var(X)(x−X)

61 / 69

Page 62: Statistica descrittiva in due variabili

Retta di regressione lineare sulla Y

Torniamo alla definizione degli εk.

-1 1 2 3 4

1

2

3

4

5

}εk

Pk = (Xk,Yk)

(Xk,mXk +q)

Pensiamo adesso di definire gli εk tenendo conto degli erroriorizzontali, cioè

62 / 69

Page 63: Statistica descrittiva in due variabili

Retta di regressione lineare sulla Y

-1 1 2 3 4

1

2

3

4

5

εk

63 / 69

Page 64: Statistica descrittiva in due variabili

Retta di regressione lineare sulla Y

Con calcoli analoghi a quelli vista prima si ottiene la retta

y−Y =Var(Y)

Cov(X,Y)(x−X)

In conclusione si ottengono due rette di regressione lineare,una sulla X ed una sulla Y le cui equazioni sono:

rettasullaX y−Y = mX(x−X) mX = Cov(X,Y)Var(X)

rettasullaY y−Y = mY(x−X) mY = Var(Y)Cov(X,Y)

64 / 69

Page 65: Statistica descrittiva in due variabili

Rette di regressione lineare

Le due rette di regressione lineare rX e rY passano entrambeper lo stesso punto P = (X,Y) e formano un angolo α tra di loro.

-1 1 2 3 4

-2

2

4

6

P = (X,Y)

α rX

rY

65 / 69

Page 66: Statistica descrittiva in due variabili

Rette di regressione lineare

Possiamo distinguere i seguenti casi limite

• α w 0, in questo caso le due rette coincidono e la nuvola dipunti può essere ben rappresentata dall’unica retta diregressione lineare;

• α w π

2 , in questo caso le due rette sono ortogonali e lanuvola di punti non può essere rappresentata dalle rette diregressione lineare.

66 / 69

Page 67: Statistica descrittiva in due variabili

Rette di regressione lineare

2 4 6 8 10

2.5

5

7.5

10

12.5

15

17.5

2 4 6 8 10 12

2

4

6

8

10

α w 0 α grande

67 / 69

Page 68: Statistica descrittiva in due variabili

Analisi dell’angolo α

• se α w 0, le due rette coincidono e quindi mX w mY ;• se α w π

2 , in questo caso le due rette sono ortogonali ed inpiù quella sulla X diviene orizzontale (mX = 0) mentrequella sulla Y verticale (mY = ∞).

Possiamo quindi considerare la quantità

mX

mY

Dalle formule trovate prima si ha

mX

mY=

Cov(X,Y)Var(X)Var(Y)

Cov(X,Y)

=Cov(X,Y)2

Var(X)Var(Y)=

(Cov(X,Y)

σX σY

)2

= ρ2

68 / 69

Page 69: Statistica descrittiva in due variabili

Il coefficiente di correlazione lineare

Abbiamo quindi dimostrato che il coefficiente di correlazionelineare soddisfa mX

mY= ρ

2

da cui segue che• se ρ2 w 1, allora mX w mY ed in più

• se ρ w 1 la retta è crescente• se ρ w−1 la retta è decrescente

• se ρ2 w 0, le due rette sono quasi ortogonali.In termini di dipendenza lineare delle variabili X e Y si ha• se ρ2 w 1, le due variabili sono dipendenti da una legge

lineare• se ρ w 1 la nuvola di punti è crescente• se ρ w−1 la nuvola di punti è decrescente

• se ρ2 w 0, le due variabili non sono dipendenti da unalegge lineare.

69 / 69