Slide Set #6 Modello di Regression Lineare · Dipendenza lineare: distribuzione congiunta ... intorno alla media condizionata con una certa dispersione omogenea Cor[X;Y] 6= 0 nella

Slide Set #6Modello di Regression Lineare

Pietro [email protected]

Universita degli Studi di Salerno

Corso di Statistica (0212700010)CDL in Economia e Management

Curriculum in Management e Informaticaa.a. 2018/2019

Versione: 19 novembre 2018 (h16:46)

P. Coretto // Statistica Modello di Regression Lineare 1 / 43

Stipendi dei parlamentari in zona EU, anno 2005

20 30 40 50 60 70

020

4060

80100

120

140

PIL procapite [×103 $PPP]

Salario

annuo[×

103EUR]

IT

AT

NL

DE

IEGB

BEDKGR LUFRFISE

SICYPT

ES

SK CZEEMTLTLV

HUPL


Notes

Notes

Paesi “anomali”

20 30 40 50 60 70

020

4060

80100

120

140


Salario

annuo[×

103EUR]

IT

AT

NL

DE

IEGB

BEDKGR LUFRFISE

SICYPT

ES

SK CZEEMTLTLV

HUPL


Paesi non “anomali”

15 20 25 30 35

2040

6080

100


Salario

annuo[×

103EUR]

AT

NLIEGB

BEDKGR

FRFI

SE

SI CY

PT

ES

SK CZEE

MTLTLVHUPL


Notes

Notes

Dipendenza lineare: distribuzione congiunta

Sintetizzando quanto visto in precedenza:

due variabili casuali X e Y sono linearmente dipendenti (correlate) sela distribuzione congiunta del vettore (X ,Y ) e tale cheCov[X ,Y ] 6= 0 (e quindi Cor[X ,Y ] 6= 0)

Se (X ,Y ) sono correlate, la loro distribuzione congiunta produrrauno scatter con la maggioranza dei punti contenuti in una regioneellissoidale centrata sul vettore delle medie (x , y)

L’area dell’ellisse cattura l’ammontare di variabilita complessiva

L’intensita del legame lineare e tanto piu forte (ovveroCor[X ,Y ] ≈ ±1), quanto piu lo scatter e compresso lungo l’assemaggiore dell’ellisse.


5 10 15 20

50100

150

200

250

X

Y


Notes

Notes

X

Y

x = 10.23

y=

173.

49


Cor[X, Y ] = 0 Cor[X, Y ] = -0.5 Cor[X, Y ] = 0.5

Cor[X, Y ] = 0.25 Cor[X, Y ] = -0.95 Cor[X, Y ] = 0.95


Notes

Notes

Dipendenza lineare: distribuzione marginale

Che tipo di meccanismo puo produrre una distribuzione congiunta comequesta?

X

Y

x = 10.23y

=17

3.49

Poiche X e Y sono dipendenti, allora la distribuzione di Y |X e diversadalla marginale di Y .

La dipendenza va ricercata nelle marginali. Proviamo a guardare alladistribuzione della Y condizionando su X = 5, 10, 15


X

Y

x = 5

y|x

=13

5.1


Notes

Notes

X

Y

x = 10

y|x

=17

1.8


X

Y

x = 15

y|x

=20

8.6


Notes

Notes

La media condizionata di Y cresce proporzionalmente al crescere delvalore di X rispetto alla quale condiziono

Fissato X = x , i corrispondenti valori di osservati di Y sono distribuitiintorno alla media condizionata con una certa dispersione omogenea

Cor[X ,Y ] 6= 0 nella distribuzione congiunta implica che laE[Y |X ] = x e una funzione lineare di x . Ovvero

E[Y |X = x ] = β0 + β1x


X

Y

x = 5

y|x

=13

5.1


Notes

Notes

X

Y

x = 10

y|x

=17

1.8


X

Y

x = 15

y|x

=20

8.6


Notes

Notes

Modello di regressione lineare

Consideriamo il campione {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)} estratto dauna popolazione (X ,Y ) ∼ f . Il modello di regressione lineare rappresentala popolazione in termini di media condizionata:

E[Y |X = x ] = β0 + β1x

Tuttavia E[Y |X = x ] non e direttamente osservabile. Noi osserviamo{(x1, y1), (x2, y2), . . . , (xn , yn)}. Le coppie osservate (xi , yi) sono fruttodel seguente meccanismo

yi = media condizionata± fluttuazione casuale

Yi = E[Y |X = xi ] + εi = β0 + β1xi + εi

Dove εi e una variabile casuale indipendente da X


Fonte: testo di riferimento (Newbold, Carlson e Thorne)


Notes

Notes

Terminologia

Y : variabile indipendente, risposta, variabile endogena

X : variabile dipendente, covariata, variabile esplicativa, variabileesogena, previsore

E[Y |X = x ] = β0 + β1x : funzione di regressione lineare, retta diregressione

β0 : intercetta, costante

β1 : coefficiente angolare. Si noti che β1 = 0 fa venire meno ladipendenza lineare. Inoltre β1 misura la variazione in media della Yrispetto ad una variazione unitaria della X

εi = termine di errore, rumore, variazione esogena


Definizione: modello di regressione lineare classico

Si consideri il campione casuale {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)}(A1) Yi = β0 + β1Xi + εi

(A2) {x1, x2, . . . , xn} e la realizzazione di una variabile casuale Xindipendente dal termine di errore {ε1, ε2, . . . , εn}.

(A3) Per ogni i = 1, 2, . . . ,n

E[εi ] = 0Var[εi ] = σ2 (omoschedasticita)

(A4) Gli errori sono linearmente indipendenti:Cor[εi , εj ] = E[εi , εj ] = 0 per ogni i 6= j

Sotto le ipotesi classiche vogliamo la migliore stima possibile dei parametriincogniti: β0, β1 e σ2.


Notes

Notes

Stima di β0 e β1

Il modello ha l’obiettivo di spiegare gran parte delle variazioni osservatenella Y attraverso il “modello” (β0 + β1X ).

Le variazioni del termine di errore contribuiscono in modo residuale quindidevono essere complessivamente “piccole”. La grandezza complessiva dellevariazioni del termine di errore puo essere misurata da

∑ni=1 ε

2i

Criterio dei minimi quadrati ordinari (OLS):

Q(β0;β1) =

n∑i=1

ε2i =n∑

i=1

(Yi − β0 − β1Xi)2

Il metodo di stima OLS sceglie la coppia di stimatori (β0, β1) cheminimizza Q(β0;β1). Si noti che Q e convessa e quindi ha un unicominimo.


Stime campionarie OLS

Valori osservati (stime) di β1 e β0

b1 =

∑ni=1(xi − x )(yi − y)∑n

i=1(xi − x )2=

sXY

s2X=

mXY − x y

m2,X − x 2

b0 =y − b1x

Stima della retta di regressione, stima del valore atteso condizionato:

yi = b0 + b1xi

Residuo, o stima dell’errore (inosservabile):

ei = yi − yi


Notes

Notes

Fonte: testo di riferimento (Newbold, Carlson e Thorne)


Esercizio 12.19/a–f (Newbold, Carlson e Thorne)

4.5 5.0 5.5 6.0 6.5

360

380

400

420

440

Prezzo [×100$]

Numerodipezzi

venduti


Notes

Notes

xi =prezzo yi =vendite x 2i y2i xi yi yi = 644.51− 42.58xi e2i = (y−yi)2

5.5 420 30.25 176400 2310 410.32 93.706 380 36 144400 2280 389.03 81.54

6.5 350 42.25 122500 2275 367.74 314.716 400 36 160000 2400 389.03 120.345 440 25 193600 2200 431.61 70.39

6.5 380 42.25 144400 2470 367.74 150.314.5 450 20.25 202500 2025 452.90 8.415 420 25 176400 2100 431.61 134.79∑n

i=1 45 3240 257 1320200 18060 3239.98 974.19


4.5 5.0 5.5 6.0 6.5

360

380

400

420

440

Prezzo [×100$]

Numerodipezzi

venduti


Notes

Notes

4.5 5.0 5.5 6.0 6.5

-15

-10

-50

510

Prezzo [×100$]

e i(residui)


Proprieta della stima OLS

(P.6.1) La retta stimata passa sempre per il punto medio dicoordinate (y , x ).

(P.6.2) La somma dei residui stimati e sempre nulla

n∑i=1

ei =

n∑i=1

(yi − yi) = 0.

(P.6.3) la media delle yi coincide con la media di yi :

1

n

n∑i=1

yi =1

n

n∑i=1

yi ,


Notes

Notes

Sotto le ipotesi classiche A1 – A4 :

(P.6.4) Gli stimatori OLS sono funzioni lineari delle variabilicampionarie {Y1,Y2, . . . ,Yn}

(P.6.5) Gli stimatori OLS sono non distorti:

E[β0] = β0, e E[β1] = β1

(P.6.6) L’efficienza di stima e determinata dalla varianza

Var[β1] =σ2

(n − 1)S 2X

, Var[β0] = m2Xσ2

(n − 1)S 2X

(P.6.7) Il teorema di Gauss-Markov stabilisce che (β0, β1) sonoBLUE (Best Linear Unbiased Estimator): nella classe deglistimatori lineari non distorti sono i piu efficienti.

(P.6.8) Gli stimatori OLS sono consistenti


Stima di σ2

In linea di principio σ2 non e interessante. Ma i momenti di (β0, β1)dipendono da σ2. La stima campionaria non distorta per σ2 e

s2e =1

n − 2

n∑i=1

e2i

Da cui posso stimare la varianza di (β0, β1) con

s2b1 =s2e

(n − 1)s2X=

s2en(m2,X − x 2

)s2b0 = m2X

s2e(n − 1)s2X

= m2Xs2e

n(m2,X − x 2

)


Notes

Notes

Esercizio: 12.19/i


Proprieta distributive con errori normali

Consideriamo la seguente ipotesi:

(A5) Gli errori sono normalmente distribuiti: εi ∼ Normale(0;σ2)per i = 1, 2, . . . ,n.

Sotto le ipotesi classiche A1 – A4 + A5 valgono le seguenti proprieta:

(P.6.9) β0 ∼ Normale(β0,Var[β0]

)e β1 ∼ Normale

(β1,Var[β1]

)(P.6.10) Inoltre studentizzando gli stimatori

β0 − β0s2b0

∼ tn−2,β1 − β1

s2b1∼ tn−2


Notes

Notes

Decomposizione della devianza totale osservata

SST:=∑n

i=1(yi − y)2 = devianza totale osservata

SSR:=∑n

i=1(yi − y)2 = devianza di regressione

SSE:=∑n

i=1(yi − yi)2 = devianza residua

Si dimostra che

SST = SSR + SSE

Queste quantita possono essere anche calcolate come:

SST = n(m2Y − y2)

SSR = b21n(m2X − x 2)

SSE =

n∑i=1

e2i


Coefficiente di determinazione R2

R2 :=SSR

SST= 1− SSE

SST

R2 ∈ [0, 1], si dimostra che R2 = r2XY

R2 =porzione di variabilita osservata nella Y spiegata dal modello diregressione

Tuttavia, R2 grande non coincide necessariamente con una buonaperformance del modello

R2 = 1 e patologico


Notes

Notes

Esercizio: 12.19/g–h


Formulazione e verifica del modello

La formulazione del modello si basa spesso su:

ipotesi teorica. Es: la teoria keynesiana del consumo aggregatostabilisce che C = a + bR, cove C = consumo aggregato, R=redditodisponibile corrente

esperienza basata sull’osservazione. Es: sulla base dell’esperienzasappiamo che la formazione del personale produce una crescita degliutili.

Perche stimiamo il modello formulato?

analisi strutturale: vogliamo conoscere il meccanismo che lega Y edX . Il modello E[Y |X = x ] = β0 + β1x specifica un meccanismoattraverso il quale la X “spiega” le variazioni in media della Y .Attenzione: le relazioni lineari sono invertibili!

previsione: la stima del modello ci permette di prevedere la Y dato X

=⇒ il modello stimato deve essere verificato!P. Coretto // Statistica Modello di Regression Lineare 36 / 43

Notes

Notes

Test su β1

Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β1 = 0 (viene meno il meccanismo lineare)

H1 : β1 6= 0

Funzione test

T =β1√

Var[β1]

H0∼ tn−2

Valore osservato della funzione test

t =b1sb1

H0∼ tn−2

Coda tn−2,α2

: Pr{T ≥ tn−2,α

2

}= α

2


Regione critica:{

campioni: T < −tn−2,α2

oppure T > tn−2,α2

}Regola di decisione: rifiuto H0 se t < −tn−2,α

2oppure t > tn−2,α

2

Distribuzione della funzione test sotto H0

−tn−2, α2

tn−2, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test


Notes

Notes

Test su β0

Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β0 = 0

H1 : β0 6= 0

Funzione test

T =β0√

Var[β0]

H0∼ tn−2

Valore osservato della funzione test

t =b0sb0

H0∼ tn−2

Coda tn−2,α2

: Pr{T ≥ tn−2,α

2

}= α

2


Regione critica:{

campioni: T < −tn−2,α2

oppure T > tn−2,α2

}Regola di decisione: rifiuto H0 se t < −tn−2,α

2oppure t > tn−2,α

2

Distribuzione della funzione test sotto H0

−tn−2, α2

tn−2, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test


Notes

Notes

Esercizio: 12.19/j


Intervalli di confidenza

Assumo: le ipotesi classiche A1 – A4 + A5

Intervallo di al livello (1− α) per β1:

b1 ± tn−2,α2sb1

Intervallo di al livello (1− α) per β0:

b0 ± tn−2,α2sb0

Test delle ipotesi ed intervalli di confidenza sono stati derivati sotto leipotesi classiche + normalita. Violazioni di una o piu ipotesi necessitano distrumenti di inferenza diversi da questi.


Notes

Notes

Rimozione delle ipotesi classiche

Esistono strumenti diagnostici per verificare A1 – A5 .

Violazioni piu comuni:

eteroschedasticita: spesso la dispersione dell’errore dipende dal livellodi X , in altri casi vi sono sottogruppi di osservazioni (es: effetti di“gender”)

errori correlati: spesso gli errori esibiscono dipendenza lineare (es: datida campioni non esattamente CCS)

errori non Gaussiani: in questi casi molte delle proprieta degli OLSsono ancora valide, ma l’inferenza va trattata in modo appropriatosoprattutto in piccoli campioni.


Notes

Notes

Documents

Slide Set #6 Modello di Regression Lineare · Dipendenza lineare: distribuzione congiunta ... intorno alla media condizionata con una certa dispersione omogenea Cor[X;Y] 6= 0 nella