Upload
hoangminh
View
213
Download
0
Embed Size (px)
Citation preview
Slide Set #6Modello di Regression Lineare
Pietro [email protected]
Universita degli Studi di Salerno
Corso di Statistica (0212700010)CDL in Economia e Management
Curriculum in Management e Informaticaa.a. 2018/2019
Versione: 19 novembre 2018 (h16:46)
P. Coretto // Statistica Modello di Regression Lineare 1 / 43
Stipendi dei parlamentari in zona EU, anno 2005
20 30 40 50 60 70
020
4060
80100
120
140
PIL procapite [×103 $PPP]
Salario
annuo[×
103EUR]
IT
AT
NL
DE
IEGB
BEDKGR LUFRFISE
SICYPT
ES
SK CZEEMTLTLV
HUPL
P. Coretto // Statistica Modello di Regression Lineare 2 / 43
Notes
Notes
Paesi “anomali”
20 30 40 50 60 70
020
4060
80100
120
140
PIL procapite [×103 $PPP]
Salario
annuo[×
103EUR]
IT
AT
NL
DE
IEGB
BEDKGR LUFRFISE
SICYPT
ES
SK CZEEMTLTLV
HUPL
P. Coretto // Statistica Modello di Regression Lineare 3 / 43
Paesi non “anomali”
15 20 25 30 35
2040
6080
100
PIL procapite [×103 $PPP]
Salario
annuo[×
103EUR]
AT
NLIEGB
BEDKGR
FRFI
SE
SI CY
PT
ES
SK CZEE
MTLTLVHUPL
P. Coretto // Statistica Modello di Regression Lineare 4 / 43
Notes
Notes
Dipendenza lineare: distribuzione congiunta
Sintetizzando quanto visto in precedenza:
due variabili casuali X e Y sono linearmente dipendenti (correlate) sela distribuzione congiunta del vettore (X ,Y ) e tale cheCov[X ,Y ] 6= 0 (e quindi Cor[X ,Y ] 6= 0)
Se (X ,Y ) sono correlate, la loro distribuzione congiunta produrrauno scatter con la maggioranza dei punti contenuti in una regioneellissoidale centrata sul vettore delle medie (x , y)
L’area dell’ellisse cattura l’ammontare di variabilita complessiva
L’intensita del legame lineare e tanto piu forte (ovveroCor[X ,Y ] ≈ ±1), quanto piu lo scatter e compresso lungo l’assemaggiore dell’ellisse.
P. Coretto // Statistica Modello di Regression Lineare 5 / 43
5 10 15 20
50100
150
200
250
X
Y
P. Coretto // Statistica Modello di Regression Lineare 6 / 43
Notes
Notes
X
Y
x = 10.23
y=
173.
49
P. Coretto // Statistica Modello di Regression Lineare 7 / 43
Cor[X, Y ] = 0 Cor[X, Y ] = -0.5 Cor[X, Y ] = 0.5
Cor[X, Y ] = 0.25 Cor[X, Y ] = -0.95 Cor[X, Y ] = 0.95
P. Coretto // Statistica Modello di Regression Lineare 8 / 43
Notes
Notes
Dipendenza lineare: distribuzione marginale
Che tipo di meccanismo puo produrre una distribuzione congiunta comequesta?
X
Y
x = 10.23y
=17
3.49
Poiche X e Y sono dipendenti, allora la distribuzione di Y |X e diversadalla marginale di Y .
La dipendenza va ricercata nelle marginali. Proviamo a guardare alladistribuzione della Y condizionando su X = 5, 10, 15
P. Coretto // Statistica Modello di Regression Lineare 9 / 43
X
Y
x = 5
y|x
=13
5.1
P. Coretto // Statistica Modello di Regression Lineare 10 / 43
Notes
Notes
X
Y
x = 10
y|x
=17
1.8
P. Coretto // Statistica Modello di Regression Lineare 11 / 43
X
Y
x = 15
y|x
=20
8.6
P. Coretto // Statistica Modello di Regression Lineare 12 / 43
Notes
Notes
La media condizionata di Y cresce proporzionalmente al crescere delvalore di X rispetto alla quale condiziono
Fissato X = x , i corrispondenti valori di osservati di Y sono distribuitiintorno alla media condizionata con una certa dispersione omogenea
Cor[X ,Y ] 6= 0 nella distribuzione congiunta implica che laE[Y |X ] = x e una funzione lineare di x . Ovvero
E[Y |X = x ] = β0 + β1x
P. Coretto // Statistica Modello di Regression Lineare 13 / 43
X
Y
x = 5
y|x
=13
5.1
P. Coretto // Statistica Modello di Regression Lineare 14 / 43
Notes
Notes
X
Y
x = 10
y|x
=17
1.8
P. Coretto // Statistica Modello di Regression Lineare 15 / 43
X
Y
x = 15
y|x
=20
8.6
P. Coretto // Statistica Modello di Regression Lineare 16 / 43
Notes
Notes
Modello di regressione lineare
Consideriamo il campione {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)} estratto dauna popolazione (X ,Y ) ∼ f . Il modello di regressione lineare rappresentala popolazione in termini di media condizionata:
E[Y |X = x ] = β0 + β1x
Tuttavia E[Y |X = x ] non e direttamente osservabile. Noi osserviamo{(x1, y1), (x2, y2), . . . , (xn , yn)}. Le coppie osservate (xi , yi) sono fruttodel seguente meccanismo
yi = media condizionata± fluttuazione casuale
Yi = E[Y |X = xi ] + εi = β0 + β1xi + εi
Dove εi e una variabile casuale indipendente da X
P. Coretto // Statistica Modello di Regression Lineare 17 / 43
Fonte: testo di riferimento (Newbold, Carlson e Thorne)
P. Coretto // Statistica Modello di Regression Lineare 18 / 43
Notes
Notes
Terminologia
Y : variabile indipendente, risposta, variabile endogena
X : variabile dipendente, covariata, variabile esplicativa, variabileesogena, previsore
E[Y |X = x ] = β0 + β1x : funzione di regressione lineare, retta diregressione
β0 : intercetta, costante
β1 : coefficiente angolare. Si noti che β1 = 0 fa venire meno ladipendenza lineare. Inoltre β1 misura la variazione in media della Yrispetto ad una variazione unitaria della X
εi = termine di errore, rumore, variazione esogena
P. Coretto // Statistica Modello di Regression Lineare 19 / 43
Definizione: modello di regressione lineare classico
Si consideri il campione casuale {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)}(A1) Yi = β0 + β1Xi + εi
(A2) {x1, x2, . . . , xn} e la realizzazione di una variabile casuale Xindipendente dal termine di errore {ε1, ε2, . . . , εn}.
(A3) Per ogni i = 1, 2, . . . ,n
E[εi ] = 0Var[εi ] = σ2 (omoschedasticita)
(A4) Gli errori sono linearmente indipendenti:Cor[εi , εj ] = E[εi , εj ] = 0 per ogni i 6= j
Sotto le ipotesi classiche vogliamo la migliore stima possibile dei parametriincogniti: β0, β1 e σ2.
P. Coretto // Statistica Modello di Regression Lineare 20 / 43
Notes
Notes
Stima di β0 e β1
Il modello ha l’obiettivo di spiegare gran parte delle variazioni osservatenella Y attraverso il “modello” (β0 + β1X ).
Le variazioni del termine di errore contribuiscono in modo residuale quindidevono essere complessivamente “piccole”. La grandezza complessiva dellevariazioni del termine di errore puo essere misurata da
∑ni=1 ε
2i
Criterio dei minimi quadrati ordinari (OLS):
Q(β0;β1) =
n∑i=1
ε2i =n∑
i=1
(Yi − β0 − β1Xi)2
Il metodo di stima OLS sceglie la coppia di stimatori (β0, β1) cheminimizza Q(β0;β1). Si noti che Q e convessa e quindi ha un unicominimo.
P. Coretto // Statistica Modello di Regression Lineare 21 / 43
Stime campionarie OLS
Valori osservati (stime) di β1 e β0
b1 =
∑ni=1(xi − x )(yi − y)∑n
i=1(xi − x )2=
sXY
s2X=
mXY − x y
m2,X − x 2
b0 =y − b1x
Stima della retta di regressione, stima del valore atteso condizionato:
yi = b0 + b1xi
Residuo, o stima dell’errore (inosservabile):
ei = yi − yi
P. Coretto // Statistica Modello di Regression Lineare 22 / 43
Notes
Notes
Fonte: testo di riferimento (Newbold, Carlson e Thorne)
P. Coretto // Statistica Modello di Regression Lineare 23 / 43
Esercizio 12.19/a–f (Newbold, Carlson e Thorne)
4.5 5.0 5.5 6.0 6.5
360
380
400
420
440
Prezzo [×100$]
Numerodipezzi
venduti
P. Coretto // Statistica Modello di Regression Lineare 24 / 43
Notes
Notes
xi =prezzo yi =vendite x 2i y2i xi yi yi = 644.51− 42.58xi e2i = (y−yi)2
5.5 420 30.25 176400 2310 410.32 93.706 380 36 144400 2280 389.03 81.54
6.5 350 42.25 122500 2275 367.74 314.716 400 36 160000 2400 389.03 120.345 440 25 193600 2200 431.61 70.39
6.5 380 42.25 144400 2470 367.74 150.314.5 450 20.25 202500 2025 452.90 8.415 420 25 176400 2100 431.61 134.79∑n
i=1 45 3240 257 1320200 18060 3239.98 974.19
P. Coretto // Statistica Modello di Regression Lineare 25 / 43
4.5 5.0 5.5 6.0 6.5
360
380
400
420
440
Prezzo [×100$]
Numerodipezzi
venduti
P. Coretto // Statistica Modello di Regression Lineare 26 / 43
Notes
Notes
4.5 5.0 5.5 6.0 6.5
-15
-10
-50
510
Prezzo [×100$]
e i(residui)
P. Coretto // Statistica Modello di Regression Lineare 27 / 43
Proprieta della stima OLS
(P.6.1) La retta stimata passa sempre per il punto medio dicoordinate (y , x ).
(P.6.2) La somma dei residui stimati e sempre nulla
n∑i=1
ei =
n∑i=1
(yi − yi) = 0.
(P.6.3) la media delle yi coincide con la media di yi :
1
n
n∑i=1
yi =1
n
n∑i=1
yi ,
P. Coretto // Statistica Modello di Regression Lineare 28 / 43
Notes
Notes
Sotto le ipotesi classiche A1 – A4 :
(P.6.4) Gli stimatori OLS sono funzioni lineari delle variabilicampionarie {Y1,Y2, . . . ,Yn}
(P.6.5) Gli stimatori OLS sono non distorti:
E[β0] = β0, e E[β1] = β1
(P.6.6) L’efficienza di stima e determinata dalla varianza
Var[β1] =σ2
(n − 1)S 2X
, Var[β0] = m2Xσ2
(n − 1)S 2X
(P.6.7) Il teorema di Gauss-Markov stabilisce che (β0, β1) sonoBLUE (Best Linear Unbiased Estimator): nella classe deglistimatori lineari non distorti sono i piu efficienti.
(P.6.8) Gli stimatori OLS sono consistenti
P. Coretto // Statistica Modello di Regression Lineare 29 / 43
Stima di σ2
In linea di principio σ2 non e interessante. Ma i momenti di (β0, β1)dipendono da σ2. La stima campionaria non distorta per σ2 e
s2e =1
n − 2
n∑i=1
e2i
Da cui posso stimare la varianza di (β0, β1) con
s2b1 =s2e
(n − 1)s2X=
s2en(m2,X − x 2
)s2b0 = m2X
s2e(n − 1)s2X
= m2Xs2e
n(m2,X − x 2
)
P. Coretto // Statistica Modello di Regression Lineare 30 / 43
Notes
Notes
Esercizio: 12.19/i
P. Coretto // Statistica Modello di Regression Lineare 31 / 43
Proprieta distributive con errori normali
Consideriamo la seguente ipotesi:
(A5) Gli errori sono normalmente distribuiti: εi ∼ Normale(0;σ2)per i = 1, 2, . . . ,n.
Sotto le ipotesi classiche A1 – A4 + A5 valgono le seguenti proprieta:
(P.6.9) β0 ∼ Normale(β0,Var[β0]
)e β1 ∼ Normale
(β1,Var[β1]
)(P.6.10) Inoltre studentizzando gli stimatori
β0 − β0s2b0
∼ tn−2,β1 − β1
s2b1∼ tn−2
P. Coretto // Statistica Modello di Regression Lineare 32 / 43
Notes
Notes
Decomposizione della devianza totale osservata
SST:=∑n
i=1(yi − y)2 = devianza totale osservata
SSR:=∑n
i=1(yi − y)2 = devianza di regressione
SSE:=∑n
i=1(yi − yi)2 = devianza residua
Si dimostra che
SST = SSR + SSE
Queste quantita possono essere anche calcolate come:
SST = n(m2Y − y2)
SSR = b21n(m2X − x 2)
SSE =
n∑i=1
e2i
P. Coretto // Statistica Modello di Regression Lineare 33 / 43
Coefficiente di determinazione R2
R2 :=SSR
SST= 1− SSE
SST
R2 ∈ [0, 1], si dimostra che R2 = r2XY
R2 =porzione di variabilita osservata nella Y spiegata dal modello diregressione
Tuttavia, R2 grande non coincide necessariamente con una buonaperformance del modello
R2 = 1 e patologico
P. Coretto // Statistica Modello di Regression Lineare 34 / 43
Notes
Notes
Esercizio: 12.19/g–h
P. Coretto // Statistica Modello di Regression Lineare 35 / 43
Formulazione e verifica del modello
La formulazione del modello si basa spesso su:
ipotesi teorica. Es: la teoria keynesiana del consumo aggregatostabilisce che C = a + bR, cove C = consumo aggregato, R=redditodisponibile corrente
esperienza basata sull’osservazione. Es: sulla base dell’esperienzasappiamo che la formazione del personale produce una crescita degliutili.
Perche stimiamo il modello formulato?
analisi strutturale: vogliamo conoscere il meccanismo che lega Y edX . Il modello E[Y |X = x ] = β0 + β1x specifica un meccanismoattraverso il quale la X “spiega” le variazioni in media della Y .Attenzione: le relazioni lineari sono invertibili!
previsione: la stima del modello ci permette di prevedere la Y dato X
=⇒ il modello stimato deve essere verificato!P. Coretto // Statistica Modello di Regression Lineare 36 / 43
Notes
Notes
Test su β1
Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β1 = 0 (viene meno il meccanismo lineare)
H1 : β1 6= 0
Funzione test
T =β1√
Var[β1]
H0∼ tn−2
Valore osservato della funzione test
t =b1sb1
H0∼ tn−2
Coda tn−2,α2
: Pr{T ≥ tn−2,α
2
}= α
2
P. Coretto // Statistica Modello di Regression Lineare 37 / 43
Regione critica:{
campioni: T < −tn−2,α2
oppure T > tn−2,α2
}Regola di decisione: rifiuto H0 se t < −tn−2,α
2oppure t > tn−2,α
2
Distribuzione della funzione test sotto H0
−tn−2, α2
tn−2, α2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Modello di Regression Lineare 38 / 43
Notes
Notes
Test su β0
Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β0 = 0
H1 : β0 6= 0
Funzione test
T =β0√
Var[β0]
H0∼ tn−2
Valore osservato della funzione test
t =b0sb0
H0∼ tn−2
Coda tn−2,α2
: Pr{T ≥ tn−2,α
2
}= α
2
P. Coretto // Statistica Modello di Regression Lineare 39 / 43
Regione critica:{
campioni: T < −tn−2,α2
oppure T > tn−2,α2
}Regola di decisione: rifiuto H0 se t < −tn−2,α
2oppure t > tn−2,α
2
Distribuzione della funzione test sotto H0
−tn−2, α2
tn−2, α2
Rifiuto H0 Rifiuto H0Non rifiuto H0
Regione critica in termini del valore osservato della funzione test
P. Coretto // Statistica Modello di Regression Lineare 40 / 43
Notes
Notes
Esercizio: 12.19/j
P. Coretto // Statistica Modello di Regression Lineare 41 / 43
Intervalli di confidenza
Assumo: le ipotesi classiche A1 – A4 + A5
Intervallo di al livello (1− α) per β1:
b1 ± tn−2,α2sb1
Intervallo di al livello (1− α) per β0:
b0 ± tn−2,α2sb0
Test delle ipotesi ed intervalli di confidenza sono stati derivati sotto leipotesi classiche + normalita. Violazioni di una o piu ipotesi necessitano distrumenti di inferenza diversi da questi.
P. Coretto // Statistica Modello di Regression Lineare 42 / 43
Notes
Notes
Rimozione delle ipotesi classiche
Esistono strumenti diagnostici per verificare A1 – A5 .
Violazioni piu comuni:
eteroschedasticita: spesso la dispersione dell’errore dipende dal livellodi X , in altri casi vi sono sottogruppi di osservazioni (es: effetti di“gender”)
errori correlati: spesso gli errori esibiscono dipendenza lineare (es: datida campioni non esattamente CCS)
errori non Gaussiani: in questi casi molte delle proprieta degli OLSsono ancora valide, ma l’inferenza va trattata in modo appropriatosoprattutto in piccoli campioni.
P. Coretto // Statistica Modello di Regression Lineare 43 / 43
Notes
Notes