Upload
sandra-marchesi
View
231
Download
8
Embed Size (px)
Citation preview
Corso diAnalisi Statistica per le impreseEsercitazione: Inferenza nel modello
di regressione lineare
Prof. L. Neria.a. 2011-2012
Esercitazione Inferenza nella Regressione lineare 1
Verifica di ipotesi per i singoli parametri del modello – Test t
Il contributo (marginale) della singola variabile Xj (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi:
0:H
0:H
j1
j0
Se si accetta H0, si conclude che, al variare di Xj, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costanteIn altre parole, l’ipotesi nulla afferma che Xj non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative
2
Statistica test
0:H
0:H
j1
j0
knj
j tBs
B~
Al livello di significatività α, si accetta H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se
knj
jkn t
Bst ;2;2
ˆ
Statistica test
3
Verifica di ipotesi per i singoli parametri del modello – Test t
Il contributo (marginale) della singola variabile Xj (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi:
0:H
0:H
j1
j0
Se si accetta H0, si conclude che, al variare di Xj, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costanteIn altre parole, l’ipotesi nulla afferma che Xj non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative
4
Statistica test
0:H
0:H
j1
j0
knj
j tBs
B~
Al livello di significatività α, si accetta H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se
knj
jkn t
Bst ;2;2
ˆ
Statistica test
5
Esempio – Vendite di gelatoRisultati ottenuti su un campione di n=10 osservazioni
Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un’utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall’altra var. esplicativa
CoefficientiErrore
standard Stat t p-valueIntercetta 6,770 1,165 5,812 0,001Prezzo -0,201 0,054 -3,706 0,008Temperatura 0,281 0,032 8,898 0,000
6
Analisi della varianza - test F
Il test F è una procedura per sottoporre a verifica l’ipotesi che i parametri del modello siano congiuntamente uguali a zero
0 un :
0...:
1
20
j
k
almenoH
H
Se si accetta H0 vuol dire che nessuna variabile esplicativa Xj (j=2,…,k) ha un effetto significativo su YSe si accetta H1, si conclude che c’è almeno una variabile esplicativa Xj da cui Y dipende significativamente
7
Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da:
Analisi varianza e test F
knkFknSQE
kSQR
,~
)/(
)1/(
confronta con 2n,1F~
)2n/(SQE1/SQR
8
Tabella ANOVA
Sorgente di variazione
Somma dei
quadrati
gdl Media dei quadrati
F
Regressione R SQR k-1 MQR=SQR/(k-1) F= MQR/MQE
Errore E SQE n-k MQE=SQE/(n-k) Totale SQT n-1
Regione di rifiuto sulla coda destra della distribuzioneSe il valore empirico della statistica test F > Fk,n-k;α si rifiuta H0 al livello di significatività prescelto
Fk,n-k;α
9
23,4216,055,6
MQEMQR
F
737,4F 7;2;05,0
Test F ANOVA - Output Excel
0 oppure :H
0:H
211
210
Per verificare
Al livello α=0,05
42,23 > 4,737 Si rifiuta H0 L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura)
gdl SQ MQ F p-valueRegressione 2 13,10 6,55 42,23 0,00Errore 7 1,09 0,16Totale 9 14,18
10
Esempio – Vendite di gelatoRisultati ottenuti su un campione di n=10 osservazioni
Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un’utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall’altra var. esplicativa
CoefficientiErrore
standard Stat t p-valueIntercetta 6,770 1,165 5,812 0,001Prezzo -0,201 0,054 -3,706 0,008Temperatura 0,281 0,032 8,898 0,000
11
23,4216,055,6
MQEMQR
F
737,4F 7;2;05,0
Test F ANOVA - Output Excel
0 oppure :H
0:H
211
210
Per verificare
Al livello α=0,05
42,23 > 4,737 Si rifiuta H0 L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura)
gdl SQ MQ F p-valueRegressione 2 13,10 6,55 42,23 0,00Errore 7 1,09 0,16Totale 9 14,18
12
Esercizio 1Per un campione di clienti, il gestore di una pizzeria che effettua
consegne a domicilio registra la distanza (in km) dalla pizzeria al cliente e il tempo (in minuti) necessario per consegnare la pizza.
Si vuole studiare la dipendenza lineare del tempo (Y) dalla distanza (X).
Sappiamo che:Dev(X)=7,45; Dev(Y)=SQT=26,18; n=12; R2=0,895a) Ricavare il coefficiente di regressione campionariob) Costruire l’intervallo di confidenza al 90% per il coefficiente di
regressione della popolazione e verificare la dipendenza lineare del tempo dalla distanza.
c) Conoscendo che il tempo medio di consegna quando la distanza è pari a 2 km è di 3,4 minuti e che la distanza media percorsa è di 2,4 km, ricavare l’intervallo di confidenza al 95% per il tempo medio di consegna quando la distanza è pari a 2 km
13
(a)Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di
correlazione lineare ρXY a partire da R2
Un km di distanza in più fa aumentare il tempo medio di percorrenza di 1,77 minuti(b)Gli estremi dell’intervallo di confidenza sono dati da
dove
946,0R 2XY
77,1)X(Dev)Y(Devˆ
XY1
)X(Devs
tˆ05,0;101
2nSQE
s
14
Dalla relazione si ricava
Allora
Quindi l’intervallo ha per estremi cioè
L’intervallo in questione non comprende il valore 0.In base a questa considerazione, è possibile concludere che l’ipotesi H0: β1=0 deve essere rifiutata a favore di H1: β1≠0 ad un livello α=0,10
c) Gli estremi dell’intervallo sono dati da:
524,0s
73,2524,0
8125,177,1
2,12 ;42,1
n
1h
2
h
2
i22n,2i
xx
xxn1
sty
SQTSQE
1R2 7485,2SQT)R1(SQE 2
15
dove
L’intervallo è
12n
2x
4,2x
45,7)X(Devxx
524,0s
2281,2t
4,3)2X|Y(Ey
i
n
1h
2
h
10,025,0
ii
3,778 ;022,3
16
Esercizio 2Si stima un modello di regressione lineare semplice del tipo Y= β0+ β1X per indagare la dipendenza lineare delle vendite annuali (Y, in migliaia di euro) di una catena di n=14 negozi dalla superficie (X, in metri quadri) dei negozi stessi.
La seguente tabella riporta i risultati della stima.
(a) Stimare le vendite medie per i negozi con una superficie di 35 metri quadri(b) Al livello di significatività α=0,10 verificare l’ipotesi di assenza di dipendenza lineare delle vendite dalla superficie(c) Al livello di significatività α=0,05 verificare l’ipotesi che la retta di regressione passi per l’origine degli assi.
Coefficiente Stima Errore standardβ0 0,964 0,526β1 1,670 0,157
17
(a) Le vendite medie per X=35 sono date da:
Questo indica che la media delle vendite annuali dei negozi di 35 mq è pari a 59414 €
(b)Il valore della statistica test è
Poiché 10,64>1,7823 si rifiuta H0: β1=0 e si accetta H1: β1≠0 (p-value=0,00).
414,59 35ˆˆy 10i
64,10)B(s
ˆt
1
110
t10;0,05 =1,7823-t10;0,05=-1,7823
C’è evidenza di una relazione di dipendenza lineare delle vendite dalla superficie dei negozi
18
(c)Il valore della statistica test è
Poiché -2,2281 < 1,83 < 2,2281 l’ipotesi H0: β0=0 contro l’alternativa bilaterale non può essere rifiutata (p-value=0,097).
Accettare l’ipotesi nulla corrisponde a considerare che la relazione di dipendenza lineare nella popolazione è descritta da una retta che passa per l’origine.
83,1)B(s
ˆt
0
010
t10;0,025 =2,2281-t10;0,025=-2,2281
19
Esercizio 3Sulla base di n= 17 osservazioni campionarie si è stimato un modello di regressione lineare in cui il reddito familiare (Y) è espresso in funzione del numero di componenti (X).Completare la seguente tabella ANOVA:
a) Al livello α=0,05 verificare la significatività della relazione di dipendenza lineare del reddito dal numero di componenti
b) Ricavare R2.
Fonte dellavariazione
Somma dei quadrati (Devianza)
Gradi di libertà
Media dei quadrati (Varianza)
Statistica F
Regressione 3,8 ? ? F=?Errore ? ? 1,8Totale ? ?
20
La tavola ANOVA risultante èFonte della variazione
Somma dei quadrati
(Devianza)
Gradi di libertà
Media dei quadrati
(Varianza)
Statistica F
Regressione 3,8 1 3,8 2,11Residuo 27,0 15 1,8 Totale 30,8 16
(a)Poiché 2,11 < 4,54 si accetta H0: β1=0 contro H1: β1≠0 (p-value=0,167). La relazione di dipendenza lineare di Y da X non è significativa.
(b) 12,08,30
8,3SQTSQR
R2
F1,15;0,05=4,5421
Esercizio 4Si stima un modello di regressione multipla dove la variabile risposta è la media mensile di utilizzo del cellulare (in minuti)Le variabili esplicative sono:BOLLETTA (Costo medio mensile delle telefonate, in euro)LAVORO (Percentuale di utilizzo per uso lavoro)REDDITO (Reddito familiare mensile, in migliaia di euro)Si ottengono i seguenti risultati:
Statistica della regressioneR multiplo 0,540R al quadrato 0,292R al quadrato corretto 0,283Errore standard 39,424Osservazioni 250
ANALISI VARIANZA gdl SQ MQ F p-value
Regressione 3 157695,699 52565,233 33,821 0,000Residuo 246 382340,714 1554,231Totale 249 540036,413
22
a) Aumentando di un euro il costo medio della bolletta (tenendo costante il valore delle altre variabili) di quanto aumenta la media mensile di utilizzo del cellulare?
b) Considerando un livello di significatività α=0,10 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero
c) Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. BOLLETTA può essere pari a 1,2?
d) La bontà di adattamento del modello è molto elevata?e) Si può rifiutare l’ipotesi nulla che i coefficienti di regressione
siano tutti uguali a zero per α=0,05?
CoefficientiErrore
standard Stat tp-
valueInferiore
95%Superiore
95%Intercetta 29,625 15,503 1,911 0,057 -0,910 60,161BOLLETTA 0,885 0,147 6,016 0,000 0,595 1,175LAVORO 0,536 0,323 1,662 0,098 -0,099 1,172REDDITO 0,956 0,233 4,112 0,000 0,498 1,414
23
a) L’effetto di un aumento di un euro del costo medio della bolletta sulla media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili) si legge dal valore del coefficiente della variabile BOLLETTA. In questo caso la media mensile di utilizzo del cellulare subisce un incremento di 0,885 minuti
b) Al livello di significatività α=0,10 i coefficienti di tutte le variabili esplicative e anche quello dell’intercetta sono significativamente diversi da zero, poiché il loro p-value è minore di 0,10
c) Al livello 1-α=0,95 il coefficiente di regressione della var. BOLLETTA non può essere pari a 1,2. La stima intervallare di tale coefficiente (0,595; 1,175) non comprende, infatti, il valore 1,2
d) La bontà di adattamento del modello non è molto elevata, in quanto la variabilità spiegata dal modello (misurata da R2) è pari al 29,2%
e) L’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero si può rifiutare, visto che il valore F della tavola ANOVA ha associato un p-value pari a zero
24
Introduzione di una o più variabili dummyPer stimare la domanda di gelato possiamo ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana
Ci aspettiamo che le vendite siano maggiori nei finesettimana rispetto agli altri giorniSe questa supposizione fosse confermata dai dati, potremmo decidere di fissare un prezzo più alto nei finesettimana
Introduciamo nel modello come terza variabile esplicativa una variabile dummy X3 (GIORNO)
25
ven) al lun (dal altrimenti0
dom) o (sab anafinesettim se1X3
26
Modello stimato:
Il coefficiente , così come gli altri, è stimato con il metodo dei minimi quadrati. Rappresenta la differenza tra le vendite medie giornaliere di gelato quando X3=1 (finesettimana) e le vendite medie giornaliere quando X3=0 (dal lun al ven), se il prezzo e la temperatura rimangono costanti
Interpretazione del coefficiente della variabile dummy
3322110 XˆXˆXˆˆY
X3 Modello stimato
finesettimana 1
da lun a ven 0
322110ˆXˆXˆˆY
22110 XˆXˆˆY
3
27
Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0,006). Conoscere il giorno (se dal lun al ven oppure sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono notiA parità di prezzo e temperatura, le vendite stimate nei finesettimana sono in media superiori di 0,607 kg rispetto agli altri giorni della settimana
Coefficienti Errore standard Stat t p-valueIntercetta 6,123 0,649 9,433 0,000PREZ (X1) -0,165 0,031 -5,395 0,002TEMP (X2) 0,272 0,017 15,830 0,000GIORNO (X3) 0,607 0,144 4,228 0,006
Interpretazione del coefficiente della variabile dummy
28
Vendit
e s
tim
ate
Vendit
e s
tim
ate
Prezzo Temperatura
Differenza=0,607
Differenza=0,607
A sinistra, la relazione tra VENDITE stimate e PREZZO quando TEMP=29.
A destra, la relazione tra VENDITE stimate e TEMPERATURA quando PREZ=15.
In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven)
Interpretazione del coefficiente della variabile dummy
3
29
Statistica della regressioneR multiplo 0,990R al quadrato 0,981R al quadrato corretto 0,971Errore standard 0,213Osservazioni 10
ANALISI VARIANZA gdl SQ MQ F p-value
Regressione 3 13,911 4,637 101,986 0,000Errore 6 0,273 0,045Totale 9 14,184
Coeffici
entiErrore
standard Stat t p-valueInferiore
95%Superiore
95%Intercetta 6,123 0,649 9,433 0,000 4,534 7,711PREZ -0,165 0,031 -5,395 0,002 -0,240 -0,090TEMP 0,272 0,017 15,830 0,000 0,230 0,314GIORNO 0,607 0,144 4,228 0,006 0,256 0,959
Riepilogo output
30
Nel complesso, con l’inserimento della variabile qualitativa X3 (GIORNO), il modello migliora il suo adattamento
Rispetto al modello con solo prezzo e temperatura come variabili esplicative: R2 corretto è più alto l’errore standard s della regressione è più piccolo gli errori standard dei coefficienti stimati sono più piccoli
Valutazione del modello con la variabile dummy
31
Un altro fattore che potrebbe influenzare le vendite di gelato sono le condizioni del tempo. Immaginiamo di voler distinguere tra le tre condizioni di “sereno”, “coperto”, “piovoso”.Dobbiamo introdurre nel modello due variabili dummy
Se le modalità della variabile qualitativa sono più di due?
altrimenti0
"sereno" se1X4
altrimenti0
"coperto" se1X5
32
Le due variabili X4 e X5 servono per specificare le tre condizioni meteorologiche
Due variabili dummy per un carattere con tre modalità
X4 X5 Modello stimato
sereno 1 0
coperto 0 1
piovoso 0 0
“piovoso” è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0)
43322110ˆXˆXˆXˆˆY
53322110ˆXˆXˆXˆˆY
3322110 XˆXˆXˆˆY
33
Interpretazione dei coefficienti
X4 X5 Modello stimato
sereno 1 0
coperto 0 1
piovoso 0 0
stima la differenza nelle vendite medie tra giorni sereni (X4=1) e giorni piovosi (la categoria di riferimento) stima la differenza nelle vendite medie tra giorni coperti (X5=1) e giorni piovosi (la categoria di riferimento)
43322110ˆXˆXˆXˆˆY
53322110ˆXˆXˆXˆˆY
3322110 XˆXˆXˆˆY
4
5
34
Esercizio – Regressione multiplaSu un campione di n=391 automobili si stima un modello di regressione multiplaVar. risposta: CONSUMO (Km/l)Var. esplicative:•MOTORE (Cilindrata in cm3)•CV (Potenza in Cavalli Vapore)•PESO•ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h))La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONESi introducono due variabili dummy•ORIGINE1 (=1 per auto italiane)•ORIGINE2 (=1 per auto europee non italiane)(la categoria di riferimento è “auto giapponesi”
35
Esercizio – Risultati regressione multipla
Statistica della regressioneR multiplo 0,846R al quadrato 0,716R al quadrato corretto 0,712Errore standard 4,176Osservazioni 391
ANALISI VARIANZA gdl SQ MQ F p-value
Regressione 6 16882,010 2813,668 161,372 0,000Residuo 384 6695,402 17,436Totale 390 23577,412
CoefficientiErrore
standard Stat t p-value Inferiore 95%Superiore
95%Intercetta 41,558 2,262 18,376 0,000 37,112 46,005MOTORE 0,002 0,007 0,214 0,830 -0,013 0,016CV -0,067 0,017 -3,899 0,000 -0,100 -0,033PESO -0,014 0,002 -5,738 0,000 -0,019 -0,009ACCEL -0,123 0,125 -0,987 0,324 -0,369 0,122ORIGINE1 -2,805 0,695 -4,034 0,000 -4,171 -1,438ORIGINE2 -1,751 0,702 -2,495 0,013 -3,131 -0,371
36
Esercizioa) Considerando un livello di significatività α=0,05
indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero
b) Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. PESO può essere di segno positivo?
c) La bontà di adattamento del modello è sufficientemente elevata?
d) Si può accettare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,01?
e) Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi?