Upload
others
View
12
Download
2
Embed Size (px)
Citation preview
CURS ECONOMETRIE
Unitatea de învăŃare : 8
REGRESIA UNIFACTORIALĂ - partea a III-a
Cuprins:
1. Ce am învăŃat în Unitatea de învăŃare 7
2. Obiectivele UnităŃii de învăŃare 8
3. Estimarea valorilor variabilei dependente
4. Câteva considerente asupra eventualelor încălcări şi remedii vizând ipotezele modelelor de
regresie
5.Regresia simplă neliniară
6. Test de autoevaluare
7. Bibliografia UnităŃii de învăŃare 6
8. Lucrare de verificare
1. Ce am învăŃat în Unitatea de învăŃare 7
Cum să testăm validitatea unui model econometric prin ANOVA şi metoda testării
ipotezelor statistice.
2. Obiectivele UnităŃii de învăŃare 6
După studiul acestei unităŃi de învăŃare vei avea cunostinŃe despre:
1. Cum să previzionezi o nouă valoare a variabilei efect;
2. Cum să ajustezi și să controlezi variabila efect prin intervenția asupra variabilei cauză.
Una dintre utilizările importante ale analizei regresiei simple liniare este să obŃinem
previzionări sau predicŃii ale variabilei dependente, condiŃionate de valorile variabilei
independente, adică să obŃinem previzionări condiŃionate.
3. Estimarea valorilor variabilei dependente
Dacă presupunem că variabila independentă ia valoarea specificată Xn+1 şi legătura liniară
se menŃine, atunci valoarea corespunzătoare a variabilei dependente Yn+1 este:
Yn+1,i = α + βXn+1,i + εn+1,I
cu media:
µ (Yn+1/X = Xn+1) = α + βXn+i.
ecuaŃiile de mai sus sunt utilizate pentru estimarea mediei de răspuns şi pentru estimarea unui
răspuns individual. Pentru amândouă estimaŃiile putem obŃine estimaŃii punctuale sau pe
intervale de încredere.
Pentru a obŃine estimaŃii punctuale, folosim ecuaŃia de regresie liniară în eşantion:
yi = a + bxi + ei
şi atunci, înlocuind cu valoarea dată Xn+1, obŃinem:
1ny + = a + b⋅xn+1.
Construirea intervalului de încredere pentru previzionare necesită cunoaşterea distribuŃiei,
mediei şi dispersiei pentru 1ny + . Variabila 1ny + urmează o distribuŃie t cu (n – 2) grade de
libertate. Dispersia asociată variabilei poate fi identificată în trei cazuri şi anume:
• determinarea intervalului de încredere pentru media de răspuns, când xn+1 = x .
Ştim că:
( )xxbybxxbyy 1n1n1n −+=+−= +++ ,
dacă xn+1 = x , atunci ,yy 1n =+ iar estimatorul dispersiei pentru 1ny + este
( ) ( ) n
sss
2
e2
y
2
y 1n==
+ .
Intervalul de încredere este, în acest caz:
n
sty e
2n,2/1n −+ ± α ;
• determinarea intervalului de încredere pentru media de răspuns, când xn+1 ≠≠≠≠ x .
În acest caz:
)xx(byy 1n1n −+= ++ ,
iar estimatorul dispersiei pentru 1ny + este:
( ) [ ] ( )
−
−+==
∑=
+−+ ++ n
i
i
nexxbyy
xx
xx
nsss
nn
1
2
2122
)(
2ˆ
)(111
.
Intervalul de încredere pentru media de răspuns este:
( )( )∑
=
+−+
−
−+± n
1i
2
i
2
1ne2n,2/1n
xx
xx
n
1sty α
;
• determinarea intervalului de încredere pentru un răspuns individual.
În acest caz trebuie să determinăm dispersia diferenŃei ,ˆ,11 inn
yy ++ − adică dispersia erorii de
previzionare. Dispersia în eşantion este:
( ) ( )
−
−++=+
−
−+==
∑∑=
+
=
+− +++ n
i
i
n
een
i
i
n
eyyy
xx
xx
nss
xx
xx
nsss
innin
1
2
2
122
1
2
2
122ˆ
2ˆ
)(
)(11
)(
)(1,11,1 .
Intervalul de încredere este:
∑=
+−+
−
−++±
n
i
i
n
enin
xx
xx
nsty
1
2
2
12,2/,1
)(
)(11ˆ
α.
Exemplu
Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea
cheltuielilor cu materialele de curăŃenie (y) în funcŃie de numărul camerelor ocupate (x). El
determină ecuaŃia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci
mii u.m.), pe baza datelor înregistrate pentru n=14 zile:
iixy 7,38,10 +=
86,26)(2
=−∑ xxi 3,2=x
∑ =− 39,163)ˆ( 2yy
i
a) Proprietarul doreşte să estimeze cheltuielile pentru o zi în care are 6 camere
ocupate;
b) Proprietarul doreşte să estimeze cheltuielile medii pentru zilele în care are 6 camere
ocupate.
Y
y = b0+b1xi ∧∧∧∧
Interval de încredere pentru valoarea aşteptată a lui y, fiind dat xi
Intervalul de încredere pentru predicŃia unei singure observaŃii y, fiind dat xi
y
∧∧∧∧
Dacă numărul camerelor ocupate este 61 =+nx , atunci:
t0,025;12 = 2,179
.69,312
39,163
;179,2
;3367,38,10ˆ
12,025.02,2/
1
==
==
=⋅+=
−
+
e
n
n
s
tt
y
α
a) Intervalul de încredere pentru cheltuielile unei zile în care sunt 6 camere ocupate
este:
86.26
)3,26(
14
1169,3179,233
2−++⋅± ,
adică (22,89;43,11) garantat cu o probabilitate de 95%;
b) Intervalul de încredere pentru media cheltuielilor zilnice în cazul în care au 6
camere ocupate este:
86.26
)3,26(
14
169,3179,233
2−+⋅± ,
adică (30,19;35,82), garantat cu o probabilitate de 95%.
În afara ipotezelor de selecŃie aleatoare şi a variabilelor cantitative dependente,
discutate anterior, modelul liniar de regresie are trei ipoteze adiŃionale:
1) legătura dintre Y şi X este „ cu adevărat” liniară: µ(Y|X) = βo
+ β1
X;
2) termenii de eroare ε au toŃi aceeaşi dispersie σ2, aşa că mărimea erorilor nu este influenŃată
de X.
3) termenii de eroare ε au o distribuŃie normală.
Ipotezele 2 şi 3 sunt cunoscute din ANOVA.
Un simplu grafic poate detecta de regulă eşecul primei ipoteze. Printr-o simplă
vizualizare a unei diagrame scatter a celor două variabile se poate determina forma curbilinie
4. Câteva considerente asupra eventualelor încălcări şi remedii vizând ipotezele modelelor de regresie
Exemplu pe baza datelor din unităŃile de învăŃare precedente:
DeterminaŃi un interval de încredere (p=95%) pentru preŃul mediu al caselor de
2000 pp:
PreŃ previzionat y^i = 317,85 mii dolari
37.12317.85)x(x
)x(x
n
1sty
2i
2i
eα/22,-n1n ±=−
−+±
∑+
DeterminaŃi un interval de încredere (p=95%) pentru prePul unei case de 2000 pp:
Limitele intervalului de încredere sunt: 280,66 şi 354,90, sau de la 280660 $ la
354900 $.
PreŃ previzionat y^i = 317,85 mii dolari
102.28317.85)X(X
)X(X
n
11sty
2i
2i
eα/21,-n1n ±=−
−++±
∑+
Limitele intervalului de încredere sunt: 215.50 şi 420.07 sau de la 215,500$ la
420,070$
a legăturii. Mai mult, reprezentarea reziduurilor pe axa OX poate detecta mai subtil forma
curbilinie a legăturii. Folosind fereastra de comandă în SPSS:
pe calea: ANALYZE / REGRESSION, aceasta va salva valorile reziduale (fie
standardizate sau nu) pentru o analiză mai atentă a comportamentului aparent a lui ε.
Diagnosticul ipotezelor 2 şi 3 foloseşte reziduurile de tip Student care sunt reziduuri
nestandardizate împărŃite la MSE.
Ipoteza 2 poate fi verificată grafic prin examinarea graficului reziduurilor pentru a
verifica dacă există o tendinŃă spre o parte (stânga sau dreapta). Un test formal, similar cu al
lui Levene, despre care am vorbit în capitolul anterior, este de a salva coloana reziduurilor, şi
apoi de a crea o nouă coloană cu valorile lor absolute. Se face o analiză de regresie a valorilor
absolute ale reziduurilor în raport cu valorile variabilei independente X. Panta liniei de
regresie nu trebuie să difere semnificativ de 0.
10 15 20 25 30
Doza
-5,00000
-2,50000
0,00000
2,50000
5,00000
Unstandardized Residual
�
�
�
�
�
�
�
�
�
�
Unstandardized Residual = 0,00 + -0,00 * Doza
R-Square = 0,00
Ipoteza 3 poate fi de asemenea verificată folosind reziduurile, prin aplicarea testului
Kolmogorov-Smirnov pentru testarea ipotezei nule a normalităŃii, ca în exemplul următor ce
analizează legătura dintre cifra de afaceri și cheltuielile de publicitate.
0,00 10,00 20,00 30,00 40,00 50,00
chet_pub
0,00
100,00
200,00
Cifra_afaceri
�����
����
����
� �
��
�
� �
� ��
�
�
�
�
�
�
�
��
��
��
Cifra_afaceri = -17,04 + 4,38 * chet_pub
R-Square = 0,89
Descriptive Statistics
72,2778 70,10792 36
20,3889 15,10587 36
Cifra_afaceri
chet_pub
Mean Std. Deviation N
Model Summary
,944a ,891 ,888 23,48381
Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), chet_puba.
ANOVAb
153278,6 1 153278,583 277,936 ,000a
18750,639 34 551,489
172029,2 35
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), chet_puba.
Dependent Variable: Cifra_afacerib.
Coefficientsa
-17,043 6,635 -2,569 ,015
4,381 ,263 ,944 16,671 ,000
(Constant)
chet_pub
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Cifra_afaceria.
Cifra de afaceri= -17,043+4,381 Cheltuieli publicitate
0,00 10,00 20,00 30,00 40,00 50,00
chet_pub
-50,00000
-25,00000
0,00000
25,00000
50,00000
Unstandardized Residual
��
���
�
��
�
��
�
��
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
Unstandardized Residual = 0,00 + -0,00 * chet_pub
R-Square = 0,00
One-Sample Kolmogorov-Smirnov Test
36
,0000000
,98561076
,156
,156
-,142
,937
,344
N
Mean
Std. Deviation
Normal Parametersa,b
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
StandardizedResidual
Test distribution is Normal.a.
Calculated from data.b.
În cazul legăturii simple pe baza reprezentării grafice pot fi emise ipoteze privind
forma neliniară a dependenŃei rezultativei Y de factorul înregistrat X.
Testarea acestor ipoteze poate fi realizată, pe baza metodei celor mai mici pătrate.
♦ În cazul în care linia este apreciată ca o parabolă de gradul doi, vom avea:
ε+++= 2210x xaxaaY
Plecând de la condiŃia ( )∑ =−−− 0xaxaay 22210
))), se va ajunge la sistemul de ecuaŃii
normale:
=++
=++
=++
∑∑∑∑∑ ∑ ∑∑
∑ ∑∑
yxxaxaxa
yxxaxaxa
yxaxaan
242
31
20
32
210
2210
))))
))))
))))
pe baza căruia se vor determina coeficienPii modelului de regresie.
♦ În cazul în care linia este apreciată ca o hiperbolă, vom avea:
ε++=x
aaY 1
0x
Determinarea celor doi parametri impune rezolvarea sistemului de ecuaŃii normale:
=+
=+
∑ ∑ ∑
∑ ∑
yx
1
x
1a
x
1a
yx
1ana
210
10
5. Regresia simplă neliniară
♦ În cazul unei legături de tip logaritmic:
,xlgaaY 10x +=
trebuie estimaŃi cei doi parametri, prin rezolvarea sistemului de ecuaŃii normale:
⋅=+
=+
∑∑∑∑∑
xlgy)x(lgaxlga
yxlgana2
10
10
♦ În cazul unei legături de tip exponenŃial:
,aaY x10x =
În practică, pentru facilitarea determinării celor doi parametri se logaritmează expresia
funcŃiei de estimaŃie, respectiv:
,algalgylg 10 +=
cu sistemul de ecuaŃii normale (din nou cu utilizarea metodei celor mai mici pătrate):
=+
=+
∑ ∑∑∑∑
y lg xxalgxa lg
y lgxalgalg n2
10
10
Pe baza exemplelor anterioare, construiŃi intervale de încredere pentru previzionarea valorilor
variabilei dependente, dând valori ale variabilei independente din afara setului de observaŃii
empirice date.
7. Bibliografia UnităŃii de învăŃare 8
� Peter E. Kennedy - A Guide to Econometrics, 5th Edition, MIT Press 2004
� I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru
afaceri, Ed. ASE, 2007
� V.Voineagu, E.łiŃan, R.Şerban, S.GhiŃă, D.Todose, C.Boboc, D.Pele – Teorie şi
practică econometrică, Ed; Meteor Press, 2007
� T. Andrei, Statistică şi econometrie, Ed. Economică, 2003
8. Lucrare de verificare
1. În urma modelării liniare a unei legături între numărul de familii, suprafaŃa comercială a
unui magazin (exprimată în mp.) din diferite cartiere şi cifra de afaceri (în RON) s-au obŃinut
rezultatele:
6. Test de autoevaluare
Regression Statistics Multiple R 0,93 R Square Standard Error 278,50 Observations 13 Fcritic=4,1
Coefficients
Standard
Error
P-
value Lower 95%
Upper
95%
Intercept 375,02 176,46 0,06 -18,16 768,20 Nr. De fam 14,96 5,53 0,02 2,63 Suprafat com 42,45 10,65 0,00
RăspundeŃi la următoarele întrebări:
1) În ce proporŃie explică modelul variaŃia cifrei de afaceri?
2) Modelul este valid? (explicaŃi folosind testul F).
3) Parametrii sunt semnificativ diferiti de 0? Motivati.
4) Construiti intervalul de incredere la P=0,95 pentru coeficientul variabilei
“Suprafata com”
5) Interpretati rezultatele modelării din punct de vedere economic.
2. Un agent al unei agenŃii imobiliare dintr-un cartier ar dori să poată previziona costul de
închiriere lunar bazându-se pe mărimea apartamentului de închiriat exprimată prin suprafaŃa
în mp. Un eşantion de 7 apartamente a fost selectat şi au fost extrase următoarele date:
Apartamentul Chiria media lunară (u.m.) Mărimea apartamentului în mp 1 95 85 2 160 145 3 120 108 4 150 123 5 95 70 6 115 95 7 165 130
6) reprezentaŃi grafic datele;
7) utilizând metoda celor mai mici pătrate determinaŃii coeficienŃii modelului de
regresie;
8) previzionaŃi chiria medie lunară pentru un apartament cu o suprafaŃă de 100 mp;
9) ca şi consultant imobiliar, sunteŃi rugat să-i sfătuiŃi pe doi dintre prietenii
dumneavoastră care ar dori să inchirieze în această zonă, şi au găsit un apartament
de 100mp cu o chirie lunară de 127 şi respectiv unul 120mp cu o chirie lunară de
142 u.m ce decizie să ia.