Capitol Extras

  • View
    5

  • Download
    0

Embed Size (px)

DESCRIPTION

Capitol Extras

Text of Capitol Extras

Econometrie Financiara

Capitol extras din cartea Introducere n economia aplicat, 2004

autor Constantin Dugulean

1.14. Valorile aberante n analiza de regresie (outliers)

Valorile extreme ale variabilelor observate pot influena esenial valoarea estimatorilor. Aceste valori aberante, numite n limba englez outliers sunt generate de factori neobinuii, deosebii, producnd modificri majore asupra variabilelor, care apar n cazurile respective, ca fiind rupte de contextul celorlalte observri.

Metoda grafic este calea cea mai simpl de a pune n eviden existena valorilor aberante. Dar aceast metod se poate aplica n cazul regresiei liniare simple. n cazul regresiei multiple, este dificil identificarea acestor valori extreme.

Analiza reziduurilor, care ar trebui s nsoeasc estimarea oricrei ecuaii de regresie, poate contribui la detectarea lor. Valorile mari pozitive sau negative ale reziduurilor arat c respectivele observri constituie valori extreme.

n exemplul de mai jos, este rezolvat un exerciiu, n care se cunosc despre economitii de la Universitatea din Michigan, date referitoare la salariul i experiena dobndit, n anul 1983-1984. Se cere s se stabileasc dac salariul este influenat semnificativ de anii de experien.

n Tabelul 1.14, variabila yi reprezint salariul, exprimat n mii $/an, iar variabila xi reprezint anii de experien, ca numr de ani trecui de la acordarea titlului de doctor.

yixi

63.043

54.332

51.032

39.030

52.026

55.025

41.223

47.722

44.522

43.021

46.820

42.420

56.519

55.019

53.019

55.018

54.018

50.717

37.517

61.016

48.116

30.016

51.515

40.613

51.312

50.312

62.410

39.310

43.29

40.47

37.76

27.73

Exerciiu propus spre rezolvare de G.S. Maddala, n Introduction to Econometrics, 2nd Edition, Ed. Macmillan, New York, 1992, p. 108, sursa: R.H. Frank, Are Workers Paid Their Marginal Products?, The American Economic Review, September 1984, p. 560Tabelul 1.14. Datele despre salariul i experiena economitilor, n 1983-1984

Graficul din Figura 1.15 are un punct aberant (ncercuit), care este deprtat de restul punctelor ce formeaz norul de puncte. Acest punct pare s atrag drepta de regresie spre el.

Figura 1.15. Corelaia dintre salariul i vechimea angajailor n 1983-1984

Tabela de regresie obinut cu Microsoft Excel este prezentat n Tabelul 1.15.

SUMMARY OUTPUT

Regression Statistics

Multiple R0.4198

R Square0.1762

Adjusted R Sq.0.1487

Standard Error8.0149

Observations32

ANOVAdfSSMSFSignific.F

Regression1412.20412.206.420.01677

Residual301927.1864.24

Total312339.38

Coeff.Std.Err.t StatP-valueLower 95%Upper 95%

Intercept39.6433.46711.4330.00032.56146.724

X Variable 10.4360.1722.5330.0170.0850.788

Tabelul 1.15. Tabela de regresie a salariului n funcie de anii de experien

Modelul liniar identificat este . Coeficient de determinaie mic, de 0.17, arat c modelul liniar explic variaia salariului n proporie de numai 17%.

Coeficientul de corelaie liniar ntre salariul i experiena exprimat n ani, de 0.42, arat o intensitate slab ntre cei doi indicatori. Cei doi coeficieni ai modelului sunt semnificativ diferii de 0 (P-value), testul Fisher arat c regresia este semnificativ ncepnd de la un prag de semnificaie de 1.67%. Valorile teoretice calculate conform modelului liniar de regresie se afl reprezentate pe graficul din Figura 1.15. Valoarea mic a coeficientului de determinaie, indic posibilitatea existenei unui outlier, care a fost deja identificat pe grafic.

Se calculeaz reziuduurile , ca abateri ntre valorile observate i cele ajustate.

Se ordoneaz, de exemplu, descresctor dup variabila y i se observ care sunt abaterile mari, n ambele sensuri: pozitive i negative. n Tabelul 1.16 sunt prezentate valorile ordonate.

n urma studierii erorilor se observ c exist 2 puncte care genereaz erori pozitive mari i 3 puncte care genereaz erori negative mici, dar mari n valoare absolut. Se elimin punctele marcate accentuat n Tabelul 1.16 i se repet analiza de regresie, pentru cele 27 de observri rmase.

yixiei

62.41018.4

61.01614.4

56.5198.6

55.0187.5

55.0197.1

54.0186.5

51.3126.4

50.3125.4

51.5155.3

53.0195.1

63.0434.6

55.0254.5

50.7173.6

48.1161.5

52.0261.0

54.3320.7

yixiei

43.29-0.4

47.722-1.5

46.820-1.6

40.47-2.3

51.032-2.6

37.76-4.6

39.310-4.7

40.613-4.7

44.522-4.7

43.021-5.8

42.420-6.0

41.223-8.5

37.517-9.6

27.73-13.3

39.030-13.7

30.016-16.6

Tabelul 1.16. Analiza reziduurilor pentru detectarea punctelor aberanteTabela de regresie din Tabelul 1.17, conduce la modelul liniar , care indic un coeficient de corelaie ntre variabile, mai mare, de 0.60, artnd o legtur de intensitate medie; un coeficient de determinaie de 0.36, mai bun dect n regresia precedent; estimatorii sunt semnificativi diferii de 0 cu o probabilitate de 100%. Testul Fisher arat acelai lucru; valoarea sa fiind mai mare, iar pragul de semnificaie mai mic, dect la regresia iniial, indicnd cu o probabilitate de 99.9% faptul c noua regresie este global semnificativ.

SUMMARY OUTPUT

Regression Statistics

Multiple R0.6016

R Square0.3619

Adjusted R Sq.0.3364

Standard Error5.4099

Observations27

ANOVAdfSSMSFSignif.F

Regression1414.966414.96614.1790.000903

Residual25731.67429.267

Total261146.64

Coeff.Std.Err.t StatP-valueLower 95%Upper 95%

Intercept38.9522.70014.4250.00033.39044.513

X Variable 10.4940.1313.7650.0010.2240.764

Tabelul 1.17. Tabela de regresie dup eliminarea valorilor extreme

Valorile teoretice yt1 obinute cu noul model sunt reprezentate pe graficul din Figura 1.16.

Pe grafic se pot vedea punctele ncercuite, care au fost eliminate i nu au fost considerate n noua analiz de regresie. Printre punctele eliminate nu se afl i punctul considerat aberant la nceput, folosind metoda grafic. Se poate ncerca i varianta prin care s se elimine numai punctul aberant identificat prin metoda grafic.

Tabela de regresie din Tabelul 1.18 indic un model mult mai slab dect varianta a 2-a, cu un coeficient de determinaie de numai 0.09 fa de 0.36 ct era dup eliminarea celor 5 puncte.

Figura 1.16. Dreapta de regresie dup eliminarea valorilor extreme ale reziduurilor

SUMMARY OUTPUT

Regression Statistics

Multiple R0.3088

R Square0.0954

Adjusted R Sq0.0642

Standard Error8.0868

Observations31

ANOVAdfSSMSFSignif.F

Regression1199.95863199.95863.05760.0909

Residual291896.492365.39629

Total302096.451

Coeff.Std. Err.t StatP-valueLower 95%Upper 95%

Intercept40.8293.90410.4590.00032.84548.812

X Variable 10.3600.2061.7490.091-0.0610.782

Tabelul 1.18. Tabela de regresie dup eliminarea punctului iniial aberantSe observ o intensitate slab a corelaiei dintre variabila explicat i cea explicativ, de numai 0.31, o regresie care ncepe s devin semnificativ numai de la un prag ( de 9%, dup cum arat i raia Student a estimatorului , la P-value. Pentru un prag de semnificaie (=5%, se observ c intervalul de ncredere al coeficientului variabilei x poate conine valoarea 0, pentru c se schimb semnul din al limitei inferioare n semnul + al limitei superioare. n Figura 1.17 sunt prezentate valorile teoretice yt2 aflate pe dreapta de regresie.

Se observ c norul de puncte i dreapta de regresie sunt aproape paralele cu axa Ox, ceea ce arat exitena unei corelaii slabe ntre salariu i numrul de ani trecui de la obinerea doctoratului. Nu se poate renuna la acest punct, care la prima vedere prea a fi aberant.

Figura 1.17. Ajustarea salariului n funcie de vechime, dup eliminarea punctului aberant, prin metoda graficVarianta, n care se elimin cele cinci puncte i punctul iniial aberant, ofer tabela de regresie din Tabelul 1.19.

SUMMARY OUTPUT

Regression Statistics

Multiple R0.4704

R Square0.2213

Adj. R Sq.0.1888

Std. Error5.4733

Observations26

ANOVAdfSSMSFSignif.F

Regression1204.279204.2796.8190.0153

Residual24718.97529.957

Total25923.255

Coeff.Standard Errort StatP-valueLower 95%Upper 95%

Intercept39.99283.165512.63380.000033.45946.526

X Variable 10.43020.16472.61130.01530.09020.7702

Tabelul 1.19. Tabela de regresie dup eliminarea celor 6 puncte aberante

Se observ c nici aceast variant nu este mai bun dect cea n care s-au eliminat cele 5 puncte detectate prin analiza reziduurilor, varianta a 2-a. Modelul obinut este mai bun dect cel din varianta anterioar, dar nu mai bun dect cel din varianta a 2-a. Acest model este global semnificativ, dup cum arat testul Fisher, ncepnd de la un prag ( de 1.53%. Coeficientul de determinaie de numai 0.22 poate determina renunarea la aceast variant i pstrarea variantei, n care se elimin numai cele 5 valori extreme, ncercuite n Figura 1.16.

Modelul reinut ca fiind cel mai bun este: . Nu se poate renuna la punctual izolat, pentru c acesta se afl pe direcia norului de puncte, iar abaterea sa fa de linia de regresie din modelul iniial este mic.

1.15. Metode rezistente de regresie

Calitatea ajustrii folosind metoda regresiei, se apreciaz n funcie de coeficientul de determinaie, R2. Informaia c