Download docx - S.S Eco.com_final

Transcript

Regresia linear: aplicaii cu MS Excel

Universitatea Titu Maiorescu Facultatea de StiinteEconomice

Regresia Linear Simpl

Unul din principalele capitole ale statisticii are n vedere posibilitatea de a face predicii. Dei nu se gasesc relaii perfecte n lumea real, prin intermediul regresiei se pot face predicii ale unei variabile, n funcie de valoarea altora. n continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si lineare (relatia dintre cele doua variabile poate fi descrisa printr-o dreapta n cadrul norului de puncte).Regresia se leaga foarte mult de conceptul de corelatie. Analiza corelaiei este o tehnic statistic care msoar i descrie gradul de asociere dintre dou variabile. Teoria ne spune c o asociere puternica ntre doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia.Corelaia poate fi studiat cu ajutorul mai multor msurtori, n funcie de tipul variabilelor, mai precis dac acestea sunt calitative, sau numerice discrete, ori cantitative. Spre exemplu, valorile maxime pe care coeficientul de corelaie Pearson le poate lua variaz ntre -1 i 1. O corelaie ridicat, apropiat de +1 sau 1, crete ansele unei estimri ct mai precise a unui model de regresie.n explicitarea unui model de regresie, studiul corelaiei ne ajut s identificm mai nti existena relaiei dintre variabile, pentru ca apoi s studiem i cauzalitatea, adic influena unei sau unor variabile asupra alteia.Procesul de regresie presupune doi principali pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii n predictie.Forma general i arhicunoscut prin care se exprima o ecuatie de regresie linear simpl este:

(1)unde: este rezultatul estimat al variabilei explicate;

este interceptul (locul pe ordonata unde dreapta de regresie se intersecteaza cu OY, valoarea lui )

este panta dreptei de regresie (ne arata cu ct se modifica atunci cnd X creste sau scade cu o unitate; X este variabila explicativ (cunoscuta).Existena unei legturi funcionale de form linear dintre Y i X se bazeaz pe supoziia existenei unei variabile reziduale u care nglobeaz toate celelalte variabile care nu au putut fi observate ntr-o relaie de forma:

(2)

Trebuie observat c, n relaia de mai sus, variabila estimat a fost nlocuit cu variabila observat , deoarece n (1) valorile variabilei estimate sunt chiar pe linia de regresie, fr s fie afectate de valorile reziduale u.Daca alti factori din u sunt mentinuti ficsi, astfel incat modificarile u sunt zero (u=0), atunci intr-un model linear x are un efect constant asupra y:

Atunci, este estimaia parametrului de principal interes in economia aplicat. Estimaia a termenului constant este rareori de interes pentru analiza.Exista mai multe posibilitati echivalente de calculare a lor, pe baza metodei celor mai mici ptrate (CMMP). Una dintre ele este redat n continuare.Daca se cunoate valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea standard ale celor doua variabile, putem aplica urmatoarele formule:

(3)i

(4)unde: r este valoarea coeficientului de corelatie dintre X si Y; sy este abaterea standard a variabilei Y; sx este abaterea standard a variabilei X; este valoarea medie a variabilei Y; este valoarea medie a variabilei X.Pentru a stabili linia de regresie se apeleaz la proprietile matematice ale unei drepte, deoarece orice dreapt poate fi determinat prin urmtoarea ecuaia (1)Panta de regresie ia o valoare pozitiv, dac exist o corelaie pozitiv ntre x i y i o valoare negativ, dac exist o corelaie negativ ntre cele dou variabile.

Regresia Linear MultiplForma general a modelului liniar multiplu este dat prin relaia:

(5)unde: Y - variabila dependent; X1, X2,,Xi,,Xp - variabile independente (predictori); u - variabil reziduu de modelare (variabila aleatoare); i - parametrii modelului de regresie k - numrul de parametri din model, k=p+1. 0 valoarea medie a variabilei dependente Y, n condiiile n care influena variabilelor independente ar fi nul; Cei k parametri ai modelului liniar multiplu au urmtoarea semnificaie:

reprezint variaia absolut a variabilei dependente la o variaie absolut cu o unitate a variabilei independente Xi, n condiiile n care influena celorlalte variabile independente este meninut constant. Arat influena parial a fiecrei variabile independente asupra variabilei dependente. Regresia multipla este mult mai potrivita pentru analiza cauzala conform principiului ceteris paribus, adic n condiiile n care toi ceilali factori sunt considerai constani. Motivul este dat de faptul c putem explicita controlul pentru ceilalti factori care afecteaza variabila dependent y.O etap important n evaluarea calitii modelului de regresie o reprezint testarea parametrilor modelului multiplu liniar, care const n trei pai:1. Formularea ipotezelor:

2. Alegerea pragului de semnificaie De regul, se asum un risc = 0,05.3. Alegerea statisticii test:t =

4. Valoarea teoretic a statisticii testPentru pragul de semnificaie ales i v=n-k grade de libertate, se citete valoarea teoretic din tabela Student: t/2;n-k 5. Valoarea calculat a statisticii test

La nivelul eantionului se determin valoarea calculat a testului: 6. Regula de decizie

Dac se respinge H0 Dac | se accept H0, pentru risc asumat de 5%n Excel, decizia se ia pe baza semnificaiei testului (Sig.):- dac , se respinge H0 -dac , se accept H0, pentru un nivel de ncredere de 95%.7. Compararea celor dou valori ale statisticii test i luarea deciziei8. Interpretarea rezultatului testrii Studiu de cazEXCEL 2010: regresie multipl Aceast fi de ajutor ianuarie 2009 ofer informaii cu privire la: regresie multipl folosind Analiza datelor Add-in. Interpretarea statistica de regresie. Interpretarea tabelul ANOVA (de multe ori acest lucru este omis). Interpretarea tabelului coeficienilor de regresie. Intervale de ncredere pentru parametrii de panta. Testarea pentru semnificaia statistic a coeficienilor Ipoteza de testare pe un parametru de pant. Testarea semnificaiei globale a regresorilor. Prezicerea y a unor valori date ale regresorilor. Limitri Excel. Exist ceva n plus de stiut dincolo de regresie cu o variabil explicativ. Regresie multipl folosind analiza DATELOR Add-In Acest lucru necesit analiza datelor Add-in: vezi Excel 2010: Accesul i activarea analizei datelor Add-in

Apoi vom crea o nou variabil n celulele C2: C6, mrimea radacinei patrate ca un regresor. Apoi n celula C1 dam titlul dimensiune patrata HH. (Se pare c datele HH SIZE au un coeficient de exact 0,0; cubul este utilizat). Celulele de calcul tabelar A1: C6 ar trebui s arate:

Avem regresie cu o interceptare i de regresori HH SIZE i cuburi HH SIZE Modelul de regresie a populaiei este: y = 1 + 2 x2 +3 x3 + u Se presupune c eroarea u este independent cu variaie continu - vezi LIMITAREA EXCEL n partea de jos. Ne dorim sa estimam linia de regresie: y = b1 + b2 x2 + b3 x3Facem acest lucru folosind analiza de date Add-in i cea de regresie.

Singura schimbare pe o variabil de regresie este acea de a include mai mult de o coloan n Banda de intrare X.

Reinei, totui, c regresorii trebuie s fie n coloane nvecinate (aici coloanele B i C). Dac nu este cazul ca n datele originale, apoi coloanele trebuie s fie copiate pentru a obine regresorii din coloanele adiacente.Apasand OK obtinem:

Ieirea (a rezultatelor)de regresie are trei componente: tabel de statistici de regresie tabelul ANOVA tabelul Coeficienilor de regresie. TABELUL DE INTERPRETARE STATISTICA A REGRESIEI Aceasta este urmtoarea ieire. De cel mai mare interes este etalonul R.Explicatie

Multiple R0.895828R = radacina patrata a lui R2

R Square0.802508R2

Adjusted R Square0.605016R2 ajustat , este folosit daca exista mai mult de o variabila x

Standard Error0.444401Aceasta este o estimare exemplu a deviatiei standard a erorii u

Observations5Numarul de observatii folosite in regresie (n)

Cele de mai sus ofer valorile generale: R2 = 0.8025 Corelaia ntre y i y- este 0.8958 (atunci cnd ridicata la ptrat d 0.8025). R2 corectat = R2 - (1-R2) * (k-1) / (n-k) = 0.8025 la 0.1975 * 2/2 = 0.6050. Eroarea standard de aici se refer la deviaia standard estimat a termenului de eroare u. Aceasta este denumita uneori eroarea standard a regresiei. Acesta este egal cu radical din (SSE / (n-k)). Acesta nu trebuie s fie confundat cu eroarea standard a lui y n sine (de la statistici descriptive), sau cu erori standard de coeficienii de regresie de mai jos. R2 = 0.8025 nseamn c 80,25% din variaia yi in jurul ybar(mediu) (media acestuia), se explic prin regresorii x2i i x3i. INTERPRETAREA TABELULUI ANOVA Un tabel ANOVA este dat. Acest lucru este adesea omis.Tabelul ANOVA ( analiza varianei ) mpartesuma ptratelor ntre componentele sale .Sume totale de ptrate= Restant ( sau eroare ) suma de patrate + Regresie( sau explicate) suma de ptrate .Astfel, i ( yi - ybar )2 = i ( yi yhati )2 + i ( yhati - ybar )2unde yhati este valoarea yi prezisa de regresie i ybar este eantionul mediu de y .De exemplu :R2 = 1 restant SS / Total SS ( formul general pentru R2 )= 1 - 0.3950 / 1.6050 ( de la datele din tabelul ANOVA )= 0.8025 ( care este egal cu R2 ce apare n tabelul de Statistic de regresie ).Coloana denumit F dtestul F general al H0 : 2 = 0 i 3 = 0 versus Ha : cel puin unul dintre 2 i 3 nu este egal cu zero.Ca rezerva : Excel calculeaza F ca :F = [ regresie SS / ( k - 1 ) ] / [ restant SS / ( n-k ) ] = [ 1.6050 / 2 ] / [ 0.39498 / 2 ] = 4.0635.Coloana denumit semnificaie F are ca valoarea asociat P.Deoarece 0.1975 > 0,05 , nu respingem H0 la nivel de semnificatie 0.05 .Not : Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este numrul de regresori inclusiv segmentul hte.Aici FINV (4.0635,2,2) = 0,1975 .INTERPRETAREA TABELULUI COEFICIENILOR DE REGRESIEIeirea de regresie de cel mai mare interes este urmtorul tabel de coeficieni i de ieirea asociata : j denota coeficientul populaiei a regresorului jth (segment , HH SIZE i CUBED HH SIZE ) .Apoi Coloana " Coeficient " ofer cel putin ptrate estimate ale j. Coloana " eroare Standard" ofer erorile standard ( e.g deviaia standard estimat ) de cel puin ptratele estimate ale bj de j. Coloana " t Stat " d calculat statistica t pentru H0 : j = 0 mpotriva Ha : j 0 .Aceasta este coeficientul mprit de eroarea standard . Acesta este comparat cu t; ( n-k ) grade de libertate n care aici n = 5 i k = 3 . Coloana " valoarea P " d valoarea p pentru testul H0 : j = 0 mpotriva Ha : j 0 ..Aceasta echivaleaz cu Pr { | t | > t -Stat } unde t este o variabila t - distribuita aleator cu grade de libertate n-k i t -Stat este valoarea statistica calculat t ce apare n coloana precedent .Reinei c aceast valoare p este pentru un test cu dou fee. Pentru un test unilateral mparte aceast valoare p la 2 ( verificarea semnului de t -Stat ) . Coloane de valori " Inferior 95 % " i " Superior de 95 % " definesc un interval de ncredere de 95 % pentru j .Un simplu rezumat afiat mai sus este faptul c linia este reprezentata astfel:y = 0.8966 + 0.3365 * x + 0,0021 * zIntervalele de ncredere pentru coeficienii SLOPE 95% interval de ncredere pentru coeficientul de pant 2 este ieirea Excel (-1.4823, 2.1552). Excel calculeaz aceasta ca b2 t_.025 (3) SE (b2) = 0.33647 TINV (0,05, 2) 0.42270 = 0.33647 4.303 0.42270 = 0.33647 1.8189 = (-1.4823, 2.1552). Alte intervale de ncredere pot fi obinute. De exemplu, pentru a gsi intervale de ncredere de 99%: n caseta de dialog de regresie (n analiza datelor Add-in), bifai caseta nivel de ncredere i setai nivelul de 99%.

TESTUL DE IPOTEZA ZERO A COEFICIENTUL DE PANTA (" TEST de semnificaie statistic ")Coeficientul HH SIZE a estimat eroare standard de 0.4227, statistica t de 0.7960 i valoarea p de 0.5095 .Prin urmare, este nesemnificativ statistic la nivelul de semnificaie = .05 ca p > 0,05 .Coeficientul CUBED HH SIZE a estimat eroare standard de 0.0131 , statistica t de 0.1594 i valoarea p de 0.8880 .Prin urmare, este nesemnificativ statistic la nivelul de semnificaie = .05 ca p > 0,05 .Exist 5 observaii i 3 regresori (segmentul i x ), deci vom folosi t ( 5-3 ) = t ( 2 ) .De exemplu , pentru HH SIZE p == TDIST ( 0.796,2,2 ) = 0.5095 .

TESTUL DE IPOTEZA PE UN PARAMENTRU DE REGRESIEAici vom testa daca HH SIZE are coefficient 2 = 1,0 .Exemplu : H0 : 2 = 1.0 mpotriva Ha : 2 1.0 la nivel de semnificaie = .05 .Apoit = ( b2 - valoarea H0 a 2 ) / ( eroare standard de b2 )= ( 0.33647-1.0 ) / 0.42270= -1.569 .Utiliznd abordarea valoarii p valoarea p = TDIST ( 1.569 , 2 , 2 ) = 0,257 . [ n = 5 i k = 3 , astfel n - k = 2 ] . A nu se respinge ipoteza nul la nivel de 0.05 , deoarece valoarea p este > 0,05 .Utiliznd abordarea de valoare critic Am calculat t = -1.569 Valoarea critic este t_.025 ( 2 ) = TINV ( 0.05,2 ) = 4.303 . [ n = 5 i k = 3 , astfel n - k = 2 ] . Deci, a nu se respinge ipoteza nul la nivel de 0.05 de la t = | -1.569 | < 4.303 .

TEST GENERAL AL DE SEMNIFICATIE A PARAMETRILOR DE REGRESIEAm testat H0 : 2 = 0 i 2 = 0 versus Ha : cel puin unul dintre 2 i 2 nu este egal cu zero.Din tabelul ANOVA statistica de test F este 4.0635 cu valorea p de 0.1975.Deoarece valoarea - p nu este mai mic de 0,05 nu respingem ipoteza nul c parametrii de regresie sunt zero la nivel de semnificaie 0,05 .Concluzia este c parametrii sunt mpreun statistic nesemnificativi la nivel de semnificaie 0,05 .Not : Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este numrul de regresori inclusiv segmentul hte .Aici FINV (4.0635,2,2) = 0,1975 .VALOAREA PREZISA A LUI Y SI REGRESORII DATILuai n considerare cazul n care x = 4 , n cazul n care puterea a treia HH SIZE = x ^ 3 = 4 ^ 3 = 64.yhat = b1 + b2 x2 + b3 X3= 0.88966 + 0.3365 4 + 0,0021 64 = 2.37006LIMITARI EXCELExcel limiteaz numrul de regresori ( numai pn la 16 regresori ? ? ) .Excel cere ca toate variabilele regresor sa fie n coloane adiacente .Trebuie sa mutati coloane pentru a asigura acest lucru .De exemplu, dac regresorii sunt n coloanele B i D trebuie s copiai cel puin una din coloanele B i D , astfel nct acestea sa fie adiacente una fata de celelalte.Erorile standard Excel, statisticile t i valorile p se bazeaz pe presupunerea c eroarea este independenta cu variaie continu ( homoskedastic ) .Excel nu furnizeaz alternative , cum ar asheteroskedastic - robust sau autocorelaie robust, erori standard i statistici t i valori p.Este nevoie de mai multe software-uri de specializate , cum ar fi STATA , EVIEWS , SAS , LIMDEP , PC - TSP , ... .

Bibliografie:1. Linest Function - http://office.microsoft.com/en-001/excel-help/linest-function-HP010342653.aspx2. Essential of Statistics, David Brink, Ventus Publishing ApS, 2010 (bookboon.com)

18