18
Modelul de regresie sisteme de variabile dummy Bibliografie recomandată Traiman. D, 2004, Agresti & Finley [email protected] [email protected]

Modelul de regresie sisteme de variabile dummy

  • Upload
    atara

  • View
    126

  • Download
    2

Embed Size (px)

DESCRIPTION

Modelul de regresie sisteme de variabile dummy. Bibliografie recomandată Traiman. D, 2004, Agresti & Finley [email protected] [email protected]. Ipoteze şi variabile. - PowerPoint PPT Presentation

Citation preview

Page 1: Modelul de regresie  sisteme de variabile dummy

Modelul de regresie sisteme de variabile dummy

Bibliografie recomandată Traiman. D, 2004, Agresti & Finley

[email protected]

[email protected]

Page 2: Modelul de regresie  sisteme de variabile dummy

Dvs. personal credeţi în …? Da Nu NS/NR Da Nu NS/NR

DIV1. Viaţa de după moarte 1 2 9 DIV5. Horoscop 1 2 9

DIV2. Telepatie (transmiterea gândurilor) 1 2 9 DIV6. Judecata de Apoi 1 2 9

DIV3. Ghicit (cafea, cărţi, etc.) 1 2 9 DIV7. Vrăjitorie 1 2 9

DIV4. Rai 1 2 9 DIV8. Puterea rugăciunii 1 2 9

Ipoteze şi variabile

Ipoteză: magicarizarea credinţelor religioase a unei persoane depinde de tipurile de reţele instituţionale în care este integrat. De exemplu: sistemul şcolar sau biserica din care face parte persoana.

Variabile: (BOP 2000 primăvara) Credinţelor religioase a unei persoane:

Sistemul şcolar:

Biserica din care face parte.

SCOALA. Ultima şcoală absolvită

1. fără scoală2. 4 clase neterminate3. 4 clase terminate4. 8 clase neterminate

5. 8 clase terminate6. 10 clase7. şcoala profesională/ ucenici terminată8. liceu terminat

9. şcoală postliceală terminată10. facultate neterminată11. facultate terminată

Care este religia Dvs.?

1. ortodoxă 3. protestantă (calvină, baptistă, reformată) 5. greco-catolică 7. fără religie

2. romano-catolică 4. neo-protestantă (penticostală, adventistă, evanghelistă)

6. alta ______ 8. religie nedeclarată

Page 3: Modelul de regresie  sisteme de variabile dummy

Metoda statistică şi variabilele

Ipoteza este formulată în termeni cauzali: Credinţele religioase Sistemul şcolar + Tipul bisericii Adică, avem o problemă de regresie.

Variabile: sunt calitative. Pentru a formula in termenii unei regresi aceasta problemă trebuie să realizăm o serie de transformări ale variabilelor: 1. să mărim scara de măsură: să le transformăm în variabile cantitative 2. să le transformăm în variabile dummy

Page 4: Modelul de regresie  sisteme de variabile dummy

Transformarea variabilelor: variabila dependentă

Credinţelor religioase a unei persoane sunt înregistrate de opt variabile. Ele se grupează conceptual în două dimensiuni sau seturi de variabile [fapt confirmat şi de analiza factorială şi analiza de reliabilitate]: Setul 1 - Religiozitate magica: Telepatie (transmiterea gândurilor), Ghicit (cafea,

cărţi, etc.), Horoscop, Vrăjitorie. Setul 2 - Religiozitate creştina: Viata de după moarte, Rai, Judecata de Apoi,

Puterea rugăciunii.

Iar acest lucru îl facem

recodând variabilele: 1 Da; 2 Nu 1 Da; 0 Nu

Iar apoi adunăm

variabilele din acelaşi set

Religiozitate creştină

recode div1 div4 div6 div8 (1=1) (2=0) (9=0) into relig1 relig4 relig6 relig8.

Religiozitate magică

recode div2 div3 div5 div7 (1=1) (2=0) (9=0)into magic2 magic3 magic5 magic7.

Religiozitate creştină

comp religios = relig1 + relig4 + relig6 + relig8.

Religiozitate magică

comp magic = magic2 + magic3 + magic5 + magic7.

++

Page 5: Modelul de regresie  sisteme de variabile dummy

0.00 5.00 10.00 15.00

Subiect - Numar ani scoala

0.00

1.00

2.00

3.00

4.00

Rel

igio

zita

te m

agic

a

0.00 5.00 10.00 15.00

Subiect - Numar ani scoala

0.00

1.00

2.00

3.00

4.00

Rel

igio

zita

te m

agic

a

0.00 5.00 10.00 15.00

Subiect - Numar ani scoala

0.00

1.00

2.00

3.00

4.00

Rel

igio

zita

te m

agic

a

0.00 5.00 10.00 15.00

Subiect - Numar ani scoala

0.00

1.00

2.00

3.00

4.00

Rel

igio

zita

te m

agic

a

Transformarea variabilelor: variabila dependentă

Adunând variabilele dihotomice, una câte una, vedem cum noua variabila dependentă se transformă, încet într-o variabilă continuă. Cu cât adunăm mai multe variabile cu atât noua variabilă va tinde spre o variabilă continuă.[măsura în care reuşeşte să atingă acest deziderat: testul de reliabilitate]

Nou indice obţinut se numeşte: indice aditiv/sumativ

Page 6: Modelul de regresie  sisteme de variabile dummy

Transformarea variabilelor: variabilele independente

Educaţia: Variabila care înregistrează educaţia în barometrul de opinie este măsurată pe o scală ordinală, iar pentru regresie avem nevoie de o variabila cantitativă.

Fiecărei diplome educaţionale îi corespunde un anumit număr de ani Recodăm variabila:

Diplome educaţionale (p0scoa) Număr de ani de şcoală (educ)

Educatia subiectului

recode p0scoa(1=0) (2=2) (3=4) (4=6) (5=8) (6=10) (7=11) (8=12) (9=14) (10=15) (11=16)into educ.

Page 7: Modelul de regresie  sisteme de variabile dummy

Transformarea variabilelor: variabilele independente

Religia: Variabila care înregistrează religia, este o variabilă categorială, nominală.

Nu putem: Crea un nou indice (avem doar o singura variabilă) Echivala cu o variabilă cantitativă

Putem: Să tratăm această variabilă ca un sistem de variabile dummy Recodăm religia in următorul fel:

R1 = 1 dacă este Ortodox şi Greco-Catolic şi = 0 altfel

R2 = 1 dacă este Romano-Catolic şi 0 = altfel

R3 = 1 dacă este Protestant şi = 0 altfel

R4 = 1 dacă este Neo-protestant şi = 0 altfel

R5 = 1 dacă are Altă Religie, Religie Nedeclarată şi Fără Religie şi = 0 altfel

Page 8: Modelul de regresie  sisteme de variabile dummy

Transformarea variabilelor: variabilele independente

Să observăm ce se întâmplă dacă facem o regresie cu ajutorul var. dummy: Religiozitate magică (RM) Religie (R)

RM* = a+ b2R2 + b3R3 +b4R4 + b5R5 = a + ΣbiRi

Adică: RM* = 0,765 - 0,139R2 - 0,288R3 - 0,522R4 - 0,194R5

Să rescriem acum ecuaţiile pentru fiecare caz:

Pt. Ortotocşi: RM* = a+ b2*0 + b3*0 +b4*0 + b5*0 = a = 0,765

Pt. Catolici: RM* = a+ b2*1 + b3*0 +b4*0 + b5*0 = a - b2= 0,765 - 0,139 = 0,626

Pt. Protestanţi: RM* = a+ b2*0 + b3*1 +b4*0 + b5*0 = a - b3= 0,765 - 0,288 = 0,477

Pt. Neo-protestanţi: RM* = a+ b2*0 + b3*0 +b4*1 + b5*0 = a - b4= 0,765 - 0,522 = 0,243

Pt. Alţii: RM* = a+ b2*0 + b3*0 +b4*0 + b5*1 = a - b5= 0,765 - 0,194 = 0,57Cofficients

Model

Unstd Coef. Std Coef.

t Sig.B Std. Error Beta

(Constant) 0.765 0.025   30.26 0.000

Romano-Catolic -0.139 0.108 -0.030 -1.29 0.198

Protestanta -0.288 0.127 -0.054 -2.27 0.023

Neo-Protestanta -0.522 0.167 -0.074 -3.13 0.002

Alte religii -0.194 0.171 -0.027 -1.13 0.258

Dependent Variable: Religiozitate magica

Religiozitate magică * Religie

Variables Mean Std. Deviation

Ortodox 0.765 0.902

Romano-Catolic 0.626 0.850

Protestanta 0.477 0.495

Neo-Protestanta 0.243 0.495

Altele 0.571 0.884

=0,765- 0.626

Page 9: Modelul de regresie  sisteme de variabile dummy

Modelul de regresie

Var. dummy par a fi un mod complicat de a estima mediile, însă ele devin cu adevărat puternice atunci când sunt combinate cu alte variabile cantitative.

Ipoteza noastră poate fi formulată având în vedere variabilele noastre în cel putin trei moduri diferite şi pertinente teoretic:

RM Educaţie (E): RM* = a + bE

RM Educaţie + Religie (R): RM* = a + bE + ΣciRi

RM Educaţie + Religie + Religie*Educaţie (R*E): RM* = a + bE + ΣciRi

+ ΣdiRiE

Variabila de interacţiune Ri*E: Presupunem că între religie şi educaţie există o anumită interacţiune în ceea ce

priveşte credinţele magice Adică, credem că grupurile religioase diferă în ceea ce priveşte modul în care

educaţia influenţează credinţele magice

Scopul nostru este să selectăm model este mai bun din acestea trei.

Page 10: Modelul de regresie  sisteme de variabile dummy

Model 1 Model 2 Model 3 Model 3’

E: Educatie.065

(.006).004

(.006).066

(.006).066*(.006)

R2: Catolic -.142(.104)

-.257(.300)

-.257(.300)

R3: Protestant -.295(.123)

-.207(.331)

-.207(.331)

R4: Neoprotestant -.390(.161)

-.309(.310)

.309(.310)

R5: Altul -.271(.168)

-.386(.441)

-.386(.441)

R2*E.012

(.029).012

(.029)

R3*E-.009(.031)

-.009(.031)

R4*E-.090(.034)

-.090(.034)

R5*E.012

(.043).012

(.043)

Constanta.102

(.062).144

(.063).120

(.0067).762

(.024)

R2 .062 .070 .074 .074

Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului

Page 11: Modelul de regresie  sisteme de variabile dummy

Logica modelelor

Să observăm ce se întâmplă dacă facem o regresie cu ajutorul var. dummy: Religiozitate magică (RM) Religie (R)

Model 1: RM* = ,102 +,065*E

Model 2: RM* = ,144 + ,004*E – ,142*R2 – ,295*R3 – .390*R4 – .271*R5

Model 3: RM* = ,120 + ,066*E – ,257R2 – ,207*R3 + ,309*R4 – ,386*R5 +

+ ,012*R2*E – ,009*R3*E – ,090*R4*E + ,012R5*E

Să rescriem pt. Modelul 2 ecuaţiile pentru Ortodocşi, Catolici şi Protestanţi

Să rescriem pt. Modelul 3 ecuaţiile pentru Ortodocşi, Catolici şi Protestanţi

Pt. Ortodocşi:

RM* = a + b*E

= ,144 + ,004*E

Pt. Catolici:

RM* = a + b*E + c2

= (a+c2) + b*E

= (,144 – ,142) + ,004*E

= .002 + .004*E

Pt. Protestanţi:

RM* = a + bE + c3

= (a+c3) + b*E

= (,144 – ,259) + ,004*E

= -.115 + .004*E

Pt. Catolici:

RM* = a + bE + c2+ d2*E

= (a+c2) + (b+d2)*E

= (,120– ,257) + (,066+,012)*E

= -.137 + 0.78*E

Pt. Ortodocşi:

RM* = a + bE

= ,120 + ,066*E

Pt. Protestanţi:

RM* = a + b*E + c2 + d3*E

= (a+c3) + (b+d3)*E

= (,120–,207)+(,066+,009)*E

= -.087 + .075E

Page 12: Modelul de regresie  sisteme de variabile dummy

-0.300

-0.200

-0.100

0.000

0.100

0.200

0.300

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Ortodocsi Catolici Protestanti Neoprotestanti Altii

Logica modelelor

Diferenţa dintre Modelul 2 şi Modelul 3 este că În Modelul 1diferă doar interceptul modului în care variază credinţele magice în

funcţie de educaţie. În Modelul 2 diferă şi interceptul şi panta în care variază credinţele magice în

funcţie de educaţie

Modelul 2 Modelul 3

Numări de ani de şcoală

-0.800

-0.600

-0.400

-0.200

0.000

0.200

0.400

0.600

0.800

1.000

1.200

1.400

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Ortodocsi Catolici Protestanti Neoprotestanti Altii

Numări de ani de şcoală

Page 13: Modelul de regresie  sisteme de variabile dummy

Variables Entered/Removedb

Subiect - Numar ani scoalaa . Enter

Romano-Catolic, Alte religii, Protestanta, Neo-Protestantaa . Enter

R4*Educ, R5*Educ, R3*Educ, R2*Educa . Enter

Model1

2

3

Variables EnteredVariablesRemoved Method

All requested variables entered.a.

Dependent Variable: Secularizareb.

Model Summary

.249a .062 .062 .97100

.264b .070 .067 .96809

.271c .074 .069 .96717

Model1

2

3

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Subiect - Numar ani scoalaa.

Predictors: (Constant), Subiect - Numar ani scoala,Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta

b.

Predictors: (Constant), Subiect - Numar ani scoala,Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ,R2*Educ

c.

ANOVAd

111.785 1 111.785 118.561 .000a

1688.642 1791 .943

1800.427 1792

125.651 5 25.130 26.814 .000b

1674.776 1787 .937

1800.427 1792

132.593 9 14.733 15.750 .000c

1667.835 1783 .935

1800.427 1792

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Model1

2

3

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Subiect - Numar ani scoalaa.

Predictors: (Constant), Subiect - Numar ani scoala, Romano-Catolic, Alte religii,Protestanta, Neo-Protestanta

b.

Predictors: (Constant), Subiect - Numar ani scoala, Romano-Catolic, Alte religii,Protestanta, Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ, R2*Educ

c.

Dependent Variable: Secularizared.

Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului

Ne indică cele trei modelele pe care ni le-am propus. Metoda Enter înseamnă că în analiză intră

toate variabilele specificate

Acesta este tabelul de Analiză de varianţă, care indica raportul dintre varianţe punctelor în jurul drepte de regresie şi varianţa punctelor de pe dereapta de regresie în jurul mediei.

Ne indică în ce măsruă poate fi generalizat modelul de regresie la

populaţie

Ne indică Proporţia din varianţă variabilei dependente

explicată de fiecare model: Model 1: 0,062; Model 2: 0,070; Model 3: 0,074.

Page 14: Modelul de regresie  sisteme de variabile dummy

Coefficientsa

.102 .062 1.650 .099

.065 .006 .249 10.889 .000

.144 .063 2.284 .022

.064 .006 .245 10.712 .000

-.142 .104 -.031 -1.362 .173

-.295 .123 -.055 -2.410 .016

-.390 .161 -.055 -2.413 .016

-.271 .168 -.037 -1.616 .106

.120 .067 1.800 .072

.066 .006 .254 10.356 .000

-.257 .300 -.056 -.857 .391

-.207 .331 -.039 -.626 .531

.309 .310 .044 .995 .320

-.386 .441 -.053 -.877 .381

.012 .029 .027 .408 .683

-.009 .031 -.018 -.287 .774

-.090 .034 -.116 -2.643 .008

.012 .043 .017 .285 .776

(Constant)

Subiect - Numar ani scoala

(Constant)

Subiect - Numar ani scoala

Romano-Catolic

Protestanta

Neo-Protestanta

Alte religii

(Constant)

Subiect - Numar ani scoala

Romano-Catolic

Protestanta

Neo-Protestanta

Alte religii

R2*Educ

R3*Educ

R4*Educ

R5*Educ

Model1

2

3

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Secularizarea.

Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului

-b, reprezintă coeficienţii de regresie nestandardizaţi ai modelului, care indică efectul net al fiecărei variabile, în unităţile de măură a variabilei dependente.- St. Error sunt erorile standard, care trebuie sa fie de două ori mai mici decât b pentru ca acestea să fie semnificative, pentru P=95%.- Beta, reprezintă coeficienţii standardizaţi care ne arată efectul net pe care îl are fiecare variabilă, în abateri standard-t, este valoarea testului t prin care testăm ipoteza nulă că un coeficient de regresie nu este diferit de 0, dacă generalizăm la populaţie.- Sig. nivelul de probabilitate, daca este mai mic decât 0,05 respingem ipoteza nulă a testului t si acceptăm ipoteza alternativă, ca coeficientul este diferit de 0 si poate fi generalizat la populaţie

Observăm că tabelul are trei secţiuni care indică cele trei

Modele estimate. Care model este însă mai bun?

Page 15: Modelul de regresie  sisteme de variabile dummy

Credinţe magice diferenţiate în funcţie de religie: Selecţia modelului

Noi vrem să estimăm care model este mai puternic. Principiile sunt: cel al simplităţii: mai puţine variabile introduse în model cel al adecvării: varianţă mai mare explicată

Cele trei modele pe care le-am construit se numesc modele încorporate (nested) pentru că adaugă termeni succesivi de la o ecuaţie la alta, păstrându-i pe cei adăugaţi deja la pasul anterior. Pentru aceste modele există o metodă specifică de comparaţie:

Unde, F este testul F

RB2

este R2 mai mare

RA2

este R2 mai mic m diferenţa de variabile între cele două modele

N numărul de cazuri k numărul de variabile independete în modelul cu mai multe variabile

Modelul 2 vs. Modelul 1: F(5,1784)=3.836 Fcritic (5,1784)=2.21 [semnificativ p=0.05] Modelul 3 vs. Modelul 1: F(8,1780)=2.883 Fcritic (8,1780)=1.94 [semnificativ p=0.05] Modelul 3 vs. Modelul 2: F(4,1780)=1.922 Fcritic

(4,1780)=2.37 [nesemnificativ p=0.05]

F =(RB-RA

2)/m

(1-RB2)/N-K-1

Page 16: Modelul de regresie  sisteme de variabile dummy

Model 1 Model 2 Model 3

E: Educatie(centrat)-0.045(0.008)

-0.043(0.008)

-0.040(0.009)

R2: Catolic -0.009(0.146)

0.300(0.420)

R3: Protestant -0.273(0.172)

0.162(0.465)

R4: Neoprotestant 0.975(0.226)

0.738(0.435)

R5: Altul -0.473(0.235)

-0.126(0.618)

R2*E-0.032(0.040)

R3*E-0.044(0.044)

R4*E0.032

(0.048)

R5*E-0.037(0.061)

Intercept2.695

(0.032)2.695

(0.034)2.695

(0.034)

R2 .016 .028 .027

Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului

Page 17: Modelul de regresie  sisteme de variabile dummy

Variables Entered/Removedb

educmeda . Enter

Romano-Catolic, Alte religii, Protestanta, Neo-Protestantaa . Enter

R4*Educ, R5*Educ, R3*Educ, R2*Educa . Enter

Model1

2

3

Variables EnteredVariablesRemoved Method

All requested variables entered.a.

Dependent Variable: Religiozitateb.

Model Summary

.127a .016 .016 1.36453

.174b .030 .028 1.35630

.178c .032 .027 1.35690

Model1

2

3

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), educmeda.

Predictors: (Constant), educmed, Romano-Catolic,Alte religii, Protestanta, Neo-Protestanta

b.

Predictors: (Constant), educmed, Romano-Catolic,Alte religii, Protestanta, Neo-Protestanta, R4*Educ,R5*Educ, R3*Educ, R2*Educ

c.

ANOVAd

55.004 1 55.004 29.541 .000a

3334.729 1791 1.862

3389.733 1792

102.457 5 20.491 11.139 .000b

3287.276 1787 1.840

3389.733 1792

106.917 9 11.880 6.452 .000c

3282.816 1783 1.841

3389.733 1792

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Model1

2

3

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), educmeda.

Predictors: (Constant), educmed, Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta

b.

Predictors: (Constant), educmed, Romano-Catolic, Alte religii, Protestanta,Neo-Protestanta, R4*Educ, R5*Educ, R3*Educ, R2*Educ

c.

Dependent Variable: Religiozitated.

Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului

Page 18: Modelul de regresie  sisteme de variabile dummy

Coefficientsa

2.695 .032 83.646 .000

-.045 .008 -.127 -5.435 .000

2.695 .034 78.618 .000

-.043 .008 -.120 -5.132 .000

-.009 .146 -.001 -.063 .950

-.273 .172 -.037 -1.588 .113

.975 .226 .101 4.311 .000

-.473 .235 -.047 -2.012 .044

2.695 .034 78.579 .000

-.040 .009 -.112 -4.461 .000

.300 .420 .048 .714 .475

.162 .465 .022 .350 .727

.738 .435 .076 1.697 .090

-.126 .618 -.012 -.203 .839

-.032 .040 -.053 -.785 .432

-.044 .044 -.064 -1.008 .314

.032 .048 .030 .660 .509

-.037 .061 -.037 -.607 .544

(Constant)

educmed

(Constant)

educmed

Romano-Catolic

Protestanta

Neo-Protestanta

Alte religii

(Constant)

educmed

Romano-Catolic

Protestanta

Neo-Protestanta

Alte religii

R2*Educ

R3*Educ

R4*Educ

R5*Educ

Model1

2

3

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Religiozitatea.

Credinţe creştine diferenţiate în funcţie de religie: Selecţia modelului