Statistik 1 – Lektion 4

Statistik 1 – Lektion 4

By, energi & miljø, forår 2010v. Morten Skou Nicolaisen

Sidste kursusgang

o Mindste kvadraters metode.o Spredningsdiagrammer.o Lineær regression.o Outliers.o Regressionskoefficienter.o Signifikans.o Transformation for at opnå linearitet.

Denne kursusgango Tilpasset determinationskoefficient.o Estimering af værdier for den afhængige variabel

kontrolleret for uafhængige variable.o Grafisk fremstilling af kontrolleret sammenhæng

mellem afhængig og uafhængig variabel.o Dummy variable.o Kontrol af linearitetsforudsætninger.o Multikollinearitet.o Interaktionsled.o Additive indeks.

Tilpasset determinationskoefficiento R2 vil altid vokse når vi smider flere variable ind i modellen.

Ved n-1 uafhængige variable har vi eksempelvis altid R2 = 1, men dette resultat er fuldstændig meningsløst.

o Tilpasset R2 tager højde for antallet af uafhængige variable, og er altid mindre end R2. Brug derfor altid tilpasset R2 ved modeller med mange uafhængige variable, og når modeller med forskelligt antal uafhængige variable skal sammenlignes.

o Man kan generelt bare bruge tilpasset R2 for at undgå at holde styr på begge værdier.

o R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Eksempel 1o Udelad respondenter med ekstrem rejselængde på hverdage (select

cases, if condition…, hverdtot<897).o Udfør en multipel regressionsanalyse af følgende uafhængige

variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er

(alder3) .

o Vi kan se at R2adj er mindre end R2, men at forskellen ikke er stor. Det

skyldes at antallet af uafhængige variable (k=5) i forhold til antallet af observationer (n=1635) ikke er særlig stort.

o R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Estimering af værdier (prædiktion)o Som regel et af de primære formål med at foretage statistisk analyse.o Vi ønsker måske at kunne udtale os om transportforbruget på baggrund af

afstanden til centrum.o Vi har en ide om indflydelsen ud fra regressionsanalysen, men vi kan ikke

umiddelbart forudsige noget ud fra bare at se på disse tabelværdier.o Derfor beregner vi en ny variabel ud fra den model vi har opstillet for

transportforbruget, hvor vi bruger regressionskoefficienterne fra analysen sammen med gennemsnittet for de uafhængige variable, med undtagelse af den variabel som vi ønsker at forudsige fra (afsfun) .

o Det svarer til at vi ser på sammenhængen mellem transportforbrug (hverdtot) og centrumsafstand (centafs) i vores model, hvis alle andre variable fastholdes.

Eksempel 2o Vi bruger regressionskoefficienterne fra forrige opgave til at udregne en forventet

værdi for transportforbruget, der afhænger af boligens afstand til Københavns centrum.

o Model: y=a1x1+a2x2+…+anxn+b• y: den forventede værdi for transportomfanget (den nye variabel)• xi: gennemsnittet for variabel i

• ai: regressionskoefficienten for variabel i• b: regressionskonstanten

o Først finder vi gennemsnittet for persind2, alder3, erhvakt og erhvrejs (analyze>descriptive statistics>descriptives).

o Så beregner vi den nye variabel hverdforv (brug tranform>compute).o Vi bruger formlen ovenfor, og indsætter værdierne fra regressionsanalysen og de

respektive gennemsnit.o NB: For variablen afsfun bruger vi ikke gennemsnittet, men indsætter selve

variablen. Ellers ville vi bare få en ret linje, mens vi ved at afstanden til centrum ikke har en lineær sammenhæng med transportforbruget, og det er denne sammenhæng vi gerne vil kunne udtale os om.

Eksempel 2 (fortsat)

Eksempel 2 (fortsat)o For at lave en grafisk fremstilling af sammenhængen mellem vores nye

variabel for forventet transportforbrug (hverdforv) anvender vi bare et spredningsdiagram (graphs>legecy dialogs>scatter).

o Vi kan bruge centafs på horisontalaksen selvom vi har brugt den transformerede variabel afsfun i regressionsanalysen, da afsfun blot er en funktion på centafs. Dermed får vi plottet sammenhængen mellem forventet transportmængde (hverdforv) og afstand fra centrum mål i kilometer (centafs), i stedet for en eller anden obskur måleenhed, som afsfun er opgivet i.

o Vi har nu en graf, der fint illustrerer den forventede sammenhæng mellem de to variable, beregnet ud fra vores observationer og model. Den passer fint overens med de analyser vi har lavet i tidligere kursusgange, hvor vi bl.a. fik en indikation af at effekten af afstand til Københavns centrum ikke er særlig stor, når folk bor mere end 30 kilometer væk fra København

Eksempel 2 (fortsat)

Dummy variable

Afhængig variabel Dikotom (med kun 2 værdier)

Med flere end 2 værdier Nominal-niveau

Ordinal-niveau

Interval- og forholdstalsniveau

Uaf-hæn- gig varia-bel

Dikotom (med kun 2 værdier)

Binær logistisk regression

Multinominal logistisk regression

Lineær regression

Med flere end 2 værdier

Nominalniveau

Binær logistisk regression med dummy-variabler


Lineær regression med dummy-variabler

Ordinalniveau

Binær logistisk regression med dummy-variabler


Lineær regression med dummy-variabler

Interval- og forholdstals-niveau

Binær logistisk regression


Lineær regression

Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel.

Dummy variableo Dummy variable bruges i tilfælde, hvor man har uafhængige variable på nominal

eller ordinal måleniveau. Det er blot en række dikotome (binære) variable, der bruges i stedet for den oprindelige variabel, da dikotome variable kan anvendes til lineær regression.

o Dermed omgår man problemet med, at nominale og ordinale variable ikke har noget skalaforhold. Har vi f.eks. en variabel, der angiver hvilket amt folk bor i med et tal (0-4), så giver det ikke mening at regne med, at amt 2 har dobbelt så stor indflydelse på den afhængige variabel som amt 1, og at amt 0 slet ikke har nogen indflydelse. Tallene angiver jo kun kategorier, det er ikke en skala.

o Hvis vi i stedet laver en variabel for hvert amt undtagen ét (forklaring følger), så kan vi f.eks. lade en ny variabel kaldet amt4 have værdien 1 for alle folk i amt 4, mens folk i amt 0, 1, 2 og 3 har værdien 0. Ligeledes for variablene amt1, amt2 og amt3. Vi behøver ikke en amt0 variabel, da vi ved at folk i amt 0 bare er dem, der har værdien nul på alle de andre dummy variable.

o Vi skal altså bruge n-1 dummy variable til en variabel med n kategorier. Fordelen ved dette frem for kategori variablen er, at vi nu får en regressionskoefficient for alle amterne (undtagen amt 0), så vi kan måle forskelle i deres indflydelse på den afhængige variabel. Amt 0s indflydelse er givet i resten af modellen.

Dummy variableEksempel på transformation af en ordinal- eller nominalvariabel med N værdier til N-1 dikotome ”dummyvariabler” Oprindelig variabel

Hustype (Parcelhus = 1, tæt-lav = 2, etagebyggeri under 7 etg. = 3, højhus (over 7 etg.) = 4)

1

2

3

4

Nye dummy-variabler

Tæt-lav 0 1 0 0 Etagebyggeri under 7 etg. 0 0 1 0 Højhus (over 7 etg.) 0 0 0 1

Enhederne med parcelhus vil have 0 som værdi på alle de 3 dummyvariabler. Disse enheder udgør sammenligningsgrundlaget for de tre dummyvariablers regressionskoefficienter, som angiver forskellene i forhold til en parcelhus-situation

Opgave 1o Variablen boligtyp har oprindeligt disse værdier:

1: Parcelhus2: Række-, kæde- eller gårdhus3: Tofamiliehus4: Etagehus5: Højhus6: Anden boligtype

o Vi laver en ny variabel boligtyp2 ud fra variablen boligtyp, hvor værdien 6 (anden boligtype) skal omkodes til ”missing value”. De respondenter, der ikke bor i nogen af de øvrige boligtyper vil dermed automatisk blive udelukket fra analysen. Denne nye variabel (boligtyp2) skal derefter omkodes til de tre dummy variabler bolig_taet, bolig_etage og bolig_hoej, hvor bolig_taet skal inkludere både dem, der bor i række-, kæde- eller gårdhus og dem, der bor i tofamiliehus (dvs. både værdi 2 og 3 fra boligtyp2).

Opgave 1 (fortsat)

Opgave 2o Vi vil nu bruge de nye dummy variable til

regressionsanalyse.o Vi vil undersøge hvordan de forskellige boligtyper

påvirker tætheden af indbyggere og arbejdspladser indenfor det boligområde, hvor boligen ligger (omrtaet). Lav en regressionsanalyse, som viser dette.

o Hvor høj er befolkningstætheden gennemsnitligt i de boligområder, hvor respondenterne bosat i henholdsvis enfamiliehuse, tæt-lav bebyggelse, etagehuse og højhuse hører hjemme?

Kontrol af linearitetsforudsætninger

o Spredningsdiagrammer.

o Partiel korrelation.

o Casewise diagnostics.

o Durbin-Watson (bør ligge mellem 1,5-2,5).

o Residualplots.

Multikollineariteto Multikollinearitet i regressionsmodellen opstår, hvis

to eller flere uafhængige variable har høj indbyrdes korrelation.

o Dette svækker ikke som sådan modellens prædiktionsevne ellers reliabilitet, men det gør det svært at estimere individuelle variables indflydelse.

o Tolerance under 0,2 og/el. VIF over 5 (variance inflation factor) er en stærk indikation af multikollinearitet.

Eksempel 3o Vi laver en regressionsanalyse med biltransport på hverdage som

den afhænge variabel. Fravælg først respondenter med ekstreme rejselænger (dvs. bilhverd<820).

o De uafhængige variable skal være:• Tæthed i lokalområdet (loktaet).• Uddannelseslængde (skoleaar).• Personlig årsindkomst (persindt2).• Erhvervsaktivitet (erhvakt).• Erhvervsrejse (erhvrejs).• Alder i forhold til 50 år (alder3).• Bilejerskab (bilejer).

o Undersøg Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet.

Opgave 3o Udfør nu samme regressionsanalyse som i eksempel 3, men tilføj

følgende uafhængige variable:• Antal indbyggere per hektar (inbhlok).• Antal arbejdsplads i lokalområdet (arbhalok).

o Undersøg også her Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet.• Virker regressionskoefficienterne troværdige?

Hvis ja, hvorfor virker de troværdige?÷ Hvis nej, giver nogle af vores tests en ide om hvor problemet ligger?

Interaktionsledo Interaktionsled kan bruges når styrken af sammenhængen mellem

to variable er afhængig af en tredje variabel. o Det kan betragtes lidt som en situation, hvor den samlede effekt af

to variable er større end summen af deres individuelle effekt.o Et eksempel på dette kunne være tæthed i lokalområdet og

bilejerskab, og deres indflydelse på samlet transport. Vi forventer at begge variable har en indflydelse på transportforbruget, men vi forventer måske også at bilejerskab har meget mindre indflydelse i tæt bebyggede områder, hvor man har mange andre transportmuligheder, uanset om man har en bil eller ej.

o Man beregner blot den nye variabel med transform>compute, og indsætter derefter den nye variabel som uafhængig variabel.

o Der kan opstå høj kollinearitet ved brugen af interaktionsled!

Opgave 4o Lav en ny variabel lokbil, der er en interaktionsvariabel

mellem tætheden i lokalområdet (loktaet) og bilejerskabet (bilejer).

o Lav samme regressionsanalyse som i opgave 3, men fjern de to uafhængige variable, der skabte problemer (inbhlok og arbhlok), og tilføj den nye variabel lokbil samt variablen.

o Vi kan se at forklaringsgraden stiger en smule, men der bliver problemer med kollinearitet.

Opgave 5

o Udfør samme regressionsanalyse som i eksempel 4, men vælg denne gang backward i stedet for enter som modelsøgnings metode (under method).

o Hvilke ændringer sker der i modellen? Hvorfor?

Additive indekso Additive indeks er blot en sammenlægning af flere forskellige nominelle eller ordinale

variables værdier.o Det kan f.eks. være at man har haft mange forskellige spørgsmål omkring folks holdning til

specifikke spørgsmål om deres holdning til forskellige udsagn, der alle er samlet under et hovedemne. Man kan så efterfølgende lave et additivt indeks for respondenternes samlede holdning til dette emne.

o Man skal være opmærksom på, at spørgsmålene kan være stillet på en måde, så en høj score i et spørgsmål kan være udtryk for en positiv holdning overfor emnet, mens en høj score i det næste spørgsmål er udtryk for en negativ holdning. Det kan derfor være nødvendigt at omkode variablene eller tage højde i formlen for den nye variabel.

o Et eksempel kunne være holdning til reduktion CO2 udledning, hvor meget enig = 1 og meget uenig = 10:

• Udsagn 1: Jeg arbejder aktivt for at reducere mit CO2 udslip.• Udsagn 2: Jeg rejser med tog i stedet for fly når det er muligt.• Udsagn 3: Jeg foretrækker at køre i min egen bil.

o Det burde være klart, at hvis man er meget enig i de to første udsagn, og meget uenig i det tredje, så er man positivt indstillet overfor reduktion af CO2 udledning. Men man kan ikke bare lægge alle tallene sammen, da enig alle steder er kodet som værdien 1, uanset om udsagnet er for eller imod CO2 udledning.

Opgave 6o Nedenfor ses et uddrag af spørgeskemaet til undersøgelsen i Hovedstadsområdet. Svarene er

kodet med værdien 1 for ”helt enig” op til værdien 5 for ”helt uenig”.o Lav et additivt indeks kaldet transphold for respondenters holdning til kollektiv transport ud

fra deres svar på de to nedenstående udsagn (svarene ligger hhv. i variablene transp4 og transp6).

o Indekset skal være en sum, hvor en positiv værdi angiver en positiv holdning til kollektiv transport, mens en negativ værdi angiver en negativ holdning til kollektiv transport.

o Foretag til slut en lineær regressionsanalyse med det nye indeks som afhængig variabel, og koen, skoleaar og alder2 som uafhængige variable. Tolk resultatet.

Opgave 7 (repetition)o En undersøgelse blandt 879 tilfældigt udvalgte

respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat.

o I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 8 (repetition)o Udfør en multipel regressionsanalyse af følgende uafhængige variablers

effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2).o Uddannelseslængde (skoleaar).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år

respondenten er (alder3) .o Respondenter med ekstreme rejselængder skal udelades fra analysen.o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet

af ugens hverdage?o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder.o Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?

Næste gango Logistisk regression.

• Bruges når den afhængige variabel er dikotom.• Kort gennemgang da det ikke er centralt for pensum.

o Forberedelse til eksamen.• Vi gennemgår nogle typeopgaver fra kurset.• Hvis i har spørgsmål enten til teori, opgaver eller

eksamensformen er der rigeligt med tid til dem.o Miniprojekt.

• I får opgaverne til miniprojektet udleveret til frokost.• Der er ingen der forhindrer jer i at arbejde sammen om

opgaverne, men husk nu at eksaminationen er individuel.

Documents

Statistik 1 – Lektion 4