Upload
dotu
View
236
Download
1
Embed Size (px)
Citation preview
REGRESSIONSANALYSF4
Linda Wänström
Statistiska institutionen, Stockholms universitet
1/23
Kap 8: Introduktion till multipel regressionsanalys.
Multipel regressionsanalys
Multipel regressionsanalys kan ses som en utvidgning av enkellinjär regressionsanalys. Vi har nu �er än en oberoende variabel.
I Svårare att välja bästa modellI Svårare att visualisera skattad modellI Tolkningar kan vara svårareI Krångligare beräkningar - men vi har datorer!
2/23
Kap 8: Introduktion till multipel regressionsanalys.
Multipel regressionsmodell
I En beroende variabel Y och k oberoende variablerX1,X2, ...,Xk .
Y = β0 + β1X1 + β2X2 + ...βkXk + E
3/23
Kap 8: Introduktion till multipel regressionsanalys.
Exempel med 2 oberoende variabler
Vi vill beskriva sambandet mellan sparande och inkomst och utgiftdär Y = sparande, X1 = inkomst, och X2 = utgift.Vi funderar på följande modell:
Y = β0 + β1X1 + β2X2 + E
Möjliga (men inte alla) alternativa modeller är
Y = β0 + β1X1 + β2X2 + β3X21 + β4X
22 + E
Y = β0 + β1X1 + β2X2 + β3X1X2 + E
Vilken modell ska vi välja?
4/23
Kap 8: Introduktion till multipel regressionsanalys.
Exempel med 2 oberoende variabler forts.
Om vi börjar med den enklaste modellen vill vi hitta det plan sombäst passar data.
I Ett sätt: minimera de kvadrerade avvikelserna från planet:
n
∑i=1(Yi � bYi )2 = n
∑i=1(Yi � bβ0 � bβ1Xi1 � bβ2Xi2)2
5/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modell
I ExistenceI OberoendeI LinjäritetI HomoskedasticitetI Normalfördelning
6/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modellExistence
För varje kombination av värden på X1,X2, ...,Xk är Y enstokastisk variabel med en viss sannolikhetsfördelning med ändligtmedelvärde och varians.
7/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modellOberoende
Y -observationerna är statistiskt oberoende
8/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modellLinjäritet
µY jX1,X2,...,Xk = β0 + β1X1 + β2X2 + ...+ βkXk
9/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modellHomoskedasticitet
Variansen för Y är densamma för varje �x kombination avX1,X2, ...,Xk , dvs
σ2Y jX1,X2,...,Xk = σ2
10/23
Kap 8: Introduktion till multipel regressionsanalys.
Statistiska antaganden för en multipel linjär modellNormalfördelning
Y är normalfördelad för varje �x kombination av X1,X2, ...,Xk .
11/23
Kap 8: Introduktion till multipel regressionsanalys.
Hur skattas parametrarna?Att bestämma en multipel regressionsekvation
I Minsta kvadratmetoden
12/23
Kap 8: Introduktion till multipel regressionsanalys.
Minsta kvadratmetodenBästa ekvationen är den som minimerar summan av de kvadreradeavvikelserna mellan de observerade Y -värdena och de skattadeY -värdena.
Låt
bYi = bβ0 + bβ1X1i + bβ2X2i + ...+ bβkXkiSumman av de kvadrerade avvikelserna kan skrivas∑ni=1(Yi � bY )2 = ∑n
i=1(Yi � bβ0 � bβ1X1i � bβ2X2i � ...� bβkXki )2Minsta kvadratskattningarna är de värden bβ0 , bβ1 ,...,bβk somminimerar nämnda kvadratsumma.
13/23
Kap 8: Introduktion till multipel regressionsanalys.
ANOVA-tabellUppdelning av variation i Y
Total variation i Y kan delas upp i av regressionen förklaradvariation i Y och oförklarad variation i Y
SSY = SSR + SSEn
∑i=1(Yi � Y )2 =
n
∑i=1(bYi � Y )2 + n
∑i=1(Yi � bYi )2
14/23
Kap 8: Introduktion till multipel regressionsanalys.
ANOVA-tabell
SSY=SSR+SSEn1Total
MSE=SSE/(nk1)SSEnk1Fel
MSR/MSEMSR=SSR/kSSRkModell
FMSSSdfKälla
SSY=SSR+SSEn1Total
MSE=SSE/(nk1)SSEnk1Fel
MSR/MSEMSR=SSR/kSSRkModell
FMSSSdfKälla
R2 =SSY � SSE
SSY
15/23
Kap 8: Introduktion till multipel regressionsanalys.
Exempel med sparande, inkomst och utgift
• Vi samlar in data från 8 distrikt
data one;input fors bef annons;cards;5.4 5 53.8 4.2 310.6 10 95.2 4.4 3.54.5 3.6 52.7 1.3 22.5 2.7 1.84.5 3 4.7;proc gplot;plot fors*bef fors*annons;proc reg;model fors=bef annons;run;
16/23
Kap 8: Introduktion till multipel regressionsanalys.
Spridningsdiagram
f or s
2
3
4
5
6
7
8
9
10
11
annons
1 2 3 4 5 6 7 8 9
17/23
Kap 8: Introduktion till multipel regressionsanalys.
Spridningsdiagram
f or s
2
3
4
5
6
7
8
9
10
11
bef
1 2 3 4 5 6 7 8 9 10
18/23
Kap 8: Introduktion till multipel regressionsanalys.
Exempel med sparande, inkomst och utgift forts.
Modell: MODEL1Beroendevariabel: sparande
Antal lästa observationer 13Antal använda observationer 13
Variansanalys
Summa av MedelKälla DF kvadrater kvadrat Fvärde Sh. > F
Modell 2 71.92534 35.96267 17.87 0.0005Fel 10 20.12235 2.01223Korrigerad total 12 92.04769
Rot MSE 1.41853 Rkvadrat 0.7814Beroende medel 3.76923 Just. Rkvadr. 0.7377Koeff.var. 37.63454
Parameterskattningar
Parameter StandardVariabel DF skattning fel tvärde Pr > |t|
Skärning 1 18.85816 5.08556 3.71 0.0041inkomst 1 0.11676 0.01964 5.95 0.0001boende 1 0.02642 0.03170 0.83 0.4241
19/23
Kap 8: Introduktion till multipel regressionsanalys.
UppgiftEn ekonom är intresserad av att undersöka sambandet mellanlåneinstituts vinster, avkastning samt antal kontor. Hon samlar inuppgifter om vinst, Y (1000-tals kr.), avkastning, X1(1000-tals kr.) och antal kontor, X2. Följande tre modeller beaktas
Y = β0 + β1X1 + E
Y = β0 + β2X2 + E
Y = β0 + β1X1 + β2X2 + E
Se datautskrifter på följande sidor.
1. Vad är SSY samt SSE i regressionsanalyserna?2. Bestäm R2-värdena för respektive modell3. Använd minsta kvadrat-ekvationen med två oberoendevariabler. Vad är den uppskattade vinsten för ett institut meden avkastning på 5000 kr samt 10 kontor?
20/23
Kap 8: Introduktion till multipel regressionsanalys.
Uppgift
Modell 1Beroendevariabel: y
Antal lästa observationer 25 Antal använda observationer 25
Variansanalys
Summa av Medel Källa DF kvadrater kvadrat Fvärde Sh. > F
Modell 2 0.40151 0.20076 70.66 0.000 Fel 22 0.06250 0.00284 Korrigerad total 24 0.46402
Parameterskattningar
Parameter Standard Variabel DF skattning fel tvärde Pr > |t|
Skärning 1 1.56450 0.07940 19.70 0.000 x1 1 0.23720 0.05556 4.27 0.000 x2 1 0.00025 0.00003 7.77 0.000
21/23
Kap 8: Introduktion till multipel regressionsanalys.
Uppgift
Modell 2
Beroendevariabel: y
Antal lästa observationer 25 Antal använda observationer 25
Variansanalys
Summa av Medel Källa DF kvadrater kvadrat Fvärde Sh. > F
Modell 1 0.22990 0.22990 22.59 0.000 Fel 23 0.23412 0.01018 Korrigerad total 24 0.46402
Parameterskattningar
Parameter Standard Variabel DF skattning fel tvärde Pr > |t|
Skärning 1 1.2362 0.1386 9.57 0.000 x1 1 0.16913 0.03559 4.75 0.000
22/23
Kap 8: Introduktion till multipel regressionsanalys.
Uppgift
Modell 3
Beroendevariabel: y
Antal lästa observationer 25 Antal använda observationer 25
Variansanalys
Summa av Medel Källa DF kvadrater kvadrat Fvärde Sh. > F
Modell 1 0.34973 0.34973 70.38 0.000 Fel 23 0.11429 0.00497 Korrigerad total 24 0.46402
Parameterskattningar
Parameter Standard Variabel DF skattning fel tvärde Pr > |t|
Skärning 1 1.5460 0.1048 14.75 0.000x2 1 0.00012 0.000014 8.39 0.000
23/23