37
I 1 Regressionsanalyse 1.1 Problemstellung ................................................................................... 46 1.2 Vorgehensweise .................................................................................. 51 1.2.1 Modellformulierung ............................................................................ 52 ,1.2.2 Schätzung der Regressionsfunktion .................................................... 53 1.2.2.1 Einfache Regression ............................................................................ 53 1.2.2.2 Multiple Regression ............................................................................ 60 1.2.3 Prüfung der Regressionsfunktion ........................................................ 63 1.2.3.1 Bestimmtheitsmaß ............................................................................... 63 1.2.3.2 F-Statistik ............................................................................................ 68 1.2.3.3 Standardfehler der Schätzung.............................................................. 73 1.2.4. Prüfung der Regressionskoeffizienten ................................................ 73 1.2.4.1 t-Test des Regressionskoeffizienten .................................................... 73 1.2.4.2 Konfidenzintervall des Regressionskoeffizienten ............................... 76 1.2.5 Prüfung der MOQ,ellprämissen ............................................................. 77 1.2.5.1 Nichtlinearität ....................................................................................... 79 1.2.5.1.1 Erwartungswert der Störgröße ungleich Null ...................................... 82 1.2.5.1.2 Falsche Auswahl der Regressoren ....................................................... 83 1.2.5.2 Heteroskedastizität .............................................................................. 84 1.2.5.3 Autokorrelation ................................................................................... 87 1.2.5.4 Multikollinearität. ................................................................................ 88 L) 1.2.5.5 Nicht-Normalverteilung der Störgrößen r ............................................. 91 1.3 Fallbeispiel .......................................................................................... 93 1.3.1 Blockweise Regressionsanalyse .......................................................... 93 1.3.2 Schrittweise Regressionsanalyse ....................................................... l04 1.3.3 SPSS-Kommandos ............................................................................ 110 .' 1.4 Anwendungsempfehlungen ............................................................... 112 1.5 Mathematischer Anhang ................................................................... 113 1.6 Literaturhinweise ............................................................................... 116

Backhaus Kapitel Regressionsanalyse

  • Upload
    crnklr

  • View
    1.989

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Backhaus Kapitel Regressionsanalyse

I

1 Regressionsanalyse

11 Problemstellung 46

12 Vorgehensweise 51 121 Modellformulierung 52

122 Schaumltzung der Regressionsfunktion 53 1221 Einfache Regression 53 1222 Multiple Regression 60 123 Pruumlfung der Regressionsfunktion 63 1231 Bestimmtheitsmaszlig 63 1232 F -Statistik 68 1233 Standardfehler der Schaumltzung 73 124 Pruumlfung der Regressionskoeffizienten 73 1241 t-Test des Regressionskoeffizienten 73 1242 Konfidenzintervall des Regressionskoeffizienten 76 125 Pruumlfung der MOQellpraumlmissen 77 1251 Nichtlinearitaumlt 79 12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null 82 12512 Falsche Auswahl der Regressoren 83 1252 Heteroskedastizitaumlt 84 1253 Autokorrelation 87 1254 Multikollinearitaumlt 88 ~

L) 1255 Nicht-Normalverteilung der Stoumlrgroumlszligen r 91

13 Fallbeispiel 93 131 Blockweise Regressionsanalyse 93 132 Schrittweise Regressionsanalyse l04 133 SPSS-Kommandos 110 14 Anwendungsempfehlungen 112

15 Mathematischer Anhang 113

16 Literaturhinweise 116

11 yrOOlemsteUung

Die Regressionsanalyse bildet eines der flexibelsten und am haumlufigsten eingesetzshyten statistischen Analyseverfahren Sie dient der Analyse von Beziehungen zwishyschen einer abhaumlngigen Variablen und einer oder mehreren unabhaumlngigen Vashyriablen (Abbildung 11) Insbesondere wird sie eingesetzt um

- Zusammenhaumlnge quantitativ zu beschrei)gten und sie zu erklaumlren - Werte der abhaumlngigen Variablen zu schaumltzen bzw zu prognostiz~eren

Beispiel Untersucht wird der Zusammenhang zwischen dem Absatz eines Produkshytes und seinem Preis sowie anderen den Absatz beeinflussenden Variablen wie Werbung Verkaufsfoumlrderung etc Die Regressionsanalyse bietet in einem solchen Fall Hilfe bei zB folgenden Fragen Wie wirkt der Preis auf die Absatzmenge Welche Absatzmenge ist zu erwarten wenn der Preis und gleichzeitig auch die Werbeausgaben um vorgegebene Groumlszligen veraumlndert werden (Abbildung 12)

Abbildung 11 Die Variablen der Regressionsanalyse

REGRESSIONSANAL YSE

eine eine oder mehrere ABHAumlNGIGE VARIABLE UNABHAumlNGIGE VARIABLE metrisch metrisch und nominal Y Xl Xz Xi XJ

Abbildung 12 Beispiel zur Regressionsanalyse

REGRESSIONSANAL YSE

Absatzmenge eines Preis Produktes Werbung

Verkaufsilirderung etc

Y Xl X2middot X j XJ

rDer primaumlre Anwendungsbereich der Regressionsanalyse ist die Untersuchung von Kausalbeziehungen (Ursache-Wirkungs-Beziehungen) die wir auch als Je-DestoshyBeziehungen bezeichnen koumlnnen Im einfachsten Fall laumlszligt sich eine solche Bezieshyhung zwischen zwei Variablen der abhaumlngigen Variablen Y und der unabhaumlngigen Variablen X wie folgt ausdruumlcken

Y = f(X) (la)

Beispiel Absatzmenge = f(Preis) Je niedriger der Preis desto groumlszliger die abgeshysetzte Menge Die Aumlnderungen von Y sind Wirkungen der Aumlnderungen von X (Ursache) Mit Hilfe der Regressionsanalyse laumlszligt sich diese Beziehung quantishyfizieren und damit angeben wie groszlig die Aumlnderung der Absatzmenge bei einer beshystimmten Preisaumlnderung ist

t Bei vielen Problemstellungen liegt keine monokausale Beziehung vor sondern

die zu untersuchende Variable Y wird durch zahlreiche Groumlszligen beeinfluszligt So wirshyken neben dem Preis auch andere Maszlignahmen wie Werbung Verkaufsfoumlrderung etc auf die Absatzmenge Dies laumlszligt sich formal wie folgt ausdrucken

Y = f(X 1 X2 Xj XJ) (1 b)

Probleme der Form (la) lassen sich mittels einfacher Regressionsanayse behanshydeln und Probleme der Form (1 b) mittels multipler Regressionsanalyse In jedem Fall muszlig der Untersucher vor Durchftlhrung einer Regressionsanalyse entscheiden welches die abhaumlngige und welches die unabhaumlngige(n) Variable(n) ist (sind) Dieshyse Entscheidung liegt oft auf der Hand So ist sicherlich der Absatz eines Eisvershykaumlufers abhaumlngig vom Wetter und nicht umgekehrt Manchmal jedoch ist diese Entscheidung schwierig

Beispiel Zu untersuchen sind die Beziehungen zwischen dem Absatz eines Proshyduktes und seinem Bekanntheitsgrad Welche der beiden Variablen ist die abhaumlnshygige welche die unabhaumlngige Eine Erhoumlhung des Bekanntheitsgrades eines Proshyduktes bewirkt LdR auch eine Erhoumlhung der Absatzmenge Umgekehrt aber wird der Absatz und die damit verbundene Verbreitung des Produktes auch eine Erhoumlshyhung des Bekanntheitsgrades bewirken Aumlhnlich verhaumllt es sich zB im Bereich der Volkswirtschaft zwischen Angebot und Nachfrage

Derartige interdependente Beziehungen lassen sich nicht mehr mit einer einzigen Gleichung erfassen Vielmehr sind hierftlr Mehrgleichungsmodelle (simultane Gleichungssysteme) erforderlich deren Behandlung den hier gegebenen Rahmen

lallerdings sprengen wuumlrde Wir beschraumlnken uns hier auf Fragestellungen in deshynen eine einseitige Wirkungsbeziehung unterstellt werden kann

Die Bezeichnungen abhaumlngige und unabhaumlngige Variable duumlrfen nicht darshyuumlber hinwegtaumluschen daszlig es sich bei der in einer Regressionsanalyse unterstellten Kausalbeziehung oft nur um eine Hypothese handelt dh eine Vermutung des Unshytersuchers Eine derartige Hypothese muszlig immer auf ihre Plausibilitaumlt gepruumlft wershyden und dazu bedarf es auszligerstatistischen Wissens dh theoretischer und sachloshy

shyglscher Uberlegungen oder auch der Durchftlhrung von Experimenten 2

1 Siehe hierzu zB Schneeweiszlig H 1990 S 242ff Kmenta J 1997 S 651 ff Greene WH 1997 S 708ff

2 Siehe hierzu zB Hammann PErichson B 2000 S 180ff

bull 1ampu 115 L- ~ yplscne lragestellungen der Regressionsanalyse

Fragestellung Abhaumlngige Variable Unabhaumlngige Variable 1 Haumlngt die Houmlhe des Ver- Umsatz pro Verkaumlufer pro Zahl der Kundenbesuchekaumluferumsatzes von der Periode pro Verkaumlufer pro PeriodeZahl der Kundenbesuche

ab

2 Wie wird sich der Absatz Absatzmenge pro Periode Ausgaben rur Werbung proaumlndern wenn die Wer-Periode oder Sekundenbung verdoppelt wird Werbefunk oder Zahl der Inserate etc

3 Reicht es aus die Be- Absatzmenge pro Periode Zahl der Vertreterbesucheziehung zwischen Absatz Preis pro Packung Ausgashyund Werbung zu untersushyben rur Werbung pro Perishychen oder haben auch odePreis und Zahl der Vershy

treterbesuche eine Bedeushytung rur den Absatz

4 Wie laumlszligt sich die Entwick- Absatzmenge pro Monat t Menge pro Monat t - k lung des Absatzes in den (k 12 K)naumlchsten Monaten schaumltshyzen

5 Wie erfaszligt man die Wir- Absatzmenge in Periode t Werbung in Periode tkungsverzoumlgerung der Werbung in Periode t - 1Werbung Werbung in Periode t - 2 etc

6 Wie wirkt eine Preis- Absatzmenge pro Periode Ausgaben rur Werbungerhoumlhung Von 10 auf Preis Einstellung und koshyden Absatz wenn gleichshygnitive Dissonanzzeitig die Werbeausgaben

um 10 erhoumlht werden 7 Sind das wahrgenommene Anteile der Wiederho-

Risiko die Einstellung zu einer Marke und die Abshy

neigung gegen kognitive

Rating-Werte rur empfunshylungskaumlufe einer Marke an denes Risiko Einstellungallen Kaumlufen eines beshy und kognitive Dissonanz stimmten Produktes durch

Dissonanzen Faktoren die einen Kaumlufer die Markentreue von Konshysumenten beeinflussen

Es soll hier betont werden daszlig sich weder mittels Regressionsanalyse noch sonstishyger statistischer Verfahren Kausalitaumlten zweifelsfrei nachweisen lassen Vielmehr vermag die Regressionsanalyse nur Korrelationen zwischen Variablen nachzuweishysen Dies ist zwar eine notwendige aber noch keine hinreichende Bedingung fuumlr

Kausalitaumlt Im Gegensatz zu einer einfachen Korrelationsanalyse vermag die Reshygressionsanalyse allerdings sehr viel mehr zu leisten

Typische Fragestellungen die mit Hilfe der Regressionsanalyse untersucht wershyden sowie moumlgliche Definitionen der jeweils abhaumlngigen und unabhaumlngigen Vashyriablen zeigt Abbildung 13 Der Fall Nr 4 in Abbildung 13 stellt einen Spezialfall der Regressionsanalyse dar die Zeitreihenanalyse Sie untersucht die Abhaumlngigshy

I keit einer Variablen von der Zeit Formal beinhaltet sie die Schaumltzung einer Funkshy

tion Y = f(t) wobei t einen Zeitindex bezeichnet Bei Kenntnis dieser Funktion ist es moumlglich die Werte der Variablen Y fuumlr zukuumlnftige Perioden zu schaumltzen (proshygnostizieren) In das Gebiet der Zeitreihenanalyse fallen insbesondere Trendanalyshy

)d sen und -prognosen aber auch die Analyse von saisonalen und konjunkturellen

Schwankungen oder von Wachstums- und Saumlttigungsprozessen Abbildung 14 faszligt die in Abbildung 13 beispielhaft aufgefuumlhrten Fragestellungen zu den drei zentralen Anwendungsbereichen der Regressionsanalyse zusammen

Abbildung 14 Anwendungsbereiche der Regressionsanalyse

Ursachenanalysen Wie stark ist der Einfluszlig der unabhaumlnshygigen Variablen auf die abhaumlngige Vashyriable

Wirkungsprognosen Wie veraumlndert sich die abhaumlngige Vashyriable bei einer Aumlnderung der unabshyhaumlngigen Variablen

Zeitreihenanalysen Wie veraumlndert sich die abhaumlngige Vashyriable im Zeitablaufund somit ceteris pari bus auch in der Zukunft

Fuumlr die Variablen der Regressionsanalyse werden unterschiedliche Bezeichnungen verwendet was oft verwirrend wirkt Die Bezeichnungen abhaumlngige und unabshyhaumlngige Variable sind zwar die gebraumluchlichsten koumlnnen aber wie oben dargeshylegt Anlaszlig zu Miszligverstaumlndnissen geben In Abbildung 15 finden sich vier weitere Bezeichnungen Die Benennung der Variablen als Regressanden und Regressoren erscheinen am neutralsten und sind somit zur Vermeidung von Miszligverstaumlndnissen besonders geeignet

Der Begriff der Regression stammt von dem englischen Wissenschaftler Sir Francis Galton (1822 - 1911) der die Abhaumlngigkeit der Koumlrpergroumlszlige von Soumlhnen in Abhaumlngigkeit von der Koumlrpergroumlszlige ihrer Vaumlter untersuchte und dabei die Tenshydenz einer Ruumlckkehr (regress) zur durchschnittlichen Koumlrpergroumlszlige feststellte Dh zB daszlig die Soumlhne von extrem groszligen Vaumltern tendenziell weniger groszlig und die von extrem kleinen Vaumltern tendenziell weniger klein sind

50 Regressionsanalyse

Abbildung 15 Alternative Bezeichnungen der Variablen in der Regressionsanalyse

y Xl X2 Xj XJ i

Regressand Regressoren

abhaumlngige Variable unabhaumlngige Variable

endogene Variable exogene Variable

erklaumlrte Variable erklaumlrende Variable

Prognosevariable Praumldiktorvariabl e

Die Regressionsanalyse ist immer anwendbar wenn sowohl die abhaumlngige als auch die unabhaumlngige(n) Variable(n) metrisches Skalenniveau besitzen es sich also um quantitative Variablen handelt Dies ist der klassische Fall Wir hatten aber bereits in der Einleitung darauf hingewiesen daszlig sich durch Anwendung der DummyshyVariablen-Technik qualitative (nominalskalierte) Variablen in binaumlre Variablenmiddot umwandeln lassen die dann wie metrische Variablen behandelt werden koumlnnen Allerdings steigt dadurch die Anzahl der Variablen so daszlig diese Technik nur fuumlr die unabhaumlngigen Variablen deren Zahl zumindest prinzipiell nicht begrenzt ist genutzt werden kann Der Anwendungsbereich der Regressionsanalyse laumlszligt sich damit ganz erheblich erweitern

Es ist somit grundsaumltzlich moumlglich alle Problemstellungen der Varianzanalyse mit Hilfe der Regressionsanalyse zu behandeln (weungleich dies nicht immer zweckmaumlszligig ist) Auch eine einzelne binaumlre Variable kann in der Regressionsshyanalyse als abhaumlngige Variable fungieren und es lassen sich so in beschraumlnktem Umfang auch Probleme der Diskriminanzanalyse (Zwei-Gruppen-Fall) mittels der Regressionsanalyse behandeln Eine Erweiterung der Regressionsanalyse fuumlr noshyminalskalierte abhaumlngige Variable ist die Logistische Regression Auch in anderen Analyseverfahren (zB Conjoint-Measurement Pfadanalyse) findet die Regressishyonsanalyse vielfaumlltige Anwendung

Anwendungsbeispiel

Wir wollen die Grundgedanken der Regressionsanalyse zunaumlchst an einem kleinen Beispiel demonstrieren Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmaumlszligigen Absatz seiner Marke nicht zufrieden Er stellt zunaumlchst fest daszlig der Absatz zwischen seinen Verkaufsgebieten stark differiert Er moumlchte wissen warum die Werte so stark differieren und deshalb pruumlfen von welchen Faktoren die er beeinflussen kann im wesentlichen der Absatz abhaumlngt Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich groszligen Vershykaufsgebieten Er sammelt fuumlr die Untersuchungsperiode Daten uumlber die abgesetzte Menge den Preis die Ausgaben fuumlr Verkaufsf6rderung sowie die Zahl der Vershytreterbesuche Folgendes Ergebnis zeigt sich (vgl Abbildung 16) Die Rohdaten dieses Beispiels enthalten die Werte von vier Variablen unter denen MENGE als

Vorgehensweise 51

abhaumlngige und PREIS AUSGABEN (fuumlr Verkaufsfoumlrderung) sowie (Zahl der Vertreter-) BESUCHE als unabhaumlngige Variablen in Frage kommen Der Vershykaufsleiter haumllt diese Einfluszliggroumlszligen fUr relevant

Die Untersuchung soll nun Antwort auf die Frage geben ob und wie die genannshyten Einfluszliggroumlszligen si~h auf die Absatzmenge auswirken Wenn ein ursaumlchlicher Zusammenhang zwischen z B Vertreterbesuchen und Absatzmenge gegeben waumlshyre dann muumlszligten uumlberdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) aufUnterschiede in der Zahl der Besuche zuruumlckfUhren lassen z B je houmlher die Zahl der Vertreterbesuche desto houmlher der Absatz

Zum besseren Verstaumlndnis wird im folgenden zunaumlchst eine einfache Regressishyonsanalyse dargestellt wobei wir hier unter den Einfluszliggroumlszligen die Variable BEshySUCHE herausgreifen

Abbildung 16 Ausgangsdaten des Rechenbeispiels

Nr Menge Kartons

pro Periode (MENGE)

Preis pro Karton

(PREIS)

Ausgaben fUr Verkaufsshyfoumlrderung

(AUSGABEN)

Zahl der Vershytretershy

besuche (BESUCHE)

1 2585 1250 2000 109 2 1819 1000 550 I107 3 1647 995 1000 99 4 1496 1150 800 70 5 921 1200 0 81 6 2278 1000 1500 102 7 1810 800 800 110 8 1987 900 1200 92 9 1612 950 1100 87

10 1913 1250 1300 79

12 Vorgehensweise

Bei der Regressionsanalyse geht man regelmaumlszligig in einer bestimmten der Methoshyde entsprechenden Schrittfolge vor Zunaumlchst geht es darum das sachlich zugrunde liegende Ursache-Wirkungs-Modell in Form einer linearen Regressionsbeziehung zu bestimmen Im Anschluszlig daran wird die Regressionsfunktion geschaumltzt In eimiddot nem dritten Schritt schlieszliglich wird die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels gepruumlft Den Ablauf zeigt Abbildung 17

1

- _

Abbildung 17 Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schaumltzung der Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

(4) Pruumlfung der Regressionskoeffizienten

(5) Pruumlfung der Modellpraumlmissen

121 Modellformulierung

Das zu untersuchende lineare Regressionsmodell muszlig aufgrund von Vorabuumlberlegungen des Forschers entshyworfen werden Dabei spielen ausschlieszliglich fachliche

Schaumltzung der Regressionsfunktion Gesichtspunkte eine Rolle Methodenanalytische Frashy

gen treten in dieser Phase zunaumlchst in den Hintergrund I(3) Pruumlfung er Das Bemuumlhen des Forschers sollte dahin gehen daszlig i Regresslonsfunkuumlon ein Untersuchungsansatz gewaumlhlt wird der die vermu-

teten Ursache-Wirkungs-Bezienungen moumlglichst vollshystaumlndig enthaumllt Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse

(5 Pruumlfung der Modellpraumlmissen I In unserell1 Beispiel vermutet der Verkaufsleiter aufshygrund seiner Erfahrungen bei der Einschaumltzung des

Marktes daszlig die Absatzmenge von der Zahl der Vertreterbesuche abhaumlngig ist Im einfachsten Fall sollte dieser Zusammenhang linear sein Ob eine lineare Bezieshyhung unterstellt werden kann laumlszligt sich eventuell (jeweils fuumlr zwei Variablen die abhaumlngige und je eine unabhaumlngige) anhand eines Streudiagramms erkennen in dem die Beobachtungswerte als Punkte eingezeichnet werden Ein linearer Zushysammenhang liegt vor wenn die Punkte eng um eine gedachte Gerade streuen Im betrachteten Beispiel ergibt sich das in Abbildung 18 wiedergegebene Diagramm Die Punkte liegen zwar ziemlich verstreut es ist jedoch ein gewisser Zusammenshyhang zu erkennen

Vorgehensweise 53

Abbildung 18 Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

Menge Kartons pro Periode

2650 bull+ 2450

t bull t

2250

2050 ~ bull 1850 bull bull bull 1650

1450 + bull bull bull

1250 +1

1050 I

8501

Zahl der Besuche pro Periode

I )0

68 78 88 98 108

122 Schaumltzung der Regressionsfunktion

1221 Einfache Regression

Um das grundsaumltzliche Vorgehen der Regressionsshyanalyse zeigen zu koumlnnen gehen wir von der graph ishysehen Darstellung einer empirischen Punkteverteilung

[(3) Pruumlfuder- in einem zweidimensionalen Koordinatensystem aus I Regressionsfunktion Der Leser moumlge sich noch einmal die Fragestellung der

Analyse vergegenwaumlrtigen Es geht um die Schaumltzung (4) Pruumlfung der der Wirkung der Zahl der Vertreterbesuche aufdie AbshyRegressionskoeffizlenten

satzmenge Gesucht wird also eine Schaumltzung der sich l ergebenden Absatzmenge fuumlr beliebige Zahlen der

(5) Pruumlfung der Modelpraumlmissen I 1 Vertreterbesuche Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der bei den Variablen erfolgen die in Abbildung 18 grafisch dargestellt sind In Abbildung 19 sind zwei Punkte (Xk Yk) die Beobachtungen 6 und 9 mit den Werten (102 2278) und (87 1612) hervorgehoben

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 2: Backhaus Kapitel Regressionsanalyse

11 yrOOlemsteUung

Die Regressionsanalyse bildet eines der flexibelsten und am haumlufigsten eingesetzshyten statistischen Analyseverfahren Sie dient der Analyse von Beziehungen zwishyschen einer abhaumlngigen Variablen und einer oder mehreren unabhaumlngigen Vashyriablen (Abbildung 11) Insbesondere wird sie eingesetzt um

- Zusammenhaumlnge quantitativ zu beschrei)gten und sie zu erklaumlren - Werte der abhaumlngigen Variablen zu schaumltzen bzw zu prognostiz~eren

Beispiel Untersucht wird der Zusammenhang zwischen dem Absatz eines Produkshytes und seinem Preis sowie anderen den Absatz beeinflussenden Variablen wie Werbung Verkaufsfoumlrderung etc Die Regressionsanalyse bietet in einem solchen Fall Hilfe bei zB folgenden Fragen Wie wirkt der Preis auf die Absatzmenge Welche Absatzmenge ist zu erwarten wenn der Preis und gleichzeitig auch die Werbeausgaben um vorgegebene Groumlszligen veraumlndert werden (Abbildung 12)

Abbildung 11 Die Variablen der Regressionsanalyse

REGRESSIONSANAL YSE

eine eine oder mehrere ABHAumlNGIGE VARIABLE UNABHAumlNGIGE VARIABLE metrisch metrisch und nominal Y Xl Xz Xi XJ

Abbildung 12 Beispiel zur Regressionsanalyse

REGRESSIONSANAL YSE

Absatzmenge eines Preis Produktes Werbung

Verkaufsilirderung etc

Y Xl X2middot X j XJ

rDer primaumlre Anwendungsbereich der Regressionsanalyse ist die Untersuchung von Kausalbeziehungen (Ursache-Wirkungs-Beziehungen) die wir auch als Je-DestoshyBeziehungen bezeichnen koumlnnen Im einfachsten Fall laumlszligt sich eine solche Bezieshyhung zwischen zwei Variablen der abhaumlngigen Variablen Y und der unabhaumlngigen Variablen X wie folgt ausdruumlcken

Y = f(X) (la)

Beispiel Absatzmenge = f(Preis) Je niedriger der Preis desto groumlszliger die abgeshysetzte Menge Die Aumlnderungen von Y sind Wirkungen der Aumlnderungen von X (Ursache) Mit Hilfe der Regressionsanalyse laumlszligt sich diese Beziehung quantishyfizieren und damit angeben wie groszlig die Aumlnderung der Absatzmenge bei einer beshystimmten Preisaumlnderung ist

t Bei vielen Problemstellungen liegt keine monokausale Beziehung vor sondern

die zu untersuchende Variable Y wird durch zahlreiche Groumlszligen beeinfluszligt So wirshyken neben dem Preis auch andere Maszlignahmen wie Werbung Verkaufsfoumlrderung etc auf die Absatzmenge Dies laumlszligt sich formal wie folgt ausdrucken

Y = f(X 1 X2 Xj XJ) (1 b)

Probleme der Form (la) lassen sich mittels einfacher Regressionsanayse behanshydeln und Probleme der Form (1 b) mittels multipler Regressionsanalyse In jedem Fall muszlig der Untersucher vor Durchftlhrung einer Regressionsanalyse entscheiden welches die abhaumlngige und welches die unabhaumlngige(n) Variable(n) ist (sind) Dieshyse Entscheidung liegt oft auf der Hand So ist sicherlich der Absatz eines Eisvershykaumlufers abhaumlngig vom Wetter und nicht umgekehrt Manchmal jedoch ist diese Entscheidung schwierig

Beispiel Zu untersuchen sind die Beziehungen zwischen dem Absatz eines Proshyduktes und seinem Bekanntheitsgrad Welche der beiden Variablen ist die abhaumlnshygige welche die unabhaumlngige Eine Erhoumlhung des Bekanntheitsgrades eines Proshyduktes bewirkt LdR auch eine Erhoumlhung der Absatzmenge Umgekehrt aber wird der Absatz und die damit verbundene Verbreitung des Produktes auch eine Erhoumlshyhung des Bekanntheitsgrades bewirken Aumlhnlich verhaumllt es sich zB im Bereich der Volkswirtschaft zwischen Angebot und Nachfrage

Derartige interdependente Beziehungen lassen sich nicht mehr mit einer einzigen Gleichung erfassen Vielmehr sind hierftlr Mehrgleichungsmodelle (simultane Gleichungssysteme) erforderlich deren Behandlung den hier gegebenen Rahmen

lallerdings sprengen wuumlrde Wir beschraumlnken uns hier auf Fragestellungen in deshynen eine einseitige Wirkungsbeziehung unterstellt werden kann

Die Bezeichnungen abhaumlngige und unabhaumlngige Variable duumlrfen nicht darshyuumlber hinwegtaumluschen daszlig es sich bei der in einer Regressionsanalyse unterstellten Kausalbeziehung oft nur um eine Hypothese handelt dh eine Vermutung des Unshytersuchers Eine derartige Hypothese muszlig immer auf ihre Plausibilitaumlt gepruumlft wershyden und dazu bedarf es auszligerstatistischen Wissens dh theoretischer und sachloshy

shyglscher Uberlegungen oder auch der Durchftlhrung von Experimenten 2

1 Siehe hierzu zB Schneeweiszlig H 1990 S 242ff Kmenta J 1997 S 651 ff Greene WH 1997 S 708ff

2 Siehe hierzu zB Hammann PErichson B 2000 S 180ff

bull 1ampu 115 L- ~ yplscne lragestellungen der Regressionsanalyse

Fragestellung Abhaumlngige Variable Unabhaumlngige Variable 1 Haumlngt die Houmlhe des Ver- Umsatz pro Verkaumlufer pro Zahl der Kundenbesuchekaumluferumsatzes von der Periode pro Verkaumlufer pro PeriodeZahl der Kundenbesuche

ab

2 Wie wird sich der Absatz Absatzmenge pro Periode Ausgaben rur Werbung proaumlndern wenn die Wer-Periode oder Sekundenbung verdoppelt wird Werbefunk oder Zahl der Inserate etc

3 Reicht es aus die Be- Absatzmenge pro Periode Zahl der Vertreterbesucheziehung zwischen Absatz Preis pro Packung Ausgashyund Werbung zu untersushyben rur Werbung pro Perishychen oder haben auch odePreis und Zahl der Vershy

treterbesuche eine Bedeushytung rur den Absatz

4 Wie laumlszligt sich die Entwick- Absatzmenge pro Monat t Menge pro Monat t - k lung des Absatzes in den (k 12 K)naumlchsten Monaten schaumltshyzen

5 Wie erfaszligt man die Wir- Absatzmenge in Periode t Werbung in Periode tkungsverzoumlgerung der Werbung in Periode t - 1Werbung Werbung in Periode t - 2 etc

6 Wie wirkt eine Preis- Absatzmenge pro Periode Ausgaben rur Werbungerhoumlhung Von 10 auf Preis Einstellung und koshyden Absatz wenn gleichshygnitive Dissonanzzeitig die Werbeausgaben

um 10 erhoumlht werden 7 Sind das wahrgenommene Anteile der Wiederho-

Risiko die Einstellung zu einer Marke und die Abshy

neigung gegen kognitive

Rating-Werte rur empfunshylungskaumlufe einer Marke an denes Risiko Einstellungallen Kaumlufen eines beshy und kognitive Dissonanz stimmten Produktes durch

Dissonanzen Faktoren die einen Kaumlufer die Markentreue von Konshysumenten beeinflussen

Es soll hier betont werden daszlig sich weder mittels Regressionsanalyse noch sonstishyger statistischer Verfahren Kausalitaumlten zweifelsfrei nachweisen lassen Vielmehr vermag die Regressionsanalyse nur Korrelationen zwischen Variablen nachzuweishysen Dies ist zwar eine notwendige aber noch keine hinreichende Bedingung fuumlr

Kausalitaumlt Im Gegensatz zu einer einfachen Korrelationsanalyse vermag die Reshygressionsanalyse allerdings sehr viel mehr zu leisten

Typische Fragestellungen die mit Hilfe der Regressionsanalyse untersucht wershyden sowie moumlgliche Definitionen der jeweils abhaumlngigen und unabhaumlngigen Vashyriablen zeigt Abbildung 13 Der Fall Nr 4 in Abbildung 13 stellt einen Spezialfall der Regressionsanalyse dar die Zeitreihenanalyse Sie untersucht die Abhaumlngigshy

I keit einer Variablen von der Zeit Formal beinhaltet sie die Schaumltzung einer Funkshy

tion Y = f(t) wobei t einen Zeitindex bezeichnet Bei Kenntnis dieser Funktion ist es moumlglich die Werte der Variablen Y fuumlr zukuumlnftige Perioden zu schaumltzen (proshygnostizieren) In das Gebiet der Zeitreihenanalyse fallen insbesondere Trendanalyshy

)d sen und -prognosen aber auch die Analyse von saisonalen und konjunkturellen

Schwankungen oder von Wachstums- und Saumlttigungsprozessen Abbildung 14 faszligt die in Abbildung 13 beispielhaft aufgefuumlhrten Fragestellungen zu den drei zentralen Anwendungsbereichen der Regressionsanalyse zusammen

Abbildung 14 Anwendungsbereiche der Regressionsanalyse

Ursachenanalysen Wie stark ist der Einfluszlig der unabhaumlnshygigen Variablen auf die abhaumlngige Vashyriable

Wirkungsprognosen Wie veraumlndert sich die abhaumlngige Vashyriable bei einer Aumlnderung der unabshyhaumlngigen Variablen

Zeitreihenanalysen Wie veraumlndert sich die abhaumlngige Vashyriable im Zeitablaufund somit ceteris pari bus auch in der Zukunft

Fuumlr die Variablen der Regressionsanalyse werden unterschiedliche Bezeichnungen verwendet was oft verwirrend wirkt Die Bezeichnungen abhaumlngige und unabshyhaumlngige Variable sind zwar die gebraumluchlichsten koumlnnen aber wie oben dargeshylegt Anlaszlig zu Miszligverstaumlndnissen geben In Abbildung 15 finden sich vier weitere Bezeichnungen Die Benennung der Variablen als Regressanden und Regressoren erscheinen am neutralsten und sind somit zur Vermeidung von Miszligverstaumlndnissen besonders geeignet

Der Begriff der Regression stammt von dem englischen Wissenschaftler Sir Francis Galton (1822 - 1911) der die Abhaumlngigkeit der Koumlrpergroumlszlige von Soumlhnen in Abhaumlngigkeit von der Koumlrpergroumlszlige ihrer Vaumlter untersuchte und dabei die Tenshydenz einer Ruumlckkehr (regress) zur durchschnittlichen Koumlrpergroumlszlige feststellte Dh zB daszlig die Soumlhne von extrem groszligen Vaumltern tendenziell weniger groszlig und die von extrem kleinen Vaumltern tendenziell weniger klein sind

50 Regressionsanalyse

Abbildung 15 Alternative Bezeichnungen der Variablen in der Regressionsanalyse

y Xl X2 Xj XJ i

Regressand Regressoren

abhaumlngige Variable unabhaumlngige Variable

endogene Variable exogene Variable

erklaumlrte Variable erklaumlrende Variable

Prognosevariable Praumldiktorvariabl e

Die Regressionsanalyse ist immer anwendbar wenn sowohl die abhaumlngige als auch die unabhaumlngige(n) Variable(n) metrisches Skalenniveau besitzen es sich also um quantitative Variablen handelt Dies ist der klassische Fall Wir hatten aber bereits in der Einleitung darauf hingewiesen daszlig sich durch Anwendung der DummyshyVariablen-Technik qualitative (nominalskalierte) Variablen in binaumlre Variablenmiddot umwandeln lassen die dann wie metrische Variablen behandelt werden koumlnnen Allerdings steigt dadurch die Anzahl der Variablen so daszlig diese Technik nur fuumlr die unabhaumlngigen Variablen deren Zahl zumindest prinzipiell nicht begrenzt ist genutzt werden kann Der Anwendungsbereich der Regressionsanalyse laumlszligt sich damit ganz erheblich erweitern

Es ist somit grundsaumltzlich moumlglich alle Problemstellungen der Varianzanalyse mit Hilfe der Regressionsanalyse zu behandeln (weungleich dies nicht immer zweckmaumlszligig ist) Auch eine einzelne binaumlre Variable kann in der Regressionsshyanalyse als abhaumlngige Variable fungieren und es lassen sich so in beschraumlnktem Umfang auch Probleme der Diskriminanzanalyse (Zwei-Gruppen-Fall) mittels der Regressionsanalyse behandeln Eine Erweiterung der Regressionsanalyse fuumlr noshyminalskalierte abhaumlngige Variable ist die Logistische Regression Auch in anderen Analyseverfahren (zB Conjoint-Measurement Pfadanalyse) findet die Regressishyonsanalyse vielfaumlltige Anwendung

Anwendungsbeispiel

Wir wollen die Grundgedanken der Regressionsanalyse zunaumlchst an einem kleinen Beispiel demonstrieren Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmaumlszligigen Absatz seiner Marke nicht zufrieden Er stellt zunaumlchst fest daszlig der Absatz zwischen seinen Verkaufsgebieten stark differiert Er moumlchte wissen warum die Werte so stark differieren und deshalb pruumlfen von welchen Faktoren die er beeinflussen kann im wesentlichen der Absatz abhaumlngt Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich groszligen Vershykaufsgebieten Er sammelt fuumlr die Untersuchungsperiode Daten uumlber die abgesetzte Menge den Preis die Ausgaben fuumlr Verkaufsf6rderung sowie die Zahl der Vershytreterbesuche Folgendes Ergebnis zeigt sich (vgl Abbildung 16) Die Rohdaten dieses Beispiels enthalten die Werte von vier Variablen unter denen MENGE als

Vorgehensweise 51

abhaumlngige und PREIS AUSGABEN (fuumlr Verkaufsfoumlrderung) sowie (Zahl der Vertreter-) BESUCHE als unabhaumlngige Variablen in Frage kommen Der Vershykaufsleiter haumllt diese Einfluszliggroumlszligen fUr relevant

Die Untersuchung soll nun Antwort auf die Frage geben ob und wie die genannshyten Einfluszliggroumlszligen si~h auf die Absatzmenge auswirken Wenn ein ursaumlchlicher Zusammenhang zwischen z B Vertreterbesuchen und Absatzmenge gegeben waumlshyre dann muumlszligten uumlberdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) aufUnterschiede in der Zahl der Besuche zuruumlckfUhren lassen z B je houmlher die Zahl der Vertreterbesuche desto houmlher der Absatz

Zum besseren Verstaumlndnis wird im folgenden zunaumlchst eine einfache Regressishyonsanalyse dargestellt wobei wir hier unter den Einfluszliggroumlszligen die Variable BEshySUCHE herausgreifen

Abbildung 16 Ausgangsdaten des Rechenbeispiels

Nr Menge Kartons

pro Periode (MENGE)

Preis pro Karton

(PREIS)

Ausgaben fUr Verkaufsshyfoumlrderung

(AUSGABEN)

Zahl der Vershytretershy

besuche (BESUCHE)

1 2585 1250 2000 109 2 1819 1000 550 I107 3 1647 995 1000 99 4 1496 1150 800 70 5 921 1200 0 81 6 2278 1000 1500 102 7 1810 800 800 110 8 1987 900 1200 92 9 1612 950 1100 87

10 1913 1250 1300 79

12 Vorgehensweise

Bei der Regressionsanalyse geht man regelmaumlszligig in einer bestimmten der Methoshyde entsprechenden Schrittfolge vor Zunaumlchst geht es darum das sachlich zugrunde liegende Ursache-Wirkungs-Modell in Form einer linearen Regressionsbeziehung zu bestimmen Im Anschluszlig daran wird die Regressionsfunktion geschaumltzt In eimiddot nem dritten Schritt schlieszliglich wird die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels gepruumlft Den Ablauf zeigt Abbildung 17

1

- _

Abbildung 17 Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schaumltzung der Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

(4) Pruumlfung der Regressionskoeffizienten

(5) Pruumlfung der Modellpraumlmissen

121 Modellformulierung

Das zu untersuchende lineare Regressionsmodell muszlig aufgrund von Vorabuumlberlegungen des Forschers entshyworfen werden Dabei spielen ausschlieszliglich fachliche

Schaumltzung der Regressionsfunktion Gesichtspunkte eine Rolle Methodenanalytische Frashy

gen treten in dieser Phase zunaumlchst in den Hintergrund I(3) Pruumlfung er Das Bemuumlhen des Forschers sollte dahin gehen daszlig i Regresslonsfunkuumlon ein Untersuchungsansatz gewaumlhlt wird der die vermu-

teten Ursache-Wirkungs-Bezienungen moumlglichst vollshystaumlndig enthaumllt Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse

(5 Pruumlfung der Modellpraumlmissen I In unserell1 Beispiel vermutet der Verkaufsleiter aufshygrund seiner Erfahrungen bei der Einschaumltzung des

Marktes daszlig die Absatzmenge von der Zahl der Vertreterbesuche abhaumlngig ist Im einfachsten Fall sollte dieser Zusammenhang linear sein Ob eine lineare Bezieshyhung unterstellt werden kann laumlszligt sich eventuell (jeweils fuumlr zwei Variablen die abhaumlngige und je eine unabhaumlngige) anhand eines Streudiagramms erkennen in dem die Beobachtungswerte als Punkte eingezeichnet werden Ein linearer Zushysammenhang liegt vor wenn die Punkte eng um eine gedachte Gerade streuen Im betrachteten Beispiel ergibt sich das in Abbildung 18 wiedergegebene Diagramm Die Punkte liegen zwar ziemlich verstreut es ist jedoch ein gewisser Zusammenshyhang zu erkennen

Vorgehensweise 53

Abbildung 18 Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

Menge Kartons pro Periode

2650 bull+ 2450

t bull t

2250

2050 ~ bull 1850 bull bull bull 1650

1450 + bull bull bull

1250 +1

1050 I

8501

Zahl der Besuche pro Periode

I )0

68 78 88 98 108

122 Schaumltzung der Regressionsfunktion

1221 Einfache Regression

Um das grundsaumltzliche Vorgehen der Regressionsshyanalyse zeigen zu koumlnnen gehen wir von der graph ishysehen Darstellung einer empirischen Punkteverteilung

[(3) Pruumlfuder- in einem zweidimensionalen Koordinatensystem aus I Regressionsfunktion Der Leser moumlge sich noch einmal die Fragestellung der

Analyse vergegenwaumlrtigen Es geht um die Schaumltzung (4) Pruumlfung der der Wirkung der Zahl der Vertreterbesuche aufdie AbshyRegressionskoeffizlenten

satzmenge Gesucht wird also eine Schaumltzung der sich l ergebenden Absatzmenge fuumlr beliebige Zahlen der

(5) Pruumlfung der Modelpraumlmissen I 1 Vertreterbesuche Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der bei den Variablen erfolgen die in Abbildung 18 grafisch dargestellt sind In Abbildung 19 sind zwei Punkte (Xk Yk) die Beobachtungen 6 und 9 mit den Werten (102 2278) und (87 1612) hervorgehoben

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 3: Backhaus Kapitel Regressionsanalyse

bull 1ampu 115 L- ~ yplscne lragestellungen der Regressionsanalyse

Fragestellung Abhaumlngige Variable Unabhaumlngige Variable 1 Haumlngt die Houmlhe des Ver- Umsatz pro Verkaumlufer pro Zahl der Kundenbesuchekaumluferumsatzes von der Periode pro Verkaumlufer pro PeriodeZahl der Kundenbesuche

ab

2 Wie wird sich der Absatz Absatzmenge pro Periode Ausgaben rur Werbung proaumlndern wenn die Wer-Periode oder Sekundenbung verdoppelt wird Werbefunk oder Zahl der Inserate etc

3 Reicht es aus die Be- Absatzmenge pro Periode Zahl der Vertreterbesucheziehung zwischen Absatz Preis pro Packung Ausgashyund Werbung zu untersushyben rur Werbung pro Perishychen oder haben auch odePreis und Zahl der Vershy

treterbesuche eine Bedeushytung rur den Absatz

4 Wie laumlszligt sich die Entwick- Absatzmenge pro Monat t Menge pro Monat t - k lung des Absatzes in den (k 12 K)naumlchsten Monaten schaumltshyzen

5 Wie erfaszligt man die Wir- Absatzmenge in Periode t Werbung in Periode tkungsverzoumlgerung der Werbung in Periode t - 1Werbung Werbung in Periode t - 2 etc

6 Wie wirkt eine Preis- Absatzmenge pro Periode Ausgaben rur Werbungerhoumlhung Von 10 auf Preis Einstellung und koshyden Absatz wenn gleichshygnitive Dissonanzzeitig die Werbeausgaben

um 10 erhoumlht werden 7 Sind das wahrgenommene Anteile der Wiederho-

Risiko die Einstellung zu einer Marke und die Abshy

neigung gegen kognitive

Rating-Werte rur empfunshylungskaumlufe einer Marke an denes Risiko Einstellungallen Kaumlufen eines beshy und kognitive Dissonanz stimmten Produktes durch

Dissonanzen Faktoren die einen Kaumlufer die Markentreue von Konshysumenten beeinflussen

Es soll hier betont werden daszlig sich weder mittels Regressionsanalyse noch sonstishyger statistischer Verfahren Kausalitaumlten zweifelsfrei nachweisen lassen Vielmehr vermag die Regressionsanalyse nur Korrelationen zwischen Variablen nachzuweishysen Dies ist zwar eine notwendige aber noch keine hinreichende Bedingung fuumlr

Kausalitaumlt Im Gegensatz zu einer einfachen Korrelationsanalyse vermag die Reshygressionsanalyse allerdings sehr viel mehr zu leisten

Typische Fragestellungen die mit Hilfe der Regressionsanalyse untersucht wershyden sowie moumlgliche Definitionen der jeweils abhaumlngigen und unabhaumlngigen Vashyriablen zeigt Abbildung 13 Der Fall Nr 4 in Abbildung 13 stellt einen Spezialfall der Regressionsanalyse dar die Zeitreihenanalyse Sie untersucht die Abhaumlngigshy

I keit einer Variablen von der Zeit Formal beinhaltet sie die Schaumltzung einer Funkshy

tion Y = f(t) wobei t einen Zeitindex bezeichnet Bei Kenntnis dieser Funktion ist es moumlglich die Werte der Variablen Y fuumlr zukuumlnftige Perioden zu schaumltzen (proshygnostizieren) In das Gebiet der Zeitreihenanalyse fallen insbesondere Trendanalyshy

)d sen und -prognosen aber auch die Analyse von saisonalen und konjunkturellen

Schwankungen oder von Wachstums- und Saumlttigungsprozessen Abbildung 14 faszligt die in Abbildung 13 beispielhaft aufgefuumlhrten Fragestellungen zu den drei zentralen Anwendungsbereichen der Regressionsanalyse zusammen

Abbildung 14 Anwendungsbereiche der Regressionsanalyse

Ursachenanalysen Wie stark ist der Einfluszlig der unabhaumlnshygigen Variablen auf die abhaumlngige Vashyriable

Wirkungsprognosen Wie veraumlndert sich die abhaumlngige Vashyriable bei einer Aumlnderung der unabshyhaumlngigen Variablen

Zeitreihenanalysen Wie veraumlndert sich die abhaumlngige Vashyriable im Zeitablaufund somit ceteris pari bus auch in der Zukunft

Fuumlr die Variablen der Regressionsanalyse werden unterschiedliche Bezeichnungen verwendet was oft verwirrend wirkt Die Bezeichnungen abhaumlngige und unabshyhaumlngige Variable sind zwar die gebraumluchlichsten koumlnnen aber wie oben dargeshylegt Anlaszlig zu Miszligverstaumlndnissen geben In Abbildung 15 finden sich vier weitere Bezeichnungen Die Benennung der Variablen als Regressanden und Regressoren erscheinen am neutralsten und sind somit zur Vermeidung von Miszligverstaumlndnissen besonders geeignet

Der Begriff der Regression stammt von dem englischen Wissenschaftler Sir Francis Galton (1822 - 1911) der die Abhaumlngigkeit der Koumlrpergroumlszlige von Soumlhnen in Abhaumlngigkeit von der Koumlrpergroumlszlige ihrer Vaumlter untersuchte und dabei die Tenshydenz einer Ruumlckkehr (regress) zur durchschnittlichen Koumlrpergroumlszlige feststellte Dh zB daszlig die Soumlhne von extrem groszligen Vaumltern tendenziell weniger groszlig und die von extrem kleinen Vaumltern tendenziell weniger klein sind

50 Regressionsanalyse

Abbildung 15 Alternative Bezeichnungen der Variablen in der Regressionsanalyse

y Xl X2 Xj XJ i

Regressand Regressoren

abhaumlngige Variable unabhaumlngige Variable

endogene Variable exogene Variable

erklaumlrte Variable erklaumlrende Variable

Prognosevariable Praumldiktorvariabl e

Die Regressionsanalyse ist immer anwendbar wenn sowohl die abhaumlngige als auch die unabhaumlngige(n) Variable(n) metrisches Skalenniveau besitzen es sich also um quantitative Variablen handelt Dies ist der klassische Fall Wir hatten aber bereits in der Einleitung darauf hingewiesen daszlig sich durch Anwendung der DummyshyVariablen-Technik qualitative (nominalskalierte) Variablen in binaumlre Variablenmiddot umwandeln lassen die dann wie metrische Variablen behandelt werden koumlnnen Allerdings steigt dadurch die Anzahl der Variablen so daszlig diese Technik nur fuumlr die unabhaumlngigen Variablen deren Zahl zumindest prinzipiell nicht begrenzt ist genutzt werden kann Der Anwendungsbereich der Regressionsanalyse laumlszligt sich damit ganz erheblich erweitern

Es ist somit grundsaumltzlich moumlglich alle Problemstellungen der Varianzanalyse mit Hilfe der Regressionsanalyse zu behandeln (weungleich dies nicht immer zweckmaumlszligig ist) Auch eine einzelne binaumlre Variable kann in der Regressionsshyanalyse als abhaumlngige Variable fungieren und es lassen sich so in beschraumlnktem Umfang auch Probleme der Diskriminanzanalyse (Zwei-Gruppen-Fall) mittels der Regressionsanalyse behandeln Eine Erweiterung der Regressionsanalyse fuumlr noshyminalskalierte abhaumlngige Variable ist die Logistische Regression Auch in anderen Analyseverfahren (zB Conjoint-Measurement Pfadanalyse) findet die Regressishyonsanalyse vielfaumlltige Anwendung

Anwendungsbeispiel

Wir wollen die Grundgedanken der Regressionsanalyse zunaumlchst an einem kleinen Beispiel demonstrieren Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmaumlszligigen Absatz seiner Marke nicht zufrieden Er stellt zunaumlchst fest daszlig der Absatz zwischen seinen Verkaufsgebieten stark differiert Er moumlchte wissen warum die Werte so stark differieren und deshalb pruumlfen von welchen Faktoren die er beeinflussen kann im wesentlichen der Absatz abhaumlngt Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich groszligen Vershykaufsgebieten Er sammelt fuumlr die Untersuchungsperiode Daten uumlber die abgesetzte Menge den Preis die Ausgaben fuumlr Verkaufsf6rderung sowie die Zahl der Vershytreterbesuche Folgendes Ergebnis zeigt sich (vgl Abbildung 16) Die Rohdaten dieses Beispiels enthalten die Werte von vier Variablen unter denen MENGE als

Vorgehensweise 51

abhaumlngige und PREIS AUSGABEN (fuumlr Verkaufsfoumlrderung) sowie (Zahl der Vertreter-) BESUCHE als unabhaumlngige Variablen in Frage kommen Der Vershykaufsleiter haumllt diese Einfluszliggroumlszligen fUr relevant

Die Untersuchung soll nun Antwort auf die Frage geben ob und wie die genannshyten Einfluszliggroumlszligen si~h auf die Absatzmenge auswirken Wenn ein ursaumlchlicher Zusammenhang zwischen z B Vertreterbesuchen und Absatzmenge gegeben waumlshyre dann muumlszligten uumlberdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) aufUnterschiede in der Zahl der Besuche zuruumlckfUhren lassen z B je houmlher die Zahl der Vertreterbesuche desto houmlher der Absatz

Zum besseren Verstaumlndnis wird im folgenden zunaumlchst eine einfache Regressishyonsanalyse dargestellt wobei wir hier unter den Einfluszliggroumlszligen die Variable BEshySUCHE herausgreifen

Abbildung 16 Ausgangsdaten des Rechenbeispiels

Nr Menge Kartons

pro Periode (MENGE)

Preis pro Karton

(PREIS)

Ausgaben fUr Verkaufsshyfoumlrderung

(AUSGABEN)

Zahl der Vershytretershy

besuche (BESUCHE)

1 2585 1250 2000 109 2 1819 1000 550 I107 3 1647 995 1000 99 4 1496 1150 800 70 5 921 1200 0 81 6 2278 1000 1500 102 7 1810 800 800 110 8 1987 900 1200 92 9 1612 950 1100 87

10 1913 1250 1300 79

12 Vorgehensweise

Bei der Regressionsanalyse geht man regelmaumlszligig in einer bestimmten der Methoshyde entsprechenden Schrittfolge vor Zunaumlchst geht es darum das sachlich zugrunde liegende Ursache-Wirkungs-Modell in Form einer linearen Regressionsbeziehung zu bestimmen Im Anschluszlig daran wird die Regressionsfunktion geschaumltzt In eimiddot nem dritten Schritt schlieszliglich wird die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels gepruumlft Den Ablauf zeigt Abbildung 17

1

- _

Abbildung 17 Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schaumltzung der Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

(4) Pruumlfung der Regressionskoeffizienten

(5) Pruumlfung der Modellpraumlmissen

121 Modellformulierung

Das zu untersuchende lineare Regressionsmodell muszlig aufgrund von Vorabuumlberlegungen des Forschers entshyworfen werden Dabei spielen ausschlieszliglich fachliche

Schaumltzung der Regressionsfunktion Gesichtspunkte eine Rolle Methodenanalytische Frashy

gen treten in dieser Phase zunaumlchst in den Hintergrund I(3) Pruumlfung er Das Bemuumlhen des Forschers sollte dahin gehen daszlig i Regresslonsfunkuumlon ein Untersuchungsansatz gewaumlhlt wird der die vermu-

teten Ursache-Wirkungs-Bezienungen moumlglichst vollshystaumlndig enthaumllt Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse

(5 Pruumlfung der Modellpraumlmissen I In unserell1 Beispiel vermutet der Verkaufsleiter aufshygrund seiner Erfahrungen bei der Einschaumltzung des

Marktes daszlig die Absatzmenge von der Zahl der Vertreterbesuche abhaumlngig ist Im einfachsten Fall sollte dieser Zusammenhang linear sein Ob eine lineare Bezieshyhung unterstellt werden kann laumlszligt sich eventuell (jeweils fuumlr zwei Variablen die abhaumlngige und je eine unabhaumlngige) anhand eines Streudiagramms erkennen in dem die Beobachtungswerte als Punkte eingezeichnet werden Ein linearer Zushysammenhang liegt vor wenn die Punkte eng um eine gedachte Gerade streuen Im betrachteten Beispiel ergibt sich das in Abbildung 18 wiedergegebene Diagramm Die Punkte liegen zwar ziemlich verstreut es ist jedoch ein gewisser Zusammenshyhang zu erkennen

Vorgehensweise 53

Abbildung 18 Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

Menge Kartons pro Periode

2650 bull+ 2450

t bull t

2250

2050 ~ bull 1850 bull bull bull 1650

1450 + bull bull bull

1250 +1

1050 I

8501

Zahl der Besuche pro Periode

I )0

68 78 88 98 108

122 Schaumltzung der Regressionsfunktion

1221 Einfache Regression

Um das grundsaumltzliche Vorgehen der Regressionsshyanalyse zeigen zu koumlnnen gehen wir von der graph ishysehen Darstellung einer empirischen Punkteverteilung

[(3) Pruumlfuder- in einem zweidimensionalen Koordinatensystem aus I Regressionsfunktion Der Leser moumlge sich noch einmal die Fragestellung der

Analyse vergegenwaumlrtigen Es geht um die Schaumltzung (4) Pruumlfung der der Wirkung der Zahl der Vertreterbesuche aufdie AbshyRegressionskoeffizlenten

satzmenge Gesucht wird also eine Schaumltzung der sich l ergebenden Absatzmenge fuumlr beliebige Zahlen der

(5) Pruumlfung der Modelpraumlmissen I 1 Vertreterbesuche Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der bei den Variablen erfolgen die in Abbildung 18 grafisch dargestellt sind In Abbildung 19 sind zwei Punkte (Xk Yk) die Beobachtungen 6 und 9 mit den Werten (102 2278) und (87 1612) hervorgehoben

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 4: Backhaus Kapitel Regressionsanalyse

50 Regressionsanalyse

Abbildung 15 Alternative Bezeichnungen der Variablen in der Regressionsanalyse

y Xl X2 Xj XJ i

Regressand Regressoren

abhaumlngige Variable unabhaumlngige Variable

endogene Variable exogene Variable

erklaumlrte Variable erklaumlrende Variable

Prognosevariable Praumldiktorvariabl e

Die Regressionsanalyse ist immer anwendbar wenn sowohl die abhaumlngige als auch die unabhaumlngige(n) Variable(n) metrisches Skalenniveau besitzen es sich also um quantitative Variablen handelt Dies ist der klassische Fall Wir hatten aber bereits in der Einleitung darauf hingewiesen daszlig sich durch Anwendung der DummyshyVariablen-Technik qualitative (nominalskalierte) Variablen in binaumlre Variablenmiddot umwandeln lassen die dann wie metrische Variablen behandelt werden koumlnnen Allerdings steigt dadurch die Anzahl der Variablen so daszlig diese Technik nur fuumlr die unabhaumlngigen Variablen deren Zahl zumindest prinzipiell nicht begrenzt ist genutzt werden kann Der Anwendungsbereich der Regressionsanalyse laumlszligt sich damit ganz erheblich erweitern

Es ist somit grundsaumltzlich moumlglich alle Problemstellungen der Varianzanalyse mit Hilfe der Regressionsanalyse zu behandeln (weungleich dies nicht immer zweckmaumlszligig ist) Auch eine einzelne binaumlre Variable kann in der Regressionsshyanalyse als abhaumlngige Variable fungieren und es lassen sich so in beschraumlnktem Umfang auch Probleme der Diskriminanzanalyse (Zwei-Gruppen-Fall) mittels der Regressionsanalyse behandeln Eine Erweiterung der Regressionsanalyse fuumlr noshyminalskalierte abhaumlngige Variable ist die Logistische Regression Auch in anderen Analyseverfahren (zB Conjoint-Measurement Pfadanalyse) findet die Regressishyonsanalyse vielfaumlltige Anwendung

Anwendungsbeispiel

Wir wollen die Grundgedanken der Regressionsanalyse zunaumlchst an einem kleinen Beispiel demonstrieren Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmaumlszligigen Absatz seiner Marke nicht zufrieden Er stellt zunaumlchst fest daszlig der Absatz zwischen seinen Verkaufsgebieten stark differiert Er moumlchte wissen warum die Werte so stark differieren und deshalb pruumlfen von welchen Faktoren die er beeinflussen kann im wesentlichen der Absatz abhaumlngt Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich groszligen Vershykaufsgebieten Er sammelt fuumlr die Untersuchungsperiode Daten uumlber die abgesetzte Menge den Preis die Ausgaben fuumlr Verkaufsf6rderung sowie die Zahl der Vershytreterbesuche Folgendes Ergebnis zeigt sich (vgl Abbildung 16) Die Rohdaten dieses Beispiels enthalten die Werte von vier Variablen unter denen MENGE als

Vorgehensweise 51

abhaumlngige und PREIS AUSGABEN (fuumlr Verkaufsfoumlrderung) sowie (Zahl der Vertreter-) BESUCHE als unabhaumlngige Variablen in Frage kommen Der Vershykaufsleiter haumllt diese Einfluszliggroumlszligen fUr relevant

Die Untersuchung soll nun Antwort auf die Frage geben ob und wie die genannshyten Einfluszliggroumlszligen si~h auf die Absatzmenge auswirken Wenn ein ursaumlchlicher Zusammenhang zwischen z B Vertreterbesuchen und Absatzmenge gegeben waumlshyre dann muumlszligten uumlberdurchschnittliche oder unterdurchschnittliche Absatzmengen sich (auch) aufUnterschiede in der Zahl der Besuche zuruumlckfUhren lassen z B je houmlher die Zahl der Vertreterbesuche desto houmlher der Absatz

Zum besseren Verstaumlndnis wird im folgenden zunaumlchst eine einfache Regressishyonsanalyse dargestellt wobei wir hier unter den Einfluszliggroumlszligen die Variable BEshySUCHE herausgreifen

Abbildung 16 Ausgangsdaten des Rechenbeispiels

Nr Menge Kartons

pro Periode (MENGE)

Preis pro Karton

(PREIS)

Ausgaben fUr Verkaufsshyfoumlrderung

(AUSGABEN)

Zahl der Vershytretershy

besuche (BESUCHE)

1 2585 1250 2000 109 2 1819 1000 550 I107 3 1647 995 1000 99 4 1496 1150 800 70 5 921 1200 0 81 6 2278 1000 1500 102 7 1810 800 800 110 8 1987 900 1200 92 9 1612 950 1100 87

10 1913 1250 1300 79

12 Vorgehensweise

Bei der Regressionsanalyse geht man regelmaumlszligig in einer bestimmten der Methoshyde entsprechenden Schrittfolge vor Zunaumlchst geht es darum das sachlich zugrunde liegende Ursache-Wirkungs-Modell in Form einer linearen Regressionsbeziehung zu bestimmen Im Anschluszlig daran wird die Regressionsfunktion geschaumltzt In eimiddot nem dritten Schritt schlieszliglich wird die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels gepruumlft Den Ablauf zeigt Abbildung 17

1

- _

Abbildung 17 Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schaumltzung der Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

(4) Pruumlfung der Regressionskoeffizienten

(5) Pruumlfung der Modellpraumlmissen

121 Modellformulierung

Das zu untersuchende lineare Regressionsmodell muszlig aufgrund von Vorabuumlberlegungen des Forschers entshyworfen werden Dabei spielen ausschlieszliglich fachliche

Schaumltzung der Regressionsfunktion Gesichtspunkte eine Rolle Methodenanalytische Frashy

gen treten in dieser Phase zunaumlchst in den Hintergrund I(3) Pruumlfung er Das Bemuumlhen des Forschers sollte dahin gehen daszlig i Regresslonsfunkuumlon ein Untersuchungsansatz gewaumlhlt wird der die vermu-

teten Ursache-Wirkungs-Bezienungen moumlglichst vollshystaumlndig enthaumllt Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse

(5 Pruumlfung der Modellpraumlmissen I In unserell1 Beispiel vermutet der Verkaufsleiter aufshygrund seiner Erfahrungen bei der Einschaumltzung des

Marktes daszlig die Absatzmenge von der Zahl der Vertreterbesuche abhaumlngig ist Im einfachsten Fall sollte dieser Zusammenhang linear sein Ob eine lineare Bezieshyhung unterstellt werden kann laumlszligt sich eventuell (jeweils fuumlr zwei Variablen die abhaumlngige und je eine unabhaumlngige) anhand eines Streudiagramms erkennen in dem die Beobachtungswerte als Punkte eingezeichnet werden Ein linearer Zushysammenhang liegt vor wenn die Punkte eng um eine gedachte Gerade streuen Im betrachteten Beispiel ergibt sich das in Abbildung 18 wiedergegebene Diagramm Die Punkte liegen zwar ziemlich verstreut es ist jedoch ein gewisser Zusammenshyhang zu erkennen

Vorgehensweise 53

Abbildung 18 Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

Menge Kartons pro Periode

2650 bull+ 2450

t bull t

2250

2050 ~ bull 1850 bull bull bull 1650

1450 + bull bull bull

1250 +1

1050 I

8501

Zahl der Besuche pro Periode

I )0

68 78 88 98 108

122 Schaumltzung der Regressionsfunktion

1221 Einfache Regression

Um das grundsaumltzliche Vorgehen der Regressionsshyanalyse zeigen zu koumlnnen gehen wir von der graph ishysehen Darstellung einer empirischen Punkteverteilung

[(3) Pruumlfuder- in einem zweidimensionalen Koordinatensystem aus I Regressionsfunktion Der Leser moumlge sich noch einmal die Fragestellung der

Analyse vergegenwaumlrtigen Es geht um die Schaumltzung (4) Pruumlfung der der Wirkung der Zahl der Vertreterbesuche aufdie AbshyRegressionskoeffizlenten

satzmenge Gesucht wird also eine Schaumltzung der sich l ergebenden Absatzmenge fuumlr beliebige Zahlen der

(5) Pruumlfung der Modelpraumlmissen I 1 Vertreterbesuche Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der bei den Variablen erfolgen die in Abbildung 18 grafisch dargestellt sind In Abbildung 19 sind zwei Punkte (Xk Yk) die Beobachtungen 6 und 9 mit den Werten (102 2278) und (87 1612) hervorgehoben

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 5: Backhaus Kapitel Regressionsanalyse

1

- _

Abbildung 17 Ablaufschritte der Regressionsanalyse

(1) Modellformulierung

(2) Schaumltzung der Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

(4) Pruumlfung der Regressionskoeffizienten

(5) Pruumlfung der Modellpraumlmissen

121 Modellformulierung

Das zu untersuchende lineare Regressionsmodell muszlig aufgrund von Vorabuumlberlegungen des Forschers entshyworfen werden Dabei spielen ausschlieszliglich fachliche

Schaumltzung der Regressionsfunktion Gesichtspunkte eine Rolle Methodenanalytische Frashy

gen treten in dieser Phase zunaumlchst in den Hintergrund I(3) Pruumlfung er Das Bemuumlhen des Forschers sollte dahin gehen daszlig i Regresslonsfunkuumlon ein Untersuchungsansatz gewaumlhlt wird der die vermu-

teten Ursache-Wirkungs-Bezienungen moumlglichst vollshystaumlndig enthaumllt Ein solches Modell ist der methodisch saubere Einstieg in die Regressionsanalyse

(5 Pruumlfung der Modellpraumlmissen I In unserell1 Beispiel vermutet der Verkaufsleiter aufshygrund seiner Erfahrungen bei der Einschaumltzung des

Marktes daszlig die Absatzmenge von der Zahl der Vertreterbesuche abhaumlngig ist Im einfachsten Fall sollte dieser Zusammenhang linear sein Ob eine lineare Bezieshyhung unterstellt werden kann laumlszligt sich eventuell (jeweils fuumlr zwei Variablen die abhaumlngige und je eine unabhaumlngige) anhand eines Streudiagramms erkennen in dem die Beobachtungswerte als Punkte eingezeichnet werden Ein linearer Zushysammenhang liegt vor wenn die Punkte eng um eine gedachte Gerade streuen Im betrachteten Beispiel ergibt sich das in Abbildung 18 wiedergegebene Diagramm Die Punkte liegen zwar ziemlich verstreut es ist jedoch ein gewisser Zusammenshyhang zu erkennen

Vorgehensweise 53

Abbildung 18 Streudiagramm der Beobachtungswerte von Absatzmenge und Zahl der Vertreterbesuche

Menge Kartons pro Periode

2650 bull+ 2450

t bull t

2250

2050 ~ bull 1850 bull bull bull 1650

1450 + bull bull bull

1250 +1

1050 I

8501

Zahl der Besuche pro Periode

I )0

68 78 88 98 108

122 Schaumltzung der Regressionsfunktion

1221 Einfache Regression

Um das grundsaumltzliche Vorgehen der Regressionsshyanalyse zeigen zu koumlnnen gehen wir von der graph ishysehen Darstellung einer empirischen Punkteverteilung

[(3) Pruumlfuder- in einem zweidimensionalen Koordinatensystem aus I Regressionsfunktion Der Leser moumlge sich noch einmal die Fragestellung der

Analyse vergegenwaumlrtigen Es geht um die Schaumltzung (4) Pruumlfung der der Wirkung der Zahl der Vertreterbesuche aufdie AbshyRegressionskoeffizlenten

satzmenge Gesucht wird also eine Schaumltzung der sich l ergebenden Absatzmenge fuumlr beliebige Zahlen der

(5) Pruumlfung der Modelpraumlmissen I 1 Vertreterbesuche Die Ermittlung dieser Beziehung soll

aufgrund von beobachteten Wertepaaren der bei den Variablen erfolgen die in Abbildung 18 grafisch dargestellt sind In Abbildung 19 sind zwei Punkte (Xk Yk) die Beobachtungen 6 und 9 mit den Werten (102 2278) und (87 1612) hervorgehoben

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 6: Backhaus Kapitel Regressionsanalyse

------

~4 Regressionsanalyse

Abblldung 19 Streudiagramm der Beobachtungswerte Punkte (Xk yJ flr k 6 und 9 hervorgehoben

Menge Kartons pro Periode

2650 D

2450 + I XaYe

2250 j bull 2050

(J

0 1850 I 0 Cl

1650 bull 0

XgYgD1450

1250

1050 bull Zahl der Besuche 0 pro Periode

850 + 68 78 88 98 108

Zur Schaumltzung der abhaumlngigen Variablen Y (Absatzmenge) spezifizieren wir folshygende Funktion

Regressionsfunktion

Y = bO

+ b X (2)

mit

Y Schaumltzung der abhaumlngigen Variablen Y = Konstantes Glied bO

~j Regressionskoeffizient X = unabhaumlngige Variable

Fuumlr einzelne Werte von Yund X schreiben wir

Y = b +- b x (k=I 2 K) k O k

dh die Funktion (2) liefert fuumlr eine Beobachtung xk den Schaumltzwert h Die Funktion (2) bildet eine Gerade und wird daher auch als Regressionsgerade bezeichnet Abbildung 110 zeigt den Verlauf der gesuchten Geraden Eine Gerade ist generell durch zwei Parameter bestimmt in diesem Fall durch

Vorgehensweise 55

- das konstante Glied bO das den Wert von Y rur X = 0 angibt - den Regressionskoeffizienten b1 der die Neigung der Geraden angibt

Es gilt

1Y (3)bl=shy

1X

Der b l Koeffizient gibt an welche Wirkung eine Aumlnderung der Variablen X hat dh um wieviel Einheiten sich Y vermutlich aumlndert wenn sich X um eine Einheit aumlndert Er ist daher von besonderer Wichtigkeit

Abbildung 110 Streudiagramrn und Regressionsgerade

Menge Kartons pro Periode a~ t bull 2450

bull -lt2250

2050

bull1850

1650 bull bull1450

tgtX 1250

b1050 Zahl der Besuche

pro Periode 850 bull

68 78 88 98 108

Noch ist nicht genau bekannt wie man zu der gesuchten Geraden kommt Sie koumlnnte sowohl eine andere Neigung als auch einen anderen Schnittpunkt mit der Y~Achse haben Es ist aber bereits deutlich daszlig es keinen denkbaren Verlauf einer Geraden gibt auf der alle beobachteten (xy)-Kombinationen liegen Es geht also vielmehr darum einen Verlauf der gesuchten Geraden zu finden der sich der emshypirischen Punkteverteilung moumlglichst gut anpaszligt

Ein Grund dafilr daszlig in diesem Beispiel die Punkte nicht auf einer Geraden lieshygen sondern um diese streuen liegt darin daszlig neben der Zahl der Vertreterbesushy

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 7: Backhaus Kapitel Regressionsanalyse

-- -

JO KegresslOnsanalyse

ehe noch andere Einfluszliggroumlszligen auf die Absatzmenge einwirken (z B Maszlignahmen der Konkurrenz Konjunktur etc) die in der Regressionsgleichung nicht erfaszligt sind Andere Grunde fuumlr das Streuen der empirischen Werte koumlnnen z B Beobshyachtungs fehler bzw Meszligfehler sein

Angenommen die gesuchten Parameter bO und b1 seien bekannt bo = 50 und = 20 Dann wuumlrde sich fuumlr eine Zahl von Vertreterbesuchen von x = 100 ein b1

rechnerischer Mengenwert von

Y= 50+20middot100

= 2050

ergeben Wenn nun aber bei x = 100 der beobachtete Wert von Y nicht 2050 sonshydern 2000 ist dann ist die Differenz zwischen dem beobachteten Y-Wert und dem aufgrund der Regressionsgleichung geschaumltzten Wert ydiejenige Abweichung die nicht auf die Zahl der Vertreterbesuche sondern auf nicht erfaszligte Einfluszliggroumlszligen zurilckzufiihren ist

Die in einer vorgegebenen Regressionsgleichung nicht erfaszligten Einfluszliggroumlszligen der empirischen Y-Werte schlagen sich in Abweichungen von der Regressionsgeshyraden nieder Diese Abweichungen lassen sich durch eine Variable e repraumlsentieshy

3ren deren Werte ek als Residuen bezeichnet werden

Residualgroumlszlige

ek = Yk -Yk (k=l 2 K) (4)

mit

Yk = Beobachtungswert der abhaumlngigen Variablen Y fuumlr xk

h ermittelter Schaumltzwert von Y fuumlr xk

ek = Abweichung des Schaumltzwertes von Beobachtungswert

K = Zahl der Beobachtungen

In Abbildung 111 sind die Abweichungen fuumlr unser Beispiel aufgelistet Durch Umformung von (4) und unter Einbeziehung von (2) laumlszligt sich folgende

Funktion bilden

Y=Y+e (5)= b + b X + e

O 1

3 Auf das der Regressionsanalyse zugrundeliegende stochastische Modell wird in den Abshyschnitten 12322 und 1234 eingegangen

Vorgehensweise 57

Abbildung 111 Abweichungen der Beobachtungswerte Yk vom Stichprobenmittelwert y

Nr

k

Beobachtungswert

Yk

Mittelwert

Y Abweichung

Yk - Y 1 2 3 4 5 6 7 8 9 10

Abbildung 112

2585 1819 1647 1496

921 2278 1810 1987 1612 1913

180680 180680 180680 180680 180680 180680 180680 180680 180680 180680

Systematische Komponente und Residualgroumlszlige

1450 I

Menge Kartons pro Periode

2450

bull

96

Zahl der Besuche 78 pro Periode

88 98 108X6

77820 1220

- 15980 - 31080 - 88580

47120 320

18020 - 19480

10620

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 8: Backhaus Kapitel Regressionsanalyse

Fuumlr die einzelnen Beobachtungen gilt

Y = b + b x + e (k=l 2 bull K) k O l k k

Ein beobachteter Wert Yk der Absatzmenge setzt sich damit additiv zusammen aus einer systematischen Komponente die sich linear mit der Zahl der Vertretershybesuche aumlndert und der Residualgroumlszlige ek die durch die Regressionsfunktion bzw die unabhaumlngige Variable X nicht erklaumlrt werden kann Abbildung 112 vershyanschaulicht dies grafisch

Die Zielsetzung der einfachen Regressionsanalyse kann jetzt wie folgt formuliert werden Es ist eine linearemiddot Funktion zu finden fiir die die nicht erklaumlrten Abweishychungen moumlglichst klein sind Grafisch gesehen ist dies eine Gerade durch die Punktwolke im Streu diagramm die so verlaumluft daszlig die Punkte moumlglichst nahe an dieser Geraden liegen Dieses Ziel laumlszligt sich durch folgende Funktion praumlzisieren

Zielfunktion der Regressionsanalyse

K K[ 2Le~ = L Yk - (bo+ b1xk)] ~ minI (6) k=l k=l

Das vorstehende Kriterium besagt daszlig die unbekannten Parameter bOund b l so zu bestimmen sind daszlig die Summe der quadrierten Residuen minimal wird Diese Art der Schaumltzung wird als die Methode der kleinsten Quadrate (auch als KleinstshyQuadrate- oder kurz KQ-Schaumltzung) bezeichnet Die KQ-Methode gehoumlrt zu den wichtigsten statistischen Schaumltzverfahren Durch die Quadrierung der Abweichunshygen der Beobachtungswerte von den Schaumltzwerten werden groumlszligere Abweichungen staumlrker gewichtet und es wird vermieden daszlig sich die positiven und negativen

4Abweichungen kompensieren

Rechnerisch erhaumllt man die gesuchten Schaumltzwerte durch partielle Differentiatishyon von (6) nach bO und bl Dadurch ergeben sich folgende Formeln

Ermittlung der Parameter der Regressionsfunktion

_ K (2xkYk) - (2 xkKLYk) Regressionskoeffizient bl- K(2x~)-(2xk)2 (7)

bO y - btx Konstantes Glied (8)

Die Herleitung dieser Formeln ist im Anhang dieses Kapitels dargestellt Mit den beiden Parametern bOund b1 ist die Regressionsgleichung vollstaumlndig bestimmt

Das Beispiel soll im folgenden durchgerechnet werden um die Vorgehensweise zu demonstrieren Dazu ist es zweckmaumlszligig eine Arbeitstabelle anzulegen wie sie Abbildung 113 zeigt

4 Es sei bemerkt daszlig es sich bei den Abweichungen im geometrischen Sinn um die senkshyrechten Abstaumlnde der Punkte zur Regressionsgeraden handelt

6 1

Abbildung 113 Arbeitstabelle

Beobachtung k

Menge Besuche Yk_Xk xy x 2

1 2585 109 281765 11881

2 1819 107 194633 11449

3 1647 99 163053 9801

4 1496 70 104720 4900

5 921 81 74601 6561

6 2278 102 232356 10404

7 1810 110 199100 12100

8 1987 92 182804 8464

9 1612 87 140244 7569

10 1913 79 151127 6241 18068 936 1724403 89370L

Y=18068 x =936

Die Werte aus der Arbeitstabelle koumlnnen nun unmittelbar in die Formeln (7) und

(8) eingesetzt werden

bl 10middot1 724403 -936 middot18068 10middot89370-(936)2

= 18881

bo = 18068 - 18881 936

= 395

Die geschaumltzte Regressionsgleichung lautet damit

h =395 + 18881 xk

Sie ist in Abbildung LI 0 dargestellt Der Regressionskoeffizient b t= 189 besagt daszlig eine Erhoumlhung der Absatzmenge um 189 Einheiten zu erwarten ist wenn ein zusaumltzlicher Vertreterbesuch durchgefuumlhrt wird Auf diese Weise kann der Regresshysionskoeffizient wichtige Hinweise fuumlr eine optimale Vertriebsgestaltung geben

Mit Hilfe der gefundenen Regressionsgleichung ist man auszligerdem in der Lage beliebige Y-Werte in Abhaumlngigkeit vom X-Wert zu schaumltzen Beispiel Die Zahl der Vertreterbesuche fuumlr Beobachtung Nr 6 betraumlgt 102 Wie hoch ist die geschaumltzte Absatzmenge

Y6 395+18881middot102

= 1965

Beobachtet wurde dagegen eine Absatzmenge von 2278 Kartons Das Residuum betraumlgt demnach 2278 - 1965 = 313

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 9: Backhaus Kapitel Regressionsanalyse

60 Regressionsanalyse

1222 Multiple Regression

Fuumlr die meisten Untersuchungszwecke ist es erforderlich mehr als eine unabhaumlnshygige Variable in das Modell aufzunehmen Der Regressionsansatz hat dann folshygendeForm

Y bo + blXl + b2X2 + + bjXj + + bJXJ (9)

Die Ermittlung der Regressionsparameter bO b l b2 bJ erfolgt wie bei der einshyfachen Regressionsanalyse durch Minimierung der Summe der Abweichungsquashydrate (KQ-Kriterium)

Zielfunktion der multiplen Regressionsfunktion

K 2 Klek l (bO+ blxlk + b2x 2k + +b jX jk+ +bJXJk))2 --min (10)

k=1 k=

mit ek = Werte der Residualgroumlszlige (k=l 2 K) Yk = Werte der abhaumlngigen Variablen (k=l 2 K)

konstantes Glied bO bj = Regressionskoeffizienten (j = 1 2 J) Xjk = Werte der unabhaumlngigen Variablen (j = 12 J k 12 K) J Zahl der unabhaumlngigen Variablen K = Zahl der Beobachtungen

Die Auffindung von Regressionsparametern die das Zielkriterium (10) mInishymieren erfordert die Loumlsung eines linearen Gleichungssystems die mit erhebshylichem Rechenaufwand verbunden sein kann5

Wir kommen zuruumlck auf unser Beispiel mi(den Daten in Abbildung 16 Angeshynommen der Verkaufsleiter miszligt allen drei unabhaumlngigen Variablen (PREIS AUSGABEN und BESUCHE) eine Relevanz filr die Erklaumlrung der Absatzmenge zu Ihre Beruumlcksichtigung fUhrt dann zu einer multiplen Regressionsanalyse folshygender Form

Y= bO + bl BESUCHE + b2 PREIS + b3 AUSGABEN

Die DurchfUhrung der multiplen Regressionsanalyse unter Anwendung des KQshyKriteriums in Formel (10) iiefert dann folgende Regressionsfunktion6

Y - 69 + 11085middot BESUCHE + 9927 PREIS + 0655middot AUSGABEN

5 Siehe hierzu die Ausfilhrungen im Anhang dieses Kapitels oder die einschlaumlgige Literashytur zB Bleymuumlller JlGehlert GlGUumllicher R 2002 S 164-168 Greene WH 1997 S 236-239 Kmenta 11997 S 395-399 Schneeweiszlig 1990 S 94-97

6 Zur DurchfUhrung der Regressionsanalyse existieren zahlreiche Computer-Programme Wir werden nachfolgend rur ein etwas umfangreicheres Fallbeispiel die Anwendung des Computer-Programms SPSS demonstrieren

V orgetJenswelse bl

Betrachten wir beispielsweise den Fall Nr 6 indem wir die Daten aus Abbildung 16 in die erhaltene Regressionsfunktion einsetzen Man erhaumllt damit als Schaumltzung filr die Absatzmenge

Y = -69 + 11085middot102 + 9927middot10 + 0655middot1500 2206

Da der beobachteten Wert 2278 ist betraumlgt die Residualgroumlszlige jetzt nur noch 72 Die Uumlbereinstimmung zwischen beobachtetem und geschaumltztem Wert hat sich demnach gegenuumlber der einfachen Regression (Residuum = 313) deutlich verbesshysert Die Tatsache daszlig sich der Regressionskoeffizient b l filr die erste unabhaumlnshygige Variable (BESUCHE) veraumlndert hat ist auf die Einbeziehung weiterer unabshyhaumlngiger Variablen zuruckzufilhren

Bedeutung der Regressionskoeffizienten

Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung da sie den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen auf die abhaumlnshygige Variable Y angeben Fuumlr den Verkaufsleiter in unserem Beispiel liefern sie damit wichtige Informationen filr seine Maszlignahmenplanung So sagt ihm zB der Regressionskoeffizient b3 == 0655 filr die Variable AUSGABEN daszlig er 655 Karshytons mehr absetzen wird wenn er die Ausgaben fUr VerkaufsfOrderung um 100 erhoumlht Bei einem Preis von 10 ergibt dies einen Mehrerloumls von 655 Unter Beshyruumlcksichtigung seiner sonstigen Kosten kann er damit feststellen ob sich eine Ershyhoumlhung der Ausgaben filr Verkaufsf6rderung lohnt

Die Groumlszlige eines Regressionskoeffizienten darf allerdings nicht als Maszlig filr die Wichtigkeit der betreffenden Variablen angesehen werden Die Werte verschieshydener Regressionskoeffizienten lassen sich nur vergleichen wenn die Variablen in gleichen Einheiten gemessen wurden denn der numerische Wert bj ist abhaumlngig von der Skala auf der die Variable Xj gemessen wurde So vergroumlszligert sich zB der Regressionskoeffizient filr den Preis um den Faktor 100 wenn der Preis anstatt in Euro in Cent gemessen wird Und die Skala filr die Variable BESUCHE ist eine voumlllig andere als die filr den Preis Um sie vergleichbar zu machen muumlszligte man sie mit den Kosten pro Besuch in eine monetaumlre Skale umwandeln und koumlnnte dann mit den so erhaltenen Werten eine erneute Regressionsanalyse durchfUhren

Eine andere Moumlglichkeit die Regressionskoeffizienten miteinander vergleichbar zu machen besteht darin sie zu standardisieren Die standardisierten Regresshysionskoeffizienenten die auch als Beta-Werte bezeichnet werden errechnen sich wie folgt

~ StandardabweichungvonX j b b -------- (11)

J J Standardabweichungvon Y

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 10: Backhaus Kapitel Regressionsanalyse

62 Regressionsanalyse

Durch die Standardisierung werden die unterschiedlichen Meszligdimensionen der Variablen die sich in den Regressionskoeffizienten niederschlagen eliminiert Letztere sind daher unabhaumlngig von linearen Transformationen der Variablen und koumlnnen so als Maszlig fuumlr deren Wichtigkeit verwendet werden Bei Durchfuumlhrung einer Regressionsanalyse mit standardisierten Variablen wuumlrde man die BetashyWerte als Regressionskoeffizienten erhalten

In unserem Beispiel betragen die Standardabweichungen der Variablen Y und Xl (BESUCHE)7

SMENGE = 44923middot

SBESUCHE= 1399

Damit erhaumllt man den standardisierten Regressionskoeffizienten

b =11 085 1399 = 0345 1 44923

Analog ergeben sich fuumlr die Variablen PREIS und AUSGABEN die folgenden Werte

SpREIS = 155 b2 = 0034

SAUSGABEN = 54429 b3 =0794

Es zeigt sich hier daszlig die Variable AUSGABEN die den kleinsten Regressionsshykoeffizienten hat den houmlchsten standardisierten Re~ressionskoeffizienten aufweist und somit am staumlrksten aufdie Absatzmenge wirkt

Durch Ermittlung der standardisierten Regressionskoeffizienten werden die nicht standardisierten Regressionskoeffizienten allerdings nicht uumlberfluumlssig Da siemiddot den marginalen Effekt der Aumlnderung einer unabhaumlngigen Variablen angeben haben sie eine wichtige inhaltliche Bedeutung Zur Durchfuumlhrung von Wirkungsprognosen sind also weiterhin die unstandardisierten Regressionskoeffizienten zu verwenden

7 Die Standardabweichung berechnet sich durch

I~ (X k -X)2

S = i =k=--l----_ x K-J

8 Bei der Beurteilung der Wichtigkeit von unabhaumlngigen Variablen mit Hilfe der BetashyWerte ist allerdings Vorsicht geboten da ihre Aussagekraft durch Multikollineraritaumlt (Korrelation zwischen den unabhaumlngigen Variablen) stark beeintraumlchtll1t werden kann

Vorgehensweise 63

123 Pruumlfung der Regressionsfunktion

Modellformulierung

_-~ bull~-_FPruumlfung der Regress~nskoeffizienlen

(5) Pruumlfung der Modellpmmissen

Nachdem die Regressionsfunktion geschaumltzt wurde ist deren Guumlte zu uumlberpruumlfen dh es ist zu klaumlren wie gut sie als Modell der Realitaumlt geeignet ist Die Uumlberpruumlshyfung laumlszligt sich in zwei Bereiche gliedern

1 Globale Pruumlfung der Regressionsfunktion Hier geht es um die Pruumlfung der Regressionsfunk tion als ganzes dh ob und wie gut die abhaumlngige Variable Y durch das Regressionsmodell erklaumlrt wird

2 Pruumlfung der Regressionskoeffizienten Hier geht es um die Frage ob und wie gut einzelne Variable des Regressionsmodells zur Erklaumlrung der

abhaumlngigen Variablen Y beitragen

Wenn sich aufgrund der Pruumlfung der Regressionskoeffizienten zeigt daszlig eine Vashyriable keinen Beitrag zur Erklaumlrung leistet so ist diese aus der Regressionsfunktion zu entfernen Zuvor aber ist die globale Guumlte zu uumlberpruumlfen Erweist sich das Moshydell insgesamt als unbrauchbar so eruumlbrigt sich eine Uumlberpruumlfung der einzelnen Regressionskoeffizienten

Globale Guumltemaszlige zur Pruumlfung der Regressionsfunktion sind

_ das Bestimmtheitsmaszlig (Rz) - die F-Statistik - der Standardfehler

Maszlige zur Pruumlfung der Regressionskoeffizienten sind

- der t-Wert - der Beta-Wert

Nachfolgend soll auf diese Maszlige eingegangen werden

1231 Bestimmtheitsmaszlig

Das Bestimmtheitsmaszlig miszligt die Guumlte der Anpassung der Regressionsfunktion an die empirischen Daten (ltgoodness of fitlt) Die Basis hierfuumlr bilden die Residualshygroumlszligen dh die Abweichungen zwischen den Beobachtungswerten und den geshyschaumltzten Werten von Y Zur Illustration gehen wir auf die einfache Regressionsanalyse die Beziehung zwishyschen Absatzmenge und Zahl der Vertreterbesuche zuruumlck Aufgrund obiger Schaumltzung der Regressionsfunktion (gemaumlszlig Formel 7 und 8) erhaumllt man die Werte in Abbildung 114

Betrachtet sei beispielsweise fuumlr k 6 der Beobachtungswert y = 2278 Der zushygehoumlrige Schaumltzwert fuumlr x = 102 betraumlgt 19654 Kartons Mithin besteht eine Abshyweichung (Residuum) von rund 313 Einheiten Ist das viel oder wenig Um dies

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 11: Backhaus Kapitel Regressionsanalyse

64 Regressionsanalyse

beurteilen zu koumlnnen benoumltigt man eine Vergleichsgroumlszlige zu der man die Abweishychung in Relation setzen kann Diese erhaumllt man wenn man die Gesamtabweishychung der Beobachtung Yk vom Mittelwert Y heranzieht Diese laumlszligt sich wie folgt zerlegen

Gesamtabweichung Erklaumlrte Abweichung + Residuum

Yk -y (yy - y) + (Yk - h)

Abbildung 114 Abweichungen der Beobachtungswerte von den Schaumltzwerten der Reshygressionsgleichung

I

Nr k

Beobachtungswert

Yk

Schaumltzwert

h Residuum

~

I

I 2 3 4 5 6 7 8 9

10

2585 1819 1647 1496

921 2278 1810 1987 1612 1913 _ - shy - shy --shy

209757 205981 190876 136121 156890 196540 211645 177659 168219

_ 13114

48743 -24081 -26176 13479

-64790 31260

-30645 21041

- 7019 38186

Die Schaumltzung von Yk ist offenbar um so besser je groumlszliger der Anteil der durch die unabhaumlngige Variable erklaumlrten Abweichung an der Gesamtabweichung ist bzw je geringer der Anteil der Restabweichung an der Gesamtabweichung ist Abbildung 115 verdeutlicht den Gedanken der Abweichungszerlegung

Betrachten wir zunaumlchst das Wertepaar (X6Y

6) Die Gesamtabweichung des

Stichprobenwertes Y vom Mittelwert y (vgL Ziffer reg) laumlszligt sich in zwei Abshy6

schnitte aufteilen Der Abstand Y6-Y wird durch die Regressionsgerade erklaumlrt (vgl Ziffer (i)) und wir bezeichnen sie daher als erklaumlrte Abweichung Die Abshyweichung des Punktes (X

6Y

6) von der Regressionsgeraden (Y6-Y6) aber kann

nicht durch das Modell erklaumlrt werden sondern ist moumlglicherweise durch unbeshykannte Einfluumlsse zustande gekommen Sie bildet somit eine nicht erklaumlrte Abshyweichung (vgl Ziffer ~) die wir als Residuum bezeichnet haben

Fuumlr den Mittelwert gilt hier y 18068 (vgL Abbildung 113) Damit ergibt sich ruf Beobachtung k = 6 folgende Zerlegung der Gesamtabweichung

Gesamtabweichung Erklaumlrte Abweichung + Residuum

=Y6 -y (Y6 - y) + (Y6 - Y6)

4712 1586 + 3126

V15UUogt 1

Die Restabweichung ist hier groumlszliger als die erklaumlrte Abweichung und betraumlgt 66 der Gesamtabweichung Dies ist offenbar ein schlechtes Ergebnis

Abbildung 115 Zerlegung der Gesamtabweichungen

Menge Kartons pro Periode

2450

X6Y6 2250

~ lt2gt

2050 X6Y6

ltD1850

~---r~~~--------~--L------y

16501 iJZ rlt3l 0

Zahl der Besuche 14501 pro Periode

78 88 98 108

Analog sei der Punkt (x9y9) in Abbildung 115 betrachtet Hier moumlge der Leser selbst nachvollziehen daszlig das Prinzip der Abweichungszerlegung stets in gleicher Weise angewendet wird Es kann dabei vorkommen daszlig sich erklaumlrte und nicht erklaumlrte Abweichung zum Teil kompensieren

Im Unterschied zur Gesamtabweichung einer einzelnen Beobachtung Yk bezeichshynen wir die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung Analog zu der oben beschriebenen Zerlegung der Gesamtabweishychung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung9

9 Waumlhrend die Zerlegung einer einzelnen Gesamtabweichung trivial ist gilt dies fuumlr die Zerlegung der Gesamtstreuung nicht Die Streuungszerlegung gemaumlszlig (12) ergibt sich aufgrund der KQ-Schaumltzung und gilt nur fuumlr lineare Modelle

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 12: Backhaus Kapitel Regressionsanalyse

66 Regressionsanalyse

Zerlegung der Gesamtstreuung

Gesamtstreuung erklaumlrte Streuung + nicht erklaumlrte Streuung

K K K 2 L(Yk-y)2 = L(h-y)2 + L(Yk-h) (12) k=l k=l k=1

Auf Basis der Sreuungszerlegung laumlszligt sich das Bestimmtheitsmaszlig leicht berechshynen Es wird mit R2 bezeichnet und ergibt sich aus dem Verhaumlltnis von erklaumlrter Streuung zur Gesamtstreuung

Bestimmtheitsmaszlig

K 2 E(h -Y)

R 2 = k=l = erklaumlrte Streuung (l3a)ts ( gt2 Gesamtstreuung

- Yk-Y k=

Das Bestimmtheitsmaszlig ist eine normierte Groumlszlige dessen Wertebereich zwischen Null und Eins liegt Es ist um so groumlszliger je houmlher der Anteil der erklaumlrten Streuung an der Gesamtstreuung ist Im Extremfall wenn die gesamte Streuung erklaumlrt wird ist R2 = 1 im anderen Extremfall entsprechend R2 = O

Man kann das Bestimmtheitsmaszlig auch durch Subtraktion des Verhaumlltnisses der nicht erklaumlrten Streuung zur Gesamtstreuungmiddot vom Maximalwert 1 ermitteln was rechentechnisch von Vorteil ist da die nicht erklaumlrte Streuung leicht zu berechnen ist und meist ohnehin vorliegt

K 2 E(Yk -h)

R2 = l_~k-___ K 2 E(Yk - Y)

k=

K 2I ek 1- k= (13b)

K 2 E(Yk -Y)

k=l

1_ nicht erklaumlrte Streuung

Gesamtstreuung

Aus der Formel wird deutlich daszlig das Kleinstquadrate-Kriterium das zur Schaumltshyzung der Regressionsbeziehung angewendet wird gleichbedeutend mit der Maxishymierung des Bestimmtheitsmaszliges ist Zur Demonstration der Berechnung soll wiederum das Beispiel dienen Die Ausshygangs daten und bisherigen Ergebnisse werden wie in Abbildung 116 dargestellt aufbereitet

Die Ergebnisse lassen sich in Formel (13b) eintragen

R 2 = 1 11 8868494 03455

181625560

Vorgehensweise 67

Das Ergebnis besagt daszlig 3455 der gesamten Streuung auf die Variable BESUshyCHE erklaumlrt werden waumlhrend 6545 unerklaumlrt bleiben Die Schwankungen der

q Absatzmenge Y sind also zu einem groszligen Anteil durch andere Einfluumlsse die in der Regressionsgleichung nicht erfaszligt wurden zuruumlckzufuumlhren t

Abbildung 116 Aufbereitung der Daten fuumlr die Ermittlung des Bestimmtheitsmaszliges

k Yk Yk Yk-Yk (Yk-Yk)2 Yk-Y (yk-Y~ 1 2585 209757 48743 23758800 77820 60559524

2 1819 205981 -24081 5798946 1220 14884

3 1647 190876 -26176 6851830 -15980 2553604

4 1496 136121 13479 1816834 -31080 9659664

5 921 156890 -64790 41977441 -88580 78464164

6 2278 196540 31260 9771876 47120 22202944

7 1810 211645 -30645 9391160 320 1024

8 1987 177659 21041 4427237 18020 3247204

9 1612 168219 -7019 492664 -19480 3794704

10 1913 153114 38186 14581706 10620 1127844

Y 18068

L 118868494 181625560

Das Bestimmtheitsmaszlig laumlszligt sich alternativ durch Streuungszerlegung (siehe Forshymel 13a) oder als Quadrat der Korrelation R zwischen den beobachteten und den geschaumltzten V-Werten berechnen (hieraus resultiert die Bezeichnung R21

) Es beshysteht in dieser Hinsicht kein Unterschied zwischen einfacher und multipler Regresshysionsanalyse Da die geschaumltzte abhaumlngige Variable aber im Falle der multiplen Regressionsanalyse durch lineare Verknuumlpfung von mehreren unabhaumlngigen Vashyriablen gebildet wird bezeichnet man R auch als multiplen Korrelationskoeffizienshyten

Das Bestimmtheitsmaszlig wird in seiner Houmlhe durch die Zahl der Regressoren beshyeinfluszligt Bei gegebener Stichprobengroumlszlige wird mit jedem hinzukommenden Reshygressor ein mehr oder weniger groszliger Erklaumlrungsanteil hinzugefllgt der moumlglichershyweise nur zufaumlllig bedingt ist Der Wert des Bestimmtheitsmaszliges kann also mit der Aufnahme von irrelevanten Regressoren zunehmen aber nicht abnehmen Insbeshysondere bei kleiner Zahl von Freiheitsgraden aber verschlechtern sich mit der Zahl der Regressoren die Schaumltzeigenschaften des Modells

Das korrigierte Bestimmtheitsmaszlig (Formel 13c) beruumlcksichtigt diesen Sachvershyhalt Es vermindert das einfache Bestimmtheitsmaszlig um eine Korrekturgroumlszlige die um so groumlszliger ist je groumlszliger die Zahl der Regressoren und je kleiner die Zahl der Freiheitsgrade ist Das korrigierte Bestimmtheitsmaszlig kann daher im Gegensatz

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 13: Backhaus Kapitel Regressionsanalyse

68 Regressionsanalyse

zum einfachen Bestimmtheitsmaszlig durch die Aufnahme weiterer Regressoren auch abnehmenlO

Korrigiertes Bestimmtheitsmaszlig

2R 2

korr R 2 __J-(l_-_R--)

K-J-I (13c)

mit

K = Zahl der Beobachtungswerte

J = Zahl der Regressoren

K - J -1 = Zahl der Freiheitsgrade

1232 F-Statistik

Das Bestimmtheitsmaszlig druumlckt aus wie gut sich die Regressionsfunktion an die beobachteten Daten anpaszligt In empirischen Untersuchungen wird die Regressionsshyanalyse aber nicht nur deskriptiv zur Beschreibung vorliegender Daten eingesetzt Vielmehr handelt es sich LdR um Daten einer Stichprobe und es stellt sich die Frage ob das geschaumltzte Modell auch uumlber die Stichprobe hinaus fi1r die Grundshygesamtheit Guumlltigkeit besitzt Ein hierfiir geeignetes Pruumlfkriterium bildet die FshyStatistik in deren Berechnung neben der obigen Streuungszerlegung zusaumltzlich auch der Umfang der Stichprobe eingeht So bietet ein moumlglicherweise phantastishysches Bestimrntheitsmaszlig wenig Gewaumlhr fuumlr die Guumlltigkeit eines Modells wenn dieses aufgrund nur weniger Beobachtungswerte geschaumltzt wurde

Die geschaumltzte Regressionsfunktion (Regressionsfunktion der Stichprobe)

Y= bO + bl Xl + b2X2 + + bjXj + H + bJXJ

laumlszligt sich als Realisation einer wahren Funktion mit den unbekannten Parametern szligO szligl szlig2bull szligJ auffassen die den Wirkungszusammenhang in der Grundgeshysamtheit wiedergibt Da diese Funktion neben dem systematischen Einfluszlig der Vashyriablen XIgt X2 bullbullbull Xlgt die auf Y wirken auch eine Zufallsgroumlszlige u (stochastische Komponente) enthaumllt bezeichnet man sie als das stochastische Modell der Regresshysionsanalyse

t

~~ 10

Vorgehensweise 69

Stochastisches Modell der Regressionsanalyse

Y=szligO + szligIXl +szlig2X 2 + +szligjXj+ +szligJXJ+u (14)

mit

Y = Abhaumlngige Variable szligO = Konstantes Glied der Regressionsfunktion szligj _ Regres~io~skoeffizient q1 2 J) Xj - UnabhaumlngIge Vanable 0-1 2 J) u = Stoumlrgroumlszlige

In der Groumlszlige u ist die Vielzahl zufaumllliger Einfluumlsse die neben dem systematischen Einfluszlig der Variablen Xlgt X2 Xl auf Y wirken zusarnmengefaszligt Sie ist eine Zufalls variable und wird als Stoumlrgroumlszlige bezeichnet da sie den systematischen Einshyfluszlig uumlberlagert und damit verschleiert Die Stoumlrgroumlszlige u ist nicht beobachtbar mashynifestiert sich aber in den Residuen ~

Da in der abhaumlngigen Variablen Y die Stoumlrgroumlszlige u enthalten ist bildet Y ebenshyfalls eine Zufallsvariable und auch die Schaumltzwerte bj fi1r die Regressionsparameshyter die aus Beobachtungen von Y gewonnen wurden sind Realisationen von Zushyfallsvariablen Bei wiederholten Stichproben schwanken diese um die wahren Werte szligj

Wenn zwischen der abhaumlngigen Variablen Y und den unabhaumlngigen Variablen Xj ein kausaler Zusammenhang besteht wie es hypothetisch postuliert wurde so muumlssen die wahren Regressionskoeffizienten szligj ungleich Null sein Zur Pruumlfung des Modells wird jetzt die Gegenhypothese HO (Nullhypothese) formuliert die besagt daszlig kein Zusammenhang besteht und somit in der Grundgesamtheit die Reshygressionskoeffizienten alle Null sind

HO szlig1 = szlig = = szlig] = 0z

Zur Pruumlfung dieser Nullhypothese kann ein F-Test verwendet werden Er besteht im Kern darin daszlig ein empirischer F-Wert (F-Statistik) berechnet und mit einem kritischen Wert verglichen wird Bei Guumlltigkeit der Nullhypothese ist zu erwarten daszlig der F-Wert Null ist Weicht er dagegen stark von Null ab und uumlberschreitet einen kritischen Wert so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Folglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein Zusammenhang existiert und somit nicht alle szligmiddot Null sind

In die Berechnung der F-Statistik gehen did Streuungskomponenten ein (wie in das Bestimmtheitsmaszlig) und zusaumltzlich der Stichprobenumfang K und die Zahl der Regressoren J Sie berechnet sich wie folgt

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 14: Backhaus Kapitel Regressionsanalyse

IU Kegresslonsanalyse

F-Statistik K L(h-y)2 J

Femp k=l (I5a)K L(Yk-h)2 (K-J -1) k=1

erklaumlrte Streuung J nicht erklaumlrte Streuung (K - J 1 )

Zur Berechnung sind die erklaumlrte und die nicht erklaumlrte Streuung jeweils durch die Zahl ihrer Freiheitsgrade zu dividieren und ins Verhaumlltnis zu setzen Die Zahl der Freiheitsgrade der

- erklaumlrten Streuung ist gleich der Zahl der unabhaumlngigen Variablen J - nicht erklaumlrten Streuung ist gleich der Zahl der Beobachtungen vermindert um

die zu schaumltzenden Parameter in der Regressionsbeziehung K-J-l

Mit Hilfe von (I3a) laumlszligt sich die F-Statistik auch als Funktion des Bestimmtshyheitsmaszliges formulieren

R 2 JFemp (15b)= 2(l-R )(K-J-1)

Der F-Test laumluft in folgenden Schritten ab

1 Berechnung des empirischen F-Wertes Im Beispiel hatten wir fUr das Bestimmtheitsmaszlig den Wert R2 = 03455 ershyrechnet Mittels Formel 15b erhaumllt man

F = 0345511 = 4 223 emp (1- 03455) (10 1-1)

Der Leser moumlge alternativ die Berechnung mittels Formel 15a durchfUhren

2 Vorgabe eines Signifikanzniveaus Es ist wie bei allen statistischen Tests eine Wahrscheinlichkeit vorzugeben die das Vertrauen in die Verlaumlszliglichkeit des Testergebnisses ausdruckt Uumlblishycherweise wird hierflir die Vertrauenswahrscheinlichkeit 095 (oder auch 099) gewaumlhlt Das bedeutet Mit einer Wahrscheinlichkeit von 95 Prozent kann man sich darauf verlassen daszlig der Test zu einer Annahme der Nullhyposhythese filbren wird wenn diese korrekt ist dh wenn kein Zusammenhang beshysteht

Entsprechend betraumlgt die Wahrscheinlichkeit daszlig die Nullhypothese abgeshylehnt wird obgleich sie richtig ist 0 1 - 095 = 5 Prozent 0 ist die Irrtumsshywahrscheinlichkeit des Tests und wird als Signijikanzniveau bezeichnet Die Irrtumswahrscheinlichkeit bildet das Komplement der Vertrauenswahrscheinshylichkeit 1-0

Vorgehensweise 71

3 Auffinden des theoretischen F-Wertes Als kritischer Wert zur Pruumlfung der Nullhypothese dient ein theoretischer FshyWert mit dem der empirische F-Wert zu vergleichen ist Dieser ergibt sich f1r das gewaumlhlte Signifikanzniveau aus der F-Verteilung und kann aus einer FshyTabelle entnommen werden Abbildung LI7 zeigt einen Ausschnitt aus der FshyTabelIe fi1r die Vertrauenswahrscheinlichkeit 095 (vgl Anhang)

Der gesuchte Wert ergibt sich durch die Zahl der Freiheitsgrade im Zaumlhler tl1 und im Nenner von Formel 15 (a oder b) Die Zahl der Freiheitsgrade im Zaumlhshy

ler (1) bestimmt die Spalte und die der Freiheitsgrade im Nenner (8) bestimmt die Zeile der Tabelle und man erhaumllt den Wert 532

Der tabellierte Wert bildet das 95-Quantil der F-Verteilung mit der betrefshyfenden Zahl von Freiheitsgraden dh Werte dieser Verteilung sind mit 95

~ Wahrscheinlichkeit kleiner als der tabellierte Wert

AbbUdung 117 F-Tabelle (95 Vertrauenswahrscheinlichkeit Ausschnitt)

K-J-I J=I 1=2 J=3 J=4 J=5 1=6 J=7 1=8 J=9

1 16100 20000 21600 22500 23000 23400 23700 12900 24100

2 1850 1900 1920 1920 1930 1930 1940 1940 1940

3 1010 955 928 912 901 894 889 885 881

4 771 694 659 639 626 616 609 604 600

5 661 579 541 519 505 495 488 482 477

6 599 514 476 453 439 428 421 415 410

7 559 474

446

426

410

435

407

386

371

412

384

363

348 -

397

369

348

333

387

358

337

322 ~

379

350

329

314 -

373

344

323

307

368

339

318

302 - shy

8 532

9

10

512

496

Legende

J Zahl der erklaumlrenden Variablen (Freiheitsgrade des Zaumlhlers) K-J-I Zahl der Freiheitsgrade des Nenners (K = Zahl der Beobachtungen)

4 Vergleich des empirischen mit dem theoretischen F-Wert Das Entscheidungskriterium filr den F-Test lautet - Ist der empirische F-Wert (Femp) groumlszliger als der aus der Tabelle abgelesene

theoretische F-Wert (Ftab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig nicht alle szligmiddot Null sind Der durch die Regressionsbeshyziehung hypothetisch postulierte Zusammenhang wird damit als signifikant erachtet

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 15: Backhaus Kapitel Regressionsanalyse

72 Regressionsanalyse

- Ist dagegen der empirische F -Wert klein und uumlbersteigt nicht den theoretishyschen Wert so kann die Nullhypothese nicht verworfen werden Die Reshygressionsbeziehung ist damit nicht signifikant (vgl Abbildung 118)

Hier ergibt sich

42lt 532 ~ HO wird nicht verworfen

Abbildung 118 F-Test

Femp gt Ftab ~ HO wird verworfen ~ Zusammenhang ist signifikant Femp ~ Ftab ~ HO wird nicht verworfen

Da der empirische F-Wert hier kleiner ist als der Tabellenwert kann die Nullhyposhythese nicht verworfen werden Das bedeutet daszlig der durch die Regressionsbezieshyhung postulierte Zusammenhang empirisch nicht bestaumltigt werden kann dh er ist statistisch nicht signifikant

Dies bedeutet allerdings nicht daszlig kein Zusammenhang zwischen der Zahl der Vertreterbesuche und der Absatzmenge besteht Moumlglicherweise ist dieser durch andere Einfluumlsse uumlberlagert und wird damit infolge des geringen Stichprobenumshyfangs nicht deutlich Oder er wird nicht deutlich weil relevante Einfluszliggroumlszligen (wie hier der Preis oder die Ausgaben fuumlr Verkaufsfoumlrderung) nicht berucksichtigt wurden und deshalb die nicht erklaumlrte Streuung groszlig ist

Prinzipiell kann die Annahme einer Nullhypothese nicht als Beweis fuumlr deren Richtigkeit angesehen werden Sie lieszlige sich andernfalls immer beweisen indem man den Stichprobenumfang klein macht undoder die Vertrauenswahrscheinlichshykeit hinreichend groszlig waumlhlt Nur umgekehrt kann die Ablehnung der Nullhypotheshyse als Beweis dafuumlr angesehen werden daszlig diese falsch ist und somit ein Zusamshymenhang besteht Damit wird auch deutlich daszlig es keinen Sinn macht die Vershytrauenswahrscheinlichkeit zu groszlig (die Irrtumswahrscheinlichkeit zu klein) zu waumlhlen denn dies wuumlrde dazu fuumlhren daszlig die Nullhypothese auch wenn sie falsch ist nicht abgelehnt wird und somit bestehende Zusammenhaumlnge nicht erkannt werden Man sagt dann daszlig der Test an Trennschaumlrfe verliert

Die zweckmaumlszligige Wahl der Vertrauenswahrscheinlichkeit sollte beruumlcksichtishygen welches Maszlig an Unsicherheit im Untersuchungsbereich besteht Und sie sollshyte auch berucksichtigen welche Risiken mit der faumllschlichen An- oder Ablehnung der Nullhypothese verbunden sind So wird man beim Bau einer Bruumlcke eine andeshyre Vertrauenswahrscheinlichkeit waumlhlen als bei der Untersuchung von Kaufverhalshyten Letztlich aber ist die Wahl der Vertrauenswahrscheinlichkeit immer mit einem gewissen Maszlig an Willkuumlr behaftet

Vorgehensweise 73

1233 Standardfehler der Schaumltzung

Ein weiteres Guumlternaszlig bildet der Standardfehler der Schaumltzung der angibt welcher mittlere Fehler bei Verwendung der Regressionsfunktion zur Schaumltzung der abshyhaumlngigen Variablen Y gemacht wird Er errechnet sich wie folgt

Lei k (16)s=

(K -J -1)

Im Beispiel ergibt sich mit dem Wert der nicht erklaumlrten Streuung aus Abbildung 116

1188685 =385 s =1 (10-1-1)

Bezogen auf den Mittelwert y= 18068 betraumlgt der Standardfehler der Schaumltzung damit 21 was wiederum nicht als gut beurteilt werden kann

I

124 Pruumlfung der RegressionskoeffIzienten

1241 t-Test des RegressionskoeffJZienten

Wenn die globale Pruumlfung der Regressionsfunktion durch den F-Test ergeben hat daszlig nicht alle Regressishyonskoeffizienten szligj Null sind (und somit ein Zusamshymenhang in der Grundgesamtheit besteht) sind jetzt die Regressionskoeffizienten einzeln zu uumlberpruumlfen Uumlblicherweise wird auch hier wieder die Nullhypotheshyse Ho szligj = 0 getestet Prinzipiell jedoch koumlnnte auch jeder andere Wert getestet werden Ein geeignetes Prilfkriterium hierfuumlr ist die t-Statistik

(17)

t emp Empirischer t-Wert fuumlr den j-ten Regressor szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient des j-ten Regressors Sbj Standardfehler von bj

Wird die Nullhypothese Ho szligj = 0 getestet so vereinfacht sich (17) zu

(1) Modellfonnulierung

(2) Schaumltzung der Regressionsfunktlon

t - Statistik

bmiddot-szligmiddot t = L2 emp Sbj

mit

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 16: Backhaus Kapitel Regressionsanalyse

74 Regressionsanalyse Vorgehensweise 75

bmiddot t = J 18881 =2055(l7a)emp Sbj t emp = 9187

Der t~Wert einer unabhaumlngigen Variablen errechnet sich also sehr einfach indem 2 Vorgabe eines Signifikanzniveaus man ihren Regressionskoeffizienten durch dessen Standardfehler dividiert Diese Wir waumlhlen wiederum eine Vertrauenswahrscheinlichkeit von 95 Prozent bzw Groumlszlige wird in den gaumlnfgen Computer-Programmen fUr Regressionsanalysen stanshy a= 005dardmaumlszligig angegeben

3 Auffinden des theoretischen t-Wertes Unter der Nullhypothese folgt die t-Statistik einer t-Verteilung (StudentshyFuumlr die vorgegebene Vertrauenswahrscheinlichkeit von 95 Prozent und dieVerteilung) um den Mittelwert Null die in tabellierter Form im Anhang wiederge~

I2 Zahl der Freiheitsgrade (der nicht erklaumlrten Streuung) K-J-1 = 10-1-1 = 8 erhaumllt ben ist (wir betrachten hier nur den zweiseitigen t-Test ) Einen Ausschnitt zeigt man aus Abbildung 1 ~ 14 den theoretischen t-Wert ltab = 2306Abbildung 119 Wiederum gilt daszlig bei Guumlltigkeit der Nullhypothese fUr die tshy

Statistik ein Wert von Null zu erwarten ist Weicht der empirische t-Wert dagegen 4 Vergleich des empirischen mit dem theoretischen t-Wert stark von Null ab so ist es unwahrscheinlich daszlig die Nullhypothese richtig ist Da der t-Wert auch negativ werden kann (im Gegensatz zum F-Wert) ist desshyFolglich ist diese zu verwerfen und zu folgern daszlig in der Grundgesamtheit ein sen Absolutbetrag mit dem theoretischen t-Wert zu vergleichen (zweiseitiger Einfluszlig von Xj aufY existiert und somit szligj ungleich Null ist

Abbildung 119 t-Verteilung (Ausschnitt)

Freiheitsgrade VertrauenswahrscheiIllichkeit

090 095 099

1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355

9 1833 2262 3250 10 1812 2228 3169

Der t-Test verlaumluft analog zum F -Test in folgenden Schritten

1 Berechnung des empirischen t-Wertes

Test) - Ist der Absolutbetrag des empirischen t-Wertes (temp) groumlszliger als der aus der

Tabelle abgelesene theoretische t-W ert (ttab) dann ist die Nullhypothese Ho zu verwerfen Es ist also zu folgern daszlig szligj ungleich Null ist Der Einfluszlig von Xj aufY wird damit als signifikant erachtet

- Ist dagegen der Absolutbetrag des empirischen t~Wertes klein und uumlber~ steigt nicht den theoretischen Wert so kann die Nullhypothese nicht vershyworfen werden Der Einfluszlig von Xj ist damit nicht signifikant (vgl

Abbildung 120)

Hier ergibt sich

~~ 120051 lt 2306 ~ HO wird nicht verworfen

Abbildung 120 t-Test

gt ttab ~ HO wird verworfen ~ Einfluszlig ist signifikant s ttab ~ HO wird nicht verworfen

Der Einfluszlig der unabhaumlngigen Variablen (Zahl der Vertreterbesuche) erweist sich damit als nicht signifikant Dieses Ergebnis wurde schon durch den F-Test vorshyweggenommen

F-Test und t-TestFili den Regressionskoeffizienten b l hatten wir den Wert 18881 und fUr den Standardfehler des Regressionskoeffizienten Sbj erhaumllt man in diesem Fall den Wert 9187 Aus (l7a) folgt damit

11 Zur Berechnung des Standardfehlers des Regressionskoeffizienten vgl die Ausfllhrunshygen im mathematischen Anhang dieses Kapitels

12 Zur Unterscheidung von einseitigem und zweiseitigem t-Test vgl zB Bortz J 1996 S 112ff Bleymuumlller JlGehlert GlGUumllicher H 2002 S 10lff

Bei nur einer unabhaumlngigen Variablen ist der F-Test fUr das Modell (die Gesamtshyheit der Variablen) auch ein Test der einen Variablen deren Einfluszlig hier durch den t-Test gepruumlft wurde Im Fall der einfachen Regression reicht es daher aus nur eishynen dieser beiden Tests durchzufiIhren und wir haben hier nur aus didaktischen Gruumlnden beide Tests durchgefUhrt

Waumlhrend der t-Test nur fiIr die Pruumlfung einer einzelnen Variablen geeignet ist kann der F-Test fiIr die Pruumlfung einer Mehrzahl von Variablen verwendet werden Wir behandeln hier nur den F-Test fiIr die Gesamtheit der Variablen Mit Hilfe des

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 17: Backhaus Kapitel Regressionsanalyse

li

I 76 Regressionsanalysej Vorgehensweise 77~I

F-Tests kann jedoch in einem multiplen Regressionsmodell der Einfluszlig einer Unshytermenfe der erklaumlrenden Variablen getestet werden was sehr nuumltzlich sein ~annl Damit ist es natuumlrlich auch immer moumlglich mit dem F-Test eine einzelne Variable zu pruumlfen und ihn an Stelle eines t-Tests zu verwenden In diesem Fall hat die F-Statistik nur einen Freiheitsgrad im Zaumlhler und es gilt

2F t

Man kann dies durch Vergleich der ersten Spalte einer F-Tabelle mit der t-Tabelle uumlberpruumlfen F-Test und t-Test kommen folglich in diesem Fall immer zu gleichen Aussagen

Waumlhrend also der F-Test rur die Pruumlfung einer Mehrzahl von Variablen verwenshydet werden kann ist fl1r die Pruumlfung einer einzelnen Variablen die Anwendung des t-Tests einfacher Uumlberdies ermoumlglicht der t-Test auch die Durchfiihrung von einshyseitigen Tests Zur Pruumlfung eines multiplen Regressionsmodells sollten daher beide Tests zur Anwendung kommen

1242 Konfidenzintervall des RegressionskoefflZienten

Durch den t-Test wurde die Frage uumlberpruumlft ob die unbekannten wahren Regresshysionskoeffizienten szligj G 1 2 J) sich von Null unterscheiden Hierfllr wurde ein Annahmebereich fiir bj bzw die Transformation von bj in einen t-Wert konstrushyiert Eine andere Frage ist jetzt welchen Wert die unbekannten wahren Regressishyonskoeffizienten szligj mutmaszliglich haben Dazu ist ein Konjidenzintervall fUr szligj zu bilden

Die beste Schaumltzung fUr den unbekannten Regressionskoeffizienten szligj liefert der geschaumltzte Regressionskoeffizient bJbull Als Konfidenzintervall ist daher ein Bereich um bj zu waumlhlen in dem der unbekannte Wert szligmiddot mit einer bestimmten Wahrshyscheinlichkeit liegen wird Dazu ist wiederum die ~orgabe einer Vertrauenswahrshyscheinlichkeit erforderlich

Fuumlr diese Vertrauenswahrscheinlichkeit und die Zahl der Freiheitsgrade der nicht erklaumlrten Streuung (K-J-I) ist sodann der betreffende t-Wert zu bestimmen (aus der t-Tabelle fur den zweiseitigen t-Test entnehmen)

Konfidenzintervall fuumlr den RegressionskoefflZienten

bj t Sbj szligj bj + t Sbj (18)

mit

szligj Wahrer Regressionskoeffizient (unbekannt) bj Regressionskoeffizient der Stichprobe t t-Wert aus der Student-Verteilung Sbj = Standardfehler des Regressionskoeffizienten

Die benoumltigten Werte sind identisch mit denen die wir im t-Test verwendet haben Fuumlr den Regressionskoeffizienten in unserem Beispiel erhaumllt man damit das folshygende Konfidenzintervall

18881 - 2306 9187 szligl 18881 + 2306 9187

- 2304 szlig1 40066

Das Ergebnis ist wie folgt zu interpretieren Mit einer Vertrauenswahrscheinlichshykeit von 095 liegt der wahre Regressionskoeffizient der Variablen BESUCHE zwischen den Werten -2304 und 40066 Je grc5szliger das Konfidenzintervall ist deshysto unsicherer ist die Schaumltzung der Steigung der Regressionsgeraden in der Grundgesamtheit m a W desto unzuverlaumlssiger ist die gefundene Regressionsshyfunktion bezuumlglich dieses Parameters Dieses gilt insbesondere dann wenn innershyhalb des Konfidenzintervalls ein Vorzeichenwechsel liegt die Richtung des vershymuteten Einflusses sich also umkehren kann (Je groumlszliger die Zahl der Besuche deshysto kleiner die abgesetzte Menge)

125 Pruumlfung der Modellpraumlmissen

(1) Modellformulierung -l (2) Schaumltzung der

Regressionsfunktion

(3) Pruumlfung der Regressionsfunktion

~I

Die Guumlte der Schaumltzung fUr die Regressionspararneter die sich mittels der oben beschriebenen Kleinstquadrashyte-Methode erzielen lassen sowie auch die Anwendshybarkeit der Tests zur Uumlberpruumlfung der Guumlte haumlngen von gewissen Annahmen ab die wir bislang stillshyschweigend unterstellt hatten Dabei spielt die oben eingefiihrte Stoumlrgroumlszlige eine zentrale Rolle

Die Stoumlrgroumlszlige wurde eingefiihrt um der bestehenden Unsicherheit bei der Modellierung empirischer Sachshyverhalte Rechnung zu tragen Da sich die Variation eishyner empirischen Variablen Y nie vollstaumlndig durch eine begrenzte Menge von beobachtbaren Variablen erklaumlshy

ren laumlszligt hatten wir in (14) ein stochastisches Modell formuliert das der Regressishyonsanalyse zugrunde gelegt wird

Fuumlr die Existenz der Stoumlrgroumlszlige sind insbesondere folgende Ursachen zu nennen

- Unberuumlcksichtigte Einfluszliggroumlszligen - Fehler in den Daten Meszligfehler und Auswahlfehler

Die Beruumlcksichtigung aller moumlglichen Einfluszliggroumlszligen von Y waumlre mit einem unvershytretbar groszligen Aufwand verbunden und wuumlrde das Modell unhandlich machen Der Wert eines Modells resultiert daraus daszlig es einfacher ist als die Realitaumlt und sich auf die Wiedergabe wichtiger struktureller Aspekte begrenzt

Fehler in den Daten sind insbesondere Meszligfehler bedingt durch begrenzte Meszligshygenauigkeit und Auswahlfehler die entstehen wenn die Daten aufgrund einer Teilauswahl (Stichnrohe) Ilew(nn~n WPTt1pn Pin 7lJflIJ~ Annll+~ll~_ _lt I _

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 18: Backhaus Kapitel Regressionsanalyse

78

bull

Regressionsanalyse Vorgehensweise 79 Denkt man bei der zu erklaumlrenden Variablen Y an Absatzdaten (Absatzmengen Marktanteile Kaumluferreichweiten Markenbekanntheit etc) so handelt es sich dabei meist um Stichprobendaten die uumlberdies auch nie frei von Meszligfehlern sind Als Einfluszliggroumlszligen wirken neben den Maszlignahmen des Anbieters auch die Maszlignahmen der Konkurrenten und die des Handels Hinzu koumlnnen vielfaumlltige gesamtwirtshyschaftliche gesellschaftliche oder sonstige Umwelteinfluumlsse kommen Und schlieszliglich resultieren die einzelnen Kaumlufe aus den Entscheidungen von Menschen in deren Verhalten immer ein gewisses Maszlig an Zufaumllligkeit enthalten ist

Es ist daher gerechtfertigt die Stoumlrgroumlszlige als eine Zufallsgroumlszlige aufzufassen und der Regressionsanalyse ein stochastisches Modell zugrunde zu legen Die beobachshyteten Daten lassen sich als Realisationen eines Prozesses auffassen der durch dieshyses Modell generiert wird Die Menge der Beobachtungen bildet damit eine Stichshyprobe der moumlglichen Realisationen

Bei der Durchfuumlhrung einer Regressionsanalyse werden eine Reihe von Annahshymen gemacht die das zugrunde gelegte stochastische Modell betreffen Nachfolshygend wollen wir auf die Bedeutung dieser Annahmen und die Konsequenzen ihrer Verletzung eingehen Da wir uns hier auf die lineare Regressionsanalyse beshyschraumlnken (mit der sich sehr wohl auch nichtlineare Probleme behandeln lassen) sprechen wir im folgenden vom klassischen oder linearen Modell der Regresshysionsanayse

Annahmen des linearen RegressionsmodeUs

J Al Yk=szligO+LszligjXjk+Uk mit k = 12 Kund Kgt J+l

j=1

Das Modell ist richtig spezifiziert dh - es ist linear in den Parametern szligQ und szligj - es enthaumllt die relevanten erklaumlrenden Variablen - die Zahl der zu schaumltzenden Parameter (1+ I) ist kleiner als die Zahl der

vorliegenden Beobachtungen (K)

A2 Erw (uk) =0

Die Stoumlrgroumlszligen haben den Erwartungswert Null

A3 Cov (Uk-Xjk) = 0

Es besteht keine Korrelation zwischen den erklaumlrenden Variablen und der Stoumlrgroumlszlige

A4 Var(uk) = (2

Die Stoumlrgroumlszligen haben eine konstante Varianz (2 (Homoskedastizitaumlt)

A5 Cov(Ukuk+r)=O mit r 0

Die Stoumlrgroumlszligen sind unkorreliert (keine Autokorrelation)

A6 Zwischen den erklaumlrenden Variablen Xj besteht keine lineare Abhaumlngigkeit

(keine peifekte Mutikoinearitaumlt)

A 7 Die Stoumlrgroumlszligen uk sind normaverteit

Unter den Annahmen I bis6liefert die KQ-Methode lineare Schaumltzjunktionen fi1r die Regressionsparameter die alle wuumlnschenswerten Eigenschaften von Schaumltzern besitzen dh sie sind unverzerrt (erwartungs treu) und ejJizient 14 Effizienz bedeushytet hier daszlig sie unter allen linearen und unverzerrten Schaumltzern eine kleinstmoumlglishyche Varianz aufweisen Im Englischen werden diese Eigenschaften als BLUE beshyzeichnet (Best Linear Unbiased Estimators) wobei mit Best die Effizienz geshymeint ist

Zur Durchfi1hrung von Signifikanztests ist auszligerdem Annahme 7 von Vorteil Diese Annahme ist auch nicht unplausibel Da die Stoumlrgroumlszlige wie oben dargestellt die gemeinsame Wirkung sehr vieler und im einzelnen relativ unbedeutender Einshyfluszligfaktoren repraumlsentiert die voneinander weitgehend unabhaumlngig sind laumlszligt sich die Annahme der Normalverteilung durch den zentralen Grenzwertsatz der Statishystik stuumltzen 15

1251 N1chtlinearitaumlt

Nichtlinearitaumlt kann in vielen verschiedenen Formen auftreten In Abbildung 122 sind Beispiele nichtlinearer Beziehungen dargestellt (b c und d) Das lineare Reshygressionsmodell fordert lediglich daszlig die Beziehung linear in den Parametern ist In vielen Faumlllen ist es daher moumlglich eine nichtlineare Beziehung durch Transshyformation der Variablen in eine lineare Beziehung zu uumlberfUhren Ein Beispiel zeigt Abbildung 122 b

Derartige nichtlineare Beziehungen zwischen der abhaumlngigen und einer unabshyhaumlngigen Variablen koumlnnen durch Wachstums- oder Saumlttigungsphaumlnomene bedingt sein (zB abnehmende Ertragszuwaumlchse der Werbeausgaben) Sie lassen sich oft leicht durch Betrachten des Punktediagramms entdecken Die Folge von nicht entshydeckter Nichtlinearitaumlt ist eine Verzerrung der Schaumltzwerte der Parameter dh die Schaumltzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte szligj

Generell laumlszligt sich eine Variable X durch eine Variable X= f(X) ersetzen wobei f eine beliebige nichtlineare Funktion bezeichnet Folglich ist das Modell

I

14 Dies ist das sog Gauszlig-Markov-Theorem Vgl dazu zB Bleymuumlller JGehlert G Guumllieher H 2002 S 150 Kmenta J 1997 S 162

15 Der zentrale Grenzwertsatz der Statistik besagt daszlig die Summenvariable (oder der Mitshytelwert) von N unabhaumlngigen und identisch verteilten Zufallsvariablen normalverteilt ist und zwar unabhaumlngig von der Verteilung der Zufallsvariablen wenn N hinreichend groszlig ist In der Realitaumlt finden sich viele Zufallserscheinungen die sieh aus der Uumlberlagerung

T(l~t~ _____1 _ 1_+-A14 n c aClltllf r1~ftarf rHp D~ttr_

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 19: Backhaus Kapitel Regressionsanalyse

80 Regressionsanalyse

Y = szligO+ szligIX +u mit X =f(X) (20)

linear in den Parametern szligo und szligl und in X nicht aber in X Durch Transformatishyon von X in X wird die Beziehung linearisiert und laumlszligt sich mittels Regressionsshyanalyse schaumltzen

In allgemeinerer Form laumlszligt sich das lineare Regressionsmodell unter Beruumlckshysichtigung nichtlinearer Transformationen der Variablen auch in folgepder Form schreiben

J f(Y) = szligo+Lszligj fj(Xj)+u (21)

j=l

Abbildung 121 zeigt Beispiele fuumlr anwendbare nichtlineare Transformationen Dabei ist jeweils der zulaumlssige Wertebereich angegeben Der Exponent c in der Poshytenzfunktion IO muszlig vorgegeben werden

Abbildung 121 Nichtlineare Transfonnationen

Nr Bezeichnung Definition Bereich

1 Logarithmus In (X)

2 Exponential exp (X)

3 Arkussinus sin-1(X)

4 Arkustangens tan-1(X)

5 Logit In(XI-X))

6 Reziprok llX 7 Quadrat X2

8 Wurzel X1I2

9 Potenz Xc

XgtO

IXISl

OltXlt 1

XO

XO

XgtO

Ein spezielles nichtlineares Modell bildet das multiplikative Modell der Form

Y = szligO XIszligl xl2 XJszligJu (22a)

Vorgehensweise 81

yLAbbildung 122 Lineare und nichtlineare Regressionsbeziehungen

~

XX

b) nichtlineare Regressionsbeziehung a) Regressionsgerade (zB Y szligo + szligl X

l12)(Y szligo+ szlig1X)

yy I I I I I I I I I I I

I I~0 I

t bullbullbull bullbull bull I

I I

I I I I

II bull bull bull I I I

Jfbull bull bull

I ~ bullbullbull bull I

bull bullbull bullbull I ~ I I I I

XX

d) Stnlkturbruchc) Strukturbruch Niveauaumlnderung Trendaumlnderung

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 20: Backhaus Kapitel Regressionsanalyse

I 11

82J Regressionsanalyse

Durch Logarithmieren aller Variablen laumlszligt sich das multiplikative Modell in ein lineares Modell uumlberfuumlhren und damit mittels Regressionsanalyse schaumltzen Man erhaumllt

InY =szligO + szligO middot lnXl + szligO lnX2 + H + szligO middotlnXJ + u (22b)

mit szligO =In szligO und umiddot =In u

Die Beziehungen in Abbildung 122 c und d weisen einen Strukturbruch auf Dershyartige Strukturbruumlche findet man haumlufig bei Zeitreihenanalysen zB wenn durch Aumlnderung der wirtschaftlichen Rahmenbedingungen eine Aumlnderung in der zeitlishychen Entwicklung einer betrachteten Variablen Y bewirkt wird Strukturbruumlche lassen sich durch eine Dummy-Variable beruumlcksichtigen deren Werte vor dem Strukturbruch in Periode k Null sind und danach Eins (oder groumlszliger Eins) werden

Niveauaumlnderung ofuumlr k lt k

Yk =szligo+ szlig1 xk + szlig2 q+ uk mit q = 1fuumlr k ~ k (23)

Trendaumlnderung

O fuumlr klt k Yk = szligO+ szligl xk + szlig2 q + uk mIt (24)

q (k k + 1) fuumlr k ~ k

Eine weitere Form von Nichtlinearitaumlt kann im Mehr-Variablen-Fall dadurch aufshytreten daszlig sich die Wirkungen von unabhaumlngigen Variablen nicht-additiv vershyknuumlpfen So kann z B eine Preisaumlnderung in Verbindung mit einer Verkaufsshyfurderungsaktion anders wirken als ohne diese Derartige InteraktionseJfekte lassen sich wie folgt beruumlcksichtigen

Y= + szlig1 V + szlig2 P + szlig3 V P + u (25)

Dabei bezeichnet V die Verkaufsaktion und P den Preis Das Produkt VxP wird als Interaktionsterm bezeichnet dessen Wirkung der Koeffizient szlig3 reflektiert

Fuumlr die Aufdeckung von Nichtlinearitaumlt sind statistische Testmaumlglichkeiten vorshy16

handen auf die hier nur verwiesen werden kann Hinweise auf das Vorliegen von Nichtlinearitaumlt koumlnnen im uumlbrigen auch die nachfolgend beschriebenen Tests auf Autokorrelation und Heteroskedastizitaumlt geben

12511 Erwartungswert der Stoumlrgroumlszlige ungleich Null

Wenn im Regressionsmodell alle systematischen Einfluszliggroumlszligen von Y explizit beshyruumlcksichtigt werden dann umfaszligt die Stoumlrvariable u nur zuflillige Effekte die posishytive und negative Abweichungen zwischen beobachteten und geschaumltzten Werten verursachen Das Regressionsmodell unterstellt (Annahme 2) daszlig der Erwarshytungswert der Stoumlrvariable Null ist und sich die Schwankungen somit im Mittel ausgleichen

16 Vgl z B Kmenta J 1997 S SI7ff v Auer L 1999 S 226ff

Vorgehensweise 83

Eine Verletzung dieser Annahme ergibt sich zB wenn die Werte von Y mit eishynem konstanten Fehler zu hoch oder zu niedrig gemessen werden Wir sprechen dann von einem systematischen Meszligfehler und die Stoumlrgroumlszlige enthaumllt einen systeshymatischen Effekt Was ist die Folge Durch die KQ-Schaumltzung der Regressionsshyparameter wird quasi erzwungen daszlig der Mittelwert der Residuen Null wird (vgl Gleichung A5 im Anhang) Der systematische Meszligfehler geht dabei in den Schaumltzshywert des konstanten Gliedes boein so daszlig dieser nicht mehr unverzerrt ist Werden die Werte von Y konstant uumlberhoumlht gemessen so wird auch bo zu groszlig ausfallen In den meisten Anwendungen ist der Wert von bo nur von sekundaumlrem oder gar keinem Interesse und eine Verzerrung wird daher wenig stoumlren

Es ist aber groszlige Vorsicht geboten wenn man ein Modell ohne konstantes Glied spezifiziert da sich dann die Verzerrung auf die Regressionskoeffizienten ausshywirkt Dies sollte daher nur in wohlbegrundeten Ausnahmeflillen geschehen

12512 Falsche Auswahl der Regressoren

Das korrekt spezifizierte Regressionsmodell sollte gemaumlszlig Annahme Al alle releshyvanten Einfluszliggroumlszligen von Y enthalten Dies wird sich jedoch oft nicht realisieren lassen sei es daszlig die Erfassung technisch nicht moumlglich oder zu aufWendig waumlre oder sei es daszlig gar nicht alle relevanten Einfluszliggroumlszligen bekannt sind Die Modellshyformulierung bleibt dann unvollstaumlndig dh es fehlen erklaumlrende Variablen und eine moumlgliche Folge ist die Verzerrung der Schaumltzwerte

Gluumlcklicherweise muszlig dies nicht zwangslaumlufig die Folge sein wenn Annahme A3 erfuumlllt ist dh wenn keine Korrelation zwischen den im Modell beruumlckshysichtigten erklaumlrenden Variablen und der Stoumlrgroumlszlige (die die unberuumlcksichtigten Variablen enthaumllt) besteht Die Folge ist vielmehr die gleiche wie die eines konshystanten Meszligfehlers Der Erwartungswert der Stoumlrgroumlszlige ist nicht mehr Null und es kommt zu einer Verzerrung von bo

Anders verhaumllt es sich dagegen wenn Cov (Xjk Uk) gt 0 gilt also eine positive Korrelation zwischen der Variablen j und der Stoumlrgroumlszlige besteht In diesem Fall wuumlrde die Schaumltzung fuumlr bj zu groszlig ausfallen Durch die KQ-Schaumltzung wuumlrde naumlmlich der Teil der Variation von Y der von u kommt falschlich der Variable Xj

zugeordnet werden

Beispiel Das korrekte Modell lautet

Y = szligo+ szligI XI + szlig2 X2 + v

und wir spezifizieren flilschlich

Y= szligo+ szligI XI + U

mit u =szlig2X2 + v

Wenn XI und X2 korreliert sind dann sind auch XI und u korreliert und es liegt damit eine Verletzung von AnnahmeA3 vor die zu einer Verzerrung von b 1

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 21: Backhaus Kapitel Regressionsanalyse

i$ t~ 841 Regressionsana1yse ~

fUhrt 17

Ist dagegen die vernachlaumlssigte Variable X 2 nicht mit Xl korreliert so tritt dieser Effekt nicht auf Es waumlre lediglich eine Verzerrung von bo moumlglich Eine Ausnahme besteht wiederum bei einem Modell ohne konstanten Term in diesem Fall ist auch eine Verzerrung von b l moumlglich

Neben der Vernachlaumlssigung relevanter Variablen (underfitting) kann es auch vorkommen daszlig ein Modell zu viele erklaumlrende Variable enthaumllt (overfitting) Auch dies kann wie die Vernachlaumlssigung relevanter Variablen eine Folge unshyvollstaumlndigen theoretischen Wissens und daraus resultierender Unsicherheit sein Der Untersucher packt dann aus Sorge davor relevante Variable zu uumlbersehen alle verfUgbaren Variablen in das Modell ohne sie einer sachlogischen Pruumlfung zu unshyterziehen Solche Modelle werden auch als kitchen sink models bezeichnet Dieshyse Vorgehensweise fUhrt zwar nicht zu verzerrten Schaumltzern fUr die Regressionsshykoeffizienten wohl aber zu ineffizienten Schaumltzern (dh die Varianz der Schaumltzer ist nicht mehr minimal) 18 Wie in vielen Dingen gilt auch hier Mehr ist nicht besshyser

Je groumlszliger die Anzahl von Variablen in der Regressionsgleichung ist desto eher kann es vorkommen daszlig ein tatsaumlchlicher Einfluszligfaktor nicht signifikant erscheint weil seine Wirkung nicht mehr hinreichend praumlzise ermittelt werden kann Umgeshykehrt waumlchst mit steigender Zahl der Regressoren auch die Gefahr daszlig eine irreleshyvante Variable irrtuumlmlich als statistisch signifikant erscheint obgleich sie nur zushyfiUlig mit der abhaumlngigen Variablen korreliert

Es ~st also sowohl moumlglich dass sich eine irrelevante Variable als statistisch sishygnifikant erweist als auch daszlig ein relevanter Einfluszligfaktor nicht signifikant ershyscheint Letzteres sollte daher auch nicht dazu fuumlhren eine sachlich begruumlndete Hypothese zu verwerfen solange man kein widerspruumlchliches Ergebnis erzielt hat Das waumlre zB der Fall wenn ein signifikanter Koeffizient ein anderes Vorzeichen hat als angenommen In diesem Fall sollte man seine Hypothese verwerfen oder zumindest uumlberdenken Dies zeigt die Wichtigkeit theoretischer oder sachlogischer Uumlberlegungen bei der Analyse kausaler Zusammenhaumlnge 19

1252 Heteroskedastizitaumlt

Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhaumlngigen Variablen nicht konstant ist dann liegt Heteroskedastizitaumlt vor Damit ist eine Praumlmisse des linearen Regressionsmodells verletzt die verlangt daszlig die Varianz der Fehlervariablen u fuumlr alle k homogen ist m a W die Stoumlrgroumlszlige darf nicht von den unabhaumlngigen Variablen und von der Reihenfolge der Beobachtshy

17 Eine Alternative zur KQ-Schaumltzung liefert in diesem Fall die sog Instrument-VariablenshySchaumltzung (IV-Schaumltzung) Siehe hierzu Greene WH 1997 S 288ff v Auer L 1999 S 325ff

18 Vgl zB Kmenta J 1997 S 446ff

19 Zu Verfahren die die richtige Auswahl der Regressoren unterstuumltzen koumlnnen vgl zB v Auer L 1999 S 205ff Ein solcher Test ist zB der RESET-Test (REgression Speshycification Error Test) von Ramsey (1969) Vgl dazu auch Ramanathan R 1998 ~ )Q4ff

Vorgehensweise 85

ungen abhaumlngig sein Ein Beispiel fUr das Auftreten von Heteroskedastizitaumlt waumlre eine zunehmende Stoumlrgroumlszlige in einer Reihe von Beobachtungen etwa aufgrund von Meszligfehlern die durch nachlassende Aufmerksamkeit der beobachtenden Person entstehen

Heteroskedastizitaumlt fuhrt zu Ineffizienz der Schaumltzung und verfaumllscht den Stanshydardfehler des Regressionskoeffizienten Damit wird auch die Schaumltzung des Konshyfidenzintervalls ungenau

Zur Aufdeckung von Heteroskedastizitaumlt empfiehlt sich zunaumlchst eine visuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geschaumltzshyten) Werte von Y plottet Dabei ergibt sich bei Vorliegen von Heteroskedastizitaumlt meist ein Dreiecksmuster wie in Abbildung 123 a oder b dargestellt

Der bekannteste Test zur Aufdeckung von Heteroskedastizitaumlt bildet der GoldshyJeldlQuandt-Test bei dem die Stichprobenvarianzen der Residuen in zwei Untershystichproben zB der ersten und zweiten Haumllfte einer Zeitreihe verglichen und ins Verhaumlltnis gesetzt werden20 Liegt perfekte Homoskedastizitaumlt vor muumlssen die Vashyrianzen identisch sein (sf =si) dh das Verhaumlltnis der beiden Varianzen der Teilgruppen entspricht dem Wert Eins Je weiter das Verhaumlltnis von Eins abweicht desto unsicherer wird die Annahme gleicher Varianz Wenn die Residuen normalshyverteilt sind und die Annahme der Homoskedastizitaumlt zutrifft folgt das Verhaumlltnis der Varianzen einer F-Verteilung und kann daher als Teststatistik gegen die Nullshyhypothese gleicher Varianz HO af = af getestet werden Die F-Teststatistik beshyrechnet sich wie folgt

~2 ~2 2

SI Femp =s~ mit

Lek 2 _

s1 - KI- J shy I und

Lek

2 - Is2 - K2 -J-

Dabei sind K1 und K2 die Fallzahlen in den beiden Teilgruppen und J bezeichnet die Anzahl der unabhaumlngigen Variablen in der Regression Die Gruppen sind dabei so anzuordnen daszlig sf si gilt Der ermittelte F-Wert ist bei vorgegebenem Sishygnifikanzniveau gegen den theoretischen F-Wert fUr (KI-J-l KrJ-l) Freiheitgrade zu testen

20 Zu dieser und anderen Testmoumlglichkeiten auf Heteroskedastizitaumlt vgl Kmenta J zB lQQ7 ~ 292fT Greene WH 1997 S 549ff li

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 22: Backhaus Kapitel Regressionsanalyse

86 Regressionsanalyse

Abbildung 123 Heteroskedastizitaumlt und Autokorrelation

e e

----------------------shy ~-~-~---------------- o o ~~--------------------_ -----------------------~

y

a) Heteroskedastizitaumlt I b) Heteroskedastizitaumlt II

e e

bull bull -s bullbull

bull

- os o i- bull

y

c) positive Autokorrelation d) negative Autokorrelation

Vorgehensweise 87

Eine andere Methode zur Aufdeckung von Heteroskedastizitaumlt bietet ein Verfahren von Glesjer bei dem eine Regression der absoluten Residuen auf die Regressoren

21durchgefuumlhrt wird

J lekl = bO + 2)jXjk

j=l

Bei Homoskedastizitaumlt gilt die Nullhypothese HO b j = 0 G= I 2 J) Wenn sich signiflkant von Null abweichende Koeffizienten ergeben so muszlig die Annahshyme der Homoskedastizitaumlt abgelehnt werden

Zur Begegnung von Heteroskedastizitaumlt kann versucht werden durch Transforshymation der abhaumlngigen Variablen oder der ~esamten Regressionsbeziehung Hoshymoskedastizitaumlt der Stoumlrgroumlszligen herzustellen 2 Dies impliziert meist eine nichtshylineare Transformation Somit ist Heteroskedastizitaumlt meist auch ein Problem von Nichtlinearitaumlt und der Test auf Heteroskedastizitaumlt kann auch als ein Test auf

y Nichtlinearitaumlt aufgefaszligt werden Aumlhnliches gilt auch fuumlr das nachfolgend behanshydelte Problem der Autokorrelation3

1253 Autokorrelation

Das lineare Regressionsmodell basiert auf der Annahme daszlig die Residuen in der Grundgesamtheit unkorreliert sind Wenn diese Bedingung nicht gegeben ist spreshychen wir von Autokorrelation Autokorrelation tritt vor allem bei Zeitreihen auf Die Abweichungen von der Regressions(=Trend)geraden sind dann nicht mehr zushyfiillig sondern in ihrer Richtung von den Abweichungen z B des vorangegangeshynen Beobachtungswertes abhaumlngig

Autokorrelation fuumlhrt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten und demzufolge auch bei der Bestimmung der Konshyfldenzintervalle fuumlr die Regressionskoeffizienten

Zur Aufdeckung von Autokorrelation empflehlt sich auch hier zunaumlchst eine vishysuelle Inspektion der Residuen indem man diese gegen die prognostizierten (geshyschaumltzten) Werte von Y plottet Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander (vgl Abbildung 123 c) bei negashytiver Autokorrelation dagegen schwanken sie stark (vgl Abbildung 123 d)

y 21 Vgl Maddala G 1977 S 262ff Greene WH 1997 S 554f Ein anderer gebraumluchlishy

cher Test ist der White-Test von White (1980) der in einigen oumlkonometrischen Compushyter-Programmen angeboten wird Vgl dazu zB Kmenta J 1997 S 295ff Greene WH 1997 S 550f v Auer L 1999 S 276f

22 Vgl Kocklaumluner G 1988 S 88ff

23 Zur Erzielung konsistenter (asymptotisch erwartungstreuer) Schaumltzer bei Vorliegen von Heteroskedastizitaumlt werden anstellemiddot der einfachen KQ-Methode auch Ordinary Least Squares (OLS) genannt erweiterte Verfahren wie Generalized Least Squares (GLS) oshyder Weighted Least Squares (WLS) verwendet Vgl hierzu Greene 1997 S 555ff Kmenta J 1997 S 352ff Ramanathan R 1998 S 392ff

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 23: Backhaus Kapitel Regressionsanalyse

88 Regressionsanalyse

Die rechnerische Methode eine Reihe von Beobachtungswerten auf Autokorreshylation zU pruumlfen stellt der DurbinIWatson-Test dar Bei diesem Test wird die Reishyhenfolge der Residuen der Beobachtungswerte zum Gegenstand der Analyse geshymacht Der DurbinlWatson-Test pruumlft die Hypothese HO daszlig die Beobachtungsshywerte nicht autokorreliert sind4 Um diese Hypothese zu testen wird ein empirishyscher Wert d ermittelt der die Differenzen zwischen den Residuen von aufeinanshyder folgenden Beobachtungswerten aggregiert

DurbinlW atson-Formel

K L(ek -ek_J2

d = k==2=-K--- (19)

Lei k=

wobei ek = Residualgroumlszlige fuumlr den Beobachtungswert in der Periode k (k=l 2 K) d = Indexwert fUt die Prufung der Autokorrelation

Wenn nun die Residuen zweier aufeinander folgender Beobachtungswerte nahezu gleich sind mithin einem Trend unterliegen dann ist auch der Wert d klein Nieshydrige Werte von d deuten auf eine positive Autokorrelation hin (vgl Abbildung 123 c) Umgekehrt fuumlhren starke Spruumlnge in den Residuen zu hohen Werten von d und damit zur Existenz einer negativen Autokorrelation (vgl Abbildung 123 d)

1254 MultikoUinearitaumlt

Das lineare Regressionsmodell basiert auf der Praumlmisse daszlig die Regressoren nicht exakt linear abhaumlngig sind Dh ein Regressor darf sich nicht als lineare Funktion der uumlbrigen Regressoren darstellen lassen In diesem Falle wuumlrde perfekte Multishykollinearitaumlt bestehen und die Regressionsanalyse waumlre rechnerisch nicht durchshy

25fuumlhrbar Perfekte Multikollinearitaumlt wird selten vorkommen und wenn dann meist als Folge von Fehlspezifikationen zB wenn man dieselbe Einfluszliggroumlszlige zweimal als unabhaumlngige Variable in das Regressionsmodell aufnimmt Die zweite Variable enthaumllt dann keine zusaumltzliche Information und ist uumlberfluumlssig

Bei empirischen Daten besteht aber immer ein gewisser Grad an Multikollinearishytaumlt der nicht stoumlrend sein muszlig Auch bei Vorliegen von Multikollinearitaumlt liefert die KQ-Methode Schaumltzer die wir oben als BLUE bezeichnet haben Ein hoher Grad an Multikollinearitaumlt aber wird zum Problem denn mit zunehmender Multishykollinearitaumlt werden die Schaumltzungen der Regressionsparameter unzuverlaumlssiger

24 Strenggenommen wird die Hypothese gepruumlft daszlig keine lineare Autokorrelation erster Ordnung (zwischen ~ und ek-l) vorliegt Selbst wenn also die Nullhypothese nicht verworfen wird heiszligt das nicht daszlig keine nichtlineare Autokorrelation oder daszlig keine lineare Autokorrelation roter Ordnung (also zwischen ~ und ek-r) vorliegt

25 Vgl hierzu Formel (A14) im Anhang zur Schaumltzung der Regressionskoeffizienten Die Matrix XX wird dann singulaumlr und die Inverse existiert nicht

Vorgehensweise 89

Dies macht sich bemerkbar am Standardfehler der Regressionskoeffizienten der

groumlszliger wird

Abbildung 124 Venn-Diagramm

Bei Multikollinearitaumlt uumlberschneiden sich die Streuungen der unabhaumlngigen Variashyblen Dies bedeutet zum einen Redundanz in den Daten und damit weniger Inforshymation Zum anderen bedeutet es daszlig sich die vorhandene Information nicht mehr eindeutig den Variablen zuordnen laumlszligt Dies kann grafisch mit Hilfe eines VennshyDiagramms veranschaulicht werden26 Abbildung 124 zeigt dies schematisch fuumlr eine Zweifachregression wobei die Streuungen der abhaumlngi~en Variablen Y und der beiden Regressoren jeweils durch Kreise dargestellt sind 7 Die Multikollineashyritaumlt kommt in den Uumlberschneidungsflaumlchen C und D zum Ausdruck Fuumlr die Schaumltzung von b l kann nur die Information in Flaumlche A genutzt werden und fuumlr die von b2 die Information in Flaumlche B Die Information in Flaumlche C dagegen kann den Regressoren nicht individuell zugeordnet werden und deshalb auch nicht fuumlr die Schaumltzung ihrer Koeffizienten genutzt werden Sie ist deshalb aber nicht voumlllig verloren denn sie vermindert den Standardfehler der Regression und erhoumlht damit das Bestimmtheitsmaszlig und die Genauigkeit von Prognosen

Es kann daher infolge von Multikollinearitaumlt vorkommen daszlig das Bestimmtshyheitsmaszlig R2 der Regressionsfunktion signifikant ist obgleich keiner der Koeffishyzienten in der Funktion signifikant ist Eine andere Folge von Multikollinearitaumlt kann darin bestehen daszlig sich die Regressionskoeffizienten erheblich veraumlndern wenn eine weitere Variable in die Funktion einbezogen oder eine enthaltene Vashyriable aus ihr entfernt wird

Um dem Problem der Multikollinearitaumlt zu begegnen ist zunaumlchst deren Aufshydeckung erforderlich d h es muszlig festgestellt werden welche Variablen betroffen sind und wie stark das Ausmaszlig der Multikollinearitaumlt ist Einen ersten Anhaltsshypunkt kann die Betrachtung der Korrelationsmatrix liefern Hohe Korrelationsshykoeffizienten (nahe 111) zwischen den unabhaumlngigen Variablen bedeuten ernsthafte Multikollinearitaumlt Die Korrelationskoeffizienten messen allerdings nur paarweise

26 Vgl hierzu v Auer L 1999 S 335 ff

27 Es sei SSy == L(Yk-y)2 und SSXj =L(Xjk _Xj)2

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 24: Backhaus Kapitel Regressionsanalyse

Regressionsanalyse Vorgehenswelse 1190

Abhaumlngigkeiten Es kann deshalb auch hochgradige Multikollinearitaumlt trotz durchshy Variable handelt (z B Einfluszlig des Wetters auf die Absatzmenge) Eventuell muumlsshygaumlngig niedriger Werte tUr die Korrelationskoeffizienten der unabhaumlngigen Variashy sen auch mehrere Variable entfernt werden Problematisch wird dieser Vorgang blen bestehen IZur Aufdeckung von Multikollinearitaumlt empfiehlt es sich daher eine Regression jeder unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen durchshyzufUhren und so den zugehoumlrigen multiplen Korrelationskoeffizienten oder das BeshystimmtheiUmaszlig R~ zu ermitteln Ein Wert Rf = I besagt daszlig sich die Variable Xj durch Linearkombination der anderen unabhaumlngigen Variablen erzeugen laumlszligt und folglich uumlberfluumlssig ist Fuumlr Werte von R nahe I gilt das gleiche in abgeshyschwaumlchter Form Ein hiermit verwandtes Maszlig zur Pruumlfung auf Multikollinearitaumlt ist die sog Toleranz

Toleranz der Variablen Xj

Tj I-R (20)

mit R f Bestimmtheitsmaszlig tUr Regression der unabhaumlngigen Variablen Xj auf die uumlbrigen unabhaumlngigen Variablen in der Regressionsfunktion

Xj = f(X l Xj_l Xj+I XJ)

Der Kehrwert der Toleranz ist der sog Variance Inflation Factor Dieser ist um so groumlszliger je groumlszliger die multiple Korrelation bzw das Bestimmtheitsmaszlig eines Reshygressors in Bezug auf die uumlbrigen Regressoren ist

Variance Inflation Factor Variablen Xj

I VIFj = --2 (21)

l-R J

Der Name Variance Inflation Factor resultiert daraus daszlig sich mit zunehmender Multikollinearitaumlt die Varianzen der Regressionskoeffizienten um eben diesen Fakshytor vergroumlszligern8 Damit wird deutlich daszlig die Genauigkeit der Schaumltzwerte mit zunehmender Multikollinearitaumlt abnimmt

Ein spezieller Fall von Multikollinearitaumlt liegt vor wenn eine erklaumlrende Variashyble tUr alle Beobachtungen konstant und damit ihre Streuung Null ist Es besteht damit eine lineare Beziehung zum konstanten Glied der Regressionsfunktion Es leuchtet ein daszlig die moumlgliche Wirkung einer Variablen nicht festgestellt werden kann wenn sie nicht variiert und damit keine Information enthaumllt Aber auch bei geringer Variation wird die Schaumltzung des Regressionskoeffizienten immer ungeshynau sein Dies laumlszligt sich aus der Formel (BI) tUr den Standardfehler des Regressishyonskoeffizienten im Anhang ersehen Die Erzielung einer hinreichenden Variation ist ein Grund filr die DurchtUhrung von experimentellen Untersuchungen Eine Moumlglichkeit hoher Multikollinearitaumlt zU begegnen besteht darin daszlig man eine oder mehrere Variable aus der Regressionsgleichung entfernt Dies ist unshyproblematisch wenn es sich dabei um eine filr den Untersucher weniger wichtige

~ I 28

VgL Belsley DAKuh ElWelsch RE 1980 S 93 ~ j

wenn es sich bei der oder den betroffenen Variablen gerade um diejenigen handelt deren Einfluszlig den Untersucher primaumlr interessiert Er steht dann oft vor dem Dishylemma entweder die Variable in der Gleichung zu belassen und damit die Folgen der Multikollinearitaumlt (unzuverlaumlssige Schaumltzwerte) in Kauf zu nehmen oder die Variable zu entfernen und damit moumlglicherweise den Zweck der Untersuchung in Frage zu stellen

Ein Ausweg aus diesem Dilemma koumlnnte darin bestehen den Stichprobenumshyfang und somit die Informationsbasis zu vergroumlszligern Aus praktischen Gruumlnden ist dies aber oft nicht moumlglich Andere Maszlignahmen zur Beseitigung oder Umgehung von Multikollinearitaumlt bilden z B Transformatione~ der Variablen oder Ersetzu~ der Variablen durch Falctoren die mittels Faktorenanalyse gewonnen wurden Um die Wirkung der Multikollinearitaumlt besser abschaumltzen zu koumlnnen sollte der Untersucher in jedem Fall auch Alternativrechnungen mit verschiedenen Variashyblenkombination~n durchtUhren Sein subjektives Urteil muszlig letztlich uumlber die Einschaumltzung und Behandlung der Multikollinearitaumlt entscheiden

1255 Nicht-Normalvertellung der Stoumlrgroumlszligen

Die letzte Annahme des linearen Regressionsmodells besagt daszlig die Stoumlrgroumlszligen normalverteilt sein sollen Wir hatten darauf hingewiesen daszlig diese Annahme tUr die Kleinstquadrate-Schaumltzung nicht benoumltigt wird dh die KQ-Schaumltzer besitzen

3bauch ohne diese Annahme die BLUE-EigenschaftDie Annahme der Norrnalverteilung der Stoumlrgroumlszligen ist lediglich tUr die Durchshy

filhrung statistischer Tests (t-test F-test) von Bedeutung Hierbei wird unterstellt daszlig die zu testenden Schaumltzwerte der Regressionsparameter also bo und bj norshymalverteilt sind Waumlre dies nicht der Fall waumlren auch die Tests nicht guumlltig

Wenn die Stoumlrgroumlszligen normalverteilt sind dann sind auch die Y-Werte dieja die Stoumlrgroumlszligen als additiven Terni enthalten normalverteilt Und da die KQ-Schaumltzer Linearkombinationen der Y-Werte bilden (vgl Anhang) sind folglich auch bo und bj normal verteilt

29 Vgl dazu das Kapitel 5 Faktorenanalyse in diesem Buch Bei einem Ersatz der Reshygressoren durch Faktoren muszlig man sich allerdings vergegenwaumlrtigen daszlig dadurch woshymoumlglich der eigentliche Untersuchungszweck in Frage gestellt wird Eine andere Meshythode zur Begegnung von Multikollinearitaumlt ist die sog Ridge Regression bei der man zugunsten einer starken Verringerung der Varianz eine kleine Verzerrung der Schaumltzshywerte in Kauf nimmt VgL dazu ZB Kmenta J 1997 S 440ff Belsley DAKuh EJWelsch RE 1980 S 219ff

30 Vgl zB Kmenta J 1997 S 261

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 25: Backhaus Kapitel Regressionsanalyse

Regressionsanalyse92

Wir hatten oben ausgefilhrt daszlig die Annahme angenaumlhert normalverteilter Stoumlrshygroumlszligen in vielen FaumlHen plausibel ist wenn diese durch Uumlberlagerung zahlreicher und im einzelnen relativ unbedeutender undmiddot voneinander unabhaumlngiger Zufallsshygroumlszligen zustande kommt Eine Rechtfertigung hierfilr liefert der zentrale Grenzshywertsatz der Statistik Allerdings kann man nicht davon ausgehen daszlig dies geneshyrell so ist

Abbildung 125 Praumlmissenverletzungen des linearen Regressionsmodells

Konsequenzen verletzung

Praumlmisse Praumlmissen-

I

Verzerrung der Parametern

Linearitaumlt in den Nichtlinearitaumlt Schaumltzwerte

Vollstaumlndigkeit des Modells Verzerrung der bull

(Beruumlcksichtigung aller Unvollstaumlndigkeit

Schaumltzwerte relevanten Variablen)

Homoskedastizitaumlt der Ineffizienz Stoumlrgroumlszligen

Unabhaumlngigkeit der

Heteroskedastizitaumlt

IneffIZienz Stoumlrgroumlszligen

Keine lineare Abhaumlngigkeit

Autokorrelation

Verminderte Praumlzision zwischen den unabhaumlngigen

Multikollinearitaumlt der Schaumltzwerte

Variablen

Normalverteilung der Ungtlltigkeit der Signifi-Stoumlrgroumlszligen

nicht normalverteilt kanztests (F-Test und t-Test) wenn K klein ist

Sind die Stoumlrgroumlszligen nicht normalverteilt so koumlnnen aber die KQ-Schlltzer trotzshydem normalverteilt sein Auch dies folgt wiederum aus dem zentralen Grenzwertshysatz und den obigen Ausfilhrungen Allerdings gilt dies nur asymptotisch mit wachsender Zahl der Beobachtungen K Ist die Zahl der Beobachtungen groszlig (etshywa K gt 40) sind damit die Signifikanztests unabhaumlngig von der Verteilung der

31 Stoumlrgroumlszligen guumlltig

31 Zumindest unter sehr allgemeinen Bedingungen naumlmlich daszlig die Stoumlrgroumlszligen endliche Varianz besitzen und voneinander unabhaumlngig sind VgL hierzu Greene WH 1997 S 27Sff Kmenta J 1997 S 262 Zum Testen auf Normalitaumlt ist es uumlblich die Residuen zu plotten Da die Normalverteilung symmetrisch ist sollte dies auch rur die Verteilung der Residuen gelten Zu formalen Tests siehe Kmenta J 1997 S 26Sff

Fallbeispiel 93

Abbildung 125 faszligt die wichtigsten Praumlmissen des linearen Regressionsmodells und die Konsequenzen ihrer Verletzung zusammen Aufgrund der Vielzahl der Annahmen die der Regressionsanalyse zugrunde liegen mag deren Anwendbarshykeit sehr eingeschraumlnkt erscheinen Das aber ist nicht der FalL Die Regressionsanashylyse ist recht unempfindlich gegenuumlber kleineren Verletzungen der obigen Anshynahmen und bildet ein aumluszligerst flexibles und vielseitig anwendbares Analyseverfahshyren

13 Fallbeispiel

In einer Untersuchung uumlber potentielle Ursachen von Veraumlnderungen im Margashyrineabsatz erhebt der Verkaufsleiter eines Margarineherstellers Daten uumlber potenshytielle von ihm vermutete Einfluszliggroumlszligen der Absatzveraumlnderungen Aufgrund seishyner Erfahrung vermutet der Verkaufsleiter daszlig die von ihm kontrollierten Groumlszligen Preis Ausgaben filr Verkaufsfoumlrderung sowie Zahl der Vertreterbesuche einen urshysaumlchlichen Einfluszlig auf den Margarineabsatz in seinen Verkaufsgebieten haben Aus diesem Grunde erhebt er Daten uumlber die Auspraumlgungen dieser Einfluszliggroumlszligen in 37 Verkaufsgebieten die zufaumlllig ausgesucht werden Er hofft aufgrund dieser Stichprobe ein zuverlaumlssiges Bild uumlber die Wirkungsweise dieser Einfluszliggroumlszligen auf den Margarineabsatz in allen Verkaufsgebieten zu gewinnen

131 Blockweise Regressionsanalyse

Mit einer blockweisen Regressionsanalyse in SPSS als Methode Einschluss (Enshyter) bzeichnet kann der Benutzer eine einzelne Variable oder Bloumlcke von Variashyblen in eine Regressionsgleichung einbeziehen Um mittels des Programms SPSS ein Regressionsmodell unter Verwendung dieser Methode zu berechnen und zu uumlberpruumlfen ist zunaumlchst die Prozedur Regression aus dem Menuumlpunkt Analyshysieren auszuwaumlhlen und sodann die Option Linear (vgl Abbildung 126)

Im nunmehr geoumlffneten Dialogfenster Lineare Regression (vgl Abbildung 127) werden zunaumlchst die abhaumlngige Variable (hier MENGE) und eine oder mehshyrere unabhaumlngige Variable (hier PREIS AUSGABEN BESUCHE) aus der Vashyriablenliste ausgewaumlhlt und mittels der Option Einschluss in die Regressionsshyfunktion einbezogen Nach Anklicken von OK erhaumllt man das Ergebnis der Anashylyse das in Abbildung 128 wiedergegeben ist

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 26: Backhaus Kapitel Regressionsanalyse

I

h 94 Regressionsanalyse~ Abbildung 126 Daten-Editor mit Auswahl des Analyseverfahrens Regression (Linear) 1II

Abbildung 127 Dialogfenster Lineare Regression

Fallbeispiel 95

Abbildung 128 SPSS-Output fi1r die Regressionsanalyse

egression

AufgenommeneEntfernte Variablen b

Aufgenommene Entfemte Modell Variablen Variablen Methode 1 BESUCHE PREIS

AUSGABEN 8 Eingeben

bull

a Alle gewuumlnschten Variablen wurden aufgenommen

b Abhaumlngige Variable MENGE

Modellzusammenfassung

Modell R R-Quadrat Korrigiertes R-Quadrat

Standardfehler des Schaumltzers

Durbin-Watsoll-Statistik

1 920 847 833 1553195 2020

ANOVA

IQuadratsummeModell

1 Regression 4395065962

Residuen 796097011 33 24124152 Gesamt 5191162973 36

I 311465021987

Koeffizienten

Nicht standardisierte Koeffizienten

Standard- Signifi fehlerModell B Beta T kanz

1 (Konstante) 763650 223946 3410 002 PREIS -45177 16102 -191 -2806 008 AUSGABEN 551 050 753 10925 000 BESUCHE 9705 00(11658 404 5854

Das erste wichtige Ergebnis sind die Regressionskoeffizienten bj filr die drei unshyabhaumlngigen Variablen BESUCHE PREIS AUSGABEN sowie das konstante Glied Diese finden sich im unteren Bereich der Abbildung in der Tabelle Koeffishyzienten in der ersten mit B bezeichneten Spalte t 1

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 27: Backhaus Kapitel Regressionsanalyse

i 96 Regressionsanalyse

Die geschaumltzte Regressionsfunktion lautet damit t

MENGE = 76365 + 971 Besuche - 4518 Preis + 055 Ausgaben

Globale Guumltemaszlige

In dem mit Modellzusammenfassung uumlberschriebenen Abschnitt finden sich die globalen Guumltemaszlige Das Bestimmtheitsmaszlig (R-Quadrat) betraumlgt hier R2 = 085 (Formel 13a) Die Groumlszlige R = 092 ist der multiple Korrelationskoeffizient (Wurzel aus R2

) Das korrigierte Bestimmtheitsmaszlig gemaumlszlig Formel (13c) betraumlgt 083 Mit Standardfehler des Schaumltzers ist die Standardabweichung der Residuen (Forshyme116) gemeint die hier 1553 betraumlgt

Der Wert fuumlr R2 der besagt daszlig 85 der Variation der Absatzmenge durch die drei Regressoren erklaumlrt wird ist rur eine Marktuntersuchung dieser Art ein relativ hoher Wert Allgemein guumlltige Aussagen ab welcher Houmlhe ein R2 als gut einzustushyfen ist lassen sich jedoch nicht machen da dies von der jeweiligen Problemstelshylung abhaumlngig ist Bei stark zufallsbehafteten Prozessen (zB Wetter Boumlrse) kann auch ein R2 von 0 1 akzeptabel sein

Der F-Test wird in dem mit ANOVA (Analysis ofVariance) uumlberschriebenen Abschnitt wiedergegeben (vgl Formel 15a) In der mit Regression bezeichneten Zeile wird zunaumlchst die durch das Regressionsmodell erklaumlrte Streuung (Quadratshysumme) ausgewiesen daneben die Anzahl der Freiheitsgrade (df) und die erklaumlrte Varianz (Mittel der Quadrate) die sich aus dem Quotient von Streuung und Freishyheitsgraden ergibt Analog kann man in der Zeile Residuen die nicht erklaumlrte Streuung die zugehoumlrigen Freiheitsgrade und die nicht erklaumlrte Varianz ablesen

Die Anzahl der Freiheitsgrade (df) ergibt durch

df= J 3 fUr die erklaumlrte Streuung

df=K-J-l =33 rur die nicht erklaumlrte Streuung

Fuumlr die F- Statistik erhaumllt man damit gemaumlszlig Formel (I5a) oder (I5b) den Wert

Femp = 607

Zum Testen der Nullhypothese daszlig kein systematischer Zusammenhang besteht ist dieser Wert mit einem theoretischen F-Wert fuumlr eine geforderte Irrtumswahrshyscheinlichkeit zu vergleichen Nachfolgend sind die theoretischen F-Werte fUr vershyschiedene Irrtumswahrscheinlichkeiten die man fUr die obigen Freiheitsgrade eishynem Tabellenwerk fUr die F-Verteilung entnehmen kann (siehe Anhang des Bushyches) wiedergegeben

F = 29 fUr Irrtumswahrscheinlichkeit 005 F = 45 fUr Irrtumswahrscheinlichkeit 001 F= 52 fuumlr Irrtumswahrscheinlichkeit 0005

Der hier erzielte F-Wert ist weit groumlszliger und damit hoch signifikant Folglich kann

Ifj die Nullhypothese abgelehnt werden

Fallbeispiel 97

Die Vorgabe einer IrrtumswahrscheinHchkeit (Signifikanzniveau) wie es beim klassischen Hypothesentest gefordert wird ist immer mit einer gewissen Willkuumlr verbunden Eine bessere Vorgehensweise ist deshalb folgende Man berechnet einshyfach die Irrtumswahrscheinlichkeit fUr den erhaltenen empirischen F-Wert Das ist die Wahrscheinlichkeit daftir daszlig man unter der Nullhypothese per Zufall einen noch groumlszligeren F-Wert als den empirischen F-Wert erhalten wuumlrde Bei einem klasshysischen Test waumlre der empirische F-Wert bei dieser Irrtumswahrscheinlichkeit geshyrade noch signifikant Der Untersucher kann sodann entscheiden ob er diese Irrshyturnswahrscheinlichkeit akzeptiert oder nicht Damit kann man sich das Nachshyschlagen in F-Tabellen ersparen

In SPSS wird diese Irrtumswahrscheinlichkeit also das Signifikanzniveau des empirischen F-Wertes in der Spalte Signifikanz ausgewiesen Der Wert betraumlgt hier 0000 womit sich die Frage nach der Akzeptanz eruumlbrigt

Pruumlfung der RegressionskoefIizieriten

In der Tabelle Koeffizienten der wir schon die Regressionskoeffizienten entshynommen hatten finden sich in der zweiten Spalte die Standardfehler Sb) der Reshygressionskoeffizienten (vgl Formel B4 im Anhang) Diese werden rur die Ermittshylung der t-Werte sowie der Konfidenzintervalle der Koeffizienten (vgl Abbildung 130) benoumltigt

Die folgende Spalte enthaumllt die standardisierten Regressionskoeffizienten bj (Beta-Werte) Wir erkennen daszlig die Ausgaben den houmlchsten Beta-Wert annehshymen Daraus koumlnnen wir schlieszligen daszlig diese den staumlrksten Einfluszlig auf die Abshysatzmenge haben

Entsprechend ist auch der t-Wert rur die Ausgaben am houmlchsten Auch hier sind analog zum F-Test die Signifikanzniveaus der Regressionsparameter angegeben Diese sind alle niedriger als das uumlblicherweise geforderte Signifikanzniveau von 005 bzw 5 Der Einfluszlig aller drei Regressoren kann damit als signifikant angeshysehen werden

Als Faustregel laumlszligt sich merken daszlig ein Koeffizient signifikant ist mit 5 Irrshyturnswahrscheinlichkeit wenn t ~ 2 gilt also der zugehoumlrige t-Wert groumlszliger Zwei ist Dies gilt allerdings nur fUr eine groumlszligere Anzahl von Beobachtungen genaugeshynommen fuumlr K ~ 60 wie ein Blick in die t-Tabelle im Anhang zeigt

Weitere Statistiken

Neben den durch das Programm SPSS standardmaumlszligig ausgegebenen Statistiken (Schaumltzer Anpassungsguumlte des Modells) koumlnnen im Dialogfenster Statistiken (vgl Abbildung 129) weitere Statistiken ausgewaumlhlt werden Hierzu gehoumlren die Konfidenzintervalle der Regressionskoeffizienten sowie Statistiken die dazu dieshynen die Einhaltung der Praumlmissen des linearen Regressionsmodells zu uumlberpruumlfen

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 28: Backhaus Kapitel Regressionsanalyse

98 FaUbeispieI 99Regressionsanalyse

Abbildung 129 Dialogfenster Statistiken Abbildung 131 Korrelationsmatrix

Korrelationen

MENGE PREIS AUSGABEN BESUCHE Korrelation nach Pearson

MENGE

PREIS

AUSGABEN

BESUCHE

1000

-164

810

507

-164

1000

014

043

810

014

1000

148

507

042

14euro

1000

Abbildung 130 enthaumllt die Konfidenzintervalle der drei Regressionskoeffizienten sowie des konstanten Gliedes (95-Konfidenzintervall ftIr B) Man sieht daszlig der Koeffizient der Variablen PREIS das groumlszligte Konfidenzintervall unter den drei Reshygressionskoeffizienten besitzt und folglich dessen Schaumltzung am ungenauesten ist Noch ungenauer ist allerdings der Schaumltzwert des konstanten Gliedes

Abbildung 130 Konfidenzintervalle und Kollinearitaumltsstatistik

Koeffizienten-

Modell

95-Konfidenzintervall fuumlr B Koilinearitaumltsstatistik

Untergrenze Obergrenze Toleranz VIF 1 (Konstante)

BESUCHE PREIS AUSGABEN

308029 6332

-77936 448

1219272 13079

-12417 654

976

998 978

1024 1002 1023

a Abhaumlngige Variable MENGE

I I

i I

Pruumlfung auf Multikollinearitit

Zwecks Aufdeckung von Multikollinearitaumlt soll hier in einem ersten Schritt die Korrelationsmatrix auf erkennbare Abhaumlngigkeiten unter den Regressoren gepruumlft werden (vgl Abbildung 131) Starke Korrelationen unter den Regressoren liegen hier nicht vor was jedoch noch keine Gewaumlhr fuumlr das Fehlen von Multikollinearitaumlt bietet Diese kann auch vorlieshygen wenn alle paarweisen Korrelationen niedrig sind

In Abbildung 130 sind neben den Konfidenzintervallen der Regressionsparameshyter auch deren Toleranzen und Variance Inflation Factors (VIF) angegeben (vgl Formel 20 und 21) Die vorliegenden Werte lassen keine nennenswerte MultikoIlishynearitaumlt erkennen

Im Programm SPSS wird die Toleranz jeder unabhaumlngigen Variablen vor Aufshynahme in die Regressionsgleichung gepruumlft Die Aufnahme unterbleibt wenn der Toleranzwert unter einem Schwellenwert von 00001 liegt Dieser Schwellenwert der sich vom Benutzer auch aumlndern laumlszligt bietet allerdings keinen Schutz gegen Multikollinearitaumlt sondern gewaumlhrleistet nur die rechnerische Durchfuumlhrbarkeit der Regressionsanalyse Eine exakte Grenze ftIr ernsthafte Multikollinearitaumlt laumlszligt sich nicht angeben

Analyse der Residuen

Zwecks Pruumlfung der Praumlmissen des linearen Regressionsmodells die die Verteishylung der Stoumlrgroumlszligen betreffen muszlig man auf die Residuen zuruumlckgreifen da die Stoumlrgroumlszligen nicht beobachtbar sind Hierbei geht es zB um Pruumlfung auf Autokorshyrelation und Heteroskedastizitaumlt oder die Pruumlfung auf Norrnalverteilung der Resishyduen In Abbildung 132 sind neben den beobachteten und geschaumltzten Werten der abhaumlngigen Variablen MENGE Yk und h auch die Residuen ek =h-Yk aufgelistet In der ersten Spalte sind auszligerdem die standardisierten Residuen ausshygegeben die man durch Division der Residuen durch ihre Standardabweichung (den Standard fehler s 1553) erhaumllt Abbildung 133 zeigt eine Zusammenstelshylung von Minima und Maxima sowie Mittelwert und Standardabweichung dieser Werte

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 29: Backhaus Kapitel Regressionsanalyse

d

100 Regressionsanalyse

Abbildung 132 Y-Werte und Residuen

Fallweise Diagnose bull

Fallnummer Standardisierte

Residuen MENGE

Nichtstandarshydlsierter vorhershyaesaQter Wert

1 2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25 26

27

28

29

30

31

32

33

34

35

36

37

1455

1066

-1153

647

-558

962

-649

487

-1114

1486

1006

-743

-1495

-942

-145

408

-861

-955

-955

819

708

855

1186

-292

882

-590

-802

479

-500

677

941

-448

1280

-1347

-1707

669

-956

a Abhllngige Variable MENGE

258500

181900

164700

149600

92100

227800

181000

198700

161200

191300

211800

143800

183400

186900

157400

259700

202600

201600

156600

216900

199600

250100

260400

127700

178900

182400

181300

151300

117200

198700

205600

151300

175600

200700

207900

166400

169900

23590653

16534810

18260974

13643922

10076728

21285119

19107293

19112997

17850727

16821216

19617850

15534221

20662381

20152797

15964625

25335905

21591741

21642683

17142982

20418503

18861044

23682511

24198439

13224222

16520323

19157086

19376411

14385733

12496605

18818421

19099122

15825333

15571700

22162075

23441633

15600658

18474558

Nichtshystandardisierte

Residuen 2259347

1655190

-1790974

1316078

-866728

1494881

-1007293

757003

-1730727

2308784

1562150

-1154221

-2322381

-1462797

-224625

634095

-1337741

-1482683

-1482982

1271497

1098956

1327489

1841561

-454222

1369617

-917086

-1246411

744267

-776605

1051579

1460878

-695333

1988300

-2092075

-2651633

1039342

-1484558

Fallbeispiel 101

1 I bbildung 133 Statistik der Schaumltzwerte und der Residuen

Residuenstatistik

Standard-N

Nicht standardisierter 37 vorhergesagter Wert

Nicht standardisierte -2651633 I 2308784 12212E-13 I 1487071 37 Residuen

Standardisierter 37I 1951 000 I 1000 middot2417

Standardisierte Residuen -1707 1486 000 957 37 vorhergesagter Wert

Die Betrachtung der Residuen bietet hier keine Anhaltspunkte fIlr die Vennutung von Praumlmissenverletzungen Alle Residuen liegen innerhalb eines Intervalls von plusmn2 Standardabweichungen um den Nullpunkt dh es sind keine Ausreiszliger vorhanshy

den

DurbinIW atson-Test

Da es sich bei den Beobachtungen hier nicht um Zeitreihendaten handelt sondern ~ um Querschnittsdaten deren Reihenfolge sich beliebig veraumlndern laumlszligt macht eme Pruumlfung auf Vorliegen von Autokorrelation keinen Sinn Um die Anwendung des I DurbinlWatson-Testes zu demonstrieren wollen wir dies jetzt ignorieren und so ~ tun als haumltten wir Zeitreihendaten vorliegen Der Wert der DurbinlWatsonshyI Statistik d = 202 wurde bereits in Abbildung 128 ausgewiesen Abbildung 134

zeigt die Entscheidungsregeln fIlr die Durchfuumlhrung des Durbin-Watson-Tests Als Grenzwerte ergeben sich aufgrund der Durbin-Watson-Tabelle (vgl An~

bei 37 Faumlllen und drei Regressoren (auf 95 - Niveau) im zweiseitigen TestJ~ fIlr du+ = 121 und rur do+ 156 Bei dem errechneten Wert von d = 202 besteht kein Anlaszlig zur Ablehnung der Nullhypothese

33 d h es gibt keinen Grund

zu der Annahme daszlig Autokorrelation besteht Abbildung 135 beschreibt noch einmal grafisch den Annahmebereich sowie die Ablehnungs- und Unschaumlrfebeshyreiche des DurbinIW atson-Tests

32 Die DurbinlWatson-Tabelle ist indifferent gegenuumlber der Frage ob es sich um einen einseitigen oder zweiseitigen Test handelt Im Falle des zweiseitigen Tests mit der Irrshytumswahrscheinlichkeit Ct sind die Grenzwerte aus der Tabelle mit der Vertrauenswahrshy

scheinlichkeit 1 - aJ2 zu bestimmen

l l 33 Testtabellen die bereits bei sechs Beobachtungswerten beginnen finden sich bei Savin

N EWhite K J 1977 S 1989-1996 I

~

I

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 30: Backhaus Kapitel Regressionsanalyse

~ ~)

l~

l

102 Regressionsanalyse

Abbildung 134 Entscheidungsregeln ftlr den DurbinfWatson-Test34

Fragestellung Teststatistik Entscheidung

Test zum Niveau a von HO keine Autokorrelation

do+ 012 Sds 4-do+ 012 HO

Gegen dSdu+012 oder d4-d012 H1

HI Autokorrelation geshygeben

Unschaumlrfebereich Keine moumlglich

Legende

d

du+0J2

do + 012

empirischer Wert

unterer Grenzwert aus der Tabelle zum Niveau 012 oberer Grenzwert aus der Tabelle zum Niveau 012

Abbildung 135 Ablehnungs- und Unschaumlrfebereich

Autokorrelation keine Autokorrelation Autokorrelation

o d+ dmiddot 2 4-d 4-dU

bull UnschArfebereIch

Pruumlfung auf Heteroskedastizitaumlt

Eine Prlifung auf Heteroskedastizitaumlt kann visuell durch Betrachtung der Residuen erfolgen Abbildung 136 zeigt wie hierfilr mit SPSS ein Streudiagramm erstellt werden kann das in Abbildung 137 dargestellt ist

Das Diagramm ist wie folgt zu lesen Auf der horizontalen Achse sind die stanshydardisierten 9 -Werte abgetragen also die aufgrund der Regressionsgleichung geshyschaumltzten standardisierten Mengen (ZPRED) Die vertikale Achse zeigt die stanshydardisierten Residuen fuumlr die einzelnen Beobachtungswerte (ZRESID) Durch die Standardisierung ergibt sich jeweils ein Mittelwert von 0 und eine Standardabweishy

34 Es handelt sich in der dargestellten Form der Entscheidungsfindung im Durbinl WatsonshyTest um den zweiseitigen Test Fuumlr die Fragestellungen des einseitigen Tests vgl Harshytung 11998 S 740f

Fallbeispiel 103

chung von 1 Wenn nun Heteroskedastizitaumlt vorlaumlge dann muumlszligten die Residuen einen erkennbaren Zusammenhang mit 9 aufweisen was hier nicht der Fall ist

Abbildung 136 Dialogfenster Diagramme

Abbildung 137 Pruumlfung der Residuen aufHeteroskedastizitaumlt

Streudiagramm

Abhangige Variable MENGE

E 0 iij Q)a

~ ~ E 01 0 lt

~ ~ $

~

20

151

01 5

00

-5

~10

-15

-20 -3

D D D

D

D

D

D DD

D D

D

D D D D

D D

D D D

D

D D

fJ D

D B DD

D D

-2 -1 0 2 3

Ragression Standardisiarter geschlltzter Wert

111

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 31: Backhaus Kapitel Regressionsanalyse

I

c~ t~lSwnsanajyse

Die Analyse dieses Punktediagramms kann daruumlber hinaus Aufschluumlsse geben ob die Residuen in einer linearen oder nichtlinearen Beziehung zu gt stehen Generell kann man sagen daszlig erkennbare Muster in den Residuen immer ein deutliches Inshydiz flir eine Verletzung der Praumlmissen des Regressionsmodells darstellen35

~

i

il

k 132 Schrittweise Regressiollsanalyse

Das Programm SPSS bietet eine Reihe von Moumlglichkeiten um aus einer Menge von unabhaumlngigen Variablen unterschiedliche Kombinationen auszuwaumlhlen und somit unterschiedliche Regressionsmodelle zu formulieren Mit den drei unabhaumlnshygigen Variablen PREIS AUSGABEN und BESUCHE lassen sich insgesamt sieben verschiedene Modelle (Regressionsgleichungen) bilden drei mit einer unshyabhaumlngigen Variablen drei mit zwei unabhaumlngigen Variablen und eines mit drei unabhaumlngigen Variablen Die Anzahl der moumlglichen Kombinationen erreicht mit wachsender Anzahl der unabhaumlngigen Variablen sehr schnell betraumlchtliche Groumlshyszligen Es ist zwar moumlglich alle Kombinationen durchrechnen zu lassen Fuumlr den Unshytersucher verbleibt das Problem die alternativen Modelle zu vergleichen und unter diesen auszuwaumlhlen Weniger aufwendig sind die beiden folgenden Vorgehensshyweisen

Der Untersucher formuliert ein oder einige Modelle die ihm aufgrund von theoshyretischen oder sachlogischen Uumlberlegungen sinnvoll erscheinen und uumlberpruumlft diese empirisch durch Anwendung der Regressionsanalyse (zur Auswahl der unshyabhaumlngigen Variablen wird hierzu in SPSS die Methode Einschluss verwenshydet)

- Der Untersucher laumlszligt sich vom Computer eine Auswahl von Modellen die sein Datenmaterial gut abbilden (dies ist in SPSS mittels der Methode Schrittweise moumlglich) zeigen und versucht sodann diese sinnvoll zu interpretieren

Die zweite Alternative ist besonders verlockend und findet in der empirischen Forshyschung durch die Verfuumlgbarkeit leistungsflihiger Computer-Programme zunehshymende Verbreitung Es besteht hierbei jedoch die Gefahr daszlig sachlogische Uumlbershylegungen in den Hintergrund treten koumlnnen d h daszlig der Untersucher mehr dem Computer als seinem gesunden Menschenverstand vertrautmiddot Der Computer kann nur nach statistischen Kriterien waumlhlen nicht abe r erkennen ob ein Modell auch inhaltlich sinnvoll ist

Statistisch signifikante Zusammenhaumlnge sollten vom Untersucher nur dann akshyzeptiert werden wenn sie seinen sachlogischen Erwartungen entsprechen Andeshyrerseits sollte der Untersucher bei Nichtsignifikanz eines Zusammenhanges nicht folgern daszlig kein Zusammenhang besteht wenn ansonsten das Ergebnis sachlich korrekt ist Andernfalls sollte man bei widerspruumlchlichen Ergebnissen oder sachloshy

35 Zu einer ausftlhrlichen Darstellung der verschiedenen Moumlglichkeiten Residuen zu im Hinblick auf Verletzung der Praumlmissen IUUlysieren vgL Draper NRlSmith H Kapitel 3

Fallbeispiel 105

gisch unbegruumlndeten Einfluszligfaktoren nicht zoumlgern diese aus dem Regressionsmoshydell zu entfernen auch wenn der Erklaumlrungsanteil dadurch sinkt

Nachdem wir gezeigt haben wie in SPSS mit der Methode Einschluss die unshyabhaumlngigen Variablen ausgewaumlhlt und blockweise in die Regressionsgleichung einbezogen werden zeigen wir nun die schrittweise Regression bei der die Ausshywahl der Variablen automatisch (durch einen Algorithmus gesteuert) erfolgt In

r SPSS laumlszligt sie sich durch die Anweisung Schrittweise (Stepwise) aufrufen (vgl ~ Abbildung 138) Bei der schrittweisen Regression werden die unabhaumlngigen Vashy riablen einzeln nacheinander in die Regressionsgleichung einbezogen wobei jemiddot bull weHs diejenige Variable ausgewaumlhlt wird die ein bestimmtes Guumltekriterium mashyt ximiert Im ersten Schritt wird eine einfache Regression mit derjenigen Variablen F durchgefuumlhrt die die houmlchste (positive oder negative) Korrelation mit der abhaumlngishy~ gen Variablen aufweist In den folgenden Schritten wird dann jeweils die Variable ~ mit der houmlchsten partiellen Korrelation ausgewaumlhlt Aus der Rangfolge der Aufshy

nahme laumlszligt sich die statistische Wichtigkeit der Variablen erkennen

Abbildung 138 Dialogfenster Lineare Regression

I f ~

J ~ l l

I ~

Die Anzahl der durchgefuumlhrten Analysen bei der schrittweisen Regression ist beshydeutend geringer als die Anzahl der kombinatorisch moumlglichen Regressionsgleishychungen Bei 10 unabhaumlngigen Variablen sind i d R auch nur 10 Analysen gemiddot

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 32: Backhaus Kapitel Regressionsanalyse

106 Regressionsanalyse

genuumlber 1023 moumlglichen Analysen durchzufUhren Die Zahl der durchgefUhrten Analysen kann allerdings schwanken Einerseits kann sie sich verringern wenn j Variablen ein bestimmtes Aufnahmekriterium nicht erfUllen Andererseits kann es vorkommen daszlig eine bereits ausgewaumlhlte Variable wieder aus der Regressionsshygleichung entfernt wird weil sie durch die Aufnahme anderer Variablen an Bedeushytung verloren hat und das Aufnahmekriterium nicht mehr erfUllt Es besteht allershydings keine Gewaumlhr daszlig die schrittweise Regression immer zu einer optimalen Loumlsung fUhrt

Die folgende Abbildung 139 zeigt das Ergebnis der schrittweisen Regresshysionsanalyse fUr das Fallbeispiel Dabei verweisen wir hinsichtlich der identischen Groumlszligen auf die Abbildung 128 mit den Ergebnissen der blockweisen Regresshysionsanalyse

Im ersten Schritt wurde von der Prozedur die Variable AUSGABEN ausgewaumlhlt (Modelll) Das Programm waumlhlt fUr den ersten Schritt diejenige Variable aus die mit der abhaumlngigen Variablen den houmlchsten Korrelationskoeffizienten hat Bei jeshydem Schritt wird fUr die noch unberuumlcksichtigten Variablen (Ausgeschlossene Variablen) der Beta-Wert (Beta In) angegeben den die Variable nach einer even~ tuelIen Aufnahme im folgenden Schritt erhalten wuumlrde Die fUr die Auswahl vershywendeten partiellen Korrelationskoeffizienten der Variablen sind hier ebenfalls ersichtlich Als Kriterium fUr die Aufnahme oder Elimination einer unabhaumlngigen Variablen dient der F-Wert des partiellen Korrelationskoeffizientenbzw dessen Signifikanzniveau Eine Variable wird nur dann aufgenommen wenn ihr F-Wert einen vorgegebenen Wert (FIN) uumlbersteigt oder wenn das zugehoumlrige Signifikanzshyniveau (F-Wahrscheinlichkeit) kleiner als eine vorgegebene F-Wahrscheinlichkeit (pIN) ist Umgekehrt wird eine Variable bei Unterschreiten der Grenze fUr die FshyPruumlf groumlszlige (FOUT) oder bei Uumlberschreiten des Grenzwertes fUr das Signifikanzshyniveau (POUT) eliminiert Diese Werte koumlnnen durch den Benutzer in dem Diashylogfenster Optionen (vgl Abbildung 1040) variiert werden

4

11

itmiddot

Fallbeispiel 107

Abbildung 139 SPSS-Output fuumlr die schrittweise Regressionsanalyse

Regression

AufgenommenalEntfernte Variablen a

Modell Aufgenommene

Variablen Entfernte Variablen Methode

1

AUSGABENmiddot

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

2

BESUCHE

SChrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

3

PREIS

Schrittweise Auswahl (Kriterien Wahrscheinlichkeit von F-Wert fOr Aufnahme lt= 050 Wahrscheinlichkeit von F-Wert fOr Ausschluszlig gt= 100)

a Abhaumlngige Variable MENGE

Modallzusammenfassung

Korrigiertes Standardfehler Modell R R-Quadrat R-Quadrat des Schaumltzers 1 81OS 657 647 2256197 2 900b 810 799 1702936 3 92OC 847 833 1553195

a EinfluszligvarIablen (Konstante) AUSGABEN

b EinfluszligvarIablen (Konstante) AUSGABEN BESUCHE

c Einfluszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 33: Backhaus Kapitel Regressionsanalyse

108 Regressionsanalyse

Abbildung 139 (Fortsetzung)

ANOVA

Quadrat- Mittel der Modell summe df Quadrate F 1 Regression 3409514944 1 3409514944 66979

Residuen 1781648029 35 50904229

Gesamt 5191162973 36 2 Regression 4205165941 2 2102582970 72503

Residuen 985997032 34 28999913 Gesamt 5191162973 36

3 Regression 4395065962 3 1465021987 60728 Residuen 796097011 33 24124152 Gesamt 5191162973 36

a Einfluszligvariablen (Konstante) AUSGABEN

b Einfluszligvariablen (Konstante) AUSGABEN BESUCHE

c Einnuszligvariablen (Konstante) AUSGABEN BESUCHE PREIS

Koeffizienten

Nicht standardisierte Standardisierte Koeffizienten Koeffizienten

Standard-Modell B fehler Beta T 1 (Konstante) 1116669 97207 11488

AUSGABEN 593 072 810 8184

2 (Konstante) 311219 170379 1827

AUSGABEN 550 055 752 9945 BESUCHE 9513 1816 396 5238

3 (Konstante) 763650

AUSGABEN 551

BESUCHE 9705

PREIS -45177

223946 3410

050 753 10925

1658 404 5854

16102_ -191 -2806

Sionlfikanz 0008

l

OOOb I

~ Oooe t ~

Sianifikan~

000 I 000 077-

000

000

002 I 000

000

ooe

Fallbeispiel 109

bbildung 139 (Fortsetzung)

Ausgeschlossene Variablen

-~

Kollineari-

Partielle Ultsslatistik

Modell Beta In T Signifkanz Korrelation Toleranz 1 PREIS -175 -1824 077 -299 1000

BESUCHE 396 5238 000 668 978

2 PREIS -191 -2806 008 -439 998 -

Abbildung 140 Dialogfenster Optionen

i 11

I

f t

If I In unserem Beispiel haben wir die Grenzwerte mittels der F-Wahrscheinlichkeiten

PIN (Aufnahme) und POUT (Ausschluszlig) festgelegt

PIN Schwellenwert fi1r das Signifikanzniveau des F-Wertes bei der Aufshynahme einer Variablen Voreingestellt ist der Wert PIN = 005

POUT Schwellenwert ftir das Signiflkanzniveau des F-Wertes bei der Elimishynation einer Variablen Voreingestellt ist der Wert POUT = 01

Alternativ kann anstelle des Signifikanzniveaus des F-Wertes auch der F-Wert selbst als Kriterium verwendet werden

l

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 34: Backhaus Kapitel Regressionsanalyse

li FIN Schwellenwert fUr den F-Wert des partiellen Korrelationskoeffizienten

(F-to-enter) bei der Aufnahme einer Variablen Voreingestellt ist der Ji Wert FIN = 384if-i

FOUT Schwellenwert fuumlr den F-Wert des partiellen Korrelationskoeffizienten (F-to-remove) bei der Elimination einer Variablen Voreingestellt ist der Wert FOUT = 271

Die beiden Kriterien sind nicht voumlllig identisch da das Signifikanzniveau des FshyWertes auch von der Anzahl der Variablen in der Regressionsgleichung abhaumlngt

Je groumlszliger FIN bzw je kleiner PIN desto mehr werden die Anforderungen fUr die Aufnahme einer Variablen verschaumlrft Entsprechend lassen sich auch ein FOUT und POUT fUr die Elimination von Variablen spezifizieren Bei der schrittweisen Regressionsanalyse ist jeweils nur ein Kriterium fUr die Aufnahme und die Elimishynation zulaumlssig Es ist darauf zu achten daszlig zwischen beiden Werten positive Difshyferenzen (FOUT lt FIN und POUT gt PIN) bestehen

Die Abbildung 139 zeigt auch die Ergebnisse der scbrittweisen Regressionsanashy

11 lyse fUr die sukzessive Aufnahme aller drei Regressoren in die Gleichung So wurshy

It de in Modell 2 die zweite Variable BESUCHE und in Modell 3 die dritte Variable in PREIS mit einbezogen Alle drei Regressoren haben das voreingestellte Aufnabshyi

I mekriterium erfuumlllt Die Ergebnisse der schrittweisen Regressionsanalyse stimmen mit denen blockshy

weisen Regressionsanalyse natuumlrlich uumlberein wovon sich der Leser uumlberzeugen sollte6 Die schrittweise Regressionsanalyse beendet die Iterationen wenn keine weiteren unabhaumlngigen Variablen aufgenommen werden koumlnnen (in unserem Falle waren keine weiteren Variablen vorhanden) und keine der bereits aufgenommenen Variablen wieder entfernt werden muszlig

133 SPSS-Kommandos

In Abbildung 141 ist abschlieszligend die Syntaxdatei mit den SPSS-Kommandos fuumlr das Fallbeispiel wiedergegeben Vergleiche hierzu die Ausfuumlhrungen im einleishytenden Kapitel diese Buches

36 Intern fUhrt das Programm auch bei blockweiser Aufnahme der Variablen (Einschluss) eine schrittweise Regression durch (mit PIN= I) Im Output ist dann erkennbar in weishycher Reihenfolge das Programm die Variablen in die Gleichung aufgenommen hat

Fallbeispiel 111

Abbildung 141 SPSS-Kommandos zur Regressionsanalyse

1middotmiddot MVA Regressionsanalyse

bull Datendefinition --------------------

DATA LIST FREE I MENGE PREIS AUSGABEN BESUCHE tl BEGIN DATA

2585 125 2000 109 1819 100 550 107

1699 125 1600 79 ENDDATA

bull Prozedur -------------

I SUBTITLE ReggtessionMalyse nach delt Methode ENTER

REGRESSION

N ARIABlES MENGE PREIS AUSGABEN BESUCHE ISTAT1STlCS R ANOVA COEFF CI TOL IDESCRIPTIVES CORR lIDEPENDENT MENGE IMETHOD=ENTER PREIS AUSGABEN BESUCHE ICASEWISE DEPENDENT PRED RESID OUTLIERS (0)i IRESIDUALS DURBIN ~ ISCATTERPIOT=(RESID middotPRED)

i f ~

SUBTITLE Regressionsanalyse nach der Methode STEPWISE

[ REGRESSION

N ARIABLES MENGE PREIS AUSGABEN BESUCHE ICRITERIA=PIN (05) POUT (10) IDEPENDENT MENGE

IMETHOD=STEPWISE PREIS AUSGABEN BESUCHE

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 35: Backhaus Kapitel Regressionsanalyse

112 Regressionsanalyse

14 Anwendungsempfehlungen

Fuumlr die praktische Anwendung der Regressionsanalyse sollen abschlieszligend einige Empfehlungen gegeben werden die rezept artig fonnuliert sind und den schnellen Zugang zur Anwendung der Methode erleichtern sollen

1 Das Problem das es zu untersuchen gilt muszlig genau definiert werden Welche Groumlszlige soll erklaumlrt werden Die erklaumlrende Variable sollte metrisches Skalenshyniveau haben

2 Es ist viel Sachkenntnis und Uumlberlegung einzubringen um moumlgliche Einfluszligshygroumlszligen die auf die zu erklaumlrende Variable einwirken zu erkennen und zu deshyfinieren Die wichtigen Einfluszliggroumlszligen sollten im Modell enthalten sein aber mehr muszlig nicht besser sein Eine Variable sollte nur dann beruumlcksichtigt wershyden wenn sachlogische Gruumlnde hierfUr bestehen

3 Die Zahl der Beobachtungen muszlig genuumlgend groszlig sein Sie sollte moumlglichst doppelt so groszlig sein wie die Anzahl der Variablen in der Regressionsgleishychung

4 Vor Beginn der Rechnung sollten aufgrund der vorhandenen Sachkenntnis zushynaumlchst hypothetische Regressionsmodelle mit den vorhandenen Variablen forshymuliert werden Dabei sollten auch die Art und Staumlrke der Wirkungen von beshyruumlcksichtigten Variablen Uberlegt werden

5 Nach Schaumltzung einer Regressionsfunktion ist zunaumlchst das Bestimmtheitsmaszlig auf Signifikanz zu pruumlfen Wenn kein signifikantes Testergebnis erreichbar ist muszlig der ganze Regressionsansatz verworfen werden

6 Anschlieszligend sind die einzelnen Regressionskoeffizienten sachlogisch (auf Vorzeichen) und statistisch (auf Signifikanz) zu pruumlfen

7 Die gefundene Regressionsgleichung ist auf Einhaltung der Praumlmissen des lishynearen Regressionsmodells zu pruumlfen

8 Eventuell sind Variablen aus der Gleichung zu entfernen oder neue Variablen aufzunehmen Die Modellbildung ist oft ein iterativer Prozeszlig bei dem der Unshytersucher auf Basis von empirischen Ergebnissen neue Hypothesen fonnuliert und diese anschlieszligend wieder uumlberpruumlft

9 Wenn die gefundene Regressionsgleichung alle Praumlmissen-Pruumlfungen uumlbershystanden hat erfolgt die Uumlberpruumlfung an der Realitaumlt

Anhang 113

15 Mathematischer Anhang

A Schaumltzung der Regressionsfunktion

Ergaumlnzend zum Text soll nachfolgend die Schaumltzung der Regressionsfunktion unshyter Anwendung der Kleinstquadrate-Methode dargestellt werden Das KQshy

Kriterium lautet in allgemeiner Fonn

K (Al)S Lei ~ mint

hl

Einfache Regression

Im Fall der einfachen Regression erhaumllt man dafUr den Ausdruck

K (A2)S L(Yk - bO - blXk)2 ~ min

k=I

mit den zu schaumltzenden Parametern bound b l bull Durch partielle Differentiation nach bo und b erhaumllt man unter Weglassung von Index k an den Summenzeichen die

l folgenden Bedingungen erster Ordnung fUr das gesuchte Minimum

oS (A3)obo = 2L(Yk - bo -bIXk)(-l)= 0

oS (A4)-=2L(Yk -bo -bIXk) (-Xk)=O ObI

Daraus folgt

(AS)- Lek = 0L(Yk -bo -bI Xk) = 0

(A6)- Lek Xk = 0L(Yk bo -bI Xk) xk = 0

Durch Umfonnung erhaumllt man hieraus die sog Normalgeichungen

(A7)LYk =KbO+bILxk

(A8)LYkXk =bOLxk + blLx~

Durch Aufloumlsen von (A7) nach bo erhaumllt man

1 I =y-bIX (A9)bo = - LYk - bl - LXkK K

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 36: Backhaus Kapitel Regressionsanalyse

114 Regressionsanalyse

Dies entspricht Formel (8) zur Berechnung des konstanten Gliedes der Regressishyonsfunktion Durch Einsetzen in (A8) erhaumllt man

LYkXk = ~LYkLXk -bi ~(Lxk)(Lxk)+ blLX~K K r Durch Aufloumlsen nach b l erhaumllt man hieraus Formel (7)

bl = KLYkXk -(LYk)(LXk) (AIO)

KLx~ -(LXk)2

Mit Hilfe der Mittelwerte der x- und Y-Werte laumlszligt sich diese Gleichung wie folgt

Anhang 115

b = (X X)-lXY (AI4)

bO y- blx l b2x 2 - -bJxJ (AIS)

Verzichtet man auf ein konstantes Gliedin der Regressionsbeziehung so erhaumllt man dieR~essionsparameter durch

b = (X x)rltIY (AI6)

B SchlltzfeBltrdet Patameter

Einfache Regression

Bezeichnet man mit s die Standardabweichung der Residualgroumlszligen (Standardfehshyler) so erhaumllt man filr den Standardfehler des Regressionskoeffizienten bl

S = S (BI)bl L(Xk -xf~

und filr den Standardfehler des konstanten Gliedes bo

x21 -+-- (B2)K L(Xk _x)2

sbO S

Multiple Regression

Im Fall der multiplen Regression laumlszligt sich die Varianz-Kovarianz-Matrix der Reshygressionskoeffizienten in Matrizenschreibweise wie folgt darstellen

v= s2(XXr1 (B3)

Es seien mit ajj die Diagonalelemente der Inversen von k k bezeichnet

a11 = [(Xxr l]

JJ

Damit gilt rur den Standard feher des Regressionskoeffizienten bj

Sbj = s ~ (j = I 2 J) (B4)

Der Standardeher des konstanten Gliedes errechnet sich durch

(-( -1- ISbo = sV X XX X+ (BS)

K

L

vereinfachen

bl = L(Xk -x) L(Yk -y) L(Xk _x)2

Multiple Regression

In Matrizenschreibweise laumlszligt sich die schreiben

Y=bO+Xb+e

mit

(All)

multiple Regressionsfunktion wie folgt

(AI2)

Y K-Vektor der Beobachtungswerte der abhaumlngigeR Variablen X (K x J) - Matrix der Beobachtungswerte der J Regressoren b J-Vektor der Regressionskoeffizienten bo konstantes Glied bzw K-Vektor der K mal das konstante Glied enthaumllt e K-Vektor der Residualgroumlszligen

Weiterhin sei vereinbart daszlig eine Variable durch einen Punkt gekennzeichnet wird wenn ihre Werte um den Mittelwert reduziert wurden zB

Y mit den Werten Yk = Yk-Y

Die Summe der Werte von Y ist damit O Entsprechend sind alle Spaltensummen der Matrix X die die transformierten Regressoren enthaumllt gleich O Durch diese Transformation entfaumlllt auch das konstante Glied in der Regressionsfunktion Da die Summe der Residualgroumlszligen zwangslaumlufig gleich 0 ist (siehe AS) wird e nicht besonders gekennzeichnet

Das KQ-Kriterium lautet damit j

t lj S= (Y-Xb)(Y-Xb) ~ mini (A13)

l Durch partielle Differentiation nach bO und b erhaumllt man rur die Schaumltzung der Regressionspararneter jetzt folgende Formeln

~tmiddotl

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153

Page 37: Backhaus Kapitel Regressionsanalyse

116 Regressionsanalyse

16 Literaturhinweise

Auer L v (1999) Oumlkonometrie - Eine Einfuumlhrung Berlin ua Belsley DAlKuh EI Welsch RE (1980) Regression Diagnostics New York u a Bleymuumlller JGehlert GlGUumllicher H (2002) Statistik fuumlr Wirtschaftswissenschaftler 13

Aufl Muumlnchen J Bortz 1 (1999) Statistik fuumlr Sozial wissenschaftler 5 Aufl Berlin et al ( Buumlhl AlZoumlfel P (2002) SPSS 11 Einfuumlhrung in die moderne Datenanalyse unter Winshy

dows 8 Aufl Muumlnchen Chatterljee SlHadi A (1988) Sensitivity Analysis in Linear Regression New York Draper NRlSmith H (1998) Applied Regression Analysis 3rd ed New York u a Goldberger A S (1964) Econometric Theory New York Greene W H (1997) Econometric Analysis 3rd ed Upper Saddle River New Jersey u a Hammann PlErichson B (2000) Marktforschung 4 Auflage Stuttgart Hanssens DMParsons LJlSchultz RL (1990) Market Response Models Econometric

and Time Series Analysis Boston Mass u a Hartung J (1998) Statistik Lehr- und Handbuch der angewandten Statistik 11 Aufl

Muumlnchen Janssen JlLaatz W (2003) Statistische Datenanalyse mit SPSS fuumlr Windows Eine anshy

wendungsorientierte Einfllhrung in das Basissystem Version 8 und das Modul ElCakte Tests 4 Aufl Berlin u a

Kmenta1 (1997) Elements ofEconometrics 2nd ed New York Kocklaumluner G (1988) Angewandte Regressionsanalyse mit SPSS Braunschweig u a Maddala G (1977) Introduction to Econometrics New York Norusis MJlSPSS lnc (1999) SPSS Base 90 Users Guide Package Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Applications Guide Chicago Norusis MJlSPSS lnc (1999) SPSS Base 90 Syntax Reference Guide Chicago Ramanathan R (1998) Introductory Econometrics with Applications 4th ed Fort Worth Sachs L (1999) Angewandte Statistik Anwendung stochastischer Methoden 9 Aufl

Berlin Savin NEWhite K1 (1977) The Durbin-Watson Test for Serial-Correlation with

Extreme SampIe Size or many Regressors in Econometrica Jg 45 Nr 8 Schneeweiszlig H (1990) Oumlkonometrie 4 Aufl Heidelberg Schoumlnfeld P (1969) Methoden der Oumlkonometrie Bd I Berlin u a Studenmund A H (2001) Using Econometrics A Practical Guide 4th ed Boston Mass Wooldridge J M (2003) Introductory Econometrics A modern Approach 2nd ed

Cincinnati Ohio u a Wonnacott RJlonnacott T H (1970) Econometrics New York Wonnacott THWonnacott RJ (1987) Regression A Second Course in Statistics

Malabar

2 Varianzanalyse

21 Problemstellung 118

1 I

22 Vorgehensweise 120 Einfaktorielle Varianzanalyse 120~ 221

2211 Problemformulierung 120 t 2212 Analyse der Abweichungsquadrate 122 2213 Pruumlfung der statistischen Unabhaumlngigkeit 126 222 Zweifaktorielle Varianzanalyse 128 2221 Problemformulierung 128 2222 Analyse der Abweichungsquadrate 130 2223 Pruumlfung der statistischen Unabhaumlngigkeit 137 223 Ausgewaumlhlte Erweiterungen der Varianzanalyse 138

23 Fallbeispiel 141 231 Problemstellung 141 232 Ergebnisse 143 233 SPSS-Kommandos 149

24 Anwendungsempfehlungen 150

25 Literaturhinweise 153