Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen

  • View
    109

  • Download
    1

Embed Size (px)

Text of Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4...

  • Folie 1
  • Regression und Korrelation 5 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmae fr nicht-metrische Variablen
  • Folie 2
  • Regression und Korrelation 5 Regressions- und Korrelationsanalyse ermittelt den statistischen Zusammenhang zwischen zwei (bivariat) oder mehreren (multivariat) ZVAs: - statistische Zusammenhangtests knnen nur entscheiden, ob ein signifikanter Zusammenhang besteht - Frage nach Art und Strke des Zusammenhangs mit Regressions- bzw. Korrelationsanalyse zu beantworten Verfahren der Regressions- und Korrelationsanalyse sowohl auf GG als auch auf STP anzuwenden je nach Skalenniveau der Variablen unterschiedliche Verfahren zu whlen: - klassische Regression und Korrelation setzt metrische Variablen voraus - Korrelationsmae fr ordinal- und nominalskalierte Variablen ebenfalls gebruchlich - Regression fr nicht metrische Variablen eher selten (s. Statistik II)
  • Folie 3
  • Regression und Korrelation 5 Typen von Zusammenhngen: Y X YX Y X2X2 X1X1 X3X3 Y X2X2 X1X1 X3X3 X0X0 Y X Z Y : Verdunstung X 0 : Globalstrahlung X 1 : Temperatur (=X) X 2 : Luftfeuchte X 3 : Turbulenz einfach einseitig einfach wechselseitig mehrfach einseitig komplex einseitig (nichtlinear) Scheinkorrelation
  • Folie 4
  • Regression und Korrelation 5 Veranschaulichung der Kovariabilitt: proportionaler (positiver) Zusammenhang Bezugseinheit (Zeitpunkt, Region, Proband, ) umgekehrt proportionaler (negativer) Zusammenhang Bezugseinheit (Zeitpunkt, Region, Proband, ) kein Zusammenhang Bezugseinheit (Zeitpunkt, Region, Proband, ) instationrer Zusammenhang Bezugseinheit (Zeitpunkt, Region, Proband, ) Verdunstung Globalstrahlung Verdunstung Bewlkung Verdunstung Ozongehalt Verdunstung Niederschlag bis Bewsserung je mehr desto mehr je mehr desto weniger
  • Folie 5
  • Regression und Korrelation 5 Ermittlung der Kovariabilitt: Bezugseinheit (Zeitpunkt, Region, Proband, ) Verdunstung Globalstrahlung X : Verdunstung Y : Temperatur Kovarianz:
  • Folie 6
  • Regression 5.1 Regressionsanalyse ermittelt die Art des Zusammenhangs zwischen Variablen: - Abhngigkeit einer Variablen Y von einer (einfach) oder mehreren (multiple) Variablen X bzw. X 1, X 2, , X n : Regression (Rckschluss) - unabhngige Ausgangsvariable: Prdiktor, Regressor - abhngige Zielvariable: Prdiktand, Regressand - inhaltlich festgelegt: z.B. Globalstrahlung Verdunstung elementarster Fall ist lineare Einfachregression: - gesucht ist Funktion f, die linearen Zusammenhang zwischen Y und X beschreibt: - diese Funktion f ist eine Geradengleichung der Form: - diese Regressionsgerade spiegelt die Orientierung der zweidimensionalen Punktwolke der Werte von X und Y am besten wider Regression von Y nach X b : Steigung (Regressionskoeffizient) a : y-Achsenabschnitt (Regressionskonstante)
  • Folie 7
  • Regression 5.1 typische Fragestellung: - X : Temperatur - Y : Verdunstung Streuungsdiagramm (Punktwolke): - x-Achse: unabhngige Variable - y-Achse: abhngige Variable ?
  • Folie 8
  • Regression 5.1 Regressionsgerade hat zwei zentrale Eigenschaften: - exakte Lage hngt allein von der Verteilung der Punkte (x i,y i ) im Streuungs- diagramm ab - optimale Reprsentanz der Punktwolke: alle Punkte sollen mglichst nah an der Geraden liegen, d.h. eine minimale mittlere Distanz haben - aus rechentechnischen Grnden werden vertikale Entfernungen betrachtet: Residuen
  • Folie 9
  • Regression 5.1 Gausches Prinzip der kleinsten Quadrate: - aus mathematischen Grnden nicht absolute sondern quadratische Residuen bei der Minimierung bercksichtigt (least square fit): - E ist eine Funktion der Parameter a und b, deren Minima durch die Nullstellen der partiellen Ableitungen nach a und b gekennzeichnet sind: { Normalgleichungen I und II: 2 Gleichungen fr 2 Unbekannte a und b
  • Folie 10
  • Regression 5.1 Berechnung des Regressionskoeffizienten b: - Normalgleichung (I) mit x i sowie Normalgleichung (II) mit n multiplizieren: - Subtraktion (I) minus (II) liefert:
  • Folie 11
  • Regression 5.1 Berechnung der Regressionskonstante a: - Normalgleichung (I) mit x i 2 sowie Normalgleichung (II) mit x i multiplizieren: - Subtraktion (I) minus (II) liefert:
  • Folie 12
  • Regression 5.1 Beispiel zur manuellen Berechnung der Parameter a und b: - generell empfiehlt sich Berechnung mit Tisch-/Taschenrechner - Bestimmung der folgenden Formelterme ber tabellarisches Schema: - Einsetzen der Terme in obige Formeln liefert die Geradengleichung:
  • Folie 13
  • Regression 5.1 Interpretation der Regressionsgleichung: - zugrunde liegendes Modell ist nicht - sondern - Regressionsgleichung kann nur die Information auf Y abbilden, die in X enthalten ist - die Residuen kennzeichnen die zuflligen (nicht systematischen) Abweichungen der tatschlichen y-Werte von der Regressionsgeraden - diese Zufallsfehler knnen auf andere, nicht bercksichtigte Prdiktoren zurckzufhren sein (multiple Regression) oder letztendlich stochastisch sein - die Residuen sind eine Funktion der Zeit und durch die Regressionsanalyse normiert: - die Regressionsgerade luft immer durch das arithmetische Mittelzentrum - ferner stellen a und b nur STP-Schtzer fr die entsprechenden Para- meter der GG dar: Konfidenzintervall und Signifikanzniveau zu bestimmen Anpassung auf den Mittelwert
  • Folie 14
  • Regression 5.1 Interpretation der Regressionsgleichung: - Regressionskoeffizient gibt an, um wie viele Einheiten sich Y ndert, wenn X sich um eine Einheit ndert: 0,15 mm pro 1,0 C - bei positivem b ist Beziehung proportional, bei negativem b umgekehrt proportional - ber die Regressionsgleichung lassen sich nun fr beliebige (auch nicht auftretende) x-Werte die geschtzten y-Werte berechnen: - somit lassen sich auch Datenlcken in Y schlieen und Prognosen fr Y berechnen: beliebige Bezugseinheit Y X Zeit Y X Datenlcke von Y Prognosezeitraum von Y
  • Folie 15
  • Regression 5.1 Bestimmung von Zeitreihentrends: - im Falle des Trends ist die Zeit immer die unabhngige Variable X - bei annhernd linearen Entwicklungen lsst sich eine Zukunftsprognose anhand der Regressionsgleichung (statistisches Modell) durchfhren - Beispiel: gegeben sind Zeitreihen der Natalitt und Verstdterung in der ehem. Sowjetunion: ! ? kleines Residuum: sichere Prognose groes Residuum: unsichere Prognose
  • Folie 16
  • Korrelation 5.2 Korrelationsanalyse ermittelt die Strke des Zusammenhangs zwischen Variablen: - keine Unterscheidung zwischen abhngigen und unabhngigen Variablen - hier nur lineare Einfachkorrelation im bivariaten Fall Berechnung des Bestimmtheitsmaes: - im Fall einer perfekten deterministischen Beziehung liegen alle Wertepaare (x i,y i ) von X und Y exakt auf einer Geraden: - dann gilt fr die STP-Varianz der y i : - d.h. die Varianz der y i wird ausschlielich bestimmt durch die Varianz der x i
  • Folie 17
  • Korrelation 5.2 Berechnung des Bestimmtheitsmaes: - im nicht-deterministischen Fall existiert ein Residuum : - dann gilt fr die Varianz der y i : - S kennzeichnet zustzlichen Varianzanteil des Residuums, so dass Varianz der y i aus 2 Anteilen besteht: Resultat des Einflusses der x i und nicht erfasster (stochastischer) Anteil der i - es gilt S = 0 nur im Fall, dass alle i = 0 (deterministischer Zusammenhang)
  • Folie 18
  • Korrelation 5.2 Berechnung des Bestimmtheitsmaes: - Verhltnis des durch x i erklrten Varianzanteils von y i durch die Gesamt- varianz der y i ist Ma fr die Strke des Zusammenhangs zwischen X und Y: Bestimmtheitsma B: - B kennzeichnet die durch X erklrte Varianz von Y - es gilt 0 B 1 - im Falle B = 1 liegt ein streng determi- nistischer Zusammenhang vor, d.h. alle Wertepaare (x i,y i ) liegen exakt auf der Regressionsgeraden
  • Folie 19
  • Korrelation 5.2 Berechnung des Korrelationskoeffizienten ist aber gebruchlicher: - sog. Produktmoment-Korrelationskoeffizienten r xy (nach Pearson) - gibt auch Proportionalitt des Zusammenhangs an: positiv, negativ - allgemeine Definition: - mit einigen Umformungen von B - ergibt sich sich fr den Korrelationskoeffizienten:
  • Folie 20
  • Korrelation 5.2 Eigenschaften des Korrelationskoeffizienten: - r xy kennzeichnet die mit den Einzelstandardabweichungen normierte Kovarianz von X und Y - es gilt r xy = r yx - r xy hat immer das gleiche Vorzeichen wie b: - Wertebereich und Deutung: - Beispiel Temperatur und Verdunstung: positiv : proportional (je mehr desto mehr) negativ: umgekehrt proportional (je mehr desto weniger) sehr starker Zusammenhang starker Zusammenhang mittelstarker Zusammenhang schwacher Zusammenhang kein Zusammenhang 70,2 % der Verdunstungs- schwankungen knnen durch die Temperaturvariabilitt erklrt werden (sehr starker Zusammenhang)
  • Folie 21
  • Statistische Tests 5.3 Bestimmung der Koeffizienten der Regressions- und Korrelationsanalyse basiert i.d.R. auf STP-Werten x i und y i : - unterschiedliche STP-Werte fhren zu unterschiedlichen Koeffizienten: - r xy und b sind Schtzer fr die entsprechenden Koeffizienten bzw. der bivariaten GG (X,Y) Frage nach Konfidenzintervallen von und Frage nach Hypothesentest: H 0 : = 0 H 1 : 0 H 0 : = 0 H 1 : 0
  • Folie 22
  • Statistische Tests 5.3 statistische Tests fr den Korrelationskoeffizienten: - vorausgesetzt ist, dass X und Y bivariat normalverteilt sind mit den Parametern x, y, x, y, xy : - im Fall = 0: kreisrunde Form - im Fall 0: elliptische Form - Randverteilungen der bivariat normalverteilten GG sind univariate Normal-

Recommended

View more >