Angewandte Statistik fآ¨ur die biologischen Wissenschaften Kuehn...آ  res Modell, generalised linear

  • View
    1

  • Download
    0

Embed Size (px)

Text of Angewandte Statistik fآ¨ur die biologischen Wissenschaften Kuehn...آ  res Modell, generalised...

  • Angewandte Statistik für die biologischen Wissenschaften

    2., durchgesehene, aktualisierte, überarbeitete und erweiterte Auflage

    Dr. Carsten F. Dormann Dr. Ingolf Kühn

    Helmholtz Zentrum für Umweltforschung-UFZ

    23. Oktober 2009

  • Inhaltsverzeichnis

    Vorwort v

    I. Grundlagen 1

    1. Einleitung 3

    1.1. Wissenschaftliche Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2. Das Testen von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2.1. Kochrezept für den Test von Hypothesen . . . . . . . . . . . . . . . . 4

    1.2.2. Testfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3. Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3.1. Weitere Begriffe zum Thema Tests . . . . . . . . . . . . . . . . . . . . 5

    1.3.2. Schlussbemerkungen zu Tests . . . . . . . . . . . . . . . . . . . . . . . 6

    2. Grundlagen 7

    2.1. Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.1. Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.2. Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.2. Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3. Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3.1. Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3.2. Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.3.3. Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.3.4. Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.4. Wichtige Parameter und Statistiken . . . . . . . . . . . . . . . . . . . . . . . 15

    2.4.1. Maße für das Zentrum einer Verteilung . . . . . . . . . . . . . . . . . . 15

    2.4.2. Maße für die Breite der Verteilung . . . . . . . . . . . . . . . . . . . . 16

    2.4.3. Güte der Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . 16

    2.4.4. Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.5. Methoden der Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.5.1. Schätzung von Verteilungsparametern . . . . . . . . . . . . . . . . . . 21

    2.5.2. Parameterschätzung mittels verteilungsfreier Methoden . . . . . . . . 24

    2.5.3. Der bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.5.4. Das jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.6. Der Ansatz der Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . 28

    2.6.1. Noch mehr Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2.6.2. Konditionale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 28

    2.6.3. Bayes Theorem und einfache Beispiele seine Anwendung . . . . . . . . 29

    2.6.4. Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3. Visualisierung und beschreibende Statistik 33

    3.1. Univariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.2. Bivariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.2.1. Kontinuierliche Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.2.2. Daten mit kategorischer Variablen . . . . . . . . . . . . . . . . . . . . 36

    i

  • Inhaltsverzeichnis

    3.3. Transformationen und ihre Visualisierung . . . . . . . . . . . . . . . . . . . . 37 3.3.1. Die logarithmische Transformation . . . . . . . . . . . . . . . . . . . . 37 3.3.2. Die Wurzel-Transformation . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3.3. Die arcsin-Wurzel-Transformation . . . . . . . . . . . . . . . . . . . . 38 3.3.4. Box-Cox-Transformationen . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3.5. Rang-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.6. Standardisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3.7. Ausreißer und das Beschneiden (trimming) von Datensätzen . . . . . 43

    4. Klassische Tests 45 4.1. Klassische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.1.1. Statistik mit nur einer Stichprobe . . . . . . . . . . . . . . . . . . . . 45 4.1.2. Vergleich zweier Stichproben . . . . . . . . . . . . . . . . . . . . . . . 47 4.1.3. Vergleich der Varianzen zweier Stichproben . . . . . . . . . . . . . . . 48 4.1.4. Vergleich von Proportionen . . . . . . . . . . . . . . . . . . . . . . . . 49 4.1.5. Test auf Assoziation: der X2 Test . . . . . . . . . . . . . . . . . . . . . 50 4.1.6. Permutationstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4.2. Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    II. Univariate Statistik I: Das Lineare Modell 57

    5. Das (Einfache) Lineare Modell: Eine Erklärende Variable 61 5.1. Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5.1.1. Berechnung der Parameter . . . . . . . . . . . . . . . . . . . . . . . . 61 5.1.2. Signifikanztests bei Regressionen . . . . . . . . . . . . . . . . . . . . . 64 5.1.3. Diagnostik/Transformationen . . . . . . . . . . . . . . . . . . . . . . . 65 5.1.4. Güte des Regressionsmodells: erklärte Varianz . . . . . . . . . . . . . 67 5.1.5. Regression durch den Ursprung und gewichtete Regression . . . . . . . 68 5.1.6. Modell II und III Regression . . . . . . . . . . . . . . . . . . . . . . . 71 5.1.7. Vorhersage von y und x . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.1.8. Steigung und Achsenabschnitt unterschiedlicher Regressionen vergleichen 73

    5.2. Nicht-lineare Regression und stückweise Regression . . . . . . . . . . . . . . . 74 5.2.1. Nicht-lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2.2. Häufig benutzte nicht-lineare Regressionen . . . . . . . . . . . . . . . 78 5.2.3. Stückweise Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    5.3. Faktoren statt kontinuierliche erklärende Variablen: oneway-ANOVA . . . . . 81 5.3.1. Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . 81 5.3.2. Von der Regression zur ANOVA . . . . . . . . . . . . . . . . . . . . . 83

    5.4. Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    6. Das Allgemeine Lineare Modell: Mehrere Erklärende Variablen 89 6.1. Mehrere, kontinuierliche erklärende Variablen: Multiple Regression . . . . . . 90 6.2. Modellvereinfachung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3. Vorsortierung der Variablen: explorative Datenanalyse . . . . . . . . . . . . . 101

    6.3.1. Hierarchische Partitionierung . . . . . . . . . . . . . . . . . . . . . . . 101 6.3.2. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    6.4. Mehrere, kategoriale erklärende Variablen: ANOVA und LM . . . . . . . . . . 106 6.4.1. Kategoriale erklärende Variablen im LM . . . . . . . . . . . . . . . . . 106 6.4.2. Kategoriale erklärende Variablen in der ANOVA . . . . . . . . . . . . 108

    6.5. Kontinuierliche und kategoriale erklärende Variablen . . . . . . . . . . . . . . 111 6.5.1. Interaktionen und ihre Interpretation . . . . . . . . . . . . . . . . . . . 112

    6.6. Die Mathematik hinter dem linearen Modell . . . . . . . . . . . . . . . . . . . 117

    ii

  • Inhaltsverzeichnis

    6.7. Post-hoc Vergleiche und Kontraste . . . . . . . . . . . . . . . . . . . . . . . . 119

    6.7.1. Kontraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

    6.7.2. Pooling of levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    7. Lineare Gemischte Modelle (LMM) 127

    7.1. Feste und zufällige Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    7.2. Split-plot ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    7.2.1. Blockeffekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    7.2.2. Verschachtelte Versuchseinheiten unterschiedlicher Größe: split plots . 129

    7.3. Nesting(nesting(nesting)) & Wiederholungsmessungen . . . . . . . . . . . . . 130

    7.3.1. Räumliches Nesting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

    7.3.2. Zeitliches Nesting: Wiederholungsmessungen . . . . . . . . . . . . . . 131

    III. Univariate Statistik II: Das Verallgemeinerte Lineare Modell (Generalised Linear Model, GLM) 137

    8. Verallgemeinertes Lineares Modell 141

    8.1. Binomial-verteilte Fehler: logistische Regression . . . . . . . . . . . . . . . . . 143

    8.2. Log-lineare Modelle: Poisson Regression . . . . . . . . . . . . . . . . . . . . . 154

    8.3. Verallgemeinerte Lineare Gemischte Modelle (GLMM) . . . . . . . . . . . . . 159

    9. Nicht-parametrische Regression: loess, splines and GAM 161

    9.0.1. Mehr als eine erklärende Variable . . . . . . . . . . . . . . . . . . . . . 163

    9.0.2. Generalised Additive Models . . . . . . . . . . . . . . . . . . . . . . . 165

    IV. Multivariate Verfahren 169

    10.Multivariate Daten und ihre Analyse: Einleitung und Überblick 171

    10.1. Ordinationstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171