307
Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester 2004/2005

Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

Institut für Statistik und Mathematische Wirtschaftstheorie

Universität Augsburg

Datenanalyse I

Stefan Etschberger

Wintersemester 2004/2005

Page 2: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Organisatorisches

• Vorlesung Montag, 8.30 - 10.15 Uhr

• Vorlesungsmaterialien sind wöchentlich unterhttp://www.wiwi.Uni-Augsburg.de/ibo -> Downloadsabrufbar

• 60-minütige Klausur, vier Leistungspunkte

• Wünschenswerte Vorkenntnisse: Statistik I, II

• Sprechstunde: Während des SemestersMontags, 13.00 - 14.00 Uhr WIWI, Raum 2325

• email: [email protected]

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 1|306

Page 3: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Inhalt

• Einleitung: Fragestellungen,

Überblick, Anwendungsbeispiele

• Daten: Objekte, Merkmale, Skalen

• Fehlende Daten: Ursachen,

Ausfallmechanismen,

Strukturanalyse, Behandlung

• Deskriptive Analyse: Univariate

deskriptive Statistiken,

Kreuztabellen, graphische

Darstellung

• Repräsentation: Ziele, Varianten,

Faktorenanalyse

• Klassifikation: Überblick über

Verfahren, Multiple Regression,

Varianzanalyse

• Segmentierung metrischer Daten:

Segmentierungsarten, Heuristiken,

Bewertungskriterien,

partitionierende- und hierarchische

Segmentierungsverfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 2|306

Page 4: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

1EinleitungFragestellungen, Überblick, Anwendungsbeispiele

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 3|306

Page 5: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Problemstellung

• Die Datenanalyse (Numerische Taxonomie,Multivariatenanalyse) stellt sich die Aufgabe,Ähnlichkeitsbeziehungen zwischen Elementen einerbestimmten Menge zu analysieren.

• Die Datenanalyse ist ein Teilgebiet der Statistik und kommt inder Regel dann zum Einsatz, wenn große Datenmengen durchmehrere Merkmale charakterisiert werden.

• Ausgangspunkt der Datenanalyse ist stets eine Datenmatrixoder eine Distanzmatrix.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 4|306

Page 6: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Die Datenmatrix

• enthält zeilenweise Objekte (Merkmalsträger, cases)

• enthält spaltenweise Merkmale (variables, items)

BeispielMerkmale

ObjektePreis PS Verbrauch Land Wertverlust ABS

Tipo 1600 I.E. 20.800 90 8.5 I hoch nein

Honda Civic 1.3 20.400 75 7.8 JAP mittel nein

Mitsubishi Colt 1.5 19.700 84 7.8 JAP niedrig nein

Kadett LS 1.6i 19.400 75 7.5 D mittel ja

Renault 19 GTS 19.000 73 7.8 F mittel ja

VW Golf CL 20.500 70 8.1 D niedrig ja

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 5|306

Page 7: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Die Distanzmatrix

• enthält zeilen- und spaltenweise Objekte.

• Die Einträge der Matrix sind Werte für die Verschiedenheit(Distanzen) zweier Objekte.

Objekte

ObjekteTipo

1600 I.E.

Honda

Civic 1.3

Mitsub.

Colt 1.5

Kadett

LS 1.6i

Renault

19 GTS

VW Golf

CL

Tipo 1600 I.E. 0.00 9.09 4.11 10.50 10.55 4.16

Honda Civic 1.3 9.09 0.00 7.05 2.41 2.45 7.65

Mitsubishi Colt 1.5 4.11 7.05 0.00 8.19 8.24 3.50

Kadett LS 1.6i 10.50 2.41 8.19 0.00 2.05 8.05

Renault 19 GTS 10.55 2.45 8.24 2.05 0.00 8.74

VW Golf CL 4.16 7.65 3.50 8.05 8.74 0.00

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 6|306

Page 8: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Teilbereiche der Datenanalyse

Es lassen sich nach dem Zweck der Anwendung drei Teilbereiche

unterscheiden:

DatenverdichtendeVerfahren(deskriptiv)

• Kennzahlen

• Indizes

• Faktorenanalyse

StrukturaufdeckendeVerfahren(explorativ)

• Kreuztabellen

• Faktorenanalyse

• Clusteranalyse

• MDS

• Korrespondenzanalyse

StrukturprüfendeVerfahren(induktiv)

• Varianzanalyse

• Regressionsanalyse

• logistische Regression

• Diskriminanzanalyse

• Conjoint-Analyse

• Kausalanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 7|306

Page 9: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Datenanalyse in der Forschung

Beliebige DatenExplorative Datenanalyse

• Klassifikation

• Repräsentation

• Identifikation

Theorie(n)

Inspiration

Intuition

Wissenstransfer,

allgemeine

Überlegungen

Repräsentative Daten

• empirische

Sozialforischung

• StichprobentheorieInduktive Methoden der

Statistik

Wissenschaftliche

Erkenntnisse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 8|306

Page 10: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Klassische Anwendungsbereiche der Datenanalyse

Marketing/Marktforschung

• Marktsegmentierung

• Kundentypisierung

• Aufdecken von

Marktnischen

• Ermittlung von Marktre-

aktionen

Sozialwissenschaften

• Einstellungsanalysen

• Qualifikationsprofile

Biologie

• Zuordnung von Pflanzen

oder Tieren zu Gattun-

gen

Medizin

• Diagnose

• Überprüfung von Thera-

pieerfolgen

Volkswirtschaft

• Input-Output-Analysen

zur Abgrenzung und

Aggregation von Wirt-

schaftssektoren

Bibliothekswesen

• Katalogisierung von Bü-

chern

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 9|306

Page 11: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Nutzung von Methoden der Datenanalyse in derMarktforschung

nach Gaul, Förster, Schiller (1986)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 10|306

Page 12: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Die klassische 3-Teilung der DA

• Segmentierung (Clusteranalyse): Zusammenfassung vonObjekten zu homogenen Klassen aufgrund von Ähnlichkeiten inwichtigen Merkmalsbereichen

• Repräsentation: Darstellung von Objekten durch Punkte im2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungendurch räumliche Nähe zum Ausdruck kommen sollen

• Identifikation: Reproduktion einer gegebenen Segmentierungoder Repräsentation mit Hilfe weniger aussagekräftigerMerkmale (Ziel: Prognose, Klassifikation)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 11|306

Page 13: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Datenanalyse

Segmentierung

Clusteranalyse

Repräsentation Identifikation

MDSKorrespondenz-

analyseFaktorenanalyse

einer

Klassifika-

tioneiner

Repräsen-

tation

Diskriminanz-

analyse

Conjoint-

analyse

Regressions-

analyse

Varianz-

analyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 12|306

Page 14: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Segmentierung

• Eine meist unübersichtliche Menge vonUntersuchungsobjekten (z.B. Kunden, Produkte) ist inGruppen, Typen oder Klassen so aufzuteilen, dass die Objekteeiner Klasse möglichst ähnlich, die Objekte je zweier Klassenmöglichst verschieden sind.

K1

K2

K3

Anwendung: Kundentypologien, Produktkategorien,Marktsegmente

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 13|306

Page 15: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Beispiel einer Segmentierung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 14|306

Page 16: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der Segmentierung in derMarktforschung

• Lassen sich die Kunden eines Kaufhauses entsprechend ihrerBedürfnisse in Gruppen einteilen?

• Gibt es bei Zeitschriften verschiedene Lesertypen?

• Wie kann man die Käuferschaft eines Produktes entsprechendihrer Mediengewohnheiten aufteilen?

• Welche Produkte sind einander besonders ähnlich (werden alsbesonders ähnlich empfunden)?

• Wie sollte ein neues Produkt aussehen (empfunden werden)?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 15|306

Page 17: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Repräsentation

• Eine gegebene Menge von Untersuchungsobjekten (Produkte,Konkurrenten) ist in einem möglichst niedrig dimensioniertenRaum graphisch so anzuordnen, dass die Ähnlichkeit vonObjektpaaren durch ihre räumliche Distanz gutwiedergegeben wird.

D1

D2

Anwendung: Marktnischen, -verdichtungen, Konkurrenzanalysen

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 16|306

Page 18: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Beispiel Repräsentation:Multidimensionale Skalierung (MDS)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 17|306

Page 19: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der MDSin der Marktforschung:

• Inwieweit entspricht das eigene Produkt denIdealvorstellungen der Konsumenten?

• Welches Image besitzt die Marke XY?

• Hat sich die Einstellung der Konsumenten zu einer Marke inden letzten Jahren verändert?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 18|306

Page 20: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Beispiel Repräsentation:Faktorenanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 19|306

Page 21: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der Faktorenanalyse in derMarktforschung

• Lässt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren?

• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 20|306

Page 22: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Identifikation

• Die erhobenen Merkmale sind auf Zusammenhänge hin zuüberprüfen (Korrelation). Ferner ist aufzuzeigen, ob undgegebenenfalls wie bestimmte Merkmale durch andereMerkmale erklärt werden können.

M1,M2, . . .

Regressionsanalyse

M1,M2, . . .

Varianzanalyse

• Erklärung von Marktvariablen (Marktanteil, etc.) durchUnternehmensvariablen

• Analyse von Gruppenunterschieden

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 21|306

Page 23: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Beispiel Identifikation: Varianzanalyse

Source

Term

DF Sum of

Squares

Mean

Square

F-Ratio Prob.

Level

A (Land) 3 9,691936E+08 3,230645E+08 2,97 0,050882 *

S 25 2,715837E+09 1,086335E+08

Total (Adj.) 28 3,685031E+09

Total 29

*) Eine Abhängigkeit des Prei-

ses vom Herstellerland kann zur

Irrtumswahrscheinlichkeit von 5

Prozent nicht bestätigt werden.

(H0 : alle Mittelwerte gleich, H1 :

MW ungleich

hier: H0 nicht ablehnen)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 22|306

Page 24: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der Identifikation in derMarktforschung

Varianzanalyse

• Hat die Art der Verpackung einen Einfluss auf die Höhe derAbsatzmenge?

• Hat die Farbe einer Anzeige einen Einfluss auf die Zahl derPersonen, die sich an die Werbung erinnern?

• Hat die Wahl des Absatzweges einen Einfluss auf dieAbsatzmenge?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 23|306

Page 25: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der Identifikation in derMarktforschung

Regressionsanalyse

• Wie verändert sich die Absatzmenge eines Produktes, wenn dieWerbeausgaben um x% gekürzt werden?

• Wie läßt sich der Preis für ein Produkt in den kommendenMonaten schätzen?

• Hat die Qualität einer Werbeanzeige einen signifikanten Einflussauf das Kaufverhalten der Adressaten?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 24|306

Page 26: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Typische Fragestellungen der Identifikation in derMarktforschung

Diskriminanzanalyse

• In welcher Hinsicht unterscheiden sich Käufer vonNicht-Käufern?

• Welche Merkmale einer Anzeige tragen am meisten zu ihrerErinnerung bei?

• Lassen sich bestimmte Kreditkunden anhand der MerkmaleEinkommen, Schulbildung, Alter etc. als kreditwürdig einstufen?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 25|306

Page 27: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Gliederung der Vorlesung

In Datenanalyse I bzw. Datenanalyse II behandelte Themen:

Beschreibungder Daten

• Objekte und Merkmale

• Distanzen

• Fehlende Daten

StrukturaufdeckendeVerfahren

• Clusteranalyse

• Faktorenanalyse

• MDS

• Korrespondenzanalyse

StrukturprüfendeVerfahren

• Regressionsanalyse

• Varianzanalyse

• Kovarianzanalyse

• Conjoint-Analyse

• Diskriminanzanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 26|306

Page 28: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Literatur - Teil 1

• Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2000): Multivariate Analysemethoden, 9. Auflage,

Springer, Berlin

• Bamberg, G.; Baur, F. (2002): Statistik, 12. Auflage, Oldenbourg, München

• Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten

Datenanalyse, Bergisch Gladbach

• Eckes, T.; Roßbach, H. (1980): Clusteranalysen, Kohlhammer, Stuttgart

• Everitt, B.; Dunn, G. (1991): Applied Multivariate Data Analysis, Arnold, London

• Fahrmeir, L.; Hamerle, A. (1996): Multivariate statistische Verfahren, 2. Auflage, de Gruyter, Berlin

• Hartung, J.; Elpelt, B.; Klösener, K.-H. (1995): Statistik, 10. Auflage, Oldenbourg, München

• Hartung, J.; Elpelt, B. (1999): Multivariate Statistik, 6. Auflage, Oldenbourg, München

• Hilbert, A. (1998): Zur Theorie der Korrelationsmaße, Eul, Bergisch Gladbach

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 27|306

Page 29: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Literatur - Teil 2

• Jobson, J.D. (1991): Applied Multivariate Data Analysis, Volume I: Regression and Experimental

Design, Springer, New York

• Jobson, J.D. (1992): Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate

Methods, Springer, New York

• Opitz, O. (1980): Numerische Taxonomie, UTB, Fischer, Stuttgart

• Schwaiger, M. (1997): Multivariate Werbewirkungskontrolle: Konzepte zur Auswertung von

Werbetests, Gabler, Wiesbaden

• Steinhausen, D.; Langer, K. (1977): Clusteranalyse: Einführung in Methoden und Verfahren der

automatischen Klassifikation, de Gruyter, Berlin

• Weber, E. (1974): Einführung in die Faktorenanalyse, Fischer, Stuttgart

• Tatsuoka, M (1988): Multivariate Analysis, Second Edition, Macmillan Publishing Company, New

York

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 28|306

Page 30: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Ablauf einer datenanalytischen Untersuchung

a) Präzisierung des Untersuchungsziels

b) Diskussion der Datenbasis

c) Datenerhebung und -erfassung

d) Datenanalyse

e) Interpretation der Ergebnisse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 29|306

Page 31: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

a) Präzisierung des Untersuchungsziels

• Formulierung der Zielsetzung

• Abgrenzung der Untersuchungsobjekte

• Ableitung der taxonomischen Aufgabenstellung

- Segmentierung

- Repräsentation

- Identifikation

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 30|306

Page 32: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

b) Diskussion der Datenbasis

• Auswahl der Merkmale

• Festlegung des Skalenniveaus oder

• Charakterisierung der Objekte durch direkte Vergleiche

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 31|306

Page 33: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

c) Datenerhebung und -erfassung

• Primär- oder Sekundärerhebung

• Vollerhebung oder Teilerhebung (Stichprobenauswahl!)

• Datencodierung und ggf. Dateneingabe in DV-Systeme

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 32|306

Page 34: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

d) Datenanalyse

• Univariate Datenanalyse (Screening,

erster Einblick in die Merkmalsstruktur,

Plausibilitätsprüfung)

Deskriptive Verfahren

• Multivariate Datenanalyse (nicht

’statistics all’, sondern Verfahrenseinsatz

nach Aufgabenstellung und Zielsetzung)

Explorative und

induktive Verfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 33|306

Page 35: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

e) Interpretation der Ergebnisse

• Klassenstatistiken und Bezeichnungen bei Clusteranalysen

• Benennung der Achsen bei Repräsentationsverfahren

• Zusammenfassung signifikanter Einflussgrößen beiIdentifikationsverfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 34|306

Page 36: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

2DatenObjekte, Merkmale, Skalen

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 35|306

Page 37: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Gliederung Kapitel 2: Daten

2.1 Objekte und Merkmale

2.2 Merkmalstypen und Skalenarten• Nominale Merkmale• Ordinale Merkmale• Quantitative Merkmale

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 36|306

Page 38: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

2.1 Objekte und Merkmale

Einige grundlegende Definitionen:

• G = {1, 2, 3, . . .} Grundgesamtheit von Objekten

• N = {1, . . . ,n} Objektmenge

• Falls G = N Vollerhebung

• Falls N ⊂ G Stichprobe aus der Grundgesamtheit

• M = {1, . . . ,m} Merkmalsmenge

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 37|306

Page 39: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Die Datenmatrix

A = (aik)n×m =

a11 . . . a1m

.... . .

...

an1 . . . anm

Datenmatrix

mit aik als Ausprägung des Merkmals k bei Objekt i

• Zeilen von A (Objektvektoren): aTi = (ai1, . . . ,aim), i ∈ N

• Spalten von A (Merkmalsvektoren): ak =

a1k

...

ank

, k ∈ M

• Ak Menge der möglichen Ausprägungen

bei Merkmal k

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 38|306

Page 40: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Beispiel: Hörer einer VorlesungMerkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL mit VD

2 25 männlich Karlsruhe 10 Mathe mit HD

3 21 weiblich München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich Augsburg 8 BWL ohne VD

= A

Merkmal k Ausprägungsmenge Ak

Alter Menge der natürlichen Zahlen

Geschlecht {männlich, weiblich}

Wohnort Menge aller Orte

Semester Menge der natürlichen Zahlen

Studiengang {BWL, VWL, Mathematik, Informatik, ...}

Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 39|306

Page 41: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

2.2 Merkmalstypen und Skalenarten

Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden:

• Quantitative Merkmale:

Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen

benannt.

• Qualitative Merkmale:

Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe,

nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale).

Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen

wiedergegeben werden, quantifiziert man i.d.R. die qualitativen Merkmale.

Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 40|306

Page 42: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Definition: Skala

Sei k ein Merkmal mit der Ausprägungsmenge Ak.Dann heißt die Abbildung f : Ak → R eine Skala.

Bemerkung:

Die Abbildung f sollte so gewählt werden, dass die Informationenund Relationen, die für bzw. zwischen den einzelnen Merkmals-ausprägungen aik gelten, auch für die Bildwerte f(aik) korrektsind.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 41|306

Page 43: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Nominale Merkmale

Definition:

Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die

Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( 6=)

unterschieden werden kann.

Bezüglich der Äquivalenz (≈) zweier Objekte gilt:

i ≈k

j ⇔ aik = ajk bzw. i 6≈k

j ⇔ aik 6= ajk

Die Abbildung f : Ak → R mit

aik 6= ajk ⇒ f(aik) 6= f(ajk)

heißt Nominalskala.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 42|306

Page 44: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Unterscheidung nominaler Merkmale

• Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genauzwei Ausprägungen besitzt. Beispiel: Geschlecht

• Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr alszwei Ausprägungen besitzt. Beispiel: Wohnort

Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungenkann durch r dichotome Merkmale ersetzt werden, wobei jedeAusprägung ein Merkmal darstellt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 43|306

Page 45: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Beispiel: Nominale Merkmale

Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 1 1 5 1 mit VD

2 25 1 2 10 2 mit HD

3 21 0 3 4 3 mit VD

4 28 1 1 13 1 mit VD

5 24 1 1 8 1 ohne VD

Dabei wird folgende

Skalierung verwendet:

Geschlecht: fGeschlecht(weiblich) = 0

fGeschlecht(männlich) = 1

Wohnort: fWohnort(Augsburg) = 1

fWohnort(Karlsruhe) = 2

fWohnort(München) = 3

Studiengang: fStudiengang(BWL) = 1

fStudiengang(Mathe) = 2

fStudiengang(VWL) = 3

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 44|306

Page 46: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Ordinale Merkmale

Definition:

Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig

geordnet werden können.

Bezüglich der Ordnung zweier Objekte gilt:

i ≺k

j ⇔ aik < ajk → niedrigerer Rang

i ≈k

j ⇔ aik = ajk → gleicher Rang

i ≻k

j ⇔ aik > ajk → höherer Rang

Die Abbildung f : Ak → R mit

aik < ajk ⇒ f(aik) < f(ajk)

heißt Ordinalskala.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 45|306

Page 47: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Beispiel: ordinale Merkmale: Prüfungen der Hörer

Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 1 1 5 1 2

2 25 1 2 10 2 3

3 21 0 3 4 3 2

4 28 1 1 13 1 2

5 24 1 1 8 1 1

Dabei wird folgende Skalierung verwendet:

Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 46|306

Page 48: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Quantitative Merkmale

Definition:

Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn esordinal ist und die Differenzen von Ausprägungspaaren vollständiggeordnet werden können.

Dies bedeutet insbesondere, dass das Ausmaß derUnterschiedlichkeit zweier Ausprägungen bestimmt werden kannund aussagekräftig ist. Je nachdem, welche Aussagen bzgl. diesesAusmaßes getroffen werden können, unterscheidet man dabei dieTypen Intervallskala, Verhältnisskala und Absolutskala.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 47|306

Page 49: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Definition: Intervallskala

• Die Abbildung f : Ak → R mit

f(aik) = α · aik + β (α > 0, β ∈ R)

heißt Intervallskala.

• Nur der Abstand zwischen zwei Ausprägungen kann verglichenwerden:

- Kein natürlicher Nullpunkt

- z.B. Temperatur (Celsius, Fahrenheit)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 48|306

Page 50: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Definition: Verhältnisskala

• Die Abbildung f : Ak → R mit

f(aik) = α · aik (α > 0)

heißt Verhältnisskala.

• Das Verhältnis zwischen zwei Ausprägungen kann sinnvollerWeise verglichen werden:

- Existenz eines natürlichen Nullpunktes

- z.B. Längen, Preise, Zeiten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 49|306

Page 51: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Definition: Absolutskala

• Die Abbildung f : Ak → IN0 mit

f(aik) = aik

heißt Absolutskala.

• Es existiert eine natürliche Maßeinheit:

- z.B. Stückzahlen

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 50|306

Page 52: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Skalendegression und Skalenprogression

Ziel der Skalierung ist es, die durch die Datenmatrix gegebene Information angemessen abzubilden,

ohne Über- bzw. Unterschätzungen zu riskieren.

Es gilt:

• Grundsätzlich können alle Merkmale nominal skaliert werden.

• Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden.

Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein

Informationsverlust in Kauf zu nehmen.

Aber es gilt auch:

• Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden.

• Ordinale Merkmale dürfen nicht metrisch skaliert werden.

Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale

interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 51|306

Page 53: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Klassische Informationsniveaus

Informationsniveau

Ab

solu

tskala

Verhältnisskala

Intervallskala

MetrischOrdinalNominal

nie

drig

ho

ch

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 52|306

Page 54: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Erweiterungen der klassischen Skalentypen

Es gibt Merkmale, bei denen eine Nominalskala die vorhandenen Informationen

nicht voll nutzt, eine Ordinalskala jedoch nicht vertretbar erscheint.

• Hierarchische Merkmale zeichnen sich durch Ausprägungspaare aus, die

ähnlicher sind als andere, wenn sie zu einem Oberbegriff zusammengefasst

werden können. Je abstrakter der Oberbegriff ist, unter dem sie

zusammengefasst werden können, desto unähnlicher sind sie.

• Bei verbandsgeordneten Merkmalen kann eine Merkmalsausprägung in

mehrere Komponenten zerlegt werden. Die Ähnlichkeit zweier

Ausprägungen solcher Merkmale misst man dann durch den Grad der

Übereinstimmung in den Komponenten. In einer graphischen Repräsentation

solcher Merkmale werden zwei Ausprägungen aik und ajk z.B. durch eine

Kante verbunden (sind also maximal ähnlich), wenn aik maximal echte

Teilmenge von ajk ist.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 53|306

Page 55: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Beispiel: Hierarchisches MerkmalAlle Hörer

ordentliche

Studierende

Wirtschaftswiss.

BWL VWL

Sozialwiss.

Sozio Psycho

Naturwiss.

Mathe Informatik

Gasthörer

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 54|306

Page 56: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Beispiel: Verbandsgeordnetes Merkmal

PKW-Beurteilung bzgl. mehrerer Eigenschaften

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 55|306

Page 57: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Daten

Informationsniveaus

Informationsniveau

Verbandsgeordnet

Hierarchisch

MetrischOrdinalNominal

nie

drig

ho

ch

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 56|306

Page 58: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

3Fehlende DatenUrsachen, Ausfallmechanismen, Strukturanalyse, Behandlung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 57|306

Page 59: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

3 Fehlende Daten (Missing Values, Missing Data, MD)

3.1 Ursachen fehlender Daten

3.2 Ausfallmechanismen

3.3 Strukturanalyse

3.4 Behandlung fehlender Daten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 58|306

Page 60: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

3.1 Ursachen fehlender Daten

Ablauf einer datenanalytischen Untersuchung

a) Präzisierung des Untersuchungsziels

b) Diskussion der Datenbasis

Merkmalsauswahl, Skalenniveau

c) Datenerhebung und -erfassung

Datenaufbereitung (PC-gestützt)

d) Datenanalyse

e) Interpretation der Ergebnisse

Ursachen für das Fehlen von Daten sind in den der eigentlichen Datenanalyse

vorgelagerten Stufen b) und c) zu suchen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 59|306

Page 61: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Allgemeine Ausfallursachen

Diskussion der Datenbasis

• Fehlerhaftes Untersuchungs-

design, z.B. ’Alter der Kinder’

• Mangelhaftes Untersuchungs-

design, z.B. durch miss-

verständliche Fragen,

unübersichtliche oder zu

lange Fragebögen

Datenerhebung aus

Sekundärquellen

• Unvollständigkeit der

Sekundärquellen

• Verwendung mehrerer

Sekundärquellen

• Akualitätsprobleme

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 60|306

Page 62: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Allgemeine Ausfallursachen

Datenerhebung aus Primärquellen

• Unangenehme oder persönliche

Fragen

• Übersehen von Fragen

• Mangelndes Wissen der Befragten

• Antwortverweigerung

• Motivationsprobleme bei der

Befragung

• Verständnisprobleme

• Meinungslosigkeit

• Zeitknappheit

Datenaufbereitung bzw. -erfassung

• Codierfehler

• Übertragungsfehler

• Löschung unmöglicher Daten

• Löschung fehlerhafter Daten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 61|306

Page 63: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

3.2 Ausfallmechanismen

Bei der Existenz von fehlenden Daten sind nicht dieAusfallursachen an sich, sondern lediglich die Auswirkungen aufdas Datenmaterial von Bedeutung. Die Ausfallursachen habenaber Auswirkungen auf das vorliegende Datenmaterial.

Das führt zur Frage nach dem Mechanismus, der zum Fehlen derDaten führt.

Man unterscheidet dabei zwei Arten von MD:

• Unsystematisch bzw. zufällig fehlende Daten

• Systematisch bzw. nicht-zufällig fehlende Daten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 62|306

Page 64: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Systematisch fehlende Daten

Die Ursache des Fehlens ist hierbei in den Merkmals-ausprägungen der fehlenden Daten selbst zu suchen.

Das bedeutet, eine Charakterisierung der entsprechendenObjekte anhand der fehlenden Ausprägungen ist möglich.

Wirkung:

Unter Umständen erhebliche Verzerrungen der Ergebnisse, wennbei der Auswertung nur die vorhandenen Daten betrachtetwerden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 63|306

Page 65: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel für systematisch fehlende Daten

Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben.

Eine Verfälschung wäre dann gegeben, wenn beim MerkmalEinkommen lediglich Personen mit einem niedrigen Einkommenverweigern würden.

Eine Schätzung des mittleren Einkommens auf Basis dervorhandenen Daten überschätzt dann den wahren Wert.

Objektabhängiges Fehlen von Daten wegenAuskunftsunfähigkeit oder Unwilligkeit eines Befragten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 64|306

Page 66: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Unsystematisch fehlende Daten

werden durch Einflußfaktoren auf die Untersuchungssituationhervorgerufen, die sich nicht eindeutig auf bestimmte Objekteoder Merkmale konzentrieren.

Ursachen sind z.B. Unaufmerksamkeiten bei der Datenerhebungund/oder -aufbereitung

Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei derAuswertung nur die vorhandenen Daten betrachtet werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 65|306

Page 67: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Grundlegende, verbale Definitionen

Daten werden als zufällig fehlend bezeichnet, wenn

• die fehlenden Daten gleichmäßig über die Matrix gestreut sind(keine Konzentration),

• für ein Objekt ein fehlende Merkmalsausprägung unabhängigvon jeder anderen Merkmalsausprägung ist,

• für ein gegebenes Merkmal die fehlenden Ausprägungendieselbe Verteilung besitzen wie der ganze Merkmalsvektor,d.h. kein Zusammenhang zwischen dem Ausfallmechanismusund dem Wertebereich eines Merkmals existiert,

• zwischen den fehlenden Daten zweier Merkmale keinZusammenhang besteht.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 66|306

Page 68: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Ausfallmechanismen: MAR und MCAR

Daten sind missing at random (MAR), wenn

• das Fehlen der Daten unabhängig von den fehlenden Wertenselbst ist,

• aber von anderen Merkmalen abhängen kann.

Daten sind missing completely at random (MCAR),

• wenn das Fehlen der Daten in keinerlei Beziehung zu denfehlenden und den vorhandenen Werten oder anderenMerkmalen und ihren Ausprägungen bei den Objekten mitfehlenden Werten steht.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 67|306

Page 69: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel unsystematisch fehlender Daten

Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben, wobei einige Personen dieAngabe des Einkommens verweigern.

• Die Daten sind MAR, wenn das Fehlen derEinkommensangaben nicht von der Höhe des Einkommensselbst abhängt, es aber möglich ist, daß z.B ältere Personen dieAntwort tendenziell öfter verweigern.

• Ist das Fehlen der Einkommensangabe unabhängig von derHöhe des Einkommens und des Alters, dann sind die Datensogar MCAR.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 68|306

Page 70: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Konsequenzen für die Datenauswertung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 69|306

Page 71: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

3.3 Strukturanalyse

Bemerkung:

Im Rahmen einer Strukturanalyse können im allgemeinen nurbestimmte Beziehungen, die fehlende Daten verursachenuntersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a.nicht möglich.

Die Ergebnisse der Strukturanalysekönnen somit zwarhinreichend für eine Verwerfung,aber nurnotwendig für eine Akzeptierungeines bestimmten unsystematischenAusfallmechanismus sein.

!Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 70|306

Page 72: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Die Indikatormatrix

Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. diesogenannte Indikatormatrix

V = (vik)n×m =

v11 . . . v1m

.... . .

...

vn1 . . . vnm

Indikatormatrix

mit vik als Indikator für das Fehlen der Ausprägungdes Merkmals k bei Objekt i

Es gilt dabei: vik =

{1 falls aik vorhanden

0 sonst

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 71|306

Page 73: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 männlich 5 BWL mit VD

2 25 männlich Karlsruhe 10

3 21 München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich 8 BWL ohne VD

=⇒ V =

A G W Se St P

1 0 1 0 1 1 1

2 1 1 1 1 0 03 1 0 1 1 1 1

4 1 1 1 1 1 1

5 1 1 0 1 1 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 72|306

Page 74: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Möglichkeiten der Strukturanalyse

Die Strukturanalyse läßt sich grundsätzlich in folgende Bereicheuntergliedern:

• Deskriptive Analyse

• Explorative Analyse

• Induktive Analyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 73|306

Page 75: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Deskriptive Analyse

Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich desAuftretens fehlender Daten bieten sich

• Kennzahlen (Missing-Data-Maße) oder

• graphische Verfahren an,

die erste Anhaltspunkte bezüglich des vorliegendenAusfallmechanismus ergeben (können).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 74|306

Page 76: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Missing-Data-Maße - Teil I

Missing-Data-Maße (MD-Maße) verdichten die in denIndikatormatrizen enthaltenen Information und geben sie mit Hilfeeiner Kennzahl wieder.

Es existieren u.a. folgende Maße:

MD-Indikator für Objekt i vindi• =

1 fallsm∑

k=1

vik = m

0 sonst

MD-Indikator für Merkmal k vind•k =

1 fallsn∑

i=1

vik = n

0 sonst

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 75|306

Page 77: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende DatenMissing-Data-Maße - Teil II

Anzahl der fehlenden Daten und

der vorhandenen bei Objekt i

vmisi• = m − vobs

i• = m −m∑

k=1

vik

Anzahl der fehlenden Daten und

der vorhandenen bei Merkmal k

vmis•k = n − vobs

•k = n −n∑

i=1

vik

Anzahl der vorhandenen Daten in

der Datenmatrix i

vobs =n∑

i=1

vobsi• =

m∑

k=1

vobs•k =

m∑

k=1

n∑

i=1

vik

Anzahl der vorhandenen Daten in

der Datenmatrix i

vmis = m · n − vobs

Des weiteren sind alle dargestellten Kennzahlen auch noch alsrelative Kennzahlen denkbar.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 76|306

Page 78: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende DatenBeispiel: Hörer einer Vorlesung, Missing-Data-Maße

V =

A G W Se St P

1 0 1 0 1 1 1

2 1 1 1 1 0 03 1 0 1 1 1 1

4 1 1 1 1 1 1

5 1 1 0 1 1 1

Objekt 1 2 3 4 5

vindi• 0 0 0 1 0

vmisi• 2 2 1 0 1

vobsi• 4 4 5 6 5

Merkmal A G W Se St P

vind•k 0 0 0 1 0 0

vmis•k 1 1 2 0 1 1

vobs•k 4 4 3 5 4 4

Des Weiteren gilt:

n = 5, m = 6, n · m = 30,

vmis = 6, vobs = 24

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 77|306

Page 79: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Graphische Verfahren

• Bei einer graphischen Darstellung der Indikatormatrix V könnensowohl das Ausmaß wie auch Konzentrationstendenzen derfehlenden Daten untersucht werden.

• Sind die fehlenden Werte jeweils regellos über die gesamteMatrix verteilt, dann wird man einen unsystematischenAusfallmechanismus vermuten.

• (Im nächsten, induktiven Schritt, entsteht dann das Problem, einobjektives Maß für systematischen Ausfall zu finden.)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 78|306

Page 80: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 männlich 5 BWL mit VD

2 25 männlich Karlsruhe 10

3 21 München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich 8 BWL ohne VD

Fehlende Ausprägun-

gen werden durch das

Symbol • dargestellt=⇒

A G W Se St P

1 • •2 • •3 •4

5 •Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 79|306

Page 81: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Graphische Verfahren mit Sortierreihenfolge

• Gerade bei größeren Datenmatrizen kann eine übersichtlichereDarstellung der MD-Muster erreicht werden, wenn dieIndikatormatrix bezüglich der Objekte sortiert wurde.

• Dabei kann der Sortieralgorithmus die Objekte mit denwenigsten MD zu Beginn stellen, solche mit vielen MD eher amEnde.

• Alternativ kann nach der Anzahl der MD innerhalb einesObjektes und der Spaltenposition einer fehlendenMerkmalsausprägung in der Datenmatrix geordnet werden

⇒ Ausfallmechanismen sind nach dem Sortiervorgang oft besserzu erkennen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 80|306

Page 82: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Ein Sortieralgorithmus

Sortierrangfolge mittels der sogenannten Objekt-Pattern-Variablen PV , die gemäß

PVi = 2m − 1 −

m∑

k=1

vik · 2k−1

berechnet werden kann. Aufsteigende bzw absteigende Sortierungder Objekte wird dann nach der Regel

Objekt i vor Objekt j ⇐⇒ PVi 6 PVj

vorgenommen.

Analog kann die transponierte Indikatomatrix VT durch diegeeignete Konstruktion einer Merkmals-Pattern-Variable sortiertwerden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 81|306

Page 83: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 männlich 5 BWL mit VD

2 25 männlich Karlsruhe 10

3 21 München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich 8 BWL ohne VD

Sortierung mittels PV

PVi = 2m − 1 −

m∑

k=1

vik · 2k−1

=⇒

i PVi A G W Se St P

4 0

3 2 •

5 4 •

1 5 • •

2 48 • •

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 82|306

Page 84: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Explorative Analyse• Im Rahmen einer explorativen Analyse soll nach Zusammenhängen innerhalb einer

unvollständigen Datenmatrix gesucht werden, um dadurch die vorliegenden

Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken.

• Den Ausgangspunkt der Betrachtung stellt damit, neben der Datenmatrix, in erster Linie die

jeweilige Indikatormatrix dar.

• Um die Eigenschaft MAR in der Datenmatrix zu untersuchen, können korrelationsanalytische,

faktoren-analytische, clusteranalytische sowie dependenz-analytische Ansätze zu Einsatz

kommen, um die Eigenschaft MAR in der Datenmatrix zu untersuchen.

• Eine Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst ist nicht

möglich, da zusätzliche (externe) Informationen, wie zum Beispiel die Verteilung der

Grundgesamtheit i.a. nicht genutzt werden können.

• Mittels explorativer Methoden können lediglich Abhängigkeitsbeziehungen der fehlenden Werte

innerhalb der Datenmatrix aufgezeigt, aber nicht statistisch überprüft werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 83|306

Page 85: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Korrelationsanalytische Ansätze

• dienen der Untersuchung der Abhängigkeit der fehlendenAusprägungen vom Fehlen der Daten bei anderen Merkmalen.

• Eine Berechnung kann mit Hilfe aller gängigenKorrelationskoeffizienten, angewandt auf die Spalten derIndikatormatrix V , erfolgen.

• Besonders geeignet ist der Phi-Koeffizient Φ, der demBravais-Pearson-Koeffizient r für binäre Variablen entspricht.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 84|306

Page 86: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Phi-Koeffizient: Definition

Φ ist ein Zusammenhangsmaß, das für Kontingenztabellenentwickelt wurde und speziell für 2 × 2 Tabellen der Form

0 1

0 αkl βkl

1 γkl δkl

mit

αkl = |{i : vik = 0, vil = 0}|

und βkl, γkl, δkl analog

wie folgt definiert ist:

Φkl =αklδkl − βklγkl√

(αkl + βkl) (γkl + δkl) (αkl + γkl) (βkl + δkl)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 85|306

Page 87: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Phi-Koeffizient Φ - Eigenschaften

Φ kann dabei Werte zwischen

-1 Es existieren nur (0,1)/(1,0)-Paare und

+1 Es existieren nur (0,0)/(1,1)-Paare

annehmen.

Werte in der Nähe von Null weisen daraufhin, dass zwischen demFehlen der Werte beim ersten Merkmal und dem Fehlen der Wertebeim zweiten Merkmal kein Zusammenhang besteht.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 86|306

Page 88: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 männlich 5 BWL mit VD

2 25 männlich Karlsruhe 10

3 21 München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich 8 BWL ohne VD

Korrelationsmatrix der Φ Koeffizienten

(Homogenes Merkmal Semester

weggelassen)=⇒

A G W St P

A 1 -0.25 0.61 -0.25 -0.25

G 1 -0.41 -0.25 -0.25

W 1 -0.41 -0.41

St 1 1

P 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 87|306

Page 89: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Weitere explorative Ansätze

Die Faktorenanalytische Untersuchung dient ebenfalls derUntersuchung der Abhängigkeit der fehlenden Ausprägungen vomFehlen der Daten bei anderen Merkmalen und basiert auf der obenbeschriebenen Korrelationsmatrix.

Die Clusteranalyse untersucht die Ähnlichkeit derMissing-Data-Muster der Merkmale/Objekte und verwendet dieIndikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aberdieselbe wie oben.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 88|306

Page 90: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Induktive Analyse

Im Rahmen einer induktiven Analyse der MD-Struktur unvollständiger

Datenmatrizen sollen zuvor formulierte Hypothesen bezüglich der fehlenden

Werte mittels statistischer Testverfahren überprüft werden.

Dabei betreffen die in diesem Zusammenhang relevanten Hypothesen das

Vorliegen von unsystematischen Ausfallmechanismen.

Die Hypothesen lassen sich in der folgenden allgemeinen Form formulieren:

H0: Die Daten fehlen zufällig.

H1: Die Daten fehlen systematisch.

Bemerkung:

Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige

Fehlen von Daten, sondern können lediglich bestimmte Formen eines

zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α ausschließen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 89|306

Page 91: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Typen von Testverfahren

Typ 1: Untersuchung der Abhängigkeit der MD von den an sichunbekannten Realisierungen dieser Werte (MAR): (Anpassungstest,parametrische Einstichproben-Tests)

Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen derDaten bei anderen Merkmalen (MAR): (Test derKorrelationskoeffizienten bzw. -matrix)

Typ 3: Untersuchung der Abhängigkeit der MD von denvorhandenen Ausprägungen bei anderen Merkmalen; Testen aufMCAR , wenn MAR vorliegt: (Test auf Lokalisationsunterschiedebzw. Unabhängigkeit)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 90|306

Page 92: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Testverfahren - Typ 1

Untersuchung der Abhängigkeit der MD von den unbekanntenRealisierungen dieser Werte (MAR)

• Überprüfung, inwieweit die für ein Merkmal vorliegenden Dateneiner hypothetischen Verteilung genügen

• damit Berücksichtigung externer Informationen notwendig,wie z.B. Verteilungsannahmen bezüglich der Grundgesamtheit

• praktische Anwendung stark eingeschränkt!

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 91|306

Page 93: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Der χ2-Anpassungstest

• Überprüft für ein nominales oder ordinales Merkmal, ob dievorliegenden Daten einer hypothetischen Verteilung genügen(H0).

• Kann sinnvoll angewandt werden, wenn nur wenigeverschiedene Merkmalsausprägungen vorliegen

• benötigt eine Stichprobengröße, die garantiert, dass jedeMerkmalsausprägung mindestens fünf Beobachtungenaufweist; ansonsten müssen Merkmalsklassen gebildet werden;sinnvollerweise aus benachbarten Werten.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 92|306

Page 94: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Der χ2-Anpassungstest: Definition

Die Wahrscheinlichkeit einer Merkmalsausprägung at sei pt, diebeobachtete Häufigkeit sei ht. Insgesamt können k verschiedeneAusprägungen bei n Objekten beobachtet werden. DerTestfunktionswert T des χ2-Anpassungstests ist dann wie folgtdefiniert:

T =

k∑

t=1

(ht − n · pt)2

n · pt

T folgt näherungsweise einer χ2(k − 1)-Verteilung.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 93|306

Page 95: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: χ2-Anpassungstest für MD

Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim

Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden

waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit

weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind.

Für den Testfunktionswert T ergibt sich

T =

k∑

t=1

(ht − n · pt)2

n · pt

=

(30 − 65 · 2

5

)2

65 · 25

+

(35 − 65 · 3

5

)2

65 · 35

= 1.025

Das 95%-Fraktil der χ2(1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem

Fall kleiner, die Nullhypothese kann also nicht verworfen werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 94|306

Page 96: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Der Einstichenproben-Gaußtest

überprüft, inwieweit die für ein kardinales Merkmal vorliegendenDaten aus einer Grundgesamtheit mit dem Erwartungswert µ

stammen können.

kann sinnvoll angewandt werden, wenn viele verschiedeneMerkmalsausprägungen vorliegen

ist i.A. nur ein approximativer Test

benötigt daher eine Stichprobe, die mindestens 30Beobachtungen enthält. Liegen weniger als 30 Beobachtungen vor,kann im Fall einer N(µ,σ)-Verteilung der Einstichproben-T-Testangewandt werden ( Bamberg/Baur Kap. 14.4 )

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 95|306

Page 97: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Testverfahren - Typ 2

Untersuchung der Abhängigkeit der MD vom Fehlen der Daten beianderen Merkmalen (MAR)

- Überprüfung, inwieweit das Fehlen der Daten bei einemMerkmal vom Fehlen der Daten bei einem anderen Merkmalabhängt

- Berechnung der Korrelationskoeffizienten Φ bzw. derKorrelationsmatrix R

- Berücksichtigung zusätzlicher, also externer Informationennicht notwendig und damit sehr praxisnah

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 96|306

Page 98: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Globaltest der Korrelationsmatrix R

Sei R = (Φkl) = (rkl) die nicht-singuläre Korrelationsmatrix derDimension q × q, die auf Basis der Indikatormatrix V dieAbhängigkeit zwischen dem Fehlen der Daten innerhalb derDatenmatrix beschreibt mit: 2 6 q 6 m. Der Testfunktionswert Wdes Globalen Korrelationstests ist dann wie folgt definiert

W =

(4

3q − n +

5

6

)· ln(det R)

und folgt approximativ einer χ2-Verteilung. Die Anzahl derFreiheitsgrade df bestimmt sich gemäß

df =1

2· q · (q − 1)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 97|306

Page 99: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Um zu analysieren, ob das Feh-len der Daten in den ersten dreiMerkmalen des Beispiels zufälligoder systematisch ist, überprüftman die Korrelationsmatrix R derersten drei Merkmale mit Hilfe desGlobaltests.

R A G W

A 1 -0.25 0.61

G 1 -0.41

W 1

Als Determinante von R ergibt sich zunächst 0.5224.

Da die Teststatistik W, gemäß

W =

(4

3· 3 − 5 +

5

6

)· ln(0.5224) = 0.1082

kleiner ist als das 95%-Fraktil der χ2(3)-Verteilung (7.81), kann dieNullhypothese nicht verworfen werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 98|306

Page 100: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Testverfahren - Typ 3: auf MCAR

Untersuchung der Abhängigkeit der MD von den vorhandenenAusprägungen bei anderen Merkmalen: MCAR. Voraussetzung:MAR ist schon gezeigt oder kann angenommen werden.

- Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k aufbestimmte Ausprägungen eines Merkmals l 6= k zurückzuführensind

- Berechnung skalenniveau-adäquater Lageparameter fürsinnvolle Merkmale l, möglichst ohne MD in l, wobei eineGruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt

- anschließend Test der Lageparameter auf Gleichheit

- Berücksichtigung externer Informationen nicht notwendigund damit sehr praxisnah

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 99|306

Page 101: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Approximativer Zweistichenproben-Gaußtest

überprüft, inwieweit die für ein kardinales Merkmal in zweiGruppen vorliegenden Daten parametrischen, hypothetischenVerteilungen genügen, die durch die Erwartungswerte µ1 und µ2

charakterisiert sind (H0 : µ1 = µ2).

benötigt zwei Stichproben, die je mindestens 30 Beobachtungenenthalten. Liegen weniger als 30 Beobachtungen vor, könnenalternative Zweistichproben-Test angewandt werden (z.B. einexakter 2-Stip-B(n,p)-Test, falls Anzahl der Beobachtungen nichtzu groß, siehe Bamberg, Baur, S. 193f ).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 100|306

Page 102: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Approximativer Zweistichenproben-Gaußtest:Definition

Sei X bzw. Y der Mittelwert der n1 bzw. n2 vorhandenenAusprägungen bei Merkmal l für die Objekte, für die bei Merkmal k

fehlende bzw. vorhandene Daten vorliegen. Des Weiteren seien S1

und S2 die zugehörigen empirischen Standardabweichungen.Dann ist der Testfunktionswert T des approximativenZweistichproben-Gaußtest wie folgt definiert

T =X − Y√S2

1

n1+

S22

n2

und folgt approximativ einer N(0, 1)-Verteilung.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 101|306

Page 103: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiel für app. 2-Stip-Gauß-Test

Bei der Befragung von 100 Personen haben 35 beim MerkmalGeschlecht keine Antwort gegeben. Beim Merkmal Alter hingegenantworteten alle Personen, wobei festzustellen ist, dass dasDurchschnittsalter unter den Verweigerern 28.4 Jahre ist, bei denAntwortenden aber 30.2. Die separate Berechnung der empirischenStandardabweichung ergibt die Werte 2 bzw. 3 Jahre. Da derTestfunktionswert T gemäß

T =28.4 − 30.2√

435

+ 965

= −3.58

im Verwerfungsbereich (−∞,−1.96) ∪ (1.96,∞) derN(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% liegt,muss die Nullhypothese verworfen werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 102|306

Page 104: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

3.4 Behandlung fehlender Daten

Auf Basis der Ergebnisse der Strukturanalyse können eventuellgeeignete Verfahren zur Behandlung der fehlenden Daten,sogenannte MD-Verfahren, angewandt werden.

Man unterscheidet dabei folgende Verfahrenskategorien

- Eliminierungsverfahren

- Imputationsverfahren

- Sonstige Verfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 103|306

Page 105: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Eliminierungsverfahren (EV)

Unter dem Begriff der EV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die Objektebzw. Merkmale mit fehlenden Werten aus der Untersuchungausschließen.

Das Eliminieren von Objekten ist nur unter der sehr restriktivenAnnahme, dass die Daten der Bedingung MCAR genügen,uneingeschränkt anwendbar.

Die anschließende Auswertung kann auf Basis eines reduzierten,aber vollständigen Datenmaterials erfolgen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 104|306

Page 106: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Complete-Case Analysis

Im Rahmen einer Auswertung der vollständig erhobenenObjekte werden nur die Objekte in einer Analyse verwendet,deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen.

Gleiches gilt auch für die Auswertung vollständig erhobenerMerkmale.

Falls die Datenmatrix einen geringen Prozentsatz fehlenderWerte aufweist (< 5%), wird die Durchführung einerObjekt-eliminierung als akzeptabel bezeichnet. Fehlen mehr Daten,so kann dieses Verfahren zu erheblichen Verzerrungen führen,wenn die Voraussetzung MCAR nicht gesichert ist.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 105|306

Page 107: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Available-Case Analysis

Werden nur univariate oder bivariate Kennzahlen bzw. Verfahrenauf Basis der unvollständigen Datenmatrix angewandt, so ist esnicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MDvorweisen. Sinnvoller erscheint hier nur, die Objekte zu eliminieren,die bei dem bzw. den betrachteten Merkmal(en) fehlende Werteaufweisen.

Man erhält so bei der Auswertung die available-case analysisbzw. die pairwise available-case analysis.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 106|306

Page 108: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Beispiele

Für: Available-case analysis:Berechnung aller univariaten Kennzahlen, z.B.

• Lageparameter oder

• Streuungsparameter

auf Basis der vorhandenen Daten des Merkmals

Für Pairwise available-case analysis:

Berechnung der Korrelation zwischen zwei Merkmalen auf Basisder Objekte, für die bei beiden Merkmalen Werte vorliegen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 107|306

Page 109: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Eigenschaften der Eliminierungsverfahren

+ Vorteil: Einfache Anwendbarkeit

Resultat: Vollständige Datenmatrix

- Nachteil: Informationsverlust durch die

Eliminierung vorhandener Daten

Bemerkung:

Viele Statistiksoftwarepakete bieten Eliminierungsverfahren an.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 108|306

Page 110: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Imputationsverfahren (IV)

Unter dem Begriff der IV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die diefehlenden Werte in der Datenmatrix mit Hilfe von Schätzungenersetzen, die auf den vorhandenen Werten basieren.

In Abhängigkeit von der Imputationstechnik müssen die DatenMAR oder MCAR sein.

Die anschließende Auswertung kann auf Basis des vollständigenDatenmaterials erfolgen, unterliegt aber gewissen Verzerrungen,die aber i.a. auf ein akzeptables Maß reduziert werden können.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 109|306

Page 111: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Einfache Imputationstechniken

• Die hier vorgestellten IV liefern ohne großen AufwandSchätzungen für die fehlenden Daten

• setzen aber voraus, dass das Fehlen einzelner Werteunabhängig von den fehlenden sowie den vorhandenen Werteder Datenmatrix ist (MCAR)

Man unterscheidet dabei vor allem

• Imputation des Lageparameters

• Imputation mittels Verhältnisschätzer

• Imputation mittels Zufallsauswahl

• Imputation auf Basis von Expertenratings

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 110|306

Page 112: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Imputation des Lageparameters

Ausgehend von einer Datenmatrix kann als Imputationswert z.B. ein Lageparameter herangezogen

werden. In Abhängigkeit vom jeweiligen Skalenniveau der Merkmale verwendet man dann z.B. als

Schätzwert für die fehlenden Parameter

• für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel

aik = ak =1

|Nk|

j∈Nk

ajk ∀i,k : vik = 0 ,

• für ordinal skalierte den Median

aik = aMedk ∀i,k : vik = 0 und

• für nominal skalierte den Modus

aik = aModk ∀i,k : vik = 0.

Dabei bezeichnet Nk = {i : vik = 1}.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 111|306

Page 113: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Imputation mittels Verhältnisschätzer• Voraussetzungen:

1. Merkmal Mk mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu Mk

hoch korreliertes Merkmal Ml, das ebenfalls metrisches Datenniveau besitzt.

2. Beim Hilfsmerkmal Ml müssen mindestens für die Objekte, bei denen beim zu

ersetzenden Merkmal Mk Daten zu schätzen sind, Werte vorhanden sein.

• Dabei werden die fehlenden Daten von Mk durch die Verwendung des Hilfsmerkmals Ml

geeignet ersetzt:

aik = aRatiok =

j∈Nl

ajl

|Nl|·

j∈Nk

ajk

j∈Nk

ajl

∀i,k : vik = 0(k, l ∈ M,Nk ⊆ Nl

Bemerkungen:

• Nk = Nl ⇒ aRatiok = ak

• Für sinnvolle Verhältnisschätzungen sollte deswegen Nk ⊂ Nl gelten

• Ideal wäre Nl = {1, . . . ,n}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 112|306

Page 114: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Imputation mittels Zufallszahlen

Die Imputation durch Zufallszahlen ist ebenfalls an die BedingungMCAR gebunden.

Dabei werden die fehlenden Daten

• durch einen von einem Zufallszahlengenerator erzeugtenWert oder

• durch eine Zufallsauswahl aus den vorhandenen Daten

ersetzt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 113|306

Page 115: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Fehlende Daten

Sonstige Verfahren

Parameterschätzverfahren

• Schätzung von Erwartungswert, Varianz und Kovarianz aufBasis der nicht vervollständigten Daten

• Techniken: Auf Basis der Maximum-Likelihood-Theorie

EM-Algorithmus (Expectation Maximization)

Multivariate Analyseverfahren: Entwicklung spezieller Verfahren,die das Fehlen von Daten explizit berücksichtigen, z.B. bei der

• Clusteranalyse mit Missing value linkage oder der

• Multidimensionale Skalierung mit ALSCAL

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 114|306

Page 116: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einschub: Datenanalyse mit RR ist eine open-source Umgebung für Statistik und Datenanalyse. Die meisten Beispiele

der Vorlesung wurden mit R berechnet oder zumindest überprüft.

Vorteile von R (aus: simpleR Using R for Introductory Statistics, John Verzani)

• R is free. R is open-source and runs on UNIX, Windows and Macintosh.

• R has an excellent built-in help system.

• R has excellent graphing capabilities.

• Students can easily migrate to the commercially supported S-Plus program if commercial

software is desired.

• R’s language has a powerful, easy to learn syntax with many built-in statistical functions.

• The language is easy to extend with user-written functions.

• R is a computer programming language. For programmers it will feel more familiar than others

and for new computer users, the next leap to programming will not be so large.

R History The S language was developed in the late 1980s at AT&T labs. The R project was started by

Robert Gentleman and Ross Ihaka of the Statistics Department of the University of Auckland in 1995.

It has quickly gained a widespread audience. It is currently maintained by the R core-development

team, a hard-working, international team of volunteer developers. The R project web page

http://www.r-project.org is the main site for information on R. At this site are directions for

obtaining the software, accompanying packages and other sources of documentation.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 115|306

Page 117: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

4Deskriptive AnalyseUnivariate deskriptive Statistiken, Kreuztabellen, Graphische

Darstellungsverfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 116|306

Page 118: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

4 Deskriptive Analyse

4.1 Univariate deskriptive Statistiken

4.2 Häufigkeitsauszählungen, Kreuztabellen

4.3 Graphische Darstellungsverfahren

- Boxplots

- Sterndiagramme

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 117|306

Page 119: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Ziele der deskriptiven Analyse

Die deskriptive Analyse dient einer möglichst einfachenCharakterisierung der Daten und soll

• eine einfache Beschreibung der Merkmals- und/oderObjektstruktur und

• Hinweise für eine geeignete Gewichtung der Merkmale beider Aggregation von Distanzen

liefern.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 118|306

Page 120: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

4.1 Univariate deskriptive Statistiken

dienen einem ersten Einblick in die Struktur einzelner Merkmale,oft auch einer Ausreißererkennung.

Wichtige skalenniveau-adäquate Kennzahlen sind:

• die Lageparameter

- Modus, Minimum, Maximum

- Quartile, Median, Mittelwert

• die Streuungsparameter

- mittlere quadratische Abweichung, Standardabweichung,Spannweite

- Modalabweichung, QuartilsabstandDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 119|306

Page 121: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Lageparameter: Definition α-Quantil ( α-Fraktil)

An n Objekten 1, . . . ,n werden die Ausprägungen eines metrischoder ordinal skalierten Merkmals Mj beobachtet und aij

bezeichnet den Beobachtungswert am i-ten Objekt. Ordnet manaj aufsteigend gemäß ai1j 6 ai2j 6 . . . 6 ainj, so berechnet sichdas α-Quantil ajα

wie folgt:

ajα=

aikj , falls nα keine ganze Zahl ist (mit k als die auf

nα folgende ganze Zahl)

12

(aikj + aik+1j) , falls nα eine ganze Zahl ist (mit k = nα)

Der Median ist definiert als das 12

-Quantil.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 120|306

Page 122: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL mit VD

2 25 männlich Karlsruhe 10 Mathe mit HD

3 21 weiblich München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich Augsburg 8 BWL ohne VD

Bemerkung: Das ordinale Merkmal Prüfungen wird mit Hilfe derWerte 1, 2 bzw. 3 skaliert.

Eine Skalierung der nominalen Merkmale ist (hier) nichtnotwendig.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 121|306

Page 123: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Lageparameter der Merkmale

Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL 2

2 25 männlich Karlsruhe 10 Mathe 3

3 21 weiblich München 4 VWL 2

4 28 männlich Augsburg 13 BWL 2

5 24 männlich Augsburg 8 BWL 1

Modus - männlich Augsburg - BWL 2

Minimum 21 - - 4 - 1

25% - Quartil 22 - - 5 - 2

Median 24 - - 8 - 2

75% - Quartil 25 - - 10 - 2

Maximum 28 - - 13 - 3

Mittelwert 24 - - 8 - 2

unzulässig

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 122|306

Page 124: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Streuungsparameter der Merkmale

Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL 2

2 25 männlich Karlsruhe 10 Mathe 3

3 21 weiblich München 4 VWL 2

4 28 männlich Augsburg 13 BWL 2

5 24 männlich Augsburg 8 BWL 1

Modalabweich. - 1 2 - 2 2

Quartilsabst. 3 - - 5 - 0

Spannweite 7 - - 9 - 2

Mittl. qdr. Abw. 6 - - 10.8 - 0.4

Standardabw. 2.45 - - 3.29 - 0.63

unzulässig

����

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 123|306

Page 125: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

4.2 Häufigkeitsauszählungen, Kreuztabellen

dienen vor allem der Aufdeckung der Merkmalsstruktur beinominalen Merkmalen

Geeignete Kenngrößen sind absolute und relative Häufigkeitender Merkmalsausprägungen

• eines Merkmals ⇒ Häufigkeitsauszählung

• zweier Merkmale ⇒ Kreuztabellen

Kaum für Merkmale mit vielen verschiedenen Ausprägungengeeignet (kardinale Merkmale)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 124|306

Page 126: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Beispiel: Hörer einer Vorlesung

Alter Geschlecht Wohnort Semester Studiengang Prüfungen

1 22 männlich Augsburg 5 BWL mit VD

2 25 männlich Karlsruhe 10 Mathe mit HD

3 21 weiblich München 4 VWL mit VD

4 28 männlich Augsburg 13 BWL mit VD

5 24 männlich Augsburg 8 BWL ohne VD

Berechnung der Häufigkeiten für die nominalen MerkmaleGeschlecht, Wohnort, Studiengang sowie das ordinale MerkmalPrüfungen

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 125|306

Page 127: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Beispiel: Hörer einer Vorlesung

Augsburg Karlsruhe München

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Wohnort

BWL Mathe VWL

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Studiengang

mit HD mit VD ohne VD

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Pruefungen

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 126|306

Page 128: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

4.3 Graphische Darstellungsverfahren

dienen sowohl der Darstellung

• der Merkmalsstruktur ⇒ Boxplot

als auch der Darstellung

• der Objektstruktur ⇒ Sterndiagramme

und sind generell für nominal binäre Merkmale (im Sinne von„Eigenschaft vorhanden: ja/nein“), ordinale und kardinaleMerkmale geeignet.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 127|306

Page 129: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Boxplots

• dienen der Darstellung der Merkmalsstruktur eines nicht

nominal-polytomen Merkmals

• und bereiten ausgewählte Quantile des Merkmals graphisch auf.

Der Aufbau:

potentielle Ausreißer

Minimum

10%-Quantil

25%-Quantil

Median

75%-Quantil

90%-Quantil

Maximum

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 128|306

Page 130: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive AnalyseBeispiel: The Effect of Vitamin C on Tooth Growth in Guinea Pi gs

Description: The response is the length of odontoblasts (teeth) in each of 10 guinea

pigs at each of three dose levels of Vitamin C (0.5, 1, and 2 mg) with each of two delivery methods

(orange juice or ascorbic acid). (Src.: C. I. Bliss (1952) The Statistics of Bioassay. Academic Press.)

0.5 1 2

05

1015

2025

3035

Guinea Pigs’ Tooth Growth

Vitamin C dose mg

toot

h le

ngth

0.5 1 2

05

1015

2025

3035

Ascorbic acidOrange juice

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 129|306

Page 131: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Beispiel Hörer einer Vorlesung

Alter Geschlecht Wohnort Semester Studiengang Prüfungen

1 22 männlich Augsburg 5 BWL 2

2 25 männlich Karlsruhe 10 Mathe 3

3 21 weiblich München 4 VWL 2

4 28 männlich Augsburg 13 BWL 2

5 24 männlich Augsburg 8 BWL 1

Boxplots zu den Merkmalen Alter, Semester und Prüfungen?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 130|306

Page 132: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive AnalyseSterndiagrammedienen der Darstellung der Objektstruktur ausgewählter Objekte bei Betrachtung

mehrerer nicht nominal-polytomer Merkmale

und stellen für jedes Objekt die jeweilige Merkmalsausprägung mit Hilfe eines Sternzackens dar, der

eine der relativen Größe der Ausprägung entsprechend Länge besitzt.

Aufbau der Sterndiagramme

Gemäß der Definition gilt für die Länge eines Zackens (als Anteil vom Kreisradius):

• größte Merkmalsausprägung: Zackenlänge = 100 %

• kleinste Merkmalsausprägung: Zackenlänge = 0 %

(der Zacken verschwindet im Mittelpunkt)

Beliebige Ausprägung bei Objekt i bzgl. Merkmal k: Die Zackenlänge selbst berechnet sich dabei

gemäß

Zackenlänge =

aik − minj

ajk

maxj

ajk − minj

ajk

∈ [0%, 100%]

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 131|306

Page 133: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests

Description: The data was extracted from the 1974 Motor Trend US

magazine, and comprises fuel consumption and 10 aspects of automobile

design and performance for 32 automobiles (1973-74 models).

Format: A data frame with 32 observations on 11 variables.

1 mpg Miles/(US) gallon

2 cyl Number of cylinders

4 hp Gross horsepower

6 wt Weight (lb/1000)

7 qsec 1/4 mile time

10 gear Number of forward gears

11 carb Number of carburettors

Source: Henderson and Velleman (1981), Building multiple regression models

interactively. Biometrics, *37*, 391-411.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 132|306

Page 134: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests

Mazda RX4Mazda RX4 Wag

Datsun 710Hornet 4 Drive

Hornet SportaboutValiant

Duster 360Merc 240D

Merc 230Merc 280

Merc 280CMerc 450SE

Merc 450SLMerc 450SLC

Cadillac FleetwoodLincoln Continental

Chrysler ImperialFiat 128

Honda CivicToyota Corolla

Toyota CoronaDodge Challenger

AMC JavelinCamaro Z28

Pontiac FirebirdFiat X1−9

Porsche 914−2Lotus Europa

Ford Pantera LFerrari Dino

Maserati BoraVolvo 142E

mpg

cylhp

wt

qsec

gearcarb

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 133|306

Page 135: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Deskriptive Analyse

Interpretation der Sterndiagramme

Anhand der Sterndiagramme lassen sich ähnliche und unähnlicheObjekte (bzgl. der ausgewählten Merkmale) erkennen.

Somit sollten gerade die Objekte mit Hilfe der Sterndiagramme alsähnlich erkannt werden, die bei einer Distanzaggregation(siehe Datenanalyse II) den kleinsten Distanzindex erhaltenhaben.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 134|306

Page 136: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

5RepräsentationZiele, Varianten, Faktorenanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 135|306

Page 137: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

5 Repräsentation

5.1 Einführung

5.2 Faktorenanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 136|306

Page 138: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

5.1 Einführung

Ziel der Repräsentation

Anordnung der Objekte in einem möglichst niedrigdimensionierten Raum, so dass die relative Lage der sichergebenden Punkte (Objekte) die Ähnlichkeit der Objekteangemessen beschreibt.

• Aufdeckung von

Gruppierungen leichter

(Kontrolle einer Klassifikation)

• Durch Interpretation der

Achsen evtl. Aufschluss über

den Grund der Lage

bestimmter Objekte

••

••

Dimension 2

Dimension 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 137|306

Page 139: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Varianten der Repräsentation (I)

Mehrdimensionale Skalierung (Datenanalyse II)

Die beliebig skalierte, i.a. nicht notwendigerweise metrischeDatenmatrix A wird nicht direkt verarbeitet.

Vielmehr wird zunächst unter Zuhilfenahme von Distanzindizeseine ordinale Distanzmatrix D berechnet, die anschließend in einemetrische Repräsentation X umgewandelt wird.

A = (aik)n×m → D = (dij)n×nMDS−→ X = (xik)n×q, q ∈ {1, 2, 3}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 138|306

Page 140: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel: Multidimensionale Skalierung

Lawyers’ Ratings of State Judges in the US Superior Court

Description: Lawyers’ ratings of state judges in the US Superior Court. A data

frame containing 43 observations on the following 12 numeric variables.

CONT Number of contacts of lawyer with judge. INTG Judicial integrity.

DMNR Demeanor. DILG Diligence.

CFMG Case flow managing. DECI Prompt decisions.

PREP Preparation for trial. FAMI Familiarity with law.

ORAL Sound oral rulings. WRIT Sound written rulings.

PHYS Physical ability. RTEN Worthy of retention.

Source: New Haven Register, 14 January, 1977 (from John Hartigan).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 139|306

Page 141: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel: Multidimensionale Skalierung : (Lawyers’ Ratings of

State Judges in the US Superior Court)

−0.05 0.00 0.05 0.10

−0.0

4−0

.02

0.00

0.02

0.04

0.06

MDS axis 1

MD

S a

xis

2

AARONSON,L.H.

ALEXANDER,J.M.ARMENTANO,A.J.

BERDON,R.I.

BRACKEN,J.J.

BURNS,E.B.CALLAHAN,R.J.

COHEN,S.S.

DALY,J.J.

DANNEHY,J.F.

DEAN,H.H.

DEVITA,H.J.

DRISCOLL,P.J.

GRILLO,A.E.

HADDEN,W.L.JR.

HAMILL,E.C.

HEALEY.A.H.

HULL,T.C.

LEVINE,I.

LEVISTER,R.L.

MARTIN,L.F.MCGRATH,J.F.

MIGNONE,A.F.

MISSAL,H.M.

MULVEY,H.M.NARUK,H.J.

O’BRIEN,F.J.O’SULLIVAN,T.J.

PASKEY,L.RUBINOW,J.E.

SADEN.G.A.

SATANIELLO,A.G.

SHEA,D.M.

SHEA,J.F.JR.

SIDOR,W.J.

SPEZIALE,J.A.

SPONZO,M.J.

STAPLETON,J.F.

TESTO,R.J.

TIERNEY,W.L.JR.WALL,R.A.

WRIGHT,D.B.ZARRILLI,K.J.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 140|306

Page 142: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Typische Fragestellungen der MDS in derMarktforschung

• Welche Produkte einer Gruppe sind sich ähnlich/unähnlich?

• Inwieweit entspricht das eigene Produkt den Idealvorstellungender Konsumenten?

• Welches Image besitzt eine bestimmte Marke?

• Hat sich die Einstellung der Konsumenten zu einer Marke in denletzten Jahren verändert

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 141|306

Page 143: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Varianten der Repräsentation (II)

Faktorenanalyse

Die quantitative, d.h. metrische Datenmatrix A wird direktverarbeitet.

Hierzu wird unter Zuhilfenahme von Varianz-Kovarianz-Strukturenaus der metrischen Datenmatrix A direkt eine metrischeRepräsentation X berechnet.

A = (aik)n×m

Faktorenanalyse−→ X = (xik)n×q

Problem: Lassen sich die m quantitativen Merkmale sinnvolldurch q (meist 2 oder 3) sogenannte Faktoren ersetzen?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 142|306

Page 144: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel: Faktorenanalyse

Violent Crime Rates by US State

Description: This data set contains statistics, in arrests per 100,000 residents for

assault, murder, and rape in each of the 50 US states in 1973. Also given is the

percent of the population living in urban areas. A data frame with 50

observations on 4 variables.

Murder numeric Murder arrests (per 100,000)

Assault numeric Assault arrests (per 100,000)

UrbanPop numeric Percent urban population

Rape numeric Rape arrests (per 100,000)

Source: World Almanac and Book of facts 1975. (Crime rates).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 143|306

Page 145: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel Faktorenanalyse : Violent Crime Rates by US State

−0.2 −0.1 0.0 0.1 0.2 0.3

−0.2

−0.1

0.00.1

0.20.3

Comp.1

Comp

.2

AlabamaAlaska

Arizona

Arkansas

California

ColoradoConnecticut

Delaware

Florida

Georgia

Hawaii

Idaho

Illinois

Indiana IowaKansas

KentuckyLouisiana

MaineMaryland

Massachusetts

Michigan

Minnesota

Mississippi

Missouri

Montana

Nebraska

Nevada

New Hampshire

New Jersey

New Mexico

New York

North Carolina

North Dakota

Ohio

Oklahoma

OregonPennsylvania

Rhode Island

South Carolina

South DakotaTennessee

Texas

Utah

Vermont

Virginia

Washington

West Virginia

Wisconsin

Wyoming

−5 0 5

−50

5

Murder

Assault

UrbanPop

Rape

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 144|306

Page 146: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Typische Fragestellungen der Faktorenanalyse

• Läßt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren

• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 145|306

Page 147: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

5.2 Faktorenanalyse

Neben Methoden der multidimensionalen Skalierung, die auf(Unähnlichkeits-) Daten basiert, können bei der Auswertung vonkardinalen Datenmatrizen auch die Methoden derFaktorenanalyse zur Repräsentation von Objekten eingesetztwerden.

Im Unterschied zur MDS erfolgt in diesem Falle eine direkteAuswertung der Merkmalsausprägungen bzgl. der interessierendenMerkmalsmenge ohne den Zwischenschritt einer Berechnung vonDistanzindizes.

Dabei wurden die Methoden der Faktorenanalyse in dem Bestrebenentwickelt, “etwas über die Struktur des Zusammenhangs einerMenge von meßbaren Variablen zu erfahren.” (Überla, 1971)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 146|306

Page 148: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Grundlagen und Begriffe

Problem: Welche Aussagen lassen sich über die Struktur desZusammenhangs von Merkmalsvariablen treffen, wenn mMerkmalsvariablen gemessen werden und damit m · (m − 1)/2

Korrelationen zwischen den Merkmalen gebildet werden können?

• Sobald m groß wird, wird die Analyse des gesamtenVariablenkomplexes oft schwierig.

• Andererseits vernachlässigt die bivariate Analyse, d.h. dieisolierte Betrachtung nur je zweier Variablen, die vielschichtigenBeziehungen zwischen mehreren Variablen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 147|306

Page 149: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Hauptaufgaben der Faktorenanalyse

• Die Faktorenanalyse erlaubt es, aus den zwischen m Variablen beobachteten Beziehungen

(Korrelationen) hypothetische Größen (Faktoren) zu extrahieren, welche die in der

Korrelationsmatrix enthaltenen Zusammenhänge beschreiben und „erklären“.

• Mit anderen Worten bedeutet dies, daß korrelierende Variablen zu Merkmalskomplexen

zusammengefaßt werden, es erfolgt somit eine Faktorenextraktion.

• Die Faktorenextraktion führt zu einer Reduktion der Ausgangsdaten: Anstelle der m

Variablen stehen (i.a.) wenige Faktoren, wobei der Anteil der verlorengegangenen Information

möglichst gering sein sollte.

• Diese Datenkompression erlaubt eine leichtere Interpretation als die Fülle der Ausgangsdaten.

• Zudem können die Faktoren als unkorrelierte Variablen bei anderen Problemstellungen

verwendet werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 148|306

Page 150: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Hauptkomponentenanalyse

Bevorzugte Anwendung findet in der FA bei metrischenDatenmatrizen die Hauptkomponentenanalyse.

Sie unterstellt eine lineare Beziehung zwischen den ursprünglicherhobenen und den neu zu bestimmenden hypothetischen Größen(Faktoren).

Somit lassen sich die Merkmalsvektoren ak (Spaltenvektor) alsLinearkombination von q Faktoren x1, ..., xq (Spaltenvektoren )darstellen.

Im Falle q = m ist dies gemäß folgender Gleichung stets möglich:

ak =

m∑

i=1

fkixi (k = 1, . . . ,m)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 149|306

Page 151: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Faktoren und Ladungsvektoren der HKA

Matriziell ergibt sich somit:

A = X × FT

a11 · · · a1m

......

ai1 · · · aim

......

an1 · · · anm

=

x11 · · · x1q

......

...

... xik

...

......

...

xn1 · · · xnq

·

f11 · · · fk1 · · · fm1

.... . .

.... . .

...

f1q · · · fkq · · · fmq

Dabei bezeichnet man

xip als Faktorwert fkp als Faktorladung

xp als Faktor fk als Ladungsvektoren

X als Faktorwertematrix F als FaktorladungsmatrixDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 150|306

Page 152: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Bemerkungen

Anhand der matriziellen Schreibweise wird deutlich, dass einObjekt i, dargestellt durch die Zeile i der Datenmatrix A, nun mitHilfe der Zeile i der Faktorwertematrix X repräsentiert werdenkann.

Die Frage, die sich dabei allerdings stellt, kann wie folgtbeschrieben werden: Ist diese Darstellung aller Objekte mitHilfe von X ohne zu großen Informationsverlust möglich?

Um dies beantworten zu können, benötigt man ein Maß für denInformationsgehalt einer Daten- bzw. Faktorwertematrix(→ Varianzkriterium).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 151|306

Page 153: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Informationsgehalt von A und X

Mit Hilfe der Kovarianzmatrizen S (von A) bzw. C (von X) lassensich die Informationsgehalte der Daten- bzw. Faktorwertematrixgeeignet messen.

Dabei wird - wie häufig - unterstellt, dass der Informationsgehaltvon Merkmalen/Faktoren umso größer ist, je größer die Varianzdieser Merkmale/Faktoren ist.

Um nun ein geeignetes Maß für die Gesamtvariabilität allerMerkmale/Faktoren zu erhalten, addiert man die Varianzen allerbetrachteten Merkmale bzw. Faktoren.

Die Summe der Varianzen entspricht der Spur von S bzw. C.Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich desInformationsgehaltes der beiden Matrizen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 152|306

Page 154: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Berechnung des Informationsgehaltes

Für die Datenmatrix A berechnet sich die Kovarianzmatrix S = (skl)m×m gemäß

skl =1

n

n∑

i=1

(aik − a·k)(ail − a·l) mit a·k =1

n

n∑

i=1

aik

Als Maß für die Gesamtinformation von A ergibt sich dann

Spur S =

m∑

k=1

skk =1

n

n∑

i=1

m∑

k=1

(aik − a·k)2

Für die Faktorwertematrix X ergibt sich analog die Kovarianzmatrix C

= (ckl)q×q und die Spur C gemäß

Spur C =

q∑

k=1

ckk =1

n

n∑

i=1

q∑

k=1

(xik − x·k)2

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 153|306

Page 155: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Informationsgehalt

Gegeben sei eine metrischeDatenmatrix A, die mit Hil-fe zweier unterschiedlicherFaktorkombinationen reprä-sentiert werden soll.

A =

22 5

25 10

21 4

28 13

24 8

Faktorkombination 1 bzw. 2 ist dabei gegeben durch dieFaktorladungsmatrizen F ′ bzw. F ′′ gemäß

F ′ =

(0.6 0.8

0.8 −0.6

)bzw. F ′′ =

(0.9 0.2

0.8 −0.5

)

Frage: Wie gut sind die beiden daraus resultierendenRepräsentationen?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 154|306

Page 156: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Berechnung Kombination 1

Berechnet man für die Matrix A die Kovarianzmatrix S und die SpurS, so ergeben sich folgende Werte:

S =

(6 8

8 10.8

)⇒ Spur(S) = 6 + 10.8 = 16.8

Mit Hilfe der Faktorladungsmatrix F ′ und X = A · (F ′T )−1 ergibtsich für X ′ folgendes (Berechnung s. Vorlesung):

X ′ =

17.2 14.6

23 14

15.8 14.4

27.2 14.6

20.8 14.4

sowie C =

(16.752 −0.064

−0.064 0.048

)

⇒ Spur(C) = 16.752 + 0.048 = 16.8

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 155|306

Page 157: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Interpretation Kombination 1

Mit Hilfe der neuen Repräsentation kann die Objektmenge ohneInformationsverlust dargestellt werden.(Spur S = SpurC = 16.8)

Die neue Darstellung hat darüber hinaus den Vorteil, dass dieentstandenen Faktoren (nahezu) unkorreliert sind, während dieursprünglichen Merkmale eine hohe Korrelation aufweisen. Es giltnämlich:

→ Korrelation (a1,a2) = 0.9938

→ Korrelation (x1, x2) = −0.0714

Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe desersten Faktors, so können immerhin noch 99.71% derInformationen dargestellt werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 156|306

Page 158: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Graphik zur Kombination 1

21 23 25 270

5

10

−5

b

b

b

b

b

Merkmal 1

Mer

kmal

2

Faktor 1 ( f ′11, f

′21)

Faktor 2 ( f ′21, f

′22)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 157|306

Page 159: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Graphik zur Kombination 1

14 16 18 20 22 24 2611

12

13

14

15

b

b

b

b

b

Faktor 1

Fakt

or

2

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 158|306

Page 160: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Berechnung Kombination 2

Wie oben bereits erwähnt ergibt sich für die Matrix A dieKovarianzmatrix S und die Spur(S) wie folgt:

S =

(6 8

8 10.8

)⇒ Spur(S) = 6 + 10.8 = 16.8

Mit Hilfe der Faktorladungsmatrix F ′′ und X = A · (FT )−1 ergibtsich für X ′′ folgendes (Berechnung s. Vorlesung):

X ′′ =

19.67 21.47

23.77 18.03

18.52 21.63

27.21 17.54

22.29 19.67

sowie C =

(9.49 −5.01

−5.01 2.87

)

⇒ Spur(C) = 9.49 + 2.87 = 12.36

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 159|306

Page 161: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Interpretation Kombination 2

Mit Hilfe dieser zweiten Repräsentation kann die Objektmengenicht ohne Informationsverlust dargestellt werden. (SpurS = 16.8 und Spur(C) = 12.36)

Die neue Darstellung hat darüber hinaus den Nachteil, dass dieentstandenen Faktoren fast genauso hoch (absolut) korreliert sindwie die ursprünglichen Merkmale. Es gilt nämlich:

• Korrelation (a1,a2) = −0.9938

• Korrelation (x1, x2) = −0.9597

Somit stellt sich also die Frage, wie die Repräsentation und damitdie Faktorladungsmatrix F optimal gewählt werden soll.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 160|306

Page 162: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Graphik zur Kombination 2

21 23 25 270

5

10

−5

b

b

b

b

b

Merkmal 1

Mer

kmal

2

Faktor 1 ( f ′′11, f

′′21)

Faktor 2 ( f ′′21, f

′′22)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 161|306

Page 163: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel - Graphik zur Kombination 2

17 19 21 23 25 2717

18

19

20

21

b

b

b

b

b

Faktor 1

Fakt

or

2

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 162|306

Page 164: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Satz 1 der Hauptkomponentenanalyse

Sei A = X · FT und F orthogonal (d.h. FT · F = F · FT = E), dann gilt:

Spur S = Spur C

C = FT · S · F

Bemerkungen:

Spur S = Spur C ↔ Information bleibt erhalten

F orthogonal → A = X · FT ↔ A · F = X · FT · F = X

ckk = fkT · S · fk , d.h. der durch den Faktor xk erklärte Anteilder Varianz hängt nur von fk ab.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 163|306

Page 165: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Problem der Faktorenwahl der HKA

Ziel der HKA ist u.a. die Merkmalsreduktion, d.h., man möchte mitwenigen, unkorrelierten Faktoren auskommen und trotzdem einenGroßteil der Information darstellen.

→ Die durch die Faktoren erklärten Varianzanteile sollen mitwachsendem Index abnehmen, d.h., Faktor x1 soll dengrößtmöglichen Varianzanteil erklären, Faktor x2 denzweitgrößten Anteil ...

→ c11 > c22 > c33 > . . . > cqq für q 6 m

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 164|306

Page 166: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Optimierungsproblem der HKA

Aus den oben genannten Forderungen ergibt sich folgendes:

1. max c11 = max f1T · S · f1 mit f1T · f1 = 1

2. max c22 = max f2T · S · f2 mit f2T · f2 = 1 und f2T · f1 = 0

. . .

d.h. das allgemeine Optimierungsproblem (∗)

max ckk = max fkT · S · fk mit fkT · fk = 1

und fkT · fl = 0 für l = 1, ...,k − 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 165|306

Page 167: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Satz 2 der Hauptkomponentenanalyse

Die Lösung der Optimierungsprobleme (∗) impliziert folgendesEigenwertproblem von S:

(S − λ · E) · f = 0

mit

c11, c22, c33, . . . , cmm > 0 sind Eigenwerte von S

f1, f2, . . . , fq mit fkT · fk = 1, fkT · fl = 0(l 6= k) sindEigenvektoren von S

Für die Matrix C gilt: C =

c11 0. . .

0 cqq

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 166|306

Page 168: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Konsequenzen aus Satz 2 der HKA

A = X · FT ↔ X = A · F→ Faktoren x1 = A · f1, . . . , xm = A · fm

C ist Diagonalmatrix→ Faktoren sind paarweise unkorreliert.

Numerierung der Faktoren x1, . . . , xm derart, dassλ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0

→ x1 erklärt mit λ1/∑

λk den größten Anteil der Varianz→ x2 erklärt mit λ2/

∑λk den zweitgrößten Anteil ...

Bewertung des Informationsverlustes einer Merkmalsreduktionauf q < m Faktoren

b(q) = 1 −λ1+...+λq

λ1+...λm=[1 −

c11+...+cqq

c11+...+cmm

]∈ [0, 1] und b(m) = 0

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 167|306

Page 169: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Vorgehensweise der HKA

Datenmatrix A, maximaler Informationsverlust b0

Berechne Kovarianzmatrix S

Löse Eigenwertproblem (S − λ · E) · f = 0

λ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0

(f1, f2, . . . , fm) = F

Bestimme q minimal, so dass b(q) = 1 −λ1+...+λq

λ1+...+λm6 b0

Ladungsmatrix Fq = (f1, f2, . . . , fq)

Faktorwertematrix Xq = A · Fq = (x1, x2, . . . , xq)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 168|306

Page 170: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Beispiel 1 - Hauptkomponentenanalyse

Für die Produkte P1,P2,P3 und P4 konnten bezüglich der MerkmaleM1,M2 und M3 folgende Werte erhoben werden:

A =

6 0 0

8 8 4

0 4 0

2 8 8

• Berechnen Sie die Kovarianzmatrix derMerkmale und interpretieren Sie diese.

• Lösen Sie das zugehörigeEigenwertproblem und interpretierenSie die Ergebnisse.

• Bestimmen Sie die Faktorwertematrixund stellen Sie diese zweidimensionaldar.

• Betten Sie die ursprünglichen Merk-malsvektoren in den Faktorwerteplotein.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 169|306

Page 171: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Interpretationshilfen

Eine Aussage über den Zusammenhang rkp zwischen denursprünglichen Merkmalen ak und den Hauptkomponenten(Faktoren) xp kann wie folgt berechnet werden:

rkp =

1n

n∑

i=1

(aik − a·k)(xip − x·p)

√skk

√cpp

,k = 1, . . . ,m

p = 1, . . . ,q

Dieser Korrelationskoeffizient kann als zusätzlicher Anhaltspunktbei der Interpretation der Analyseergebnisse herangezogenwerden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 170|306

Page 172: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Kommunalitäten - Teil 1

Auf Grundlage der Korrelationskoeffizienten rkp läßt sich derAnteil der auf die ersten q Faktoren (p = 1, ...,q) übertrageneInformation des k-ten Merkmals ak mit Hilfe der Kommunalität kk

wie folgt berechnen:

kk =

q∑

p=1

r2kp ∈ [0, 1] für k = 1, . . . ,m

Diese Kommunalität gibt an, wieviel Prozent der Informationendes (standardisierten) Merkmals ak noch in den Faktoren x1 . . . xq

enthalten sind. Bei nicht-standardisierten Merkmalen giltVergleichbares.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 171|306

Page 173: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Kommunalitäten - Teil 2Des Weiteren kann die Berechnung der Kommunalität kk im Falleeiner standardisierten Datenmatrix A auch auf Basis derFaktorladungsmatrix F und der dazugehörigen (normierten)Eigenwerte erfolgen. Hierzu benötigt man zunächst das normiertePendant von F:

F =

f11˜f1m

. . .˜fm1

˜fmm

= F ·

√λ1 0

. . .

0√

λm

Mit Hilfe dieser Matrix können die Kommunalitäten dann wie folgtberechnet werden:

kk =

q∑

p=1

f2kp ∈ [0, 1] für k = 1, . . . ,m

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 172|306

Page 174: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Wahl der Repräsentationsdimension

Allgemeingültige Kriterien zur Bestimmung einerproblem-adäquaten Repräsentationsdimension q sind nichtbekannt. Man kann sich aber an den folgenden Regeln orientieren:

• Man wählt ein q aus, bei dem man bei weiterer Reduktion derFaktorenzahl einen verhältnismäßig hohen zusätzlichenInformationsverlust hätte (Ellenbogenkriterium).

• Man wählt ein minimales q > 1 mit b(q) < bmax, d.h. ein q mitmaximal zu akzeptierendem Informationsverlust , (mit z.B.:b0 = 10% oder b0 = 25%).

• Man wählt ein maximales q 6 m mit λq > (λ1 + . . . + λm)/m,d.h. man gibt vor, dass jeder Faktor mindestens diedurchschnittliche Merkmalsvarianz erklären soll(Kaiser-Kriterium).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 173|306

Page 175: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Schlußbemerkungen zur Faktorenanalyse

Der Vorteil der Datenkomprimierung mittels der FA istoffensichtlich: Statt Untersuchungsobjekte durch kaumübersehbare und hochkorrelierte Merkmalsbatterien zubeschreiben, gelangt man zu wenigen wichtigen und weitgehendorthogonalen Dimensionen des Merkmalsraumes, in demUntersuchungsobjekte anhand ihrer Faktorwerte positioniert sind.

Allerdings muß auch vor einigen Fallstricken der Faktorenanalyse,insbesondere vor Fehlinterpretationsmöglichkeiten, gewarntwerden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 174|306

Page 176: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Fehlinterpretationsmöglichkeiten I

Die HKA projiziert mit Hilfe einer linearer Abbildung

- die m-dimensionalen Untersuchungsobjekte (unterVerwendung der Matrix Xq) und

- die m Merkmale ak (unter Verwendung der Matrix Fq)

in einen gemeinsamen q-dimensionalen Teilraum.

Aufgrund dieser Tatsache dürfen sowohl die Objekte als auch dieMerkmalsvektoren nur relativ zueinander interpretiert werden.

Absolute Aussagen über die Lage der Objekte hinsichtlich dereinzelnen Merkmalsvektoren gelten nur approximativ.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 175|306

Page 177: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Fehlinterpretationsmöglichkeiten II

Ganz wesentlich ist auch die Zahl und Art der Merkmale, die in dieFA eingehen. Aus den entsprechenden Gleichungen wird deutlich,daß auf einem Faktor jene Merkmale hoch laden, die auch hochkorreliert sind. Wenn ein Faktor durch sehr viele gleichartigeMerkmale vertreten ist, so laden diese auch hoch auf ihm.

Die Extraktion des ersten Faktors nach dem Kriterium deshöchsten Varianzbeitrages wird dann als bedeutendsten Faktorjenen präsentieren, der durch viele Merkmale vertreten ist.

Damit zeigt sich aber, daß die FA für sich allein genommen nicht inder Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln(→ Conjointanalyse, Datenanalyse II)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 176|306

Page 178: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Fehlinterpretationsmöglichkeiten III

Werden zudem Merkmale aus unterschiedlichen Bereichen (z.B.soziodemographische und psychographische Merkmale) gewählt,so kommt es vor, dass die unterschiedlichen Merk-male auf ein unddenselben Faktor laden. Eine Interpretation des Faktors ist dannwenig sinnvoll bzw. schwierig.

Mitunter wird der Weg vorgeschlagen, einen Faktoren nach demam höchsten ladenden Merkmalen zu benennen(„Leitvariablenkonzept“). Dadurch kommt es jedoch unterUmständen zu einer Vernachlässigung relevanter Informationen fürdie Beschreibung der Untersuchungsobjekte.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 177|306

Page 179: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Repräsentation

Kovarianz- oder Korrelationsmatrix?

• Die Hauptkomponentenanalyse kann statt mittels der Kovarianzmatrix von A auch auf Basis der

Korrelationsmatrix von A durchgeführt werden.

• Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können nicht in die der

Korrelationsmatrix überführt werden und geben deshalb unterschiedliche Informationen.

• Vorteile der Korrelationsmatrix:

- Die Ergebnisse zweier Analysen könenn direkt miteinander verglichen werden

- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der

Einheiten der Merkmale

• Vorteil der Kovarianzmatrix:

- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der

Einheiten der Merkmale (Manchmal möchte man diesen Umstand benutzen)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 178|306

Page 180: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

6KlassifikationÜberblick über Verfahren, Multiple Regression, Varianzanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 179|306

Page 181: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

6 Klassifikation

6.1 Einführende Bemerkungen

6.2 Multiple Regression

6.3 Varianzanalyse

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 180|306

Page 182: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

6.1 Einführende Bemerkungen

Ziel der Identifikation

Ein „abhängiges“ Merkmal Y soll mit Hilfe der „unabhängigen“Merkmale X1, . . . ,Xm identifiziert, d.h. erklärt, werden. Y undX1, . . . ,Xm seien ausgewählte Spalten der Beobachtungsmatrix A.

Gesucht sind folglich:

• im nichtlinearen Falleine Funktion f und Merkmale X1,X2, . . . ,Xm mitY = f(X1,X2, . . . ,Xm)

• im linearen FallEine Konstante α0 ∈ R, Gewichte α1,α2, . . . ,αm ∈ R undMerkmale X1,X2, . . . ,Xm mitY = α0 + α1 · X1 + α2 · X2 + . . . + αm · Xm

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 181|306

Page 183: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Beispiele zur Identifikation

Y nominal ( = qualitativ )- Kreditvergabe an Kunden: Das Merkmal Kredit ja/nein soll mit

Hilfe andere persönlicher und wirtschaftlicher Merkmale vorKreditvergabe bestimmt werden.

- Klassifikationsergebnis: Die Struktur einer Klassifikation sollmit Hilfe der betrachteten Merkmale erklärt werden.

Y ordinal- Objektbewertungen: Die Rangbewertungen von Objekten soll

mit Hilfe anderer Merkmale erklärt werden.

Y quantitativ- Marktanteile, Absatzzahlen etc. sollen mit Hilfe anderer

Merkmale (z.B. Werbeausgaben, Preise, ...) erklärt werden.

- Repräsentationsergebnisse: Die Lage der Objekte soll mit Hilfeder eingebetteten Merkmale erklärt werden

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 182|306

Page 184: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Überblick über die wichtigsten Verfahren

unabhängige Variablen Xk quantitativ nominal

abhängige Variable Y

quantitativ multipleRegression Varianzanalyse

ordinal Conjointanalyse(Datenanalyse II)

nominalDiskriminanz-

analyse(Datenanalyse II)

Kontingenz-analyse

Y heißt auch endogene Variable, während X1, . . . ,Xm auchexogene Variablen genannt werden.

Zu beachten ist stets, dass auch eine kausale Abhängigkeitvorliegen muß (→ Dependenzanalyse).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 183|306

Page 185: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

6.2 Multiple Regression

Untersuchung des funktionalen Zusammenhangs zwischen einemquantitativen Merkmal Y und den quantitativen MerkmalenX1, . . . ,Xm.

Die multiple Regression dient nur der deskriptiven Beschreibungeines beobachteten (funktionalen) Zusammenhangs.

Es ist auch zulässig, binäre exogene Variablen in das Modellaufzunehmen. Dabei ist allerdings zu beachten, dass beiausschließlicher Verwendung solcher Variablen die allgemeineTest-Theorie für die Modellparameter (streng genommen) nichtmehr korrekt ist. Dennoch sind tendenziell brauchbareErkenntnisse ableitbar.

( vergl. Bamberg/Baur Kap. 16 )

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 184|306

Page 186: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Multiples RegressionsmodellKonstante Regressionskoeffizienten

Y = β0 + β1 · X1 + . . . + βm · Xm + U (Y,X1, . . . ,Xm quantitativ)

Regressand Regressoren Störvariable

Y =

y1

...

yn

=

1 x11 · · · x1m

......

. . ....

1 xn1 · · · xnm

×

β0

...

βm

+

u1

...

un

= X · β + u

Designmatrix

Die Störvariable U trägt der Tatsache Rechnung, dass• Variablen mit Meßfehlern behaftet sind und• Zusammenhänge zwischen ökonomischen Variablen i.A. nicht vollständig

modelliert und stochastisch sind.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 185|306

Page 187: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Annahmen des Regressionsmodells

(1) Erwartungstreue: E(ui) = 0 für alle i = 1, . . . ,n

(2) Homoskedastizität: Var(ui) = σ2 für alle i = 1, . . . ,n

Cov(ui,uj) = 0 für i 6= j

(3) Verteilungsannahme: ui ∼ N(0,σ2)

(4) Non-Kollinearität: X besitzt den Rang m + 1

(5) Stichprobengröße: n > m + 1

Zur Durchführung deskriptiver Analysen werden ausschließlichAnnahmen (1) und (4) benötigt, die anderen Annahmen dienender weitergehendon Betrachtung von Regressionsmodellen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 186|306

Page 188: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Schätzung der Modellparameter

mit Hilfe der Methoden der Kleinsten-Quadrate (KQ):

Gesucht sind Schätzwerte , β0, . . . , βm so dass mit Hilfe der ausdem Modell resultierenden Schätzwerte für y, den Werten

yi = β0 + β1x1i + . . . + βmxmi

die Quadrat-Summe der Residuen SSE minimal wird:

minimieren: SSE =

n∑

i=1

(yi − yi)2

In Matrixform ergibt sich folgendes Minimierungsproblem

(y − X · β)T (y − X · β) → min

Lösung siehe Vorlesung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 187|306

Page 189: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Schätzgleichung der Modellparameter

aus dem oben genannten Minimierungsproblem ergibt sich unterVerwendung der Annahmen (1) und (4) folgende Lösung für dieSchätzwerte der Regressionskoeffizienten:

β =

β...

βm

= (XTX)−1XTy

Die Invertierung der Matrix XTX ist aufgrund (4) stetsgewährleistet, da der volle Rang von X hinreichend für dieRegularität von XTX ist.

Als Schreibvereinfachung wird oft gesetzt:

(XTX)−1 = D = (dkl)m+1,m+1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 188|306

Page 190: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationGüte der Schätzung

Man kann zeigen, dass die Totalvarianz der zu erklärendenVariablen folgendermaßen zerlegt werden kann

n∑

i=1

(yi − y)2

︸ ︷︷ ︸SST

Totalvarianz

(Total sum of square)

=

n∑

i=1

(yi − yi)2

︸ ︷︷ ︸SSE

Fehlervarianz

+

n∑

i=1

(yi − ¯y)2

︸ ︷︷ ︸SSR

durch Regression

erklärte Varianz

Berücksichtigt man diese Varianzzerlegung, so wird deutlich, wiedie Anpassung eines Modells an die Daten beurteilt werden kann.

Da die Gesamtvarianz SST für einen Datensatz stets konstant ist,wird die Modellanpassung umso besser, je kleiner die FehlervarianzSSE ist (→ multiples Bestimmtheitsmaß).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 189|306

Page 191: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Multiples Bestimmtheitsmaß

Man erhält die Kennzahl R2, die den durch die Regression erklärtenAnteil der Gesamtvarianz wiedergibt(vergl. Bamberg/Baur Kap. 4.3.1):

R2 =SSR

SST= 1 −

SSE

SST∈ [0; 1]

Spezialfälle:

R2 = 1 ⇒ Alle Residuen verschwinden.

R2 = 0 ⇒ X liefert keinen Beitrag zur Erklärung der Variabilität.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 190|306

Page 192: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Korrigiertes Bestimmtheitsmaß

R2 wächst mit der Anzahl der Regressoren, da

• die Gesamtvarianz SST konstant bleibt und

• die Fehlervarianz SSE kleiner wird,

Deswegen ist eine Korrektur im Hinblick auf die Anzahl derRegressoren notwendig.

Man erhält so das korrigierte (multiple) Bestimmtheitsmaß

R2 = 1 −(n − 1) · SSE

(n − m − 1) · SST

das im allgemeinen kleiner als R2 ist.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 191|306

Page 193: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub Regression: 4 eindimensionale Beispiele

x1 x2 x3 x4 y1 y2 y3 y4

1 10 10 10 8 8.04 9.14 7.46 6.58

2 8 8 8 8 6.95 8.14 6.77 5.76

3 13 13 13 8 7.58 8.74 12.74 7.71

4 9 9 9 8 8.81 8.77 7.11 8.84

5 11 11 11 8 8.33 9.26 7.81 8.47

6 14 14 14 8 9.96 8.10 8.84 7.04

7 6 6 6 8 7.24 6.13 6.08 5.25

8 4 4 4 19 4.26 3.10 5.39 12.50

9 12 12 12 8 10.84 9.13 8.15 5.56

10 7 7 7 8 4.82 7.26 6.42 7.91

11 5 5 5 8 5.68 4.74 5.73 6.89

(Quelle: Anscombe, Francis J. (1973) Graphs in statistical analysis.)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 192|306

Page 194: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub Regression: 4 eindimensionale Beispiele

In der folgenden Tabelle sind jeweils die Ergebnisse derRegressionsanalyse von xi als unabhängiger Variablen mit yi alsabhängiger Variablen dargestellt:

i β0 β1 R2 korrigiertes R2

1 3.0001 0.5001 0.6665 0.6295

2 3.0010 0.5000 0.6662 0.6292

3 3.0025 0.4997 0.6663 0.6292

4 3.0017 0.4999 0.6667 0.6297

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 193|306

Page 195: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub Regression: 4 eindimensionale Beispiele

5 10 15

46

810

12

x1

y1

5 10 15

46

810

12

x2

y2

5 10 15

46

810

12

x3

y3

5 10 15

46

810

12

x4

y4

(→ Zur Beurteilung der Güte des Modells mit Residuenplots: siehe Vorlesung)Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 194|306

Page 196: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Beispiel - Multiple Regression

Für fünf Produkte P1, . . . ,P5 liegen sowohl der Marktanteil Y (inProzent) als auch der Preis X1 und die Werbeausgaben X2 vor. MitHilfe der Regressoren X1 und X2 soll nun der Marktanteil Y

identifiziert werden.

Produkt Y X1 X2

P1 40 1 3

P2 20 2 3

P3 20 2 2

P4 10 2 1

P5 10 3 1

(−→ Vorlesung)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 195|306

Page 197: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Signifikanztests der ModellparameterDie klassischen Testverfahren erlauben es, Fragen von folgendemTyp zu beantworten:

• Welche Abschätzungen lassen sich bezüglich des marginalenEinflusses βk einer exogenen Variablen Xk bzw. deszugehörigen Beobachtungsvektors xk machen?

• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk den Wert d annimmt, korrekt?

• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk und βl einer exogenen Variablen Xl identisch sind,mit dem vorliegenden Datenmaterial verträglich?

• Ist eine Gruppe von exogenen Variablen X1, . . . ,Xm ohneEinfluß auf die endogene Variable Y bzw. denBeobachtungsvektor y?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 196|306

Page 198: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Tests einzelner Modellparameter

Möchte man zunächst nur einzelne Modellparameter, d.h. dieRegressionskoeffizienten, statistisch-induktiv untersuchen, sobieten sich folgende Fragestellungen an:

• Intervallschätzung eines Regressionskoeffizienten βi

• Test der Hypothese H0 : βk = 0(Existiert ein „signifikanter“ Einfluß der Variablen Xk ?)

• Test der Hypothese H0 : βk = d

• Test der Hypothese H0 : cTβ = d

( = Test bzgl. einer Linearkombination)

• Test der HypotheseH0 : alle βk = 0

H1: mindestens ein βk 6= 0.( = Test des Gesamtmodells )

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 197|306

Page 199: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Eigenschaften des Punktschätzers β

Um statistisch-induktive Untersuchungen derRegressionskoeffizienten zu ermöglichen, muß zunächst dieVerteilung der entsprechenden Punktschätzer geklärt werden.

Unter Zuhilfenahme der Annahmen (2) und (3) gilt dabei:

β ∼ N(β; σ2(XTX)−1

)

(→ Herleitung siehe Vorlesung)

bzw. komponentenweise: βk ∼ N(β; σ2(XTX)−1

kk

)

Anmerkung:

√σ2 · (XTX)−1

kk =√

σ2 · dkk , mit (XTX)−1 = D = (dij)m+1,m+1

wird auch Standardfehler des Regressionskoeffizienten βk genannt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 198|306

Page 200: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Punktschätzer für die Fehlervarianz σ2

Betrachtet man die Verteilung der Punktschätzer derModellparameter, so erkennt man, dass neben demErwartungswert β auch die Varianz der Normalverteilung benötigtwird.

Da die multiplikative Konstante σ2 der Varianz - und damit auchdie Varianz selbst - i.a. aber nicht bekannt ist, benötigt man einenerwartungstreuen Schätzer dieser Konstanten σ2, der sich wiefolgt errechnet:

σ2 =1

n − (m + 1)

n∑

i=1

(yi − yi)2

(→ Herleitung siehe Vorlesung)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 199|306

Page 201: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationTest auf Signifikanz eines Koeffizienten

Die in der ökonometrischen Praxis mit Abstand wichtigste Hypothese H0

bezüglich eines einzelnen Regressionskoeffizienten βk lautet:

H0 : βk = 0

Die Ablehnung von H0 bedeutet, dass die exogene Variable Xk einen

signifikanten Einfluß auf die endogene Größe Y bzw. y hat.

Die Überprüfung der Hypothese erfolgt mit Hilfe der t-Statistik

t1 =βk√

Var(βk)

=βk

σ ·√

(XTX)−1kk

=βk

σ ·√

dkk

und den entsprechenden Fraktilen der t-Verteilung mit (n − m − 1)

Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 200|306

Page 202: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Konfidenzintervall der Koeffizienten

Ein Konfidenzintervall für den Koeffizienten βk zum Konfidenzniveau 1 − α ist

ein Intervall mit zufallsabhängigen Intervallgrenzen, das den wahren Wert βk

mit der Wahrscheinlichkeit 1 − α enthält.

Unter Berücksichtigung der Verteilungseigenschaften des Punktschätzers β und

des Schätzwertes σ2 der multiplikativen Konstanten ergibt sich folgendes

Ergebnis:

KI =[βk − p; βk + p

]

mit p = t∗ · σ ·√

(XTX)−1kk ,

wobei t∗ das (1 − α/2)-Fraktil der t-Verteilung mit (n − m − 1)

Freiheitsgraden ist.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 201|306

Page 203: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test bzgl. eines Koeffizienten

Möchte man die in der Praxis seltener vorzufindende HypotheseH0 gemäß

H0 : βk = b

testen, d.h., möchte man feststellen, ob der marginale Einfluß einerexogenen Variable Xk einen bestimmten Wert b annimmt, soverwendet man zur Überprüfung der Hypothese eine modifiziertet-Statistik gemäß

t2 =βk − b

σ ·√

(XTX)−1kk

=βk − b

σ ·√

dkk

Der Testfunktionswert t2 ist wieder t-verteilt mit (n − m − 1)

Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 202|306

Page 204: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test einer Linearkombination der Koeffizienten

Sei cT = (c0, c1, . . . , cm) ein (m + 1)-dimensionaler Zeilenvektor und b eine

beliebige Zahl. Die damit gebildete Hypothese

H0 : cTβ = c0 + c1 · β1 + . . . + cm · βm = b

erfasst dann durch geeignete Wahl von c und b sowohl die bisher betrachteten

Hypothesen als auch eine Vielzahl weiterer Hypothesen, beispielsweise dass zwei

Koeffizienten gleich sind oder sich nur um einen bestimmten Faktor

unterscheiden.

Als Teststatistik findet die folgende Größe bei ansonsten identischen

Voraussetzungen Anwendung:

t3 =cT β − b

σ ·√

cT (XTX)−1 · c

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 203|306

Page 205: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test des Gesamtmodells

Die zuvor betrachtete Hypothese cTβ = d ist trotz ihrerAllgemeinheit nicht in der Lage, eine Hypothese wie beispielsweise

H0 : β1 = β2 = . . . = βm = 0

zu erfassen. Eine Annahme dieser Hypothese ist gleichbedeutendmit der Behauptung, dass die Regressoren keinenErklärungswert für das Zustandekommen der y-Werte besitzen.

Der zunächst naheliegende Gedanke, m Hypothesen der FormH0 : βk = 0 aufzustellen, mittels der t-Statistik zum Niveau α zuüberprüfen und die obige Hypothese genau dann abzulehnen,wenn alle Einzelhypothesen abgelehnt werden, ist nicht richtig.Man erhält keinen zum Niveau α, sondern einen konservativen Testzum Niveau α ′, mit α ′ << α.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 204|306

Page 206: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

F-Test für das Gesamtmodell

Da das weiter oben definierte Bestimmtheitsmaß R2 den Anteil der durch das

Regressionsmodell erklärten Varianz beschreibt, liegt es nahe, diese Maßzahl

statistisch-induktiv zu verarbeiten. Werte von R2 in der Nähe von Null sprechen

gegen ein „angemessenes“ Modell, große Werte eher dafür.

Mit Hilfe der Teststatistik F, die gemäß

F =

R2

m1 − R2

n − m − 1

definiert ist und einer F-Verteilung mit m und (n − m − 1) Freiheitsgraden folgt,

kann somit eine Überprüfung des Gesamtmodells erfolgen.

(Beispiel siehe Vorlesung)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 205|306

Page 207: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

Lineare Regression kann in R mittels der Funktion

lm(formula, data=<dataFrame>, ...) durchgeführt werden.

Schätzung des Modells (i = 1, . . . , n)

Yi = β0 + β1xi1 + β2xi2 + ǫi

Werden in R die y1, . . . , yn durch die Variable y,

x11, . . . , xn1 durch x1 und x12, . . . , xn2 durch x2 repräsentiert, kann die Formel

(formula) dann durch

y ~ x1 + x2

spezifiziert werden. Auf der linken Seite der Formel steht die zu erklärende

Variable. Das Tilde-Zeichen kann durch “wird modelliert durch” gelesen werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 206|306

Page 208: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Beispiel Folie 192 fortgesetzt)

> Marktanteil = c(40,20,20,10,10); # spezifiziert y

> Preis = c(1,2,2,2,3); # x1

> Werbeausgaben = c(3,3,2,1,1); # x2

>

> Bsp192 = data.frame(Marktanteil,Preis,Werbeausgaben);

> lR = lm(Marktanteil ~ Preis + Werbeausgaben, data=Bsp192);

>

> summary(lR);

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 207|306

Page 209: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Beispiel Folie 192 fortgesetzt)

Call:

lm(formula = Marktanteil ~ Preis + Werbeausgaben, data = Bsp192)

Residuals:

1 2 3 4 5

5.000e+00 -5.000e+00 -4.351e-16 -5.000e+00 5.000e+00

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.000 22.583 1.328 0.315

Preis -10.000 7.071 -1.414 0.293

Werbeausgaben 5.000 5.000 1.000 0.423

Residual standard error: 7.071 on 2 degrees of freedom

Multiple R-Squared: 0.8333, Adjusted R-squared: 0.6667

F-statistic: 5 on 2 and 2 DF, p-value: 0.1667

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 208|306

Page 210: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub: Lineare Regression mit R

(Beispiel Folie 192 fortgesetzt, Residuenplot)

5 10 15 20 25 30 35

−4

−2

02

4

yi

yi − yi

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 209|306

Page 211: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Cereals from Kellog’s)

Kalorien = c(7,5,11,10,11,11,11,11,11,10,12,11,14,16,12,

14,9,10,12,9,11,11,11) * 10;

Protein = c(4,4,2,2,1,3,2,2,1,3,3,2,3,3,2,3,3,3,3,2,2,2,6);

Zucker = c(5,0,14,2,12,7,3,13,11,7,12,6,9,13,9,7,2,3,12,6,3,15,3);

X = matrix(c(rep(1,23),Protein,Zucker),23,3);

X;

# set up data frame

Kellogs = data.frame(Kalorien,Protein,Zucker);

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 210|306

Page 212: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Cereals from Kellog’s)

> X;

[,1] [,2] [,3]

[1,] 1 4 5

[2,] 1 4 0

[3,] 1 2 14

[4,] 1 2 2

[5,] 1 1 12

[6,] 1 3 7

[7,] 1 2 3

[8,] 1 2 13

[9,] 1 1 11

[10,] 1 3 7

...

[21,] 1 2 3

[22,] 1 2 15

[23,] 1 6 3

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 211|306

Page 213: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Cereals from Kellog’s)

> D = solve(t(X) %*% X);

[,1] [,2] [,3]

[1,] 0.7094439 -0.159353296 -0.032164699

[2,] -0.1593533 0.047240030 0.004502781

[3,] -0.0321647 0.004502781 0.002673094

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 212|306

Page 214: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub: Lineare Regression mit R (Cereals from Kellog’s)> summary(lm(Kalorien ~ Protein + Zucker, data=Kellogs));

Call:

lm(formula = Kalorien ~ Protein + Zucker, data = Kellogs)

Residuals:

Min 1Q Median 3Q Max

-38.935 -11.268 -1.602 9.150 35.579

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 84.285 16.380 5.146 4.92e-05 ***Protein 1.163 4.227 0.275 0.7861

Zucker 2.819 1.005 2.804 0.0110 *---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.45 on 20 degrees of freedom

Multiple R-Squared: 0.3036, Adjusted R-squared: 0.234

F-statistic: 4.36 on 2 and 20 DF, p-value: 0.02683

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 213|306

Page 215: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einschub: Lineare Regression mit R

(Cereals from Kellog’s)

# plot 2-dim lin. regression

plot(Protein,Kalorien);

regProtein = lm(Kalorien ~ Protein, data=Kellogs);

summary(regProtein);

abline(regProtein);

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 214|306

Page 216: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub: Lineare Regression mit R

(Cereals from Kellog’s, Plot)

0 5 10 15

6080

100

120

140

160

Zucker

Kal

orie

n

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 215|306

Page 217: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub: Lineare Regression mit R

(Cereals from Kellog’s)

Call:

lm(formula = Kalorien ~ Zucker, data = Kellogs)

Residuals:

Min 1Q Median 3Q Max

-38.2068 -12.0605 -0.7063 10.5434 36.5854

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 88.2068 7.8834 11.189 2.62e-10 ***Zucker 2.7083 0.9007 3.007 0.00671 **---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.01 on 21 degrees of freedom

Multiple R-Squared: 0.301, Adjusted R-squared: 0.2677

F-statistic: 9.042 on 1 and 21 DF, p-value: 0.006715

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 216|306

Page 218: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationEinschub: Lineare Regression mit R

(Beispiel Kellog’s Cereals, Residuenplot)

90 100 110 120 130

−40

−20

020

lR

yi

yi − yi

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 217|306

Page 219: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

6.3 Varianzanalyse

• Untersuchung des funktionalen Zusammenhangs zwischeneinem quantitativen Merkmal Y und i.a. mehreren nominalenMerkmalen X1, . . . ,Xm.Y und die X1, . . . ,Xm können wieder als einzelne Spalten derBeobachtungsmatrix A angesehen werden.

• Im Gegensatz zur multiplen, linearen Regression interessiert hieraber nicht nur der jeweilige Einfluss der einzelnenunabhängigen Variablen X1, . . . ,Xm auf die abhängige Größe Y,sondern auch der Einfluss oder die Wirkung einerKombination von exogenen Variablen.Somit sind hier nicht nur Einzeleffekte sondern auchWechselwirkungseffekte (Interaktionen/Interdependenzen)zwischen verschiedenen exogenen Variablen von Bedeutung.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 218|306

Page 220: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Überblick über die wichtigsten Verfahren

Zahl der abhängigen

quantitativen Variablen

Zahl der unabhängigen

nominalen Variablen

Verfahrenstyp

q = 1 1 einfache Varianzanalyse

(ANOVA)

q = 1 m = 2, 3, . . . m-faktorielle Varianzanalyse

(ANOVA)

q > 2 m > 1 multivariate Varianzanalyse

(MANOVA)

Die unabhängigen exogenen Variablen X1, . . . ,Xm werden auchFaktoren genannt.

Im Rahmen der Vorlesung soll vor allem die zwei-faktorielleVarianzanalyse behandelt werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 219|306

Page 221: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einfache Varianzanalyse: Beispiel

Ein Supermarkt untersucht die Wirkung von 3 Arten der Werbungauf den Absatz eines Produktes, wobei jede Werbeart fünf Tagedurchgeführt wird. Man erhält somit drei Teilstichproben mitjeweils fünf Beobachtungswerten.

Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 47 39 40 46 45 yA = 43.4

Plakat 68 65 63 59 67 yP = 64.4

Lautsprecher 59 50 51 48 53 yL = 52.2

yGes = 53.3

Frage: Sind die unterschiedlichen Absatzergebnisse auf die Art derBewerbung zurückzuführen, d.h., existieren signifikanteAbsatzunterschiede zwischen den verschiedenenBewerbungsarten?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 220|306

Page 222: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einfache Varianzanalyse: Interpretation des Beispiels

Unter der Annahme, dass alle absatzwirksamen Einflüsse von außen, d.h.

außerhalb der experimentellen Anordnung (z.B. Konkurrenz etc.), bis auf

zufällige Abweichungen bei allen Werbearten gleich sind, dürften keine

größeren Unterschiede zwischen den Mittelwerten der drei Werbearten

auftreten, wenn kein Einfluss der Art der Werbung auf den Absatz bestände.

Existieren hingegen Zusammenhänge, so hätte jedes Werbemittel k einen

spezifizierbaren Einfluss αk auf den Absatz Y.

Dies bedeutet auch, dass ein gewisser Grundabsatz (oder auch

Durchschnittsabsatz) µ aufgrund des Vorliegens einer Werbeart mit Hilfe der

Größe αk korrigiert wird.

Man erhält somit unter Berücksichtigung einer Fehlerkomponente das

(stochastische) Modell:

Yk,i = µ + αk + Uk,i

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 221|306

Page 223: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Einfache Varianzanalyse: Modell

Ausgehend von einem Einflussfaktor (= Merkmal) mit K

Faktorstufen und einer Stichprobe vom Umfang nk pro

Faktorstufe k, alsoK∑

k=1

nk = n, sowie dem Modell

Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)

ergibt sich folgende Interpretation:

• Die Beobachtungswerte yi,k ergeben sich aus demGesamtmittelwert µ und dem Effekt αk , der die Abweichungzum Gesamtmittelwert angibt.

• Uk,i stellt den zufälligen Fehler dar.( Vergl. Bamberg/Baur Kap 14.7 )

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 222|306

Page 224: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Zwei-fakt. Varianzanalyse: Beispiel (I)Der oben genannte Supermarkt untersucht simultan die Wirkung von drei Arten der Werbung (drei

Faktorstufen des Einflussfaktors Werbung) und zwei Bedienungsformen auf den Absatz eines

Produktes, wobei jede Kombination aus Werbeart und Bedienart fünf Tage durchgeführt wird. Man

erhält somit 3 · 2 = 6 Teilstichproben mit jeweils fünf Beobachtungswerten.

Persönliche Bedienung

Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2

yP = 53.3

Selbstbedienung

Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8

yS = 47.6

yGes = 50.5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 223|306

Page 225: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Zwei-faktorielle Varianzanalyse: Beispiel (II)

Bei Betrachtung der Tabellen kommen u.a. folgende Fragen auf:

• Werden durch das Untersuchungsdesign überhaupt signifikanteEinflüsse auf den Absatz erzielt (→ Signifikanz des Modells)

• Hat die Werbeart einen Einfluss auf den Absatz?

• Hat die Bedienart einen Einfluss auf den Absatz?

• Bestehen Wechselwirkungen zwischen Werbeart undBedienart?

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 224|306

Page 226: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Zwei-fakt. Varianzanalyse: Interpretation des BeispielsUnter der Annahme, dass alle absatzwirksamen Einflüsse von außen bis auf

zufällige Abweichungen bei allen Kombinationen aus Werbeart und Bedienform

gleich sind, dürften keine größeren Unterschiede zwischen den Mittelwerten der

sechs Kombinationen auftreten, wenn kein Einfluss der Art der

Werbung/Bedienform auf den Absatz bestände.

Existieren hingegen entsprechende Zusammenhänge, so hätte jedes

Werbemittel k und jede Bedienform l einen spezifizierbaren Einfluß αk bzw.

βl auf den Absatz Y. Gleiches gilt auch für die Wechselwirkung (αβ)kl der

beiden Faktoren.

Dies bedeutet, dass ein gewisser Grundabsatz µ aufgrund des Vorliegens einer

Kombination aus Werbeart und Bedienform mit Hilfe der Größen αk , βl und

(αβ)kl korrigiert wird. Man erhält somit das (stochastische) Modell:

Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 225|306

Page 227: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Zwei-faktorielle Varianzanalyse: ModellAusgehend von einem Faktor1 mit K Faktorstufen und einemFaktor2 mit L Faktorstufen, einem konstanten Stichprobenumfangn∗ pro Faktorstufenkombination kl sowie dem Modell

Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i

(k = 1, . . . ,K und l = 1, . . . ,L

sowie i = 1, . . . ,n∗)

ergeben sich die Beobachtungswerte ykl,i aus

• dem Gesamtmittelwert µ ,

• einem Effekt αk des ersten Faktors,

• einem Effekt βl des zweiten Faktors,

• einem Effekt (αβ)kl, der die Wechselwirkung der beidenFaktoren berücksichtigt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 226|306

Page 228: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

ANOVA-Modell für m Faktoren k1, . . . ,km

Yk1,...,km,i = µ

+ αk1+ . . . + αkm

+ (α)k1,k2+ . . . + (α)km−1,km

+ . . .

+ (α)k1,...,km

+ Ui,k1,...,km

„Grundnutzen“

Haupteffekte

Wechselwirkungen

vom Grad 2

Wechselwirkung vom Grad m

Störvariable bei Beobachtung i

Die Störvariable U trägt wieder der Tatsache Rechnung, dass

• Variablen mit Meßfehlern behaftet sind und

• Zusammenhänge zwischen ökonomischen Variablen imallgemeinen stochastischer Natur sind

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 227|306

Page 229: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Annahmen des ANOVA-Modells

(1) Die Stichproben der Faktorstufen-Kombinationen sindunabhängig.

(2) Die Stichprobengröße nk1,...,kmist in allen

Faktorstufen-Kombinationen gleich, n∗ = nk1= · · · = nkm

.Anmerkung 1: Diese Annahme kann aufgegeben werden;allerdings ist dann ein im Vergleich zur dargestelltenVorgehensweise modifizierter GLM-Ansatz zu wählen, der nichtbehandelt wird.Anmerkung 2: Bei der einfachen Varianzanalyse kann aufdiese Voraussetzung stets verzichtet werden.

(3) Verteilungsannahme: Yk1,...,km,i ∼ N (µk1,...,km,σ2)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 228|306

Page 230: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Schätzung der Modellparameter

Die Schätzung der Parameter des allgemeinen ANOVA-Modellserfolgt mit Hilfe eines KQ-Ansatzes (unter Nebenbedingungen,Identifizierbarkeit der Modellparameter), bei dem folgendesOptimierungsproblem bezüglich θ zu lösen ist:

k1

. . .∑

km

i

(yk1,...,km,i − θk1,...,km)2 → min

Speziell gilt also für die

• einfache ANOVA:∑

k

i

(yk,i − µ − αk)2 → min bzw.

• 2-fakt. ANOVA:∑

k

l

i

(yk,l,i − µ − αk − βl − (αβ)kl)2 → min

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 229|306

Page 231: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Parameterschätzung der einfaktoriellen ANOVA

Als Lösung des oben genannten Optimierungsproblems ergebensich für die einfache ANOVA gemäß

Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)

folgende Parameterschätzungen:

• Die Schätzung von µ erfolgt mittels µ = yGes

• Die Schätzung von αk erfolgt mittels αk = yk − yGes

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 230|306

Page 232: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Parameterschätzung der 2-faktoriellen ANOVA

Als Lösung des oben genannten Optimierungsproblems ergeben sich für die

zwei-faktorielle ANOVA gemäß

Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i

(k = 1, . . . , K und l = 1, . . . , L

sowie i = 1, . . . , n∗)

folgende Parameterschätzungen:

• Die Schätzung von µ erfolgt mittels yGes

• Die Schätzung von αk erfolgt mit Hilfe von αk = yk − yGes

• Die Schätzung von βl erfolgt mit Hilfe von βl = yl − yGes

• Die Schätzung von (αβ)kl erfolgt mit Hilfe von

(αβ)kl = ykl − yGes − (yk − yGes) − (yl − yGes) =

= ykl − yk − yl + yGes

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 231|306

Page 233: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Güte der Schätzung

Auch im Rahmen der ANOVA erfolgt die Beurteilung der Güte derSchätzung mit Hilfe der durch das Modell erklärten Varianz. Dabeigilt wieder:

• Je größer der durch das ANOVA-Modell erklärte VarianzanteilSSA (among-group sum of squares) an der GesamtvarianzSST (total sum of squares) ist, umso besser beschreibt dasModell die Daten.

• Umgekehrt bedeutet dies aber auch, dass der nicht-erklärteAnteil der Varianz, die Größe SSW (within-group sum ofsquares), möglichst klein sein soll.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 232|306

Page 234: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Varianzzerlegung bei ANOVA Gesamtstreuung SST

Streuung zwischen

den Gruppen SSA

Haupteffekte

Streuung durch Faktor F1 (SSA-F1)...

Streuung durch Faktor Fm (SSA-Fm)

Interaktionen

Streuung durch Wechselwirkung

von F1 und F2 (SSA-F1 × F2)...

Streuung durch Wechselwirkung

von F1, F2 und F3 (SSA-F1 × F2 × F3)...

Streuung durch Wechselwirkung

von F1,F2, . . . ,Fm (SSA-F1 × F2 × . . .× Fm )

Streuung innerhalb

der Gruppen SSW

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 233|306

Page 235: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Varianzzerlegung der einfachen ANOVA

Im Rahmen der einfachen ANOVA gilt auch im Fall desunbalancierten Designs folgende Varianz-Zerlegung:

K∑

k=1

nk∑

i=1

(yk,i − yGes)2

︸ ︷︷ ︸SST

=

K∑

k=1

nk∑

i=1

(yk,i − yk)2

︸ ︷︷ ︸SSW

+

K∑

k=1

nk(yk − yGes)2

︸ ︷︷ ︸SSA

Totalvarianz(Total sum of square)

Fehlervarianz durch ANOVAerklärte Varianz

Dabei gilt:

yk =1

nk

·nk∑

i=1

yk,i und yGes =1

K∑

k=1

nk · yk

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 234|306

Page 236: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Varianzzerlegung der 2-fakt.ANOVA (I)

Im Rahmen der 2-faktoriellen ANOVA gilt im Fall des balanciertenDesigns stets die folgende, sehr grobe Zerlegung:

K∑

k=1

L∑

l=1

n∗∑

i=1

(ykl,i − yGes)2

︸ ︷︷ ︸

SST

Totalvarianz

(Total sum of square)

=

K∑

k=1

L∑

l=1

n∗∑

i=1

(ykl,i − ykl)2

︸ ︷︷ ︸

SSW

Fehlervarianz

+ n∗ ·

K∑

k=1

L∑

l=1

(ykl − yGes)2

︸ ︷︷ ︸

SSA

durch ANOVA

erklärte Varianz

Dabei gelten analog folgende Konventionen:

ykl = 1n∗ ·

n∗∑

i=1

ykl,i und yGes = 1K·L

K∑

k=1

L∑

l=1

ykl = 1n

K∑

k=1

L∑

l=1

n∗∑

i=1

ykl,i

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 235|306

Page 237: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Varianzzerlegung der 2-fakt.ANOVA (II)

Darüber hinaus kann der Varianzanteil SSA weiter sinnvoll zerlegtwerden. Für zwei Faktoren F1 und F2 gilt

SSA = SSAF1+ SSAF2

+ SSAF1×F2

gemäß

SSAF1= n∗ · L ·

K∑

k=1

(yk − yGes)2 SSAF2

= n∗ · K ·L∑

l=1

(yl − yGes)2

SSAF1×F2= n∗ ·

K∑

k=1

L∑

l=1

(ykl − yk − yl + yGes)2

wobei gilt:

yk =1

L · n∗·

L∑

l=1

n∗∑

i=1

ykl,i und yl =1

K · n∗·

K∑

k=1

n∗∑

i=1

ykl,i

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 236|306

Page 238: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Hypothesen des ANOVA-Modells

Klassische Testverfahren erlauben es, Fragen von folgendem Typ zuentscheiden:

• Ist die Hypothese, dass der Einfluss eines exogenen Faktors aufdie endogene Größe signifikant vorhanden ist, mit demDatenmaterial verträglich?

• Existieren Wechselwirkungen zwischen bestimmten Faktoren,die einen wesentlichen Beitrag zur Erklärung der endogenenGröße aufweisen?

• Ist eine Gruppe von exogenen Faktoren ohne Einfluss auf dieendogene Größe?

Fragen bezüglich verschiedener Abschätzungen wie bei derRegression (Konfidenzintervalle) sind hingegen nicht üblich.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 237|306

Page 239: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Signifikanztests der Modellparameter

Die Konstruktion der verschiedenen Signifikanztests folgt stetsdem gleichen Schema:

• Der mit Hilfe des ANOVA-Modells geschätzte VarianzanteilSSA (SSA,SSAF1

,SSAF2,SSAF1×F2

) wird dem durch dieANOVA nicht-erklärten Varianzanteil SSW gegenübergestellt.

• Da beide Größen aufgrund der Verteilungsannahmen derANOVA als Summe quadrierter normalverteilter Zufallsvariablenχ2 verteilt sind, ist die resultierende Test-Statistik als Quotientsolcher Zufallsvariablen F-verteilt.

• Ein Vergleich mit dem entsprechenden Fraktil der Verteilungermöglicht so die Beurteilung der formulierten Hypothese.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 238|306

Page 240: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test auf Signifikanz des ersten Faktors

Die in der ökonometrischen Praxis mit Abstand wichtigsteHypothese H0 bezüglich eines ersten Faktors F1 lautet:

H0 : α1 = α2 = . . . = αK = 0 gegen H1 :mind. einαk 6= 0

Die Ablehnung von H0 bedeutet, dass der exogene Faktor F1

einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik

vF1=

SSAF1

SSW· n − K · L

K − 1

und den entsprechenden Fraktilen der F-Verteilung mit (K − 1)

und (n − K · L) Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 239|306

Page 241: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test auf Signifikanz des zweiten Faktors

Analog dazu kann auch eine Hypothese H0 bezüglich des zweitenFaktors F2 formuliert werden.

H0 : β1 = β2 = . . . = βL = 0 gegen H1 :mind. einβk 6= 0

Die Ablehnung von H0 bedeutet, dass der exogene Faktor F2

einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik

vF2=

SSAF2

SSW· n − K · L

L − 1

und den entsprechenden Fraktilen der F-Verteilung mit (L − 1)

und (n − K · L) Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 240|306

Page 242: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test auf Signifikanz der Faktoren

Soll hingegen überprüft werden, ob der Faktor F1 oder der Faktor F2 einen

signifikanten Einfluß auf die endogene Variable besitzt, führt dies zu folgender

Hypothese

H0 : α1 = α2 = . . . = αK = β1 = β2 = . . . = βL = 0 gegen

H1 : mind. ein αk 6= 0 oder mind. ein βl 6= 0

Die Ablehnung von H0 bedeutet, dass entweder der Faktor F1 oder der Faktor

F2 einen signifikanten Einfluss hat.

Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik

vF1oderF2=

SSAF1+ SSAF2

SSW· n − K · LK + L − 2

und den entsprechenden Fraktilen der F-Verteilung mit (K + L − 2) und

(n − K · L) Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 241|306

Page 243: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test auf WechselwirkungenMöchte man hingegen überprüfen, ob der Faktor F1 und der der Faktor F2

gleichzeitig einen signifikanten Einfluss auf die endogene Variable besitzen,

führt dies zur Hypothese

H0 : (αβ)11 = . . . = (αβ)KL = 0 gegenH1 : mind. ein (αβ)kl 6= 0

Die Ablehnung von H0 bedeutet, dass zwischen Faktor F1 und Faktor F2 eine

Wechselwirkung besteht, die einen signifi-kanten Einfluß auf die endogene

Größe hat.

Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik

vF1×F2=

SSAF1×F2

SSW· n − K · L(K − 1) · (L − 1)

und den entsprechenden Fraktilen der F-Verteilung mit (K − 1) · (L − 1) und

(n − K · L) Freiheitsgraden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 242|306

Page 244: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Test auf Signifikanz des Modells

Schlußendlich kann auch überprüft werden, ob überhaupt irgendein Parameter

des Modells einen signifikanten Einfluss auf die endogene Variable besitzt. Die

entsprechende Hypothese lautet also:

H0 : α1 = . . . = αK = β1 = . . . = βL = (αβ)11 = . . . = (αβ)KL = 0

Die Ablehnung von H0 bedeutet, dass das Modell die endogene Größe

signifikant identifiziert.

Die Überprüfung der Hypothese erfolgt auch hier mit Hilfe einer F-Statistik

vANOVA =SSA

SSW· n − K · L(K · L − 1)

und den entsprechenden Fraktilen der F-Verteilung mit (K · L − 1) und

(n − K · L) Freiheitsgraden.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 243|306

Page 245: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationBeispiel: Zwei-fakt. VarianzanalyseMit Hilfe der bereits bekannten Daten soll ermittelt werden,

• ob überhaupt signifikante Einflüsse existieren,• ob signifikante Einflüsse bei der Bedienart und der Werbeart, bzw.• ob signifikante Einflüsse von Wechselwirkungen

zu beobachten sind.

Persönliche Bedienung

Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2

yP = 53.3

Selbstbedienung

Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8

yS = 47.6

→ Lösung siehe Vorlesung

yGes = 50.5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 244|306

Page 246: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Beispiel Varianzanalyse: Lösung mit R

1 Absatz <- c(47,39,40,46,45,2 68,65,63,59,67,3 59,50,51,48,53,4 40,39,35,36,37,5 59,57,54,56,53,6 53,47,48,50,51);78 anz <- c(rep("Anzeige", 5));9 pla <- c(rep("Plakat", 5));

10 lau <- c(rep("Lautspr", 5));11 Werbung <- factor(rep(c(anz,pla,lau),2));12 Bedienung <- factor(c(rep("pers", 15), rep("selbst", 15)));13 Tag <- factor(rep(c(1,2,3,4,5), 6));1415 d6ANOVA <- data.frame(Werbung,Bedienung,Tag,Absatz);1617 interaction.plot(d6ANOVA$Werbung, d6ANOVA$Bedienung, d6ANOVA$Absatz,col="yellow");1819 ### Zweifaktorielle Varianzanalyse: Dabei wird durch die Addition von20 ### Werbung*Bedienung in der Modellgleichung angegeben, dass Wechselwirkungen21 ### zwischen den Faktoren Werbung und Bedienung im Modell angenommen werden.22

23 a <- aov(formula = Absatz ~ Werbung * Bedienung, data=d6ANOVA);24 a;25 summary(a);26 qqnorm(a$res);27 qqline(a$res);

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 245|306

Page 247: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Beispiel Varianzanalyse: Lösung mit RNormalverteilungsannahme?

−2 −1 0 1 2

−4

−2

02

46

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 246|306

Page 248: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

KlassifikationBeispiel Varianzanalyse: Lösung mit RSind Haupt-/Interaktionseffekte erkennbar?

4045

5055

6065

d6ANOVA$Werbung

mea

n of

d6A

NO

VA

$Abs

atz

Anzeige Lautspr Plakat

d6ANOVA$Bedienung

persselbst

Beispiel: Interactionplot (Werbung + Bedienung)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 247|306

Page 249: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Beispiel Varianzanalyse: Lösung mit R

1 > a;23 Call:4 aov(formula = Absatz ~ Werbung + Bedienung + Werbung * Bedienung,5 data = d6ANOVA)6

7 Terms:8 Werbung Bedienung Werbung:Bedienung Residuals9 Sum of Squares 1944.2000 240.8333 48.4667 238.0000

10 Deg. of Freedom 2 1 2 2411

12 Residual standard error: 3.14907413 Estimated effects may be unbalanced1415 > summary(a);1617 Df Sum Sq Mean Sq F value Pr(>F)18 Werbung 2 1944.20 972.10 98.0269 2.833e-12 ***19 Bedienung 1 240.83 240.83 24.2857 4.989e-05 ***20 Werbung:Bedienung 2 48.47 24.23 2.4437 0.108221 Residuals 24 238.00 9.9222 ---23 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 248|306

Page 250: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Klassifikation

Schlußbemerkungen

Sind keine Wechselwirkungen der beiden Faktoren vorhanden (SSAF1×F2= 0),

so kann der zweifaktorielle Versuchsplan durch zwei einfaktorielle Versuchspläne

ersetzt werden, wobei sich dieselben Resultate ergeben.

Liegt nur eine Beobachtung pro Zelle vor (d.h. n∗ = 1), dann ist eine Schätzung

der Residualstreuung SSW nicht mehr möglich. In diesem Fall werden die

Wechselwirkungen vernachlässigt, d.h., das Modell Yk = µ + αk + βk + Uk wird

verwendet (vgl. auch Fahrmeir/Hamerle 1984, S.179ff ).

Zu beachten ist dabei, dass sich die Freiheitsgrade der Residu-alstreuung

df(SSW) nun gemäß df(SSW) = n − K − L + 1 bestimmen.

Des Weiteren können im Rahmen einer erweiterten Varianzanalyse auch

quantitative exogene Faktoren berücksichtigt werden

(→ Kovarianzanalyse, Datenanalyse II)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 249|306

Page 251: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

7SegmentierungMetrischer Daten, Segmentierungsarten, Heuristiken, Bewertungskriterien,

partitionierende- und hierarchische Segmentierungsverfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 250|306

Page 252: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7 Segmentierung (Clusteranalyse) metrischer Daten

7.1 Segmentierungstypen

7.2 Segmentierungsheuristiken

7.3 Bewertungskriterien

7.4 Partitionierende Verfahren

7.5 Hierarchische Verfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 251|306

Page 253: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Ziele der Clusteranalyse

Die Segmentierung oder Clusteranalyse dient derZusammenfassung von Objekten und/oder Merkmalen zu Klassenoder Gruppen, bzw. eine Objektmenge N wird in TeilmengenK1,K2, . . . ,Ks unterteilt. Es gilt:

Kr ⊂ N , Kr 6= ∅ für alle k = 1, . . . , s ,

so dass

zwischen den Elementen xi,r , xj,r derselben Klassen Kr

größtmögliche Ähnlichkeit,

zwischen den Elementen unterschiedlicher Klassen Kr, Kt

größtmögliche Verschiedenheit

erreicht wird.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 252|306

Page 254: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7.1 Segmentierungstypen

Man unterscheidet i.a.:

Disjunkte und nicht-disjunkte Segmentierung, wobei im erstenFall ein bestimmtes Element nur einer einzigen Klasse, im zweitenFall auch mehreren Klassen zugewiesen werden darf.

Exhaustive Verfahren, bei denen jedes Element mindestens einerKlasse zugeordnet wird, und nicht-exhaustive Verfahren, dieunklassifizierte Elemente zulassen.

Beispiel: N = {1, 2, 3, 4, 5} disjunkt nicht-disjunkt

1 12 23

3

445

5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 253|306

Page 255: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Segmentierungstypen

Agglomerative Verfahren gehen von einelementigen Klassen ausund fassen schrittweise Elemente zu Klassen zusammen. DivisiveVerfahren starten dagegen mit einer Anfangszerlegung, dieschrittweise verfeinert (d.h. zerteilt) wird.

Bei einmodalen Verfahren werden nur Objekte oder nur Merkmalezu Klassen zusammengefasst, während zweimodale VerfahrenObjekte und Merkmale einer Datenmatrix simultan segmentieren.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 254|306

Page 256: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Unterteilung von Clusteransätzen - Teil 3

Hierarchische Segmentierungsverfahren sind dadurchgekennzeichnet, dass ein auf höherer Fusionsebene liegendesCluster die entsprechenden, auf niedrigerer Ebene liegendenCluster vollständig enthält.

Nicht-hierarchische Verfahren basieren aufOptimierungsmethoden, mit deren Hilfe Klassenzugehörigkeitengeschätzt werden oder versucht wird, durch Elementtauschzwischen den Klassen die Segmentierungsgüte iterativ zuverbessern.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 255|306

Page 257: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Unterteilung von Clusteransätzen - Teil 4

Des Weiteren unterscheidet man scharfe und unscharfeSegmentierung. Beim scharfen Ansatz ist jedes Objekt - falls eineZuordnung zu mindestens einer Klasse erfolgt der entsprechendenKlasse eindeutig zugeordnet. Dies bedeutet aber nicht, dass derDurchschnitt zweier Klassen leer sein muß.

Bei der unscharfen Vorgehensweise erfolgt keine eindeutigeZuordnung zu einer Klasse. Vielmehr werden Anteilswertevergeben, die den Grad der Zugehörigkeit eines Objektes zu einerKlasse bestimmen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 256|306

Page 258: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Vorgehen bei der Auswahl der Segmentierungsverfahren

Bei der Auswahl des Segmentierungstyps resp. desSegmentierungsverfahrens wird überlegt,

ob alle Objekte/Merkmale segmentiert werden sollen

(exhaustiv oder nicht-exhaustiv)

bzw.

ob die Klassen paarweise disjunkt oder

nicht-disjunkt (überlappend) sein sollen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 257|306

Page 259: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Definition einer Segmentierung

Eine Menge K = {K1,K2, . . .} heißt scharfe Segmentierung einerObjektmenge N, wenn gilt:

Kr 6= ∅Kr ⊂ N

für alle r.

Des Weiteren gilt:

K ⊂ P(N)

|N| = n → |K| < |P(N)| = 2n

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 258|306

Page 260: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Definition: Exhaustive Segmentierung

Eine Segmentierung K = {K1,K2, . . .} heißt

− exhaustiv ⇔ ⋃K∈K

K = N

− nicht-exhaustiv ⇔ ⋃K∈K

K ⊂6=

N

Bemerkung:

Nicht-exhaustive Segmentierungen können sinnvoll sein, wennAusreißer nicht berücksichtigt werden sollen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 259|306

Page 261: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Definition: Disjunkte Segmentierung

Eine Segmentierung K = {K1,K2, . . .} heißt

- disjunkt (Zerlegung, Partition)

⇔ K,L ∈ K,K 6= L

⇒ K ∩ L = ∅

- nicht-disjunkt (Überdeckung, Überlappung)

⇔ K,L ∈ K,K 6= L

⇒ K ∩ L /∈ {K,L}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 260|306

Page 262: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkung: Disjunkte Segmentierung

Zwei Klassen können gemeinsame Elemente enthalten, eineTeilmengenbeziehung wird jedoch ausgeschlossen.

Beispiel: N = {1, 2, 3, 4, 5}

disjunkt nicht-disjunkt nicht erlaubt

312

45

1 12 23

3

445

5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 261|306

Page 263: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Definition: (Quasi-)hierarchieEine Segmentierung K = {K1, K2, . . .} heißt

Quasihierarchie ⇔ K ∈ K, es existieren Kr ∈ K mit Kr ⊂6=

K

⇒ ⋃Kr⊂

6=K

Kr = K

Hierarchie ⇔ 1) K ist Quasihierarchie2) K, L ∈ K K ∩ L = ∅ oder

K ⊂ L oder L ⊂ K

Bemerkung: Es gilt: Die Vereinigung aller echten Teilmengen einer Klasse K ergibt gerade wieder K.

Beispiel: K = { {1}, . . . , {5}, {1, 2, 3} {2, 4, 5}, {1, 2, 3, 4, 5} }

{1, 2, 3, 4, 5}

{1, 2, 3}

{1} {2} {3}

{2, 4, 5}

{4} {5}

“Vereinigung von Überdeckungen”

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 262|306

Page 264: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkung: Hierarchie

Es gilt: Eine Hierarchie ist eine spezielle Quasi-Hierarchie, bei derlediglich Überschneidungen von Klassen ausgeschlossen werden.

Beispiel: K = { {1}, ..., {5}, {1, 2, 3} {4, 5}, {1, 2, 3, 4, 5} }

{1, 2, 3, 4, 5}

{1, 2, 3}

{1} {2} {3}

{4, 5}

{4} {5}

“Vereinigung von Zerlegungen”

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 263|306

Page 265: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Wahl des Segmentierungstyps

Weitere Forderungen an den Segmentierungstyp ergeben sich

• aus der Problemstellung,

• aus der geeigneten Wahl eines Verschiedenheitsindex, derinsbesondere auch vom Skalenniveau der Daten abhängt

• aus der geforderten Klassenzahl,

• aus der Ober- bzw. Untergrenzen für die Objektanzahl in denKlassen

• und aus anderen Rahmenbedingungen.

Aus dem gewünschten Segmentierungstyp leitet sich dann auchdas Segmentierungsverfahren ab.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 264|306

Page 266: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Scharfe Segmentierungsverfahren

• Hierarchische Verfahren

- Divisive Verfahren

- Agglomerative Verfahren

◦ Single Linkage

◦ Average Linkage

◦ Complete Linkage

◦ Ward

◦ · · ·

• Partitionierende Verfahren

- Austauschverfahren (KMEANS,

CLUDIA)

- Iteriertes Minimaldistanzverfahren

(MDP)

- Partitioning Around Medoid (PAM)

- Clustering Large Data (CLARA)

- · · ·• Überlappende Verfahren

• Andere Verfahren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 265|306

Page 267: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7.2 Segmentierungsheuristiken

sind Segmentierungsverfahren, die

- mit Hilfe einfacher algorithmischer Ansätze,

- ohne den Anspruch auf Optimalität,

- ohne hohen (Rechen-) Aufwand und

- auf Basis eines (Un-)Ähnlichkeitsmaßes (für metrische Daten)

eine Objektmenge aufteilen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 266|306

Page 268: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Ähnlichkeitsmaß für metrische Daten

Man benötigt dazu ein Maß, das die Ähnlichkeit zweier Objekte,die durch metrische Merkmale beschrieben werden, quantifiziert.

- Ähnlichkeitsmaß AM: Je größer ein Wert, desto ähnlicher sindsich zwei Objekte.

- Folge: Was bedeutet ein Wert AM = 0?bzw. Wie groß ist die Ähnlichkeit zweier identischer Objekte?

⇒ Übergang zu einem Verschiedenheitsmaß

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 267|306

Page 269: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Unähnlichkeitsmaß für metrische DatenBerücksichtigt man nun, dass zwei Objekte i und j bezüglich einesMerkmals k umso unähnlicher sind, desto größer ihreMerkmalsausprägungen differieren - umso größer also

|aik − ajk| bzw. (aik − ajk)2

ist - und berücksichtigt des Weiteren, dass die Unähnlichkeitzwischen zwei Objekten von allen Merkmalen simultan undgleichmäßig getragen werden soll, so erhält man z.B. folgendeseinfache Unähnlichkeitsmaß für metrische Daten, das auf demEuklidschen Abstand basiert:

v(i, j) =

m∑

k=1

(aik − ajk)2

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 268|306

Page 270: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Vorgehensweise der Heuristik

1) Zunächst werden s möglichst verschiedene Klassenzentrenbestimmt.

2) Danach werden die restlichen Elemente dem nächstähnlichenbzw. nächstgelegenen Klassenzentrum zugeordnet.

Anwendung von Heuristiken:

Bestimmung von Anfangsklassifikationen, die mit Hilfe andererVerfahren iterativ verbessert werden können.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 269|306

Page 271: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Heuristik für eine ZerlegungObjektmenge N, Klassenzahl s

1) Wähle 1. Klassenzentrum (KlaZ) i1 ∈ N zufällig

2) Wähle 2. KlaZ i2 ∈ N mit v(i1, i2) = maxj6=i1

( v(i1, j))

3) Wähle für t = 3, . . . , s KlaZ it ∈ N mit

v(iτ, it) = maxj6=τ

(min

τ=1,...,t−1v(iτ, ij)

)

4) Bilde Klassen um die Zentren i1, . . . , is gemäß {K1, . . . ,Ks} mit

Kσ ={

j ∈ N : v(iσ, j) = minτ

v(iτ, j)}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 270|306

Page 272: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel

Gegeben sei die Datenmatrix A Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Mit Hilfe des heuristischen Algorithmus erhält man folgende3-Klassen-Partition:

K1 = {1, 3} , K2 = {4} , K3 = {2, 5}

Berechnung: siehe Vorlesung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 271|306

Page 273: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7.3 Bewertungskriterien

Hat man zwei verschiedene Segmentierungsvarianten K und L,stellt sich die Frage, welche geeigneter ist.

Kriterien zur Bewertung von Segmentierungen:

Dabei unterscheidet man Maße zur Bewertung der

• Heterogenität einer Klasse (Innerklassen-Verschiedenheit)

• Heterogenität zwischen 2 Klassen(Zwischenklassen-Verschiedenheit)

• Heterogenität einer Segmentierung (Güteindex)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 272|306

Page 274: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Varianz als Bewertungskriterium

Bei quantitativen Daten mißt man die Verschiedenheit vonObjekten gerne mit Hilfe von Maßen, die auf dem (quadrierten)euklidischen Abstand der Objekte basieren (s. Folie 20).

Da aber zwischen dieser euklidischen Distanz und der Varianzgewisse Zusammenhänge existieren, bietet es sich an, diegeforderten Indizes auf Grundlage der sogenannten

- Innerklassen-Varianzen und- Zwischen-klassen-Varianzen

darzustellen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 273|306

Page 275: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bezeichnungen - Teil 1

Mittelwert des Merkmals k

(für alle Objekte)a•k = 1

n

n∑

i=1

aik

Mittelwert des Merkmals k

(in Klasse K)aKk = 1

|K|

i∈K

aik

Kovarianz der Merkmale k, l

(für alle Objekte)Sk,l = 1

n

n∑

i=1

(aik − a•k)(ail − a•l)

Kovarianz der Merkmale k, l

(in Klasse K) VKk,l = 1

|K|

i∈K

(aik − aKk)(ail − aKl)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 274|306

Page 276: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Inner-/Zwischenklassenvarianz

Kovarianz der Merkmale k, l (zwischen den Klassen)

zk,l =1

n

K∈K

|K| (aKk − a•k)(aKl − a•l)

Die Matrix VK = (vKk,l) bezeichnet man als

Innerklassen-Kovarianzmatrix der Klasse K, die Matrix Z = (zk,l)

entsprechend als Zwischenklassen-Kovarianzmatrix.

Somit gilt dann auch:

S =1

n

K∈K

|K| · VK + Z

Beweisidee siehe Vorlesung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 275|306

Page 277: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Heterogenität einer Klasse

Definition : Die Abbildung h : P(N) → R+ heißtHeterogenitätsindex (Inner-Klassen-Verschiedenheit - IKV), fallsgilt:

a) h(K) = 0 falls K = {i}, i ∈ N

b) h(K) < h(L) falls L heterogener als K

Für metrische Daten ergibt sich auf Basis der Varianzüberlegungendamit folgender Index h(K):

h(K) = Spur (Vk) =

m∑

k=1

vKkk =

1

|K|

i∈K

m∑

k=1

(aik − aKk)2

Beispiel siehe VorlesungDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 276|306

Page 278: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Verschiedenheit zwischen Klassen

Definition : Die Abbildung v : P(N) × P(N) → R+ heißt

Verschiedenheitsindex (ZKV), falls gilt:

a) v(K, K) = 0

b) v(K, L) = v(L, K) > 0

c) v(K, K ′) < v(L, L ′) falls L und L ′ heterogener (schärfer oder

besser getrennt) als K und K ′

Für metrische Daten ergibt sich auf Basis der Varianzen z.B. folgender Index

v(K, L), der beim modifizierten WARD-Verfahren Anwendung findet:

vWard(K, L) = 2 · |K| · |L|

|K| + |L|·

m∑

k=1

(aKk − aLk)2

Hinweis: Die Definition v(K, L) ist mit der Definition von v(i, j)

(siehe Abschnitt Unähnlichkeitsmaße) verträglich.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 277|306

Page 279: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bewertung einer Segmentierung

Definition : Die Abbildung b : P(P(N)) → R+ heißtKlassifikationsindex (Güteindex), falls gilt:

b(K) < b(L) falls K besser als L

Bemerkung: Die Güte einer Segmentierung läßt sich

- mit Hilfe der Heterogenität der Klassen (IKV) und/oder- mit Hilfe der Verschiedenheit zwischen den Klassen (ZKV)

beschreiben. Für metrische Daten ergibt sich auf Basis der obigenVarianzüberlegungen folgender Index b(K)

b(K) =∑

K∈K

h(K) =∑

K∈K

SpurVK =∑

K∈K

1

|K|

i∈K

m∑

k=1

(aik − aKk)2

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 278|306

Page 280: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Anmerkungen

Der Heterogenitätsindex h orientiert sich an den quadriertenAbweichungen der Ausprägungen einer Klasse von denKlassenmittelwerten (→ Summe der Merkmalsvarianzen inKlasse K).

Der Verschiedenheitsindex v orientiert sich i.a. an den quadriertenAbweichungen der Klassenmittelwerte, bereinigt um dieHeterogenitätsindizes.

Der Güteindex ergibt sich als Summe aller klassenweisenMerkmalsvarianzen.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 279|306

Page 281: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Problematik der Güteindizes

Im allgemeinen fällt der Güteindex b mit steigender Klassenanzahl. Es entsteht

somit ein Zielkonflikt zwischen

• möglichst geringer Klassenanzahl und

• möglichst kleinem Güteindex.

Entscheidungshilfe: Das Ellenbogenkriterium

Mit Hilfe des sogenannten Ellenbogenkriteriums kann die „optimale“ Wahl der

Klassenanzahl erfolgen. Dabei fällt die Entscheidung zugunsten der

Klassenanzahl s∗ mit der Güte b∗, der bei

• eine Verringerung der Klassenanzahl s zu einem starken Anstieg von b

• eine Erhöhung der Klassenanzahl s nur zu einer geringfügigen

Verbesserung von b führt.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 280|306

Page 282: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Ellenbogenkriterium

1. 2 3 4 5 6 7 8

b(K)

Klassenanzahl s

b∗

s∗

Die Wahl der Klassenanzahl fälltzugunsten der Zahl s∗ = 4.

Auch die Wahl der Zwei-Klassenlösung ist vertretbar.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 281|306

Page 283: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7.4 Partitionierende Verfahren

sind Klassifikationsverfahren, die die Objektmenge N auf Basiseiner fest vorgegebenen Klassenzahl s so aufteilen, dass dieberechnete Klassifikation bzw. Partition K einen vorgegebenenGüteindex b(K) minimiert:

minK∈P(P(N))

{

b(K) : K = {K1, . . . , Ks},

s⋃

k=1

Kk = N, Kk ∩ Kl = ∅}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 282|306

Page 284: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Anzahl der Partitionen einer Menge

Die Anzahl der möglichen, unterschiedlichen Klassifikationen hängtvon der Anzahl s und von n = |N| ab und ist eine Stirling‘scheZahl 2. Art.

s 2 3 5 10

n

3 3 1 0 0

5 15 25 1 0

10 511 9330 42.525 1

20 524.287 ≈ 5, 8 · 1011 ≈ 7, 5 · 1011 ≈ 6 · 1012

50 ≈ 5, 6 · 1014 ≈ 1, 2 · 1025 ≈ 7, 4 · 1032 ≈ 2, 6 · 1043

100 ≈ 6, 3 · 1031 ≈ 8, 6 · 1046 ≈ 6, 6 · 1067 ≈ 2, 8 · 1093

Anzahl der Klassifikationen (in Abhängigkeit von s und n)

→ Heuristische Verfahren sind anzuwenden.

⇒ Enumerative Lösungs-

verfahren scheiden bei

nichttrivialen Problemen

aus.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 283|306

Page 285: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Das Austauschprinzip

(1) Wähle Startpartition K0 = {K01, . . . ,K

0s} (Startheuristik)

(2) Bestimme b(K0 )

(3) Suche Objekt(e), so dass ein Transfer b reduziert

(4) Tausche Objekt(e) aus der aktuellen in die beste neue Klasse

(5) Wiederhole (3) und (4) bis kein Tausch mehr möglich(→ lokales Optimum gefunden)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 284|306

Page 286: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkungen

(a) Die Verfahren brechen nach endlich vielen Schritten ab.

(b) Die Verfahren erreichen meist nur ein Suboptimum ( → globaleOptima werden eher erreicht, wenn unter Berücksichtigung allerTauschmöglichkeiten auch mehrere Objekte simultan getauschtwerden können).

(c) Das Ergebnis hängt i.a. von der gewählten Startpartition ab(→ mehrere Startpartitionen verwenden).

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 285|306

Page 287: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Das Austauschverfahren KMeans

Start: Objektmenge N, Güteindex b, Kµ = {Kµ1 , . . . ,Kµ

s } (µ = 0)

Solange maxi∈N

maxK

µρ∈Kµ

[b(Kµ) − b(K)] = b(Kµ) − b(Kµ+1) > 0,

wobei Kσ =

Kµσ − {i} für i ∈ Kµ

σ, |Kµσ| > 1

Kµσ ∪ {i} für Kµ

σ = Kµρ (σ = 1, . . . , s)

Kµσ sonst

mit Lösung i∗,Kµ∗

Tausche i∗ ∈ N in Kµ∗

µ = µ + 1

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 286|306

Page 288: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkungen

(a) Falls mehrere Tauschoperationen möglich sind(mehrdeutige Lösung) → beliebiger Transfer

(b) Ergebnis: K0 → K1 → K2 → K3 → . . . mitb(K0) > b(K1) > b(K2) > b(K2) > . . .

(c) Abbruch:

falls b(Kµ) = b(Kµ+1) mit lokalem Optimum

falls b(Kµ) − b(Kµ+1) 6 ǫ in der Nähe eines lok. Optimum,wobei die Schranke ǫ vorzugeben ist

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 287|306

Page 289: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

SegmentierungBeispiel - KMeans

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Ausgangspunkt (beliebig): 3-Klassen-

Startpartition K0 mit

K01 = {1, 2}

K02 = {3, 4} ⇒ K2 = {{1, 3}, {4}, {2, 5}}

K03 = {5}

Der Güteindex b(K) ergibt

b(K0) =

Varianz der Klasse {1,2}︷ ︸︸ ︷1

2

((22 − 23.5)2 + (5 − 7.5)2 + (25 − 23.5)2 + (10 − 7.5)2

)

+

Varianz der Klasse{3,4}︷ ︸︸ ︷1

2

((21 − 24.5)2 + (10 − 7)2 + (28 − 24.5)2 + (4 − 7)2

)

+1

1

((24 − 24)2 + (8 − 8)2

)

︸ ︷︷ ︸

Varianz der Klasse{5}

= 41

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 288|306

Page 290: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Lösung - Austauschschritt 1

Objekttausch (nicht i = 5)

i = 1 : K = {{2}, {1, 3, 4}, {5}} b(K) = 0 + 25.78 + 0 = 25.78

K = {{2}, {3, 4}, {1, 5}} b(K) = 0 + 32.5 + 3.25 = 35.75

i = 2 : K = {{1}, {2, 3, 4}, {5}} b(K) = 0 + 22.22 + 0 = 22.22

K = {{1}, {3, 4}, {2, 5}} b(K) = 0 + 32.5 + 1.25 = 33.75

i = 3 : K = {{1, 2, 3}, {4}, {5}} b(K) = 9.78 + 0 + 0 = 9.78

K = {{1, 2}, {4}, {3, 5}} b(K) = 8.5 + 0 + 6.25 = 14.75

i = 4 : K = {{1, 2, 4}, {3}, {5}} b(K) = 16.89 + 0 + 0 = 16.89

K = {{1, 2}, {3}, {4, 5}} b(K) = 8.5 + 0 + 10.75 = 18.75

⇒ K1 = {{1, 2, 3}, {4}, {5}}

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 289|306

Page 291: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Lösung - Austauschschritt 2

Objekttausch (nicht i = 5)

i = 1 : K = {{2, 3}, {1, 4}, {5}} b(K) = 13 + 25 + 0 = 38

K = {{2, 3}, {4}, {1, 5}} b(K) = 13 + 0 + 3.25 = 16.75

i = 2 : K = {{1, 3}, {2, 4}, {5}} b(K) = 0.5 + 4.5 + 0 = 5

K = {{1, 3}, {4}, {2, 5}} b(K) = 0.5 + 0 + 1.25 = 1.75

i = 3 : siehe oben, Rücktausch, keine Verbesserung

⇒ K2 = {{1, 3}, {4}, {2, 5}}

Nächste Interation bringt keine Verbesserung, d.h. K2 ist lokaloptimal

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 290|306

Page 292: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Modifiziertes KMeans-VerfahrenStart: Objektmenge N, Güteindex b, Kµ = {K

µ1 , . . . ,K

µs } (µ = 0, i = 0, t = 0)

Star

t

max

Kµ ρ∈

[b(K

µ)

−b

(K

)]=

b(K

µ)

−b

(K

µ+

1)

>0

,wo

bei

=

Kµ σ

−{i

}fü

ri∈

Kµ σ,

|Kµ σ|>

1

Kµ σ∪

{i}

fürK

µ σ=

Kµ ρ

Kµ σ

son

st

(mit

σ=

1,.

..,s

) ∃Lö

sun

g

Kµ ∗

?

Tau

sch

ei

inK

µ ∗,

setz

+1

,

t=

0

ja

t=

t+

1

nei

n

i=

i+

1

i=

n+

1?

i=

1

ja

t=

n?

nei

n

End

e

ja

nei

n

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 291|306

Page 293: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkungen

• Während ein Objekt beim einfachen Austauschverfahren erstnach einem vollständigen Durchlauf der Objektmengegetauscht wurde, erfolgt hier ein sofortiger Tausch desObjektes bei Verbesserung der Güte b.

• Ergebnisse hängen von der Reihenfolge ab, in der die Objektebearbeitet werden.

• Modifiziertes Austauschverfahren ist im allgemeinen schnellerals das einfache Austauschverfahren.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 292|306

Page 294: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel - Modifiziertes KMeans

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Ausgangspunkt (beliebig):

3-Klassen-Startpartition K0 mit

K01 = {1, 2}

K02 = {3, 4}

K03 = {5}

Da nur der Algorithmus verändert ist, nicht aber der Güteindexb(K), ergibt sich für die Startlösung der zum Kmeans-Verfahrenidentische Wert b(K0) = 41.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 293|306

Page 295: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

KMeans with R# KMEANS Alter/Semester von Studentenx = matrix(c(22,25,,21,28,,24,5,10,4,13,8),5,2);cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

# KMEANS mit Ringstrukturenx = matrix(c(1,0),1,2)for (r in c(.2,.9)) {for (i in 1:100) {phi = rnorm(1,sd=pi);point = matrix(c(r*cos(phi+rnorm(1,sd=.1/r)),

r*sin(phi+rnorm(1,sd=.1/r))),1,2);x = rbind(x,point);

}}cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

# KMEANS mit zwei Zentrenx <- rbind(matrix(rnorm(100, sd = .3), ncol = 2),

matrix(rnorm(100, mean = 1, sd = .3), ncol = 2));cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 294|306

Page 296: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel KMEANS mit R

21 22 23 24 25 26 27 28

46

810

12

x[,1]

x[,2

]

Beispiel: KMEANS Alter/Semester von Studenten

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 295|306

Page 297: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel KMEANS mit R

−0.5 0.0 0.5 1.0 1.5

−1.

0−

0.5

0.0

0.5

1.0

1.5

2.0

x[,1]

x[,2

]

Beispiel: KMEANS mit zwei Zentren

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 296|306

Page 298: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel KMEANS mit R

−0.5 0.0 0.5 1.0

−0.

50.

00.

5

x[,1]

x[,2

]

Beispiel: KMEANS mit Ringstruktur

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 297|306

Page 299: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Vorgehensweise - Partitionierung

(1) Startpartition mit Hilfe einer Startheuristik

(2) Bestimmung eines lokalen Optimums mit Hilfe von KMEANS

(3) Wiederholung der Schritte (1) + (2) auf Basis mehrererzufälliger Startpartitionen

(→ Erhöht die Stabilität der Lösung und vergrößert dieWahrscheinlichkeit für das Erreichen eines globalen Optimums)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 298|306

Page 300: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

7.5 Hierarchische Verfahren

sind Segmentierungsverfahren, die auf der Basis einerObjektmenge N eine Folge von Partitionen konstruieren. Dabeiunterscheidet man

• Verfahren, die in jedem Schritt die erhaltene Segmentierungverfeinern (divisive Verfahren) und

• Verfahren, die in jedem Iterationsschritt die Segmentierungvergröbern (agglomerative Verfahren)

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 299|306

Page 301: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Divisive Verfahren

• Ausgangspunkt ist die Klasse aller Objekte.

• Sukzessiver Übergang zu feineren Zerlegungen

• Abbruch, sobald vorgegebenes Kriterium erfüllt ist

12345

123

12

1

2

3

45

4

5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 300|306

Page 302: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Agglomerative Verfahren

• Ausgangspunkt sind n = |N| einelementige Klassen.

• Sukzessiver Übergang zu gröberen Zerlegungen

• Abbruch, sobald vorgegebenes Kriterium erfüllt ist

• Niedrige Rechenzeiten, gute praktische Eignung

1

2

3

4

5

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 301|306

Page 303: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Das Ward-Verfahren

Start: Objektmenge N, Varianz-ZKV vWARD, Kµ = {Kµ1 , . . . , K

µn−µ} (µ = 0)

1. Suche Klassen mit minimaler Verschiedenheit

minK

µi , K

µj ∈Kµ

Kµi

6=Kµj

v(Kµi , K

µj ) = v(K

µi0

, Kµj0

)

2. Fusion:

Kµ+1

i =

Kµi0∪ K

µj0

für i = min{i0, j0}

Kµi+1 für i > max{i0, j0}

Kµi sonst

⇒ Kµ+1 ={

Kµ+11 , . . . , K

µ+1n−µ+1

}

3. µ = µ + 1

Wiederhole 1. - 3. bis |Kµ| = 1Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 302|306

Page 304: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Das Resultat: eine Hierarchie K

• Auf Basis der Verfahren erhält man eine Klassifikation K mitmaximal 1

2· n · (n − 1) Klassen:

K =

n−1⋃

µ=0

Kµ ={K0

1, . . . ,K0n,K1

1, . . . ,K1n−1, . . . ,K

n−11

}

• Dabei gilt für Klassen

- einer Hierarchie-Ebene: K ∩ L = ∅- eines Hierarchie-Astes: K ⊂ L oder L ⊂ K

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 303|306

Page 305: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Bemerkungen zum Ward-Verfahren

Das Ward-Verfahren kann als sehr guter Clusteralgorithmus angesehen werden,

wenn

- die metrischen Variablen unkorreliert und vergleichbar (ähnliche

Skalierung, d.h. Größenordnung der Merkmale) sind,

- keine Ausreißer in der Objektmenge enthalten sind, bzw. diese vorab

eliminiert werden,

- zu erwarten ist, dass die Elementzahl in jeder Klasse ungefähr gleich groß

ist (allgemeine Tendenz des Verfahrens)

- die Klassen in etwa gleiche Ausdehnung (also etwa gleiche

Innergruppenvarianz) besitzen.

Es versagt i.a., wenn im Datensatz „langgestreckte“ Klassen (im Rm ) existieren

und/oder Klassen mit stark unterschiedlicher Elementzahl zu erkennen sind.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 304|306

Page 306: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Beispiel: Ward-Verfahren

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Lösung siehe Vorlesung

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 305|306

Page 307: Institut für Statistik und Mathematische ... · Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse I Stefan Etschberger Wintersemester

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Segmentierung

Interpretation eines Dendrogramms

Sprunghafte Veränderungen im Wert des Gütekriteriumsgestatten Rückschlüsse auf die geeignete Klassenzahl (EB).Ähnliche Objekte werden früh fusioniert, unähnliche Objektespäter; Ausreißer erst am Ende einem großen Cluster zugeordnet.Die Klassenstruktur ist

- stabil, wenn unterschiedliche Verfahren (siehe auchDatenanalyse II) zu ähnlichen Ergebnissen führen,

- intensiv,wenn sukzessiv Klassen vergleichbarenUmfangs fusioniert werden und

- schwach,wenn sukzessiv nur benachbarterEinzelobjekte hinzugefügt werden.

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 306|306