Download pdf - Quantitative Methoden - schmidt-bremen.deschmidt-bremen.de/Material/qm/QuantitativeMethodenMBA.pdf · Modul 2, Unit 2 Wissenschaftliche ... Bühl, Achim und Zöfel Peter, „SPSS

Prof. Dr. Peter Schmidt

SoSe 2010

Volkswirtschaftslehre und Statistik : (0421) 5905-4691

Fax: (0421) 5905-4862

[email protected]

www.schmidt-bremen.de QM

Quantitative Methoden Master of Business Administration

Modul 2, Unit 2

Wissenschaftliche Fragestellungen und Methoden

Vermittlung statistisch-methodischen Wissens

Gewinnung praktischer Erfahrung in der EDV-Umsetzung

Dokumentation der verwendeten Methoden

Hilfe bei der

täglichen Arbeit

Forschungsmethoden Seite i

Peter Schmidt, Hochschule Bremen 2010


SoSe 2010

Volkswirtschaftslehre und Statistik : (0421) 5905-4691

Fax: (0421) 5905-4862

[email protected]

www.schmidt-bremen.de QM

Quantitative Methoden Master of Business Administration

Modul 2, Unit 2

A Zielsetzungen

Wissenschaftliche Fragestellungen und Methoden

Vermittlung statistisch-methodischen Wissens

Gewinnung praktischer Erfahrung in der EDV-Umsetzung

Außendarstellung durch Dokumentation der verwendeten Methoden

Hilfe bei der täglichen Arbeit

B Lehr- und Lernmethoden

Durch Übungen und Gruppenarbeiten und -präsentationen wird der im seminaristischen

Unterricht vorgestellte Stoff durch die Studierenden selbstständig vertieft und anwen-

dungsorientiert erlernt.

Seminaristischer Unterricht Vermittlung theoretischen Wissens

Übung am PC Vertiefung der Inhalte und PC-Praxis

Präsentationen Eigenständiges Erarbeiten und Darstellung

durch Studierende

Forschungsmethoden Seite ii


C Inhalt der Lehreinheit

1 Quantitative Methoden im täglichen Einsatz

1.1 Definitionen – Empirische Forschung / Statistik / Research Methods

1.2 Häufigkeiten und grafische Darstellungen

1.2.1 Eindimensionale und mehrdimensionale Häufigkeitsdarstellungen

1.2.2 Besondere Häufigkeitskonzepte

1.3 Lagemaße (Mittelwerte) und Streuungsmaße

1.4 Zusammenhänge zwischen mehreren Merkmalen

1.4.1 Zusammenhangmaße

1.4.2 Regressionsanalyse

1.5 Zeitreihen und Indexzahlen

2 Weitere Themen

2.1 Schließenden Statistik und Statistische Tests

2.2 Durchführung und Darstellung räumlicher Analysen (Business Mapping)

2.3 Multivariate Analysemethoden

2.4 Übersicht und Demonstration von Software

2.4.1 Auswertungen und Darstellungen in Excel

2.4.2 Statistikprogramme (z.B. SPSS, GrafStat, Stata, Eviews, ...)

Grundlagen und Möglichkeiten der Datenhaltung und -organisation in Statis-tikprogrammen

statistische Auswertungen - interaktiv und im Programm-Modus

Grafische Darstellungsmöglichkeiten

2.4.3 Ausblick auf weitere Programme und Anwendungsmöglichkeiten

3 Übungen am PC und Fallbeispiele

Forschungsmethoden Seite iii


D Literaturhinweise

Black, Thomas: “Understanding Social Science Research”, 2002

Bourier, Günther: „Beschreibende Statistik“ und „Wahrscheinlichkeitsrechung und Schließende Sta-

tistik“, Wiesbaden 2008

Backhaus, Erichson, Plinke, Weiber, „Multivariate Analysemethoden: Eine anwendungsorientierte

Einführung“, Heidelberg, 2005

Bamberg, Günter und Baur, Franz: ”Statistik”, München 2007 (mit Arbeitsbuch)

Bleymüller, Josef; Gehlert, Günther und Gülicher, Herbert: ”Statistik für Wirtschaftswissenschaft-

ler”, München 2008

Hippmann, Hans-Dieter: „Statistik für Wirtschafts- und Sozialwissenschaftler“, 2007

Kirk, Roger: „Statistics - An Introduction“, 1998

Krämer, Walter: ”Statistik verstehen” und: ”So lügt man mit Statistik”, München, 2001, 2000

Puhani, Josef: ”Statistik - Einführung mit praktischen Beispielen”, Würzburg 2005

Scharnbacher, Kurt: "Statistik im Betrieb", Wiesbaden 2004

Schwarze, Jochen: ”Grundlagen der Statistik”, Bände I und II, Herne/Berlin 2005/06

Praktisches am PC:

Bühl, Achim und Zöfel Peter, „SPSS Vers. 12 – Einführung in die moderne Datenanalyse unter Win-

dows, 2004

Brosius, Felix: ”SPSS 14 - Professionelle Statistik unter Windows”, 2006

Erben, Wilhelm: ”Statistik mit Excel 5 oder 7”, München 2004

Monka, Michael Schöneck, Nadine und Voß, Werner: ”Statistik am PC - Lösungen mit Excel”, 2008

(2005 / frühere Auflage für Excel bis Version 2003)

auch einige der oben genannten Bücher beschreiben die Anwendung der Methoden in Softwaremethoden, z.B. Black, Backhaus u.a.

Diese Hinweise sollen Ihnen erleichtern, sich einen eigenen Eindruck von der Fülle statistischer Literatur zu machen. Es

gibt nicht das Statistik-Buch, weder allgemein noch auf diese Veranstaltung bezogen. – Es wird stark empfohlen, sich

verschiedene Bücher anhand konkreter Themen anzuschauen und dann persönlich zu entscheiden, welches dem

eigenen Stil entspricht!

E Leistungsnachweis: Teil der Klausur am Ende des Moduls

F Unterrichtssprache: Deutsch, teilweise englische Ergänzungen

Quantitative Methoden Seite iv


G Inhalt der Unterlagen

1. Quantitative Methoden der deskriptiven Statistik Seite 1

Praxisbezogene Darstellung statistischer Methoden anhand von Beispielen, die in

Zusammenhang mit den begleitenden Excel-Tabellen erarbeitet werden können.

2. Ablauf einer statistischen Untersuchung + Fallbeispiel Seite 21

Studierendenbefragung an der Fakultät Wirtschaftswissenschaften

3. Material zur Schließenden Statistik Seite 32

4. Business Mapping durch Geoinformationssysteme Seite 56

Darstellung räumlicher Analysemethoden und deren Anwendung

in der volks- und betriebswirtschaftlichen Anwendung

5. Forschungsprojekt als Fallstudie: Seite 65

Regional Economic Impacts of Large Cultural Events

Does public funding of large cultural events make sense

from a regional economic point of view?

6. Formelsammlung: Seite 87

Die Unterlagen werden im Verlauf der Lehrveranstaltung erweitert um Materialien zu

Übungen und Fallbeispielen, die jeweils auch über die Veranstaltungs-Webseite verfügbar

sind.

Quantitative Methoden – Deskriptive Statistik - Seite 1 -

Peter Schmidt, Hochschule Bremen MBA

MBA Quantitative Methoden

Deskriptive Statistik

Peter Schmidt,

Hochschule Bremen

Inhalt

1 Quantitative Methoden; Statistik ................................................................ 3

1.1 Definitionen – Was ist Statistik? ...............................................................................4

1.2 Häufigkeiten und grafische Darstellungen .................................................................5

1.2.1 Eindimensionale und mehrdimensionale Häufigkeitsdarstellungen ...................5

1.2.2 Besondere Häufigkeitskonzepte..........................................................................8

1.3 Lagemaße (Mittelwerte) und Streuungsmaße ............................................................8

1.4 Zusammenhänge zwischen mehreren Merkmalen ...................................................11

1.4.1 Zusammenhangmaße.........................................................................................11

1.4.2 Regressionsanalyse............................................................................................13

1.5 Zeitreihen und Indexzahlen ......................................................................................17

2 Literaturhinweise und Weitere Informationen.......................................... 19

3 Schlagwortindex........................................................................................ 20

Hinweis: Dieser Beitrag ist erschienen in: Schmidt, Peter: „Betriebsstatistik“; in: Dey und Grauvogel

(Hrsg.): "Praxishandbuch – Wirtschaftswissen von A-Z für die erfolgreiche Betriebsratspraxis", Kissing, 2000-

2005



Abbildungen:

Abbildung 1 Verdichtung von Information ...................................................................... 4

Abbildung 2 Skalierung von Merkmalen.......................................................................... 5

Abbildung 3 Absolute Häufigkeiten und zweidimensionales Säulendiagramm............... 7

Abbildung 4 Kreisdiagramme zur Darstellung von relativen Häufigkeiten ..................... 7

Abbildung 5 Einfache Häufigkeiten und Summenhäufigkeiten ....................................... 8

Abbildung 6 Verteilungen mit unterschiedlicher Streuung ............................................ 10

Abbildung 7 Abweichungen der Einzelbeobachtungen vom Mittelwert........................ 10

Abbildung 8 xy-Diagramm für Zusammenhang Überstunden / Energieverbrauch ........ 12

Abbildung 9 Stärke von Zusammenhängen und Werte des Korrelationskoeffizienten.. 12

Abbildung 10 Regressionsgrade Überstunden / Energieverbrauch ................................ 14

Abbildung 11 Regressionsanalyse .................................................................................. 14

Abbildung 12 Regressionsanalyse mit multiplen Einflussfaktoren ................................ 16

Abbildung 13 Umsatzentwicklung im Zeitablauf ........................................................... 17

Abbildung 14 Einkommensentwicklung absolut und als Indexzahlen ........................... 19

Verzeichnis der Tabellen:

Tabelle 1 Personaldaten (Beispiel für Ursprungsdaten).................................................... 6

Tabelle 2 Eindimensionale Häufigkeitstabelle – Anzahl Befragte nach Berufsstatus...... 6

Tabelle 3 Zweidimensionale Häufigkeitstabelle – Befragte nach Alter und Geschlecht.. 6

Tabelle 4 Prozentuale Häufigkeiten – Befragte nach Alter und Geschlecht..................... 7

Tabelle 5 Mittelwerte ........................................................................................................ 9

Tabelle 6 Beispiel für Lage- und Streuungsmaße ........................................................... 10

Tabelle 7 Wertetabelle für Zusammenhang Überstunden / Energieverbrauch ............... 11

Tabelle 8 Zusammenhangmaße für unterschiedliche Skalenniveaus.............................. 13

Tabelle 9 Zeitreihe einer Umsatzentwicklung ................................................................ 17

Tabelle 10 Entwicklung von Unternehmer- und Arbeitnehmereinkommen 1991-99 .... 18



1 QUANTITATIVE METHODEN; STATISTIK

Statistik ist ein Gebiet, das mit vielen Vorbehalten und Vorurteilen behaftet ist. Sie dies die

Sorge vor zu viel Mathematik, Formeln und anderem schwer verständlichem. Oder seien es

Redensarten, die ein unbedarftes Herangehen an dieses Gebiet erschweren, wie der be-

rühmte Ausspruch (Winston Churchill zugeschrieben) „Ich traue keiner Statistik, die ich nicht

selbst gefälscht habe“ oder der beliebten Steigerung „Lüge – gemeine Lüge – Statistik“.

Trotzdem begegnet uns Statistik an vielen Stellen des täglichen (betrieblichen) Lebens und

es ist wichtig, damit umgehen zu können. Es ist nicht nötig, anhand kompliziert klingender

Begriffe davon auszugehen, dass das Gegenüber „schon Recht haben wird“, wenn man in

der Lage ist, fachkundig nachzufragen und Aussagen kritisch zu hinterfragen. Nicht alle

statistischen Modelle und Kennzahlen sind in allen Zusammenhängen und für alle Arten

von Daten anwendbar.

Aber nicht nur die Situation, vorgelegte statistische Auswertungen verstehen und (kritisch)

interpretieren zu müssen, kann in der täglichen Praxis auftauchen, sondern auch der

Wunsch, vorhandene Daten selbst auszuwerten und anschaulich darzustellen. Dies kann

die (grafische) Aufbereitung zur Präsentation der Daten sein, aber auch die Analyse von

statistischen Zusammenhängen bzw. Unterschieden von Daten oder Sachverhalten.

Daher werden in diesem Skript wichtige betriebsstatistische Methoden nicht nur vorge-

stellt, sondern können mit dem PC selbst nachvollzogen werden, da sich auf der Webseite

http://www.fbw.hs-bremen.de/pschmidt unter → „QM / mkm“ eine Excel-Datei befindet,

mit der die Beispiele aus dem Text nachvollzogen werden können.

Es wird hier beispielhaft das Tabellenkalkulationsprogramm Excel (aus dem Office Paket

der Firma Microsoft) verwendet, da dieses eine sehr große Verbreitung hat. In anderen

Tabellenkalkulationen können die dargestellten Methoden ebenso verwendet werden. Dar-

über hinaus gibt es spezielle Statistik-Programme, die die Verarbeitung von Daten zwar

erleichtern, für den täglichen Gebrauch jedoch i.d.R. nicht notwendig sind, z.B. SPSS,

SAS, Statgraphics, u.v.m. Auf diese wird hier nicht eingegangen.

Das vorliegende Material will mehr bieten als nur die Aufzählung verschiedener Methoden

und deren kurze verbale Beschreibung. Ziel ist eine lesbare und alltagstaugliche Übersicht

über gängige Methoden und nicht eine mathematisch umfassende Darstellung der Statistik.

Auf Formeln wird weitgehend verzichtet; zur Vergleichbarkeit mit bzw. Orientierung in

Nachschlagewerken werden die üblichen Symbole (Buchstaben, Abkürzungen) verwendet.

Am Ende des Artikels findet sich ein Schlagwortindex, der das Auffinden einzelner Begrif-

fe erleichtern soll. Für tiefergehende Fragen sind am Schluss einige Literaturhinweise zu-

sammengestellt.

Ziel dieses Skriptes ist es, zu zeigen, dass quantitative Methoden in der

täglichen Arbeit – v.a. durch den Einsatz von EDV-Programmen – ein-

fach zu erstellen und dadurch praktisch und nutzbringend einsetzbar

sind.

Begleitende

Excel-Datei



1.1 Definitionen – Was ist Statistik?

Statistik ist ein Hilfsmittel, ein Werkzeug zur systematischen Darstellung und Auswertung

von Zahlenmaterial, meist kurz als „Daten“ bezeichnet. Mit statistischen Methoden werden

Kennzahlen gebildet, die dabei helfen, vorliegendes Datenmaterial - vor allem aber die

entsprechenden Sachverhalte - möglichst objektiv zu bewerten.

Es gibt zwei grundlegende Ziele statistischer Analysen:

Beschreibung vorhandener Daten: Beschreibende oder Deskriptive Statistik

Es liegen Daten (Zahlen) vor, die ausgewertet werden sollen: z.B. Alter und Einkom-

men von 20 Mitarbeitern oder 100 Gewichtsangaben von Werkstücken oder Umsatz-

zahlen in 16 Quartalen, ... usw.

Ableiten allgemeiner Aussagen Schließende oder

aus einer kleinen Auswahl von Daten Induktive Statistik

Es liegt nur eine (kleine) Stichprobe von Daten vor, aus diesen sollen allgemeingültige

Schlüsse über die Grundgesamtheit aller Daten gezogen werden: z.B.: Aus den Angaben

über Alter, Geschlecht und Provision von 50 Angestellten soll auf die entsprechenden

Werte aller 800 Mitarbeiter geschlossen werden oder aus den Umsatzentwicklungen

von 20 Betrieben soll die Branchenentwicklung abgeschätzt werden.

Dieser Artikel behandelt die beschreibende Statistik.

Verdichtung von Informationen – abhängig von der Skalierung der Daten

Eine Hauptaufgabe statistischer Methoden ist es, die oft sehr große Fülle von Informatio-

nen auf wenige (Kenn-) Zahlen zu verdichten. Beispiel: Von 500 Beschäftigten mögen z.B.

die Dauer der Betriebszugehörigkeit und die Ausbildung vorliegen, dies sind 1.000 Zahlen.

Statistisch sprechen wir von Merkmalen (z.B. Alter, Geschlecht) und deren Ausprägun-gen (z.B. 20 Jahre, 44 Jahre bzw. männl., weibl.).

Durch Auszählung von Häufigkeiten oder Angabe eines Mittelwertes können diese z.B.

auf drei Häufigkeitsangaben (z.B. 100 angelernte Arbeiter (Ar), 250 Facharbeiter (F) und

150 Angestellte (An)) oder im Fall der Betriebszugehörigkeit sogar auf einen Mittelwert

(z.B. Durchschnitt von 8,5 Jahren (J)).

Abbildung 1 Verdichtung von Information

Ursprungsdaten: Verdichtungen, z.B.:

Während in den Ursprungsdaten also alle Personen mit allen Eigenschaften enthalten sind,

enthalten Verdichtungen nur einzelne ausgewertete Kennzahlen.

Mittelwert : 8,5 Jahre

Betriebszugehörigkeit

beschrei-

bende

Statistik

schließende

Statistik

...............

...)9,()1,()1,()5,(

...)6,()2,()6,()6,(

...)3,()9,()10,()1,(

...)3,()2,()6,()4,(

JArJArJAnJAr

JArJArJFJAn

JAnJArJArJF

JFJAnJAnJAr

Häufigkeiten:

100 Angelernte 250 Facharbeiter 150 Angestellte

Verdich-

tung von

Daten-

material



Es zeigt sich jedoch, dass nicht alle Maßzahlen für alle Merkmale möglich sind, so würde

ein Mittelwert beim Mitarbeiterstatus keinen Sinn machen. Genauer gesagt ist die Auswahl

der statistischen Maßzahlen von der Skalierung des Merkmals abhängig. Abbildung 2

zeigt die vier Skalen, die üblicherweise unterschieden werden.

Abbildung 2 Skalierung von Merkmalen

Verhältnisskalierte Daten beinhalten die meiste Information, nominal skalierte die wenigs-

te. Entsprechend stehen mehr oder weniger statistische Methoden zur Auswertung der Da-

ten zur Verfügung

Merkmale können in diskreter oder stetiger Form vorliegen. Diskrete Merkmale können

nur abzählbar viele Ausprägungen annehmen, wie z.B. oben der Berufsstatus, das Ge-

schlecht oder Farben. Stetige Merkmale hingegen können beliebig viele Ausprägungen

annehmen, oft werden sie in Dezimalzahlen gemessen, z.B. Geldbeträge, Gewichte oder

Mengen.

Die Unterscheidungen von Typen und Skalen werden im folgenden wichtig sein, wenn die

Methoden zur Auswertung beschrieben werden.

1.2 Häufigkeiten und grafische Darstellungen

Wie oben gesehen, ist auch die Auszählung von Häufigkeiten ein Mittel zur Verdichtung

von Daten, gerne wird diese grafisch dargestellt.

1.2.1 Eindimensionale und mehrdimensionale Häufigkeitsdarstellungen

Die Ursprungsdaten (oder Rohdaten - vgl. Abbildung 1) werden oft in Tabellen dargestellt,

die aus Zeilen und Spalten bestehen. Dabei stellt jede Zeile eine statistische Einheit (Per-

son, Werkstück, Summe, ...) und jede Spalte ein bestimmtes Merkmal dar.

Diese Darstellung wird auch in Tabellenkalkulationsprogrammen verwendet. Hier kann

dann jede Zelle (z.B. Zeile 3, Spalte 4) einzeln angesteuert bzw. berechnet werden. Bei-

spiele hierzu finden sich in den Excel-Dateien. Die laufende Nummer wird auch als (Lauf-)

Skalen

Metrische Skalen Rang- /

Ordinalskala Nominalskala

Verhältnisskala Intervallskala

Nur Rangfolgen können angege-

ben werden

Ausprägungen stehen gleich-

berechtigt nebeneinander

Verhältnisse können ange-geben werden

Nur Abstände (Intervalle) kön-nen angegeben

werden

Noten: sehr gut, ..., ungenügend; Handelsklassen, Tabellenplätze

Geschlecht, Farben, Beru-fe, Nationalität

Währungsbe-träge, Gewich-te, Alter, Maße

Temperatur, Lärmmessung, Meinungsskala

Skalie-

rung von

Daten als

Basis für

die An-

wendbar-

keit statis-

tischer

Methoden



Index bezeichnet, daher die übliche Abkürzung i. Es können dann alle Angaben anhand

dieses Index angegeben werden. Z.B. ist die 3. Person seit 2 Jahren im Betrieb: B3 = 2.

Tabelle 1 Personaldaten (Beispiel für Ursprungsdaten)

Spalte

lfd. Nummer Geschlecht Betriebszu-gehörigkeit

Berufs- Status

Note im Eignungstest

i Gi Bi Si Ni

1 w 10 Ar 2

2 w 5 An 1

Zeile → 3 m 2 Ar 3

4 w 18 F 8

5 m 22 Ar 1 Zelle

6 m 9 An 9

7 m 14 F 2

Die einfachste Verdichtung von Daten ist die Angabe von Häufigkeiten, oft ebenfalls in

tabellarischer Form, wie Tabelle 2 für den Fall einer einfachen Häufigkeitstabelle für das

Merkmal „Berufsstatus“ zeigt.

Tabelle 2 Eindimensionale Häufigkeitstabelle – Anzahl Befragte nach Berufsstatus

Kürzel Status Anzahl

(Häufigkeit ni)

(Bezeichnung)

Status: Ar angelernte Arbeiter 100 = n1

F Facharbeiter 250 = n2

An Angestellte 50 = n3

Summe: 400 = n Beschäftigte

Der Buchstabe „n“ als Symbol für „Anzahl der Beobachtungen“ wird in der Statistik sehr

häufig verwendet. Wenn es sich auf die Grundgesamtheit aller statistischen Einheiten be-

zieht, wird auch ein großes „N“ verwendet.

Interessanter ist die Aufbereitung mehrerer Dimensionen, etwa die Auszählung der Anzahl

der Beschäftigten, diesmal nach Alter und Geschlecht, wie sie in Tabelle 3 vorgenommen

wird.

Tabelle 3 Zweidimensionale Häufigkeitstabelle – Befragte nach Alter und Geschlecht

Geschlecht

Betriebs-

zugehörigkeit weiblich männlich alle

Personen

Rand-

unter 10 Jahre 80 40 120 summen

10 - 20 Jahre 100 80 180 über 20 Jahre 120 80 200

alle Personen 300 200 500 Gesamt-

Randsummen summe

Ursprungs-

daten

Häufig-

keitstabelle

zweidi-

mensio-

nale

Häufig-

keiten



In dieser Tabelle 3 sind zum einen die Einzelhäufigkeiten für die Kombinationen bestimm-

ter Eigenschaften angegeben (z.B. haben 40 Männer eine Betriebszugehörigkeit unter 10

Jahren), aber auch - in den „Randsummen“ - die Häufigkeitsauszählungen für die einzel-

nen Merkmale (z.B. insgesamt gibt es 180 Personen mit einer Betriebszugehörigkeit zwi-

schen 10 und 20 Jahren). Für das Merkmal Betriebszugehörigkeit wurden Klassen (von ...

bis ...) gebildet. Dies ist sinnvoll, wenn viele Ausprägungen vorhanden sind, so dass diese

nicht mehr übersichtlich in einer Tabelle oder Grafik dargestellt werden können.

Üblich ist auch die Darstellung von relativen oder prozentualen Häufigkeiten.

Tabelle 4 Prozentuale Häufigkeiten – Befragte nach Alter und Geschlecht

Zeilenprozente Spaltenprozente

Betriebs-

zugehörigkeit

weib-

lich

männ-

lich

alle Personen

weib-

lich

männ-

lich

alle Personen

unter 10 Jahre 66,7% 33,3% 100% 26,7% 20,0% 24,0%

10 - 20 Jahre 55,6% 44,4% 100% 33,3% 40,0% 36,0%

über 20 Jahre 60,0% 40,0% 100% 40,0% 40,0% 40,0%

alle Personen 60,0% 40,0% 100% 100% 100% 100%

Diese Häufigkeitsdarstellungen, ob in absoluten Zahlen oder relativen Anteilen gemessen,

werden oft grafisch dargestellt. So lassen sich die Zahlen aus Tabelle 2 z.B. in einem Bal-

ken- oder Säulendiagramm darstellen, wie in Abbildung 3 links dargestellt ist.

Abbildung 3 Absolute Häufigkeiten und zweidimensionales Säulendiagramm

Säulendiagramm

0

50

100

150

200

250

300

angelernte

Arbeiter

Facharbeiter Angestellte

An

za

hl

Balkendiagramm

0 100 200 300

Angestellte

Facharbeiter

Angelernte

unter 1

0 Jahre

10 - 20 Jahre

männlich

weiblich0

20

40

60

80

100

120

Betriebszugehörigkeit nach Geschlecht

Auch die zweidimensionalen Häufigkeiten aus Tabelle 3 lassen sich grafisch veranschauli-

chen (z.B. wie in Abbildung 3 recht oder Abbildung 4).

Abbildung 4 Kreisdiagramme zur Darstellung von relativen Häufigkeiten

Betriebszugehörigkeit

über 20

Jahre

40% 10 - 20

Jahre

36%

unter 10

Jahre

24%

27%

33%

40%

20%

40%

40%

unter 10 Jahre

10 - 20 Jahre

über 20 Jahre

Betriebs-

Zugehörigkeit:

Anteile nach

Geschecht

MännerFrauen

Grafiken wie die hier beispielhaft vorgestellten lassen sich mit Hilfe von Computerpro-

grammen relativ einfach erzeugen. Es gibt eine sehr große Anzahl von Darstellungsmög-

relative

Häufig-

keiten



lichkeiten und es sollte jeweils aus dem konkreten Zusammenhang entschieden werden,

welche Darstellung hilfreich „für den Transport der Botschaft“ ist.

Die Daten und die hier dargestellten Beispiele finden sich in der begleitenden Excel-Datei.

1.2.2 Besondere Häufigkeitskonzepte

Für die Darstellung von Häufigkeiten werden oft Säulendiagramme verwendet. Summen-häufigkeitsfunktionen zeigen, wie viel (Prozent der) Ausprägungen höchstens einem be-

stimmten Wert annehmen (bis zu ...). Abbildung 5 zeigt dieses Häufigkeitskonzept neben

einem einfachen Säulendiagramm.

Abbildung 5 Einfache Häufigkeiten und Summenhäufigkeiten

Klasse Häufigkeiten:

Werte: Obergrenze ni fi % Fi 0 0 0

160 3 9,4 9,4

186 157 170 5 15,6 25,0

164 160 180 9 28,1 53,1

187 164 190 11 34,4 87,5

168 196 200 4 12,5 100,0

190 180 Summe: 32

178 196 Relative Häufigkeiten (%) Summenhäufigkeiten

195 186

172 160

163 189

183 178

180 188

180 188

196 178

186 174

182 178

161 186

Körpergröße:

0,0

5,0

10,0

15,0

20,0

25,0

30,0

35,0

40,0

160 170 180 190 200

0

10

20

30

40

50

60

70

80

90

100

0 160 170 180 190 200

32 befragte Personen

fi: relative Häufigkeit

Fi: Summen-Häufigkeit:

... Prozent der Personen

sind höchstens ... groß

Histogramme werden verwendet, wenn die Ausprägungen wie oben in Klassen eingeteilt

werden und diese unterschiedlich breit sind. Säulendiagramme würden in diesem Fall fal-

sche Häufigkeiten vermuten lassen, so dass die Häufigkeiten als Fläche dargestellt werden. Klasse Häufigkeiten:

KlBreite Anzahl

Obergrenze D xi ni fi % Fi D = fi / D xi

163 163 5 15,6 15,6 0,1

178 15 9 28,1 43,8 1,88

187 9 10 31,3 75,0 3,47

195 8 5 15,6 90,6 1,95

200 5 3 9,4 100,0 1,88

Summe: 200 32

D (xi)

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49

Histogramm

1.3 Lagemaße (Mittelwerte) und Streuungsmaße

Die bisherige Beschreibung zeigte Möglichkeiten der Darstellung, die deutlich anschauli-

cher sind als die Betrachtung von Ursprungsdaten, aber die Tabellen und Abbildungen in

Punkt 1.2 müssen jeweils ihrerseits interpretiert werden: „Wie unterscheiden sich zwei

Histo-

gramme

und

Sum-

menhäu-

figkeiten



Grafiken?“; „Was ist das wichtige an dieser Tabelle?“ ... mögen die Fragen lauten. Daraus

ergibt sich der Wunsch, nach noch knapperen statistischen (bzw. betrieblichen) Kennzah-

len.

Die sicherlich bekanntesten statistischen Maße sind Mittelwerte, unter Ihnen der „promi-

nenteste“ das arithmetische Mittel, oft einfach als „Mittelwert“ bezeichnet. Aber nicht für

alle Daten (jeder Skalierung) kann ein arithmetische Mittel errechnet werden. In der be-

trieblichen Praxis sind die in Tabelle 5 angegebenen Mittelwerte relevant.

Wichtig ist hier, dass falsche Verwendung der Mittelwerte eben auch zu falschen (oder

verfälschten) Ergebnissen führt. So ist das arithmetische Mittel i.d.R. größer als das geo-

metrische Mittel. Würde man im letzten Beispiel (fälschlicherweise) ein arithmetisches

Mittel errechnen, so hätte dies einen Wert von 9 Prozent (10+20+5+1=36 / 4). Die tatsächliche

Lohnsteigerung der letzten vier Jahre würde also höher angegeben als sie tatsächlich war.

Mittelwerte werden auch als Lagemaße bezeichnet, da sie die Lage einer Verteilung (auf

der waagrechten Achse) angeben. So haben die Verteilungen von Abbildung 3 oder

Abbildung 5 ihren jeweiligen Schwerpunkt in ihren Mittelwerten.

Tabelle 5 Mittelwerte

Mittelwert für Skalen Definition Beispiel

Modus

(Modalwert)

alle Skalen

häufigster Wert

In Tabelle 2 ist F der Modal-

wert, da Facharbeiter (mit 250

Personen) die größte Einzel-

häufigkeit aufweisen

Median

oder

Zentralwert

Ordinalskalen

und metrische

Skalen

Mitte

aller geordneten

Ausprägungen

Alter: 44, 19, 24, 60, 21, 42, 11

geordnet: 11,19,21,24,42,44,60

Median = 24, da mittlerer

Wert, es stehen rechts und

links davon je drei Zahlen

arithmetisches

Mittel („Mittelwert“)

metrische

Skalen

Summe aller Werte

geteilt durch die

Anzahl der Beo-

bachtungen (n)

Alter: 44, 19, 24, 60, 21, 42, 11

JahrexttsalterDurchschni 6,31

7

11 42 2160 24 19 44

=

=++++++

geometrisches

Mittel

Steigerungsraten

von

Wachstumsdaten

(nur Verhältnis-

skalen)

n-te Wurzel aus

dem Produkt aller

Werte

Lohnsteigerung in 4 Jahren:

10 %, 20 %, 5 %, 1 %

oderGM 0877,1

01,105,120,110,14

=

⋅⋅⋅

rund 8,77 Prozent

Die einzelnen Berechnung können in der Excel-Datei nachvollzogen werden.

Streuungsmaße Neben der Lage einer Verteilung ist diese durch ihr Aussehen, etwa ihre „Breite“ bezeich-

net: Wie verteilen sich die Ausprägungen des Merkmals um den Mittelwert?. Statistisch

wird hier von Schwankung oder Streuung der Werte gesprochen, so dass die entsprechen-

Mittel-

werte:

auf die

Skala

achten

Streu-

ungs-

maße



den Kennzahlen als Streuungsmaße bezeichnet werden. Abbildung 6 zeigt ein Beispiel für

3 verschiedene Verteilungen (Häufigkeitsauszählungen als Säulendiagramm). In allen drei

Fällen wurden 50 Personen (aus drei Abteilungen) befragt: „Bewerten Sie die Arbeitszeit-

regelung im Betrieb“. Die Antworten in allen drei Abteilungen ergaben denselben arithme-

tischen Mittelwert von 4,0 aufweisen, die Verteilungen sehen aber unterschiedlich aus.

Abbildung 6 Verteilungen mit unterschiedlicher Streuung

Abt. 1

0

2

4

6

8

10

12

14

16

1 2 3 4 5 6 7

Abt. 2

0

2

4

6

8

10

12

1 2 3 4 5 6 7

Abt. 3

0

5

10

15

20

25

30

1 2 3 4 5 6 7

Mit Streuungsmaßen kann das unterschiedliche Aussehen dieser drei Verteilungen, statis-

tisch gesagt die unterschiedliche Schwankung gemessen werden: Das einfachste Streu-

ungsmaß ist die Spannweite. Sie wird ermittelt, indem die kleinste Ausprägung von der

größten abgezogen wird (Abt.1: 6–2= 4; Abt.2: 7–1= 6; Abt.3: 6–1= 5) und spiegelt damit die

Breite der Verteilung wider.

Üblichere Streuungsmaße messen die Abweichung der einzelnen Werte vom Mittelwert,

was in Abbildung 7 veranschaulicht wird (am Beispiel von drei Personen aus Abt. 1). Als

statistische Kennzahl dient wiederum ein Mittelwert dieser Abweichungen. Die „Durch-

schnittliche Absolute Abweichung (DAA)“ ist ein mögliches Maß, weitaus bekannter je-

doch ist die Standardabweichung. Sie wird ermittelt aus der Hilfsgröße „Varianz“ (dem

Durchschnitt aller quadrierten Abweichungen).

Abbildung 7 Abweichungen der Einzelbeobachtungen vom Mittelwert

0

1

2

3

4

5

1 2 3 4 5 6 7

Antwort auf Frage

Pe

rso

n N

um

me

r

Mittelwert

-1

-2

+3

Antworten auf einer Ratingskala (Werte von 1 bis 7 konnten angegeben werden)

In Tabelle 6 sind die vorgestellten Maßzahlen für das obige Beispiel (Befragung von je 50

Personen in drei Abteilungen) zusammengefasst.

Tabelle 6 Beispiel für Lage- und Streuungsmaße Abteilung Median arithm. Mittel Spannweite Standardabweichung

1 4 4,0 4 (von 2 bis 6) 1,26 2 3 4,0 6 (von 1 bis 7) 2,16 3 5 4,0 5 (von 1 bis 6) 2,18



Es mag sich angesichts dieses einfachen Beispiels die Frage stellen, welchen Sinn solche

recht aufwendigen Maßzahlen haben. Dieser liegt vor allem in der Verarbeitung großer

Datenmengen. Sind nicht nur drei Abteilungen, sondern z.B. 16 Bereiche und nicht nur

eine Frage sondern z.B. 35 zu bewerten und so zu verdichten, dass eine Orientierung „auf

einen Blick“ (oder zumindest wenige Blicke) möglich ist, so geht dies nur mit Hilfe von

Kennzahlen. Nicht alle sind an jeder Stelle geeignet. So zeigt hier das arithmetische Mittel

eine Übereinstimmung der drei Abteilungen an, was aber angesichts Abbildung 6 nicht zu

überzeugen vermag. Schon der Median, vor allem aber die Streuungsmaße zeigen - auch

ohne den Blick auf die Grafiken - dass die Antworten in Abteilung 1 recht einheitlich ver-

teilt sind, wogegen diejenigen in Abteilung 2 und 3 größere Schwankungen aufweisen.

Dort gehen also die Meinungen weiter auseinander, in unserem Beispiel könnte hiermit ein

Anhaltspunkt dafür gegeben sein, dass der Betriebsrat dort - etwa in Einzelgesprächen -

klären sollte, ob größere Unzufriedenheit unter den Angestellten herrscht, als in anderen

Abteilungen.

1.4 Zusammenhänge zwischen mehreren Merkmalen

Oft ist das Ziel statistischer Analysen nicht nur, ein einzelnes Merkmal zu beschreiben,

sondern es interessiert die Wirkung verschiedener Merkmale aufeinander. so wurde bereits

in Tabelle 4 und Abbildung 3 eine zweidimensionale Betrachtung angestellt.

Wiederum können zwei unterschiedliche Fragestellungen unterschieden werden:

Wird ein (zufälliger) Zusammenhang zwischen zwei Merkmalen untersucht, in dem

Sinne, dass die Merkmale sich gegenseitig beeinflussen; oder

wird ein ursächlicher Zusammenhang vermutet, in dem Sinne, dass bestimmte Merkma-

le ein anderes beeinflussen bzw. steuern (Kausalität)?

Für die erste Frage eignen sich Zusammenhangmaße, die zweite kann mit Regressionsmo-

dellen untersucht werden.

1.4.1 Zusammenhangmaße

Zusammenhangmaße beschreiben die Stärke eines Zusammenhangs. Die Geschäftsleitung

macht auf den steigenden Energieverbrauch einer Abteilung aufmerksam. Der Betriebsrat

vermutet, dass dies durch die wachsende Anzahl von Überstunden verursacht wird und

vergleicht die beiden Zahlenreihen X: Anzahl der Überstunden pro Woche und Y: Ener-

gieverbrauch miteinander. Es werden sechs Wochen (i = 1, ..., 6), entsprechend sechs Werte-

paare (xi, yi) miteinander verglichen. Diese sind in Tabelle 7 angegeben.

Tabelle 7 Wertetabelle für Zusammenhang Überstunden / Energieverbrauch

Woche Überstunden Energieverbrauch Woche Überstunden Energieverbrauch

i Xi Yi i Xi Yi

1 6 12 4 16 19

2 8 16 5 22 23

3 12 18 6 26 24

Da es sich um zwei metrisch skalierte Merkmale handelt, können sie - in Abbildung 8 - als

xy-Diagramm (Streu- oder Punktdiagramm) dargestellt werden.

Messen der

Stärke eines Zu-

sammen-

hangs



In der folgenden Grafik ist ein Zusammenhang zu erkennen: Je höher die Anzahl der Über-

stunden, desto höher ist auch der Energieverbrauch. Das statistische Maß, welches die

Stärke eines solchen Zusammenhanges metrischer Merkmale misst, heißt Korrelationsko-

effizient (nach Bravais-Pearson), üblicherweise mit dem Buchstaben r (oder dem griechischen ρ)

bezeichnet. r gibt sowohl die Richtung des Zusammenhanges als auch dessen Stärke an,

denn er kann Werte zwischen -1 und 1 annehmen. Im vorliegenden Falle ergibt sich ein

Wert von r=0,97 und damit ein starker statistischer Zusammenhang zwischen Überstunden

(X) und Energieverbrauch (Y).

Abbildung 8 xy-Diagramm für Zusammenhang Überstunden / Energieverbrauch

0

5

10

15

20

25

30

0 5 10 15 20 25 30X-Achse: Überstunden

Y-Achse: Energieverbrauch

Ein positiver Zusammenhang (r größer als 0) heißt, dass je größer die Ausprägung des ei-

nen Merkmals (X), desto größer auch die des anderen Merkmals (Y); Ein negativer Zu-

sammenhang (r kleiner als 0) heißt, dass je größer die Ausprägung des einen Merkmals

(X), desto kleiner die des anderen Merkmals (Y), wobei der Zusammenhang desto stärker

ist, je näher r an 1 bzw. -1. Ein Korrelationskoeffizient nahe oder gleich Null bedeutet,

dass es keinen Zusammenhang zwischen X und Y gibt. Der Korrelationskoeffizient r ist

also eine Kennzahl, die eine große Menge an Informationen verdichten kann, indem das

Verhältnis beliebig vieler Wertepaare in einer Maßzahl r zusammengefasst wird.

Abbildung 9 Stärke von Zusammenhängen und Werte des Korrelationskoeffizienten vollk. positiver Zh (schwach) positiver Zh kein Zh (schwach) negativer Zh vollk. negativer Zh

r = +1

0

2

4

6

8

0 5 10

0 < r < 1

0

2

4

6

8

0 5 10

r = 0

0

2

4

6

8

0 5 10

0 > r > -1

0

2

4

6

8

0 5 10

r = -1

0

2

4

6

8

0 5 10

Auch hier gilt wieder, dass ein solches Maß besonders dann nützlich ist, wenn große Men-

gen von Daten betrachtet werden und nicht für jedes Merkmalspaar ein solches xy-

Diagramm erstellt werden kann. Es können dann mittels des Korrelationskoeffizienten

schnell diejenigen Merkmale herausgefunden werden, die einen starken Zusammenhang

aufweisen und diese näher untersucht werden. Korrelationskoeffizienten sind ein in der

betrieblichen Praxis sehr gebräuchliches Maß.

Allerdings kann der Korrelationskoeffizient r nach Bravais-Pearson nur für metrische

Merkmale ermittelt werden. Bei ordinal skalierten Merkmalen muss auf den Rangkorrela-

tionskoeffizienten rs zurückgegriffen werden; bei nominal skalierten Daten steht nur der



Kontingenzkoeffizient zur Verfügung. Tabelle 8 zeigt die Zusammenhangmaße für die

verschiedenen Skalenniveaus.

Je größer der Informationsgehalt der Skala (vgl. Abbildung 2), desto höher ist auch die

Aussagekraft des Zusammenhangmaßes. Der Koeffizient rs kann nur Sortierungen verglei-

chen, aber keine Zahlenwerte, der Kontingenzkoeffizient C beinhaltet keine Richtung des

Zusammenhanges, bezüglich der Größe von C gilt ebenfalls, dass ein Wert von 0 keinen

Zusammenhang bedeutet und je näher C sich dem Wert 1 nähert, desto stärker ist der un-

tersuchte Zusammenhang zwischen den Merkmalen X und Y.

Tabelle 8 Zusammenhangmaße für unterschiedliche Skalenniveaus

Zusammenhangmaß für Skalen Wertebereich Beispiele

r Korrelationskoeffizient nach Bravais-Pearson

metrische Skalen, linearer Zus.hang

-1 ≤ r ≤ 1 - Produktionsmenge und Kosten - Alter und Einkommen

rs Korrelationskoeffizient nach Spearman

Ordinalskalen -1 ≤ rs ≤ 1 - Schulnote und Altersklasse - Schulabschluss Leistungsklasse

C Kontingenzkoeffizient Nominalskalen 0 ≤ C ≤ 1 - Geschlecht und Beruf

1.4.2 Regressionsanalyse

Bei metrisch skalierten Merkmalen wurden in Abbildung 8 und Abbildung 9 „Punktewol-

ken“ betrachtet, also die Verteilung der xy-Wertepaare in einem Koordinatensystem. Als

Referenz für die Messung von Stärke eines Zusammenhanges dient dabei eine gedachte

Linie durch die Punktewolke und die Betrachtung, wie die Bebachtungspunkte zu dieser

Linie liegen. Bei Korrelationskoeffizienten r = 1 und r = -1 liegen die Punkte auf dieser

gedachten Grade bzw. bilden diese Grade.

Im Beispiel der Tabelle 7 wurde ein statistischer Zusammenhang zwischen der Anzahl der

Überstunden und dem Energieverbrauch ermittelt. Es stellt sich im nächsten Schritt die

Frage, wie die beiden Merkmale zusammenhängen, welcher Art ihre Beziehung ist. Um

dies statistisch zu untersuchen, muss zunächst eine Annahme aufgestellt werden, diese sei:

inhaltlich: Der Energieverbrauch hängt von der Zahl der Überstunden ab

mathematisch: Der Energieverbrauch Y ist eine Funktion der Zahl der Überstunden X

Funktional: Y = f (X) und im linearen Fall: Y = a + b * X

In Worten bedeutet dies, dass eine Gerade gesucht wird, die durch das Zentrum der „Punk-

tewolke“ geht, wie Abbildung 10 zeigt.

Regressi-

onsanalyse

misst die

Art eines

Zusam-

menhanges



Abbildung 10 Regressionsgrade Überstunden / Energieverbrauch

Y = 10,4 + 0,55 * X

R2 = 0,939

8

12

16

20

24

28

0 5 10 15 20 25 30X-Achse: Überstunden


Die „Regressionsgrade“ in Abbildung 10 wird bestimmt durch ihren Schnittpunkt mit der

Y-Achse (hier a = 10,4) und ihre Steigung (hier b = 0,55). Mit dieser Grade bzw. der For-

mel Y = a + b * X; hier Y = 10,4 + 0,55 * X kann für jede denkbare Anzahl von Überstun-

den ein erwarteter Wert für den Energieverbrauch errechnet werden. Daher hat das Modell

seinen Namen, denn „re-gressere“ kommt aus dem Lateinischen und bedeutet „zurückfüh-

ren“; hier wird also der Energieverbrauch auf die Anzahl der Überstunden zurückgeführt.

Dies kann zum einen geschehen durch einsetzen von X-Werten in die Formel, so ergibt

sich für 10 Überstunden ein erwarteter Energieverbrauch von Y =10,4 + 0,55 * 10 (Stun-

den) = 15,9 (kWh). X wird auch als das erklärende (unabhängige) und Y als das erklärte

(abhängige) Merkmal bezeichnet. Dies ist in Abbildung 11 verdeutlicht.

Abbildung 11 Regressionsanalyse

Y = 10,4 + 0,55 * X

8

10

12

14

16

18

20

22

24

0 5 10 15

X-Achse: Überstunden


Achsenabschnitt a (hier 10,4)

Steigung der Gerade

b = 0,55

Ablesebeispiel: X = 10;

zugehöriger Y-Wert: 15,9

Eine solche Regressionsanalyse kann in Computerprogrammen sehr einfach erzeugt werden. In der Excel-

Datei in der beiliegenden Datei finden Sie diese Grafiken, die zugrunde liegenden Zahlen und Hinweise zur

Erstellung der Analysen.

Eine Regressionsanalyse bietet somit zwei praktische Möglichkeiten:

Ein Zusammenhang kann formal beschrieben werden (wie hängen X und Y zusammen?)

Es kann für gegebene X-Werte ausgerechnet werden, welche Y-Werte zu erwarten sind.

Anwendung finden Regressionsanalysen in verschiedensten Bereichen der betrieblichen

Praxis und sind sehr verbreitet.



Die Güte einer Regressionsanalyse bemisst sich daran, wie gut die Regressionsgrade den

tatsächlichen Zusammenhang beschreibt bzw. vorhersagt. Dies wird darin gemessen, wie

stark die einzelnen Beobachtungspunkte um die Gerade schwanken. Liegen alle Punkte auf

der Gerade, so ist die Regressionsschätzung perfekt. Liegen sie nahe neben der Grade, so

ist die Vorhersage, wie im obigen Beispiel, gut – je weiter die Werte von der Grade ent-

fernt liegen, desto „schlechter“ ist die Regression. Diese Darstellung erinnert an die des

Korrelationskoeffizienten und tatsächlich ist im bisher besprochen Fall der linearen Ein-

fachregression R2 = r2 (also das Quadrat des Korrelationskoeffizienten) ein Gütemaß für

die Regressionsanalyse. (Es wird allgemein als „R-Quadrat“ ausgesprochen, wobei dies als

Eigenname zu verstehen ist. Es gibt keine Zahl R, die dann quadriert wird, sondern das

Gütemaß heißt R2, bei machen Autoren aber auch B für Bestimmtheitsmaß). In Worten

sagt R2 aus, wie viel Prozent der Schwankungen der Y-Werte durch die X-Werte vorherge-

sagt werden. R2 liegt also zwischen 0 und 1 (0 < R2 < 1). Im obigen Beispiel ist in

Abbildung 10 das Gütemaß mit 93,9 Prozent angegeben, diese Beispielregression be-

schreibt die Daten also gut, was ja auch grafisch erkennbar ist.

In der Praxis sind allerdings die wenigsten zu untersuchenden Zusammenhänge so einfa-

cher Natur wie das obige Beispiel:

Der Zusammenhang kann nicht-linear sein, d.h. die Punktwolke kann nicht durch eine

Grade, sondern müsste durch eine Kurve beschrieben werden

Y hängt nicht genau von einer Erklärungsgröße X ab, sondern von mehreren.

Beide Erweiterungen des Regressionsmodells sind in der Praxis sehr gebräuchlich.

Abbildung 12 zeigt ein Beispiel für einen Zusammenhang zwischen einem abhängigen

Merkmal, der Absatzmenge eines Produktes und drei Einflussfaktoren, der Verkaufsfläche,

der Werbeausgaben und des Preises.

Gütemaß



Abbildung 12 Regressionsanalyse mit multiplen Einflussfaktoren

Multivariate Zusammenhänge Beispiel: Absatzzahlen eines Kosmetikartikels

Absatz-

Menge

Verkaufs-

Fläche

Werbe-

Ausgaben

Preis pro

Einheit

Stück qm TEuro Euro

i yi x1i x2i x3i

Nr Absatz Fläche Werbung Preis

1 2.500 2.000 120 7,00

2 1.850 1.000 107 10,00

3 1.750 1.000 99 9,95

4 1.450 800 70 11,50

5 950 300 50 13,00

6 2.200 1.200 102 8,00

7 1.800 800 110 8,00

8 1.950 1.000 92 9,00

9 1.650 1.200 87 10,00

10 1.900 1.300 79 9,95

y = 0,848x + 901,12

R2 = 0,788

0

500

1.000

1.500

2.000

2.500

3.000

0 500 1.000 1.500 2.000 2.500Verkaufs-FlächeM

enge

y = 17,043x + 238,85

R2 = 0,7327

0

500

1.000

1.500

2.000

2.500

3.000

0 20 40 60 80 100 120 140WerbeausgabenM

enge

y = -219,16x + 3912,7

R2 = 0,8636

0

500

1.000

1.500

2.000

2.500

3.000

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 18,00PreisM

en

ge

In Abbildung 12 sind zunächst die Ursprungsdaten und die drei einzelnen Regressionen

dargestellt. Anhand der Gütemaße ist zu erkennen, dass der Preis (mit einem R2 von 86,4

%) den höchsten Erklärungsgrad aufweist, die Verkaufsfläche (R2 = 78,8 %) den zweit-

höchsten und auch die Werbeausgaben (R2 = 73,3 %) einen messbaren Einfluss auf die

Absatzmenge haben.

Die inhaltliche Aussage kann der Steigung der Regressionsgraden bzw. dem Vorzeichen

von b entnommen werden: Während die Verkaufsfläche, ebenso wie die Werbeausgaben,

positiv auf die Absatzmenge wirken, hat der Preis einen negativen Einfluss. Das heißt: je

größer die Verkaufsfläche einer Filiale und je höher die dortigen Werbeausgaben, desto

höher der Absatz. Je höher jedoch der Preis des Produktes, desto weniger Einheiten werden

abgesetzt.

Dies kann auch in einer einzigen, multiplen Regression errechnet werden. Die Bestim-

mungsgleichung für den Absatz Y lautet dann:

Y = a + b1 * X1 + b2 * X2 + b3 * X3

oder hier: Absatz = a + b1 * Fläche + b2 * Werbung + b3 * Preis

Die Durchführung der multiplen Regression in Excel ergibt das folgende Ergebnis:

Absatz = 2398 + 0,4 * Fläche + 1,7 * Werbung – 123,8 * Preis

Damit wird in einer Gleichung das oben dargestellte Ergebnis beschrieben. Eine Erhöhung

der Verkaufsfläche erhöht den Absatz um das 0,4-fache, also z.B. 100 qm mehr Verkaufs-

fläche bringen im Durchschnitt 40 Stück mehr Umsatz. Die Erhöhung der Werbeausgaben

Lineare

Mehrfach-

regression



um 10 TEuro erhöht den Absatz um 17 Stück und eine Senkung des Preises um 1 Euro

würde zu einer Erhöhung des Absatzes um knapp 124 Stück führen. Damit ist auch eine

Rangfolge geeigneter Maßnahmen zur Absatzerhöhung erkennbar, die Preissenkung hat in

diesem Beispiel die stärkste Wirkung.

Regressionsanalysen finden in verschiedenen Varianten Anwendung. Die hier besprochene

lineare Regression wird oft auch als „KQ-Regression“ als Abkürzung für Kleinste-

Quadrate-Regression (weil mathematisch die Abstände zwischen den Beobachtungspunk-

ten und der Regressionsgrade quadriert werden und die Gerade dann so gewählt, dass die

Summe dieser quadrierten Abstände möglichst klein wird) oder OLS-Regression von der

englischen Bezeichnung „Ordinary Least Squares“-Regression.

Hinweise zur Durchführung von Regressionsrechnungen finden sich in der Excel-Datei.

1.5 Zeitreihenanalyse und Indexzahlen

Ein weiteres Anwendungsgebiet von Zusammenhangmaßen ergibt sich, wenn die Entwick-

lung eines Merkmals im Zeitablauf betrachtet werden soll, also quasi der Zusammenhang

zwischen diesem Merkmal und der Zeit.

Eine Zeitreihe wird dabei (künstlich) in mehrere Komponenten zerlegt:

Y = Trend-Komponente (+ Konjunktur-Komponente) + Saison-Komponente + Rest-Komponente

Beispielsweise seien Umsatzzahlen für die Quartale von 2005 bis 2008 (Tabelle 9) betrach-

tet, die in Abbildung 13 als Zeitreihe darstellt sind.

Tabelle 9 Zeitreihe einer Umsatzentwicklung (in Mio. Euro) Jahr 2005 2006 2007

Quartal 05-I 05-II 05-III 05-IV 06-I 06-II 06-III 06-IV 07-I 07-II 07-III 07-IV Zeitpunkt t 1 2 3 4 5 6 7 8 9 10 11 12

yt 20,8 23,1 22,9 21,7 24,0 26,3 26,1 24,9 27,2 29,5 29,3 28,1

Abbildung 13 Umsatzentwicklung im Zeitablauf

20,0

22,0

24,0

26,0

28,0

30,0

32,0

05-I 05-II 05-III 05-IV 06-I 06-II 06-III 06-IV 07-I 07-II 07-III 07-IV

Umsatzentwicklung als Zeitreihe

2005 20072006

y = 0,6993x + 20,871

R2 = 0,8051

20,0

22,0

24,0

26,0

28,0

30,0

32,0

05-I 05-II 05-III 05-IV

06-I 06-II 06-III 06-IV

07-I 07-II 07-III 07-IV

Umsatz TEuro

Prognose

Regression

Zeitreihe mit Trendgerade

2005 2006 20082007

Die linke Grafik in Abbildung 13 zeigt die Entwicklung des Umsatzes in den drei Jahren,

wobei erkennbar ist, dass sich in jedem Jahr eine recht regelmäßige Entwicklung wieder-

holt. Die saisonale Komponente zeigt ein Ansteigen des Umsatzes im 1. und 2. Quartal

sowie Rückgänge im 3. und 4. Quartal. Um diese Saisoneinflüsse zu bereinigen und den

Entwicklungstrend betrachten zu können, wird auch hier eine lineare Regression durchge-

führt, deren Ergebnis auf der rechten Seite von Abbildung 13 zu erkennen ist. Die Steigung



der Regressionsgerade ist positiv, d.h. der Umsatztrend geht über die drei Jahre nach oben,

die Rückgänge in der zweiten Jahreshälfte sind nur saisonbedingt.

Es ist erkennbar, dass die Trendkomponente eine Glättung der schwankenden Zeitreihe

darstellt und damit eine Referenzgröße für die Ermittlung der Saisoneinflüsse darstellen

kann. Als weitere Methode zur Glättung von Zeitreihen sind Gleitende Durchschnitte (Mo-

ving Average) üblich, bei der aus jeweils vier Quartalswerten ein Mittelwert gebildet wird.

Die hier verwendete Methode der linearen Trendfunktion hat dabei den Vorteil, dass der

Trend für alle Beobachtungszeitpunkte gebildet werden kann und auch Prognosen über

diesen Zeitraum hinaus vorgenommen werden können.

Diese Möglichkeit sowie die Saisonbereinigung sind in der Excel-Datei dargestellt.

Indexzahlen

Indexzahlen (oder Indizes) sind gewichtete arithmetische Mittelwerte aus Messzahlen. Be-

kannt ist etwa der Preisindex der Lebenshaltung, der durch das Statistische Bundesamt

veröffentlicht wird, aber auch Aktienindizes, wie z.B. der Dow-Jones oder der DAX. Hier

werden die Preisentwicklungen aller Güter und Dienstleistungen, die Haushalte im Durch-

schnitt verbrauchen, zu einer mittleren Preissteigerung zusammengefasst. Dabei werden

die (relativen) Mengen und daraus folgend die Ausgabenanteile für diese Produkte berück-

sichtigt.

Bei Zeitreihenanalysen werden anstelle der absoluten Werte oft Reihen von Indexzahlen verwendet. Diese werden dadurch gebildet, dass ein Basiszeitraum = 100 (Prozent) gesetzt

wird und alle anderen Werte im Bezug auf dieses Basisjahr umgerechnet werden. Entwick-

lungen von Preisen, Umsätzen, Marktanteilen können damit für verschiedene Merkmale

verglichen werden, die eine unterschiedliche absolute Höhe haben und deshalb (z.B. in

einer Grafik) nicht „zusammen passen“. Tabelle 10 zeigt hierfür ein Beispiel.

Tabelle 10 Entwicklung von Unternehmer- und Arbeitnehmereinkommen 1991-2006

Jahr Unternehmer Arbeitnehmer Unternehmer Arbeitnehmer Unternehmer Arbeitnehmer

1991 345,6 847,0 - - 100,0 100,0

1995 400,2 997,0 15,8% 17,7% 115,8 117,7

1996 411,1 1.006,6 2,7% 1,0% 119,0 118,8

1997 427,9 1.010,7 4,1% 0,4% 123,8 119,3

1998 433,8 1.032,3 1,4% 2,1% 125,5 121,9

1999 427,8 1.059,5 -1,4% 2,6% 123,8 125,1

2000 424,4 1.100,1 -0,8% 3,8% 122,8 129,9

2001 440,2 1.120,6 3,7% 1,9% 127,4 132,3

2002 447,8 1.128,3 1,7% 0,7% 129,6 133,2

2003 465,3 1.131,7 3,9% 0,3% 134,6 133,6

2004 513,8 1.136,8 10,4% 0,5% 148,7 134,2

2005 545,9 1.129,3 6,2% -0,7% 158,0 133,3

2006 585,5 1.144,9 7,3% 1,4% 169,4 135,2

239,9 297,9 1,0414 1,0235

Mrd. Euro Mrd. Euro

4,14% 2,35%

Index 1991 = 100

Durchschnittliche

Steigerungsrate* :

entspricht

Absolute Steigerung

1991-2006

in Mrd. Euro Steigerungsrate

Spaltenbezeichnungen: Unternehmer = Einkommen aus Unternehmertätigkeit und Vermögen

Arbeitnehmer = Arbeitnehmer-Einkommen

* Geometrisches Mittel (da Durchschnitt aus Steigerungsraten; vgl. Punkt 1.3) Quelle: eigene Berechnung aus: "Zahlen zur wirtschaftlichen Entwicklung der Bundesrepublik Deutschland"

des IW Köln und Statistisches Jahrbuch 2007, Tab. 6.1

Glättung

von

Zeitreihen-

werten

Index-

zahlen



Das Beispiel in Tabelle 10 zeigt den Unterschied zwischen absoluter und relativer Ent-

wicklung. Könnte auf Basis der ersten beiden Spalten formuliert werden, dass das Arbeit-

nehmereinkommen um mehr als den doppelten Betrag gestiegen ist, so zeigt sowohl die

Betrachtung der Steigerungsraten als auch der Indexzahlen, die so umgerechnet wurden

(Dreisatz), dass das Jahr 1991 den Wert 100,0 annimmt, das gegenteilige Ergebnis. Beide

Maßzahlen ergeben, dass die Einkommen aus Unternehmertätigkeit und Vermögen mit 2,9

Prozent stärker gestiegen sind als die Arbeitnehmer-Einkommen mit 2,4 Prozent.

Das Errechnen von Steigerungsraten oder Indexzahlen hat somit den Vorteil der besseren

Vergleichbarkeit. Auch lassen sich indizierte Werte besser in einer gemeinsamen Grafik

darstellen, wie die folgende Abbildung illustriert.

Abbildung 14 Einkommensentwicklung absolut und als Indexzahlen

0

200

400

600

800

1.000

1.200

1.400

19

91

19

95

19

96

19

97

19

98

19

99

20

00

20

01

20

02

20

03

20

04

20

05

20

06

Unternehmer Arbeitnehmer

80

90

100

110

120

130

140

150

160

170

1991

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

Unternehmer Arbeitnehmer

2 LITERATURHINWEISE UND WEITERE INFORMATIONEN

Aus der großen Menge guter Statistik-Bücher seien drei herausgegriffen, die jeweils prak-

tische Einführungen in die betriebliche Anwendung darstellen:

Bourier, Günther: „Beschreibende Statistik“ und „Wahrscheinlichkeitsrechung und Schließende Statistik“, Wiesbaden 2008

Backhaus, Erichson, Plinke, Weiber, „Multivariate Analysemethoden: Eine anwendungsorientierte Einführung“, Heidelberg, 2005

Krämer, Walter: ”Statistik verstehen” und: ”So lügt man mit Statistik”, München, 2001, 2000

Puhani, Josef: ”Statistik - Einführung mit praktischen Beispielen”, Würzburg 2005

Scharnbacher, Kurt: "Statistik im Betrieb", Wiesbaden 2004

Schwarze, Jochen: ”Grundlagen der Statistik”, Bände I und II, Herne/Berlin 2005/06

Spaß an der Statistik und trotzdem - oder eben deshalb - viele interessante Informationen

rund um das Thema und seine Anwendungen finden sich in:

Krämer, Walter: „So lügt man mit Statistik” und: „Statistik verstehen”, München 2001



Praktische Arbeit am PC wird mit folgendem sehr empfehlenswerten Buch erleichtert, da

es neben dem theoretischen Hintergrund auch die praktische Umsetzung in Excel zeigt,

Text und Hinweise auf CD-ROM mitliefert und vor allem durch den erfrischenden

Schreibstil die statistische Arbeit zur Freude macht:

Monka, Michael, Schöneck, Nadine und Voß, Werner: ”Statistik am PC - Lösungen mit Ex-

cel”, München 2008

Weitere Information zur (amtlichen) Statistik sowie interessante Datengrundlagen können

im Internet gefunden werden. Wichtige Web-Adressen mit (betriebs-) wirtschaftlich rele-

vanten Informationen finden sich z.B. auf meiner Webseite: http://www.fbw.hs-

bremen.de/pschmidt - unter „links“.

3 SCHLAGWORTINDEX

Deskriptive Statistik .............4

Diskrete Merkmale...............5

Glättung..............................18

Gütemaß .............................15

Häufigkeiten Histogramm......................8 prozentuale Häufigkeiten..7 relative Häufigkeiten ........7 Summenhäufigkeit............8

Indexzahlen ........................18

Induktive Statistik ................4

Klassenbildung.....................7

Kontingenzkoeffizient........13

Korrelationskoeffizient.......12

Merkmale .............................4

Mittelwerte .....................9, 13 arithmetisches Mittel ........9 geometrisches Mittel.........9 Median..............................9 Modus ...............................9

Regression multiple Regression ........16 Regressionsanalyse.........14 Regressionsgrade ............14

Schwankung .........................9

Skalierung ............................5

Stetige Merkmale .................5

Stichprobe.............................4

Streuung ...............................9

Streuungsmaße DAA ...............................10 Spannweite......................10 Standardabweichung.......10 Varianz ...........................10

Zeitreihe .............................17 Trend(gerade) .................17

Zusammenhangmaße..........13


SoSe 2008

Volkswirtschaftslehre und Statistik

: (0421) 5905-4691 Fax: (0421) 5905-4862

[email protected] www.fbw.hs-bremen.de/pschmidt

Quantitative Methoden

Master of Business Administration

Modul 2, Unit 2

Teil 2:

Ablauf einer statistischen Untersuchung

Fallbeispiel Studierendenbefragung

Quantitative Methoden Seite 21


Ablauf einer statistischen Untersuchung

Worum geht’s ? Arbeiten mit statistischen Methoden bedeutet nicht nur „dressieren von Zahlen“, sondern vor allem die präzise Planung und Durchführung realitätsbezogener Analysen

1. Planung1

• Aufgabenstellung Wer Will Was ?

• Zielsetzung Eigenes Ziel: gestellte Aufgabe mit ge-ringstmöglichem Aufwand lösen

• Kosten- und Zeitrahmen Welche Mittel und Welche Zeit stehen maxi-

mal zur Verfügung ?

2. Datenerhebung

2.1. Erhebungstechnik:

• Primärerhebung = Durchführen einer eigenen Befragung

• Sekundärstatistik = Nutzung vorhandener Daten

Primärstatistik Sekundärstatistik

Kosten hoch niedrig

Zeitaufwand hoch niedrig

Zielbezug stark teilweise eingeschränkt

Aktualität aktuell i.d.R. weniger aktuell

2.2. Erhebungsumfang:

Festlegung der Befragten (bzw. zu Befragenden):

• Vollerhebung ⇒ gesamte Gruppe befragen

• Teilerhebung ⇒ Stichprobe aus der Grundgesamtheit notwendig!

Die Stichprobentheorie wird in Abschnitt 8.1

der Vorlesung behandelt

Vollerhebung Teilerhebung

Kosten hoch niedrig

Zeitaufwand hoch niedrig

Aktualität aktuell i.d.R. weniger aktuell

Messgenauigkeit hoch teilweise geringer

Durchführbarkeit oft nicht möglich immer möglich

1 Die Darstellungen und Tabellen dieses Abschnitts basieren teilweise auf Bourier „Beschreibende Statistik“ (2000, S. 25 ff).



2.3. Art der (Primär-) Erhebung:

• Beobachtung Messung, Zählungen, Sachverständige, usw.

• Schriftliche Befragung Fragebogen

• Mündliche Befragung Interview (telefonisch oder persönlich)

Beobachtung schriftliche Befragung

mündliche Befragung

Kosten eher niedrig eher niedrig eher hoch

Zeitaufwand eher niedrig eher niedrig eher hoch

Aktualität aktuell teilweise lange

Rücklaufzeiten

recht aktuell

Befragungstiefe eher oberflächlich detaillierter detailliert durch

Nachfragen

3. Datenaufbereitung

• Aufbereitung von Fragebogen / Interviewnotizen

• Eingabe in EDV (Statistikprogramm)

• Kontrolle (Vollständigkeit, Glaubwürdigkeit)

4. Auswertung und Darstellung der Daten – Datenanalyse

• Hauptaufgabe ist die „Verdichtung“ der Information

d.h. reduzieren der großen Menge der Rohdaten (Urliste)

auf wenige, aussagekräftige Kennzahlen.

• Die dazu relevanten Methoden werden v.a. im ersten Teil der Vorlesung, der

„Beschreibenden Statistik“ behandelt.

• Analyse:

Wie aus dem Datenmaterial über die reine Beschreibung der Daten hinaus

durch statistische Schlussfolgerungen gezogen werden, behandelt vor allem

der zweite Teil der Vorlesung, der „Schließende Statistik“.

5. Interpretation

• Die Erläuterung und Interpretation der Analyse des Datenmaterials und der

daraus gezogenen Schlüsse ist der Kern der empirischen Arbeit.

• Wenn Sie für einen Auftraggeber oder einen Vorgesetzten eine Statistik aufbe-

reiten sollen, reicht diesem nicht die Sammlung und Darstellung der Daten,

sondern die Kernfragen: „Was bringt die Analyse?“, „Was haben wir ge-

lernt?“ stehen im Zentrum des Interesses.



Fallbeispiel: Durchführung einer empirischen Untersuchung

Aufgabenstellung

Fallbeispiel:

Planung und Durchführung einer empirischen Untersuchung

Sie sind nach erfolgreich abgeschlossenem Studium MitarbeiterIn der R&H Marktfor-

schung.

Ihrem Unternehmen liegen drei Anfragen von verschiedenen Auftraggebern vor. Sie ha-

ben die Aufgabe, eine empirische Untersuchung durchzuführen, mit der alle 3 Anfragen

beantwortet werden können.

Die Anfragen:

1. Verkehrsträgergesellschaft VBX:

„Für die Planung unserer Streckenführung und Produktpolitik benötigen wir Informationen,

a) welche Studierenden welche Verkehrsmittel benutzen, um zur Hochschule zu kom-

men

b) welches ggf. die Hinderungsgründe für Nicht-Nutzung des ÖPNV sind.“

2. HSC - Hochschule einer norddeutschen Hansestadt:

„Für die Planung von Wohnheimen benötigen wir Informationen darüber, in welchen

Wohnformen Studierende wohnen.“ ...

Für ihr Hochschulmarketing möchte die HSC möglichst genau wissen, welche Studieren-

den eingeschrieben sind („Soziodemographika“: Geschlecht, Bildung, Beruf, praktische

Erfahrung, berufliche Tätigkeiten neben dem Studium, Gesundheit, ... usw.), was diese

sich von ihrem Studium erwarten und auch, wie sie auf die Hochschule aufmerksam ge-

worden sind.

3. Gleichzeitig möchte der Dozent S. in seiner Statistikveranstaltung den Studierenden

gerne Beispieldaten zur eigenen Bearbeitung zur Verfügung stellen.

Dazu benötigt er Informationen darüber, ob den Studierenden privat PC’s zur Verfü-

gung stehen, ob sie ein Tabellenkalkulationsprogramm (z.B. Excel) oder ein Statistik-

Programm zur Verfügung haben und über Kenntnisse im Umgang damit verfügen.

Wie könnte eine statistische Untersuchung dieser Fragestellungen durch die R&H

aussehen (Art der Erhebung)?

An welchen Stellen greifen die Fragestellungen ineinander?

Welche Probleme sehen Sie bei der Auswertung der Daten bzw. welche Besonderhei-

ten müssen Sie beachten?

Diskutieren Sie diese Fragen in Arbeitsgruppen, die sich mit einer der Fragestellungen

befassen und stellen Sie Ihre Ergebnisse anschließend im Plenum vor.



Fragebogen an die Studierenden des 1. Semesters (nur zum vorlesungsinternen Gebrauch – bitte keinen Namen angeben)

1. Studiengang: 2. Fachsemester: 3.Geschlecht w (1) m(0) 4.Alter: 5.Wohnheimwunsch?

6. Gewicht: 7. Körpergröße: 8. Familienstand: 9. Anzahl Kinder:

10. höchster Bildungsabschluss: Abitur (1) Fachabitur (2) Sonstig. (3)

11. abgeschlossene Berufsausbildung ? Ja (1) Nein (0)

12. Wie lange waren Sie vor Ihrem Studium bereits berufstätig? (Jahre; 0 = Nein)

13. Wenn Sie berufstätig waren:

angestellt (1) selbständig (2) freiberuflich (3)

14. Geburtsort: Bremen (1) Ausland

(20) sonst. D → bitte Bundesland: ........

(2-15)

15. Entfernung (km) Wohnung → HSB

16. Wegzeit (Min) Wohnung → HSB

17. Wichtigstes Verkehrsmittel: für Weg zur Hochschule

18. Weiteres Verkehrsmittel: (bitte je nur ein wichtigstes und ein zweites)

19. Wohnort (Stadt/Gemeinde): + Bremen - City / Wall /Bhf. / ¼ (1) - rechts der Weser West (Gröpell.-Findorff) (2) NO (Schwachh-Horn-Lehe) (3) Ost (4) - links der Weser (5) - Bremen Nord (6) + 50 km umzu (7) + sonstig (8)

20. Nicht-ÖPNV-Nutzer (d.h. 17. Ist nicht Bus / Bahn):

Gründe für Nicht-Nutzung: Zu teuer (1)

Zu langsam (Fahrt) (2) Wartezeiten (3) Erreichbarkeit (4) Umbequemlichkeit (5) sonstiges (6)

21. Aufmerksam geworden auf HS: über Schule (1) Studienführer (2) Veranstaltungen der HS (3) Werbung der HS (4) Zeitung / Medien (5) ....................... (6) sonstiges (7): und zwar: ................................

22. Wohnung: eigenständig (allein / (1) mit PartnerIn / Familie) WG (2) Untermiete (3) Eltern (4) sonstiges (5)

23. Computer privat verfüg-bar: keinen (0) PC (1) wenn bis 486er (1 a) bekannt: Pentium unter 400 Mhz (1 b) Pentium mit mehr als 400 Mhz (1 c)

andere (3)

24. Programme verfügbar: Textverarbeitung (24-1) Tabellenkalkulation (24-2) Grafikprogramm (24-3) Statistikprogramm (24-4)

priv. Internet-Zugang (24-5)

25. Nebenjob J (1) N (0) 26. Einkommen (in 100 Euro)

27. BaFöG J (1) N (0)

Kenntnisse in den folgenden Programmen bitte in einem der Felder ankreuzen (nicht dazwischen) keine wenig ... ... sehr viel 28. Textverarbeitung 29. Tabellenkalkulation 30. Präsentationsprogramm 31. Statistikprogramm 32. Internet-Anwendung 33. Internet-Programmierung (HTML, Java)

0 1 2 3 4

Genaueres zur Tabellenkalkulation Excel: -- Können Sie die folgenden Operationen durchführen: und wie sicher wären Sie sich dabei ? Nein unsicher ... ... sehr sicher 34. Addieren von Zahlen 35. Formeln verwenden 36. Tabelle (für Druck) formatieren 37. Erstellen eines Diagrammes 38. Anlegen einer Pivot-Tabelle 39. (Auto-) Filter benutzen 40. Statistische Auswertungen

41. Erwartungen an das Studium (→ Rückseite)



Datenaufbereitung

Auswertung: Erster Schritt: Codierung der verbalen Antworten.

Zur Eingabe in ein Statisik-Programm (oder wie hier die Ta-bellenkalkulati-on Excel) müs-sen verbale An-gaben in Zah-lenwerte umge-wandelt werden. Dieser Schritt heißt Codie-rung.

Codierung für Fragebogen Statistik I 21. Aufmerksam 14. Bundesländer 1.Studiengänge geworden über

1 Bremen 1 BW 1 Schule

2 Bayern 2 EFA 2 Studienführer

3 Berlin 3 ISVW 3 Veranst. HS

4 Brandenburg sonstige bitte direkt eintragen 4 Werbung HS

5 Baden-Württemberg 5 Zeitung/Medien

6 Hamburg 17/18. Verkehrsmittel 6 Internet

7 Hessen 1 Bus / Straßenbahn 7

8 Mecklenburg-Vorpommern 2 Bahn (DB) 8

9 Niedersachsen 3 Fahrrad 9 sonstiges

10 Nordrhein-Westfalen 4 zu Fuß (bei Mehrfachnennung alle Zahlen (z.B. 124))

11 Rheinland-Pfalz 5 Auto sonstiges bitte in

12 Saarland 6 sonstiges Textfelder eintragen

13 Sachsen 41. Erwartungen an Studium14 Sachsen-Anhalt Mehrfachnennungen: 41.1 praxisorientierter Stoff

15 Schleswig-Holstein 41.2 Möglichst guten Job

16 Thüringen 41.3 Interessante Inhalte

41.4 Allgemeinwissen

20 Ausland 41.5

....

41.9 sonstiges

Eingabe der Daten.

Frage 1 2 3 4 5 6 7 8 9 10

Übung Stud-GangSemester Geschlecht Alter Raucher Gewicht Groesse FamStandKinder Bildung

1 0 1 1 1 19 0 65 179 1 0 2

2 0 1 1 1 20 1 57 170 1 0 2

3 0 1 1 1 22 0 64 166 1 0 2

4 0 1 1 1 23 1 57 171 1 0 2

5 0 1 1 1 20 0 46,5 163 1 0 1

6 0 1 1 0 29 1 72 182 0 1 2

7 1 3 1 0 20 0 72 185 1 0 2

8 1 3 1 0 26 0 83 170 0 1 1

9 1 3 1 1 19 0 56 178 1 0 1

10 1 3 1 0 21 0 92 192 1 0 1

11 1 3 1 0 22 0 65 173 1 0 1

12 1 3 1 0 21 0 69 180 1 0 1

13 1 3 1 0 21 1 69 178 1 0 1

14 1 3 1 0 21 1 76 180 1 0 1

15 1 3 1 0 26 1 84 180 1 0 3

16 1 3 1 1 20 0 65 166 1 0 1

17 1 3 1 1 25 0 46 164 1 0 3

18 1 3 1 0 22 1 85 188 1 0 1

19 1 1 1 0 24 0 86 198 1 0 1

20 2 1 1 0 24 0 65 178 1 0 1

21 2 1 1 0 24 0 83 193 1 0 2

22 2 1 1 24 1 70 180 1 0 2

In jeder Zeile befindet sich ein Datensatz, d.h. eine befragte Person. In jeder Spalte finden sich die Angaben zu einer bestimmten Frage. Deshalb beinhalten die Spaltenköpfe die Fragennummern und die Bezeichnung der Merkmale.



Analyse der Daten durch statistische Maße - Möglichkeiten in Excel (2003)

Einfache Statistische Maße

In der Excel-Datei (www.fbw.hs-bremen.de/pschmidt/FraBoDat2001.xls) ist diese Tabelle noch ausführli-cher:

• in den obersten Zeilen werden einfache beschreibende Statistiken dargestellt (Anm: Anmerkung zu diesem Merkmal“; MW: (arithmetischer) Mittelwert; Antworten: Anzahl der gültigen Antworten auf diese Frage; Min: Kleinster Wert; Max: Größter Wert; StAbw: Standardabweichung)

• Es wurden Spalten mit verbalen Erläuterungen und „Indikatormerkmalen“ eingefügt. Ein Indikatormerkmal nimmt den Wert 1 an, wenn ein Merkmal gegeben ist, sonst ist es 0. Beispiel Geschlecht: eine 1 in der dritten Spalte bedeutet, dass diese Zeile die Angaben einer Studentin bein-halten.

Frage 1 1.1 1.2 1.3 2 2.a 3 3-T 4 4-Text 4.1 4.2 4.3

Stud-GangStudGangSg_BW Sg_Efa Sg_VW Semester ErstSemesterGeschlecht GeschlechtTAlter AltersgruppeA_bis22 A_23-25 A_26+

Anm (1-3) 1. Sem 1=weiblich (3 Klassen)

MW 0,74 0,19 0,07 1,07 0,97 0,47 23,16 0,41 0,43 0,16

Antworten 163 163 163 163 152 152 162 160 164 160 160 160

Min 1 0 0 0 1 0 0 18 0 0 0

Max 3 1 1 1 5 1 1 32 1 1 1

StAbW 0,44 0,39 0,26 0,46 0,16 0,50 2,65 0,49 0,50 0,36

Nr Stud-GangStudGangSg_BW Sg_Efa Sg_VW Semester ErstSemesterGeschlecht GeschlechtTAlter AltersgruppeA_bis22 A_23-25 A_26+

1 1 BW 1 0 0 1 1 1 weiblich 19 22-jünger 1 0 0



4 1 BW 1 0 0 1 1 1 weiblich 23 23-25 0 1 0


6 1 BW 1 0 0 1 1 0 männlich 29 26++ 0 0 1

7 3 ISVW 0 0 1 1 1 0 männlich 20 22-jünger 1 0 0

8 3 ISVW 0 0 1 1 1 0 männlich 26 26++ 0 0 1

9 3 ISVW 0 0 1 1 1 1 weiblich 19 22-jünger 1 0 0






15 3 ISVW 0 0 1 1 1 0 männlich 26 26++ 0 0 1

Pivot-Tabellen

Ein wesentliches Mittel zur Analyse von Daten in Excel sind Pivot-Tabellen. In Excel finden Sie diese im Menü Daten - PivotTable. Es sind Zeilen, Spalten und Inhalt der Tabellen anzugeben. Interessieren wir uns beispielsweise für die Anzahl der Befragten nach Alter und Geschlecht, bietet sich ein solches Tabellenlayout an:



Die Pivot-Tabelle zeigt dann folgende Auszählung:

Anzahl - Nr Altersgruppe

GeschlechtT 22-jünger 23-25 26++ Gesamtergebnis

weiblich 41 25 9 75

männlich 25 44 16 85

Gesamtergebnis 66 69 25 160

Also 160 Befragte (eigentlich 164, aber nur 160 haben Alter und Geschlecht angegeben), von denen 85 Männer waren, 9 Frauen über 25 Jahre, usw.) Diese Darstellung von Anzahlen wird in der Statis-tik als absolute Häufigkeit bezeichnet.

Wir könnten den Inhalt der Tabelle auch an (Prozent-) Anteile darstellen lassen.

Anzahl - Nr Altersgruppe


weiblich 62% 36% 36% 47%

männlich 38% 64% 64% 53%

Gesamtergebnis 100% 100% 100% 100%

Diese Darstellung von Anzahlen wird in der Statistik als relative Häufigkeit (hier dargestellt als „Zeilenprozente“) bezeichnet.

In Pivot-Tabellen können aber auch Anteile, Mittelwerte, Schwankungsmaße u.a. angegeben wer-den. Dies sind zwar Maße, die erst im weiteren Verlauf der Vorlesung behandelt werden, aber neh-men wir den allgemein bekannten Mittelwert (das „arithmetische Mittel“), zum Beispiel den des Merkmals „Berufsausbildung“:

Mittelwert - Berufsausb.Altersgruppe


weiblich 44% 84% 78% 61%

männlich 12% 88% 88% 65%

Gesamtergebnis 32% 87% 84% 64%

Zur Interpretation dieser Anteilswerte ist zu beachten, dass das Merkmal Berufsausbildung ein „In-dikatormerkmal“ ist, ein Merkmal, das nur die Werte 0 oder 1 annehmen kann. Der Wert 1 steht für die Ausprägung „Ja“, der Wert 0 entsprechend für die Ausprägung „Nein“. Der Mittelwert eines Indikatormerkmals gibt direkt den Anteil der Personen mit Berufsausbildung an. Solche Mittelwerte von Indikatormerkmalen (oder auch „Indikatorvariablen“) werden wir im folgenden sehr oft anschauen, einfach weil es so praktisch ist, gleich mit dem Mittelwert den Anteil der Befragten zu erhalten, die ein bestimmtes Merkmal haben.

Wenn Sie sich die große Tabelle der folgenden Seiten anschauen, sehen Sie, dass dort sogar eine ganze Menge von Merkmalen so „umcodiert“ wurden, dass sie wieder Indika-tormerkmale sind. Beispielsweise das Alter, das in die drei Indikatorvariablen „A_bis22“, „A_23bis25“ und „A_26plus“ umgewandelt wurde. Die Prozentanteile 0,41; 0,49 und 0,16 addieren sich naturgemäß zu 100. Analog wurde mit dem Bildungsabschluss „B_...“, dem Berufsstatuts „St_...“, dem Geburtsort „G_...“ verfahren. Viel Spaß beim Daten-stöbern.

Wir dürfen gespannt sein, ob die Ergebnisse der diesjährigen Befragung anders sind ...



Mittelwerte der abgefragten Merkmale nach Gruppen von Befragten

MW: (arithmetischer) Mittelwert; Antworten: Anzahl der gültigen Antworten auf diese Fra-ge; Min: Kleinster Wert; Max: Größter Wert; StAbw: Standardabweichung. Danach folgen die Mittelwerte nach Studienrichtung, Geschlecht, Alter, usw. In der Zwei-ten Zeile finden Sie die Anzahl der Personen, die dieses Merkmal erfüllten, Bsp: 120 BW-Studierende, .... 67 Personen haben ein Arbeitseinkommen.

Alle Befragten BW Efa VW Frauen Männer bis 22 J. 23-25 J. ab 26 J.

Berufs-

Ausb.

BAFöG-

Empf.

Arb.

Eink.

FrNr. Frage Anm MW Antworten Min Max StAbW 120 31 12 76 86 66 69 25 103 40 67

1.1 Sg_BW 0,74 163 0 1 0,44 1,00 0,00 0,00 0,76 0,71 0,62 0,80 0,84 0,80 0,75 0,79

1.2 Sg_Efa 0,19 163 0 1 0,39 0,00 1,00 0,00 0,20 0,19 0,24 0,19 0,08 0,19 0,20 0,10

1.3 Sg_VW 0,07 163 0 1 0,26 0,00 0,00 1,00 0,04 0,10 0,14 0,01 0,08 0,01 0,05 0,10

2 Semester 1,07 152 1 5 0,46 1,10 1,00 1,00 1,13 1,02 1,00 1,00 1,48 1,09 1,00 1,11

2.a ErstSemester 1. Sem 0,97 152 0 1 0,16 0,96 1,00 1,00 0,96 0,99 1,00 1,00 0,83 0,97 1,00 0,97

3 Geschlecht 1=weiblich 0,47 162 0 1 0,50 0,49 0,48 0,25 1,00 0,00 0,62 0,36 0,36 0,46 0,35 0,43

4 Alter 23,16 160 18 32 2,65 23,6 22,1 22,0 22,56 23,69 20,76 23,88 27,52 24,22 23,50 23,21

4.1 A_bis22 0,41 160 0 1 0,49 0,35 0,52 0,75 0,55 0,29 1,00 0,00 0,00 0,21 0,28 0,45

4.2 A_23-25 0,43 160 0 1 0,50 0,47 0,42 0,08 0,33 0,52 0,00 1,00 0,00 0,58 0,50 0,37

4.3 A_26+ 0,16 160 0 1 0,36 0,18 0,06 0,17 0,12 0,19 0,00 0,00 1,00 0,21 0,23 0,18

5 Raucher 1=Ja 0,33 161 0 1 0,47 0,36 0,20 0,33 0,34 0,33 0,29 0,43 0,20 0,37 0,50 0,40

6 Gewicht 69,6 152 27 105 12,88 70,1 66,3 71,8 60,80 76,83 65,20 73,92 70,39 70,72 73,93 70,82

7 Groesse 176,2 159 152 202 9,10 176,4 174,4 177,8 170,2 181,5 173,9 178,1 177,0 176,9 177,8 176,3

8 FamStand ledig=1 0,93 161 0 1 0,25 0,91 1,00 0,92 0,93 0,94 1,00 0,94 0,76 0,93 0,95 0,94

9 Kinder 0,06 161 0 2 0,26 0,07 0,00 0,08 0,05 0,06 0,00 0,03 0,25 0,07 0,03 0,04

10.1 Bild_Abi 0,58 162 0 1 0,50 0,52 0,77 0,75 0,67 0,51 0,68 0,56 0,36 0,50 0,38 0,58

10.2 Bild_Fach 0,38 162 0 1 0,49 0,44 0,23 0,08 0,26 0,47 0,32 0,38 0,52 0,45 0,58 0,37

10.3 Bild_Son 0,04 162 0 1 0,20 0,04 0,00 0,17 0,07 0,02 0,00 0,06 0,12 0,05 0,05 0,04

11 Berufsausb. 1=Ja 0,64 162 0 1 0,48 0,69 0,65 0,08 0,62 0,65 0,32 0,87 0,84 1,00 0,78 0,64

12 BerufsDauer Jahre 1,8 157 0 13 2,50 2,05 0,97 1,23 1,71 1,89 0,68 1,96 4,44 2,53 2,50 1,89

13.1 St_ang 0,96 91 0 1 0,21 0,99 0,84 1,00 0,93 0,98 0,90 0,96 1,00 0,98 1,00 0,97

13.2 St_selb 0,01 91 0 1 0,10 0,01 0,00 0,00 0,02 0,00 0,00 0,02 0,00 0,01 0,00 0,00

13.3 St_freiber 0,03 91 0 1 0,18 0,00 0,16 0,00 0,05 0,02 0,10 0,02 0,00 0,01 0,00 0,03

14.1 G_HB 0,39 163 0 1 0,49 0,45 0,32 0,08 0,36 0,43 0,35 0,52 0,20 0,48 0,30 0,46

14.2 G_NS 0,23 163 0 1 0,42 0,24 0,16 0,17 0,24 0,22 0,18 0,22 0,40 0,28 0,43 0,28

14.3 G_sonstD 0,21 163 0 1 0,41 0,13 0,48 0,33 0,25 0,17 0,32 0,10 0,24 0,15 0,13 0,15

14.4 G_Ausl 0,17 163 0 1 0,38 0,18 0,03 0,42 0,16 0,17 0,15 0,16 0,16 0,10 0,15 0,10

15 EntfWohn 16,0 146 1 100 16,77 15,8 17,3 11,1 16,58 15,09 14,45 16,80 15,96 17,20 17,36 13,71

16 WegZeit 30,0 161 3 90 18,38 30,3 28,5 26,5 30,20 29,19 30,17 29,18 30,04 30,75 33,20 27,42

17.1 V_Bus 0,46 162 0 1 0,50 0,44 0,48 0,67 0,49 0,44 0,49 0,41 0,48 0,42 0,51 0,36

17.2 V_Bahn 0,23 162 0 1 0,42 0,23 0,29 0,00 0,24 0,21 0,18 0,28 0,20 0,28 0,28 0,17

17.3 V_Fahrrad 0,09 162 0 1 0,29 0,09 0,10 0,08 0,12 0,07 0,11 0,09 0,08 0,11 0,08 0,17

17.4 V_Fuß 0,01 162 0 1 0,11 0,01 0,03 0,00 0,00 0,02 0,02 0,01 0,00 0,01 0,00 0,00

17.5 V_Auto 0,20 162 0 1 0,40 0,22 0,10 0,25 0,15 0,24 0,18 0,21 0,24 0,19 0,13 0,30

17.6 V_sonst 0,01 162 0 1 0,08 0,01 0,00 0,00 0,00 0,01 0,02 0,00 0,00 0,00 0,00 0,00

18.1 V2_Bus 0,41 125 0 1 0,49 0,36 0,52 0,50 0,49 0,33 0,42 0,38 0,41 0,40 0,40 0,35

18.2 V2_Bahn 0,11 125 0 1 0,32 0,11 0,16 0,00 0,11 0,12 0,10 0,12 0,14 0,12 0,13 0,09

18.3 V2_Fahrrad 0,18 125 0 1 0,39 0,19 0,20 0,10 0,14 0,22 0,13 0,26 0,14 0,18 0,17 0,20

18.4 V2_Fuß 0,05 125 0 1 0,21 0,06 0,04 0,00 0,07 0,03 0,06 0,04 0,05 0,04 0,00 0,04

18.5 V2_Auto 0,22 125 0 1 0,42 0,26 0,08 0,30 0,18 0,27 0,23 0,20 0,27 0,23 0,30 0,26

18.6 V2_sonst 0,01 125 0 1 0,09 0,00 0,00 0,10 0,00 0,01 0,02 0,00 0,00 0,00 0,00 0,02

19.1 W_City 0,20 162 0 1 0,40 0,22 0,21 0,08 0,23 0,19 0,20 0,22 0,20 0,20 0,23 0,25

19.2 W_West 0,09 162 0 1 0,28 0,08 0,07 0,08 0,09 0,08 0,08 0,09 0,08 0,07 0,13 0,06

19.3 W_NO 0,19 162 0 1 0,39 0,18 0,24 0,17 0,20 0,18 0,20 0,13 0,28 0,17 0,15 0,15

19.4 W_Ost 0,10 162 0 1 0,31 0,10 0,07 0,25 0,08 0,13 0,14 0,10 0,04 0,07 0,08 0,12

19.5 W_links 0,10 162 0 1 0,31 0,10 0,03 0,33 0,08 0,12 0,13 0,09 0,08 0,10 0,08 0,15

19.6 W_Nord 0,04 162 0 1 0,19 0,05 0,00 0,00 0,04 0,04 0,03 0,04 0,04 0,04 0,10 0,00

19.7 W_umzu 0,24 162 0 1 0,43 0,23 0,34 0,08 0,23 0,25 0,17 0,29 0,28 0,32 0,20 0,25

19.8 W_sonst 0,04 162 0 1 0,19 0,04 0,03 0,00 0,05 0,02 0,05 0,04 0,00 0,04 0,05 0,01

Mittelwerte nach Gruppen



Alle Befragten BW Efa VW Frauen Männer bis 22 J. 23-25 J. ab 26 J.

Berufs-

Ausb.

BAFöG-

Empf.

Arb.

Eink.

FrNr. Frage Anm MW Antworten Min Max StAbW 120 31 12 76 86 66 69 25 103 40 67

20.1 NoÖV_teuer 0,10 52 0 1 0,30 0,10 0,00 0,25 0,00 0,17 0,05 0,05 0,38 0,09 0,09 0,10

20.2 NoÖV_langsam 0,46 52 0 1 0,50 0,46 0,33 0,75 0,43 0,48 0,55 0,36 0,50 0,38 0,27 0,52

20.3 NoÖV_WarteZeit 0,42 52 0 1 0,50 0,41 0,33 0,75 0,22 0,59 0,36 0,45 0,50 0,29 0,45 0,38

20.4 NoÖV_Erreichb. 0,12 52 0 1 0,32 0,12 0,00 0,00 0,17 0,07 0,09 0,14 0,13 0,09 0,18 0,10

20.5 NoÖV_unbequem 0,40 52 0 1 0,50 0,41 0,17 0,75 0,22 0,55 0,32 0,50 0,38 0,32 0,27 0,34

20.6 NoÖV_sonst 0,17 52 0 1 0,38 0,17 0,33 0,00 0,22 0,14 0,18 0,18 0,13 0,21 0,18 0,17

21.1 Auf_Schule Ja 0,16 162 0 1 0,37 0,20 0,00 0,17 0,11 0,21 0,14 0,18 0,20 0,14 0,15 0,18

21.2 Auf_StFührer Ja 0,27 162 0 1 0,45 0,26 0,32 0,25 0,30 0,23 0,33 0,25 0,08 0,23 0,26 0,24

21.3 Auf_HSB Ja 0,08 162 0 1 0,27 0,09 0,06 0,08 0,11 0,06 0,03 0,13 0,08 0,12 0,13 0,08

21.4 Auf_Werb Ja 0,06 162 0 1 0,23 0,06 0,03 0,08 0,07 0,05 0,08 0,01 0,12 0,07 0,03 0,06

21.5 Auf_Medien Ja 0,06 162 0 1 0,24 0,04 0,16 0,00 0,07 0,06 0,11 0,04 0,00 0,04 0,03 0,03

21.6 Auf_WWW Ja 0,07 162 0 1 0,25 0,03 0,16 0,25 0,09 0,05 0,11 0,04 0,04 0,04 0,05 0,05

22.1 WO_Eigen 0,40 163 0 1 0,49 0,46 0,27 0,17 0,32 0,48 0,23 0,42 0,80 0,48 0,40 0,43

22.2 WO_WG 0,16 163 0 1 0,37 0,10 0,33 0,33 0,19 0,14 0,22 0,13 0,12 0,13 0,20 0,19

22.3 WO_Unt 0,04 163 0 1 0,20 0,02 0,10 0,17 0,07 0,02 0,06 0,01 0,04 0,01 0,05 0,01

22.4 WO_Eltern 0,37 163 0 1 0,49 0,41 0,23 0,33 0,40 0,35 0,46 0,42 0,04 0,37 0,35 0,34

22.5 WO_sonst 0,02 163 0 1 0,13 0,01 0,07 0,00 0,03 0,01 0,03 0,01 0,00 0,02 0,00 0,01

23.1 Kein_PC keinen 0,12 157 0 1 0,33 0,11 0,10 0,18 0,18 0,06 0,13 0,15 0,00 0,09 0,11 0,11

23.2 PC_allg(486 oder unbekannt)Ja 0,13 158 0 1 0,34 0,14 0,10 0,17 0,19 0,08 0,14 0,11 0,16 0,14 0,11 0,13

23.3 P-400 Ja 0,36 158 0 1 0,48 0,38 0,31 0,33 0,30 0,42 0,33 0,35 0,52 0,40 0,38 0,36

23.3 P400++ Ja 0,27 158 0 1 0,45 0,24 0,34 0,33 0,15 0,39 0,27 0,32 0,20 0,27 0,30 0,27

23.4 PC_Mac Ja 0,00 158 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

23.5 PC_anders Ja 0,11 158 0 1 0,32 0,12 0,14 0,00 0,19 0,05 0,14 0,08 0,12 0,10 0,11 0,13

24.1 Pg_Text Ja 0,88 162 0 1 0,32 0,89 0,84 1,00 0,88 0,91 0,88 0,87 1,00 0,91 0,83 0,90

24.2 Pg_Tabk Ja 0,78 162 0 1 0,42 0,79 0,77 0,67 0,71 0,86 0,74 0,78 0,96 0,84 0,75 0,82

24.4 Pg_Grafik Ja 0,51 162 0 1 0,50 0,56 0,45 0,25 0,49 0,53 0,45 0,50 0,72 0,53 0,50 0,58

24.5 Pg_Stat Ja 0,08 162 0 1 0,27 0,10 0,03 0,00 0,11 0,06 0,06 0,07 0,16 0,10 0,08 0,12

24.6 Pg_InterNet Ja 0,65 162 0 1 0,48 0,62 0,65 0,92 0,60 0,71 0,59 0,62 0,96 0,69 0,55 0,73

25 Arbeit Ja 0,49 138 0 1 0,50 0,52 0,28 0,58 0,45 0,51 0,52 0,42 0,63 0,49 0,50 1,00

26 Einkommenin 100 DM-Kl. 3,42 90 0 150 15,92 4,51 0,87 0,85 1,48 4,71 2,03 5,47 1,87 4,66 1,29 4,55

27 BAFöG Ja 0,30 132 0 1 0,46 0,30 0,36 0,17 0,23 0,37 0,19 0,36 0,50 0,37 1,00 0,32

28 Kn_Text (1-5) 2,63 163 0 5 1,01 2,61 3,03 1,83 2,63 2,62 2,48 2,80 2,68 2,88 2,75 2,68

29 Kn_Tabk Ja 1,81 162 0 5 1,20 1,84 2,27 0,58 1,62 2,00 1,55 2,01 2,08 2,21 1,90 1,95

30 Kn_Präs Ja 0,93 162 0 4 1,06 0,85 1,60 0,25 0,74 1,13 0,88 0,93 1,24 1,11 0,80 0,89

31 Kn_Stat Ja 0,32 159 0 3 0,60 0,31 0,41 0,27 0,21 0,43 0,33 0,27 0,50 0,31 0,41 0,40

32 Kn_InterNet Ja 2,10 162 0 4 1,08 2,05 2,37 2,00 2,00 2,19 2,02 2,16 2,24 2,25 2,05 2,28

33 Kn_HTML Ja 0,28 162 0 4 0,66 0,25 0,30 0,58 0,12 0,43 0,23 0,25 0,52 0,31 0,23 0,40

34 X-Addition Ja 2,76 162 0 5 1,53 2,81 3,33 1,00 2,62 2,92 2,45 3,04 3,04 3,17 2,98 2,66

35 X-Formeln Ja 2,02 162 0 5 1,43 2,05 2,57 0,50 1,89 2,14 1,80 2,16 2,36 2,40 2,20 1,92

36 X-formatieren Ja 2,10 162 0 12 1,74 2,17 2,63 0,33 1,93 2,27 1,97 2,19 2,40 2,55 2,18 2,17

37 X-Diagramm Ja 1,93 161 0 37 3,16 1,99 2,48 0,25 1,52 2,32 2,16 1,70 2,20 2,14 1,90 1,78

38 X-Pivot Ja 0,54 162 0 5 0,89 0,53 0,80 0,08 0,49 0,60 0,56 0,46 0,72 0,69 0,60 0,62

39 X-Filter Ja 0,92 162 0 5 1,34 0,85 1,57 0,08 0,80 1,05 0,84 0,88 1,32 1,27 1,03 1,08

40 X-Statistik Ja 0,55 162 0 5 0,86 0,49 1,00 0,08 0,47 0,63 0,67 0,46 0,52 0,64 0,48 0,60

41.1 Erw_Praxis Ja 0,37 94 0 1 0,49 0,37 0,47 0,25 0,50 0,29 0,51 0,28 0,20 0,32 0,34 0,22

41.2 Erw_Job Ja 0,41 93 0 1 0,49 0,38 0,67 0,18 0,48 0,36 0,41 0,37 0,47 0,47 0,38 0,28

41.3 Erw_Inhalte Ja 0,23 94 0 1 0,43 0,26 0,33 0,00 0,21 0,25 0,18 0,23 0,40 0,35 0,24 0,17

41.4 Erw_Allgem Ja 0,14 94 0 1 0,35 0,17 0,07 0,08 0,09 0,17 0,05 0,15 0,33 0,21 0,10 0,06

Mittelwerte nach Gruppen



Hinweise zur Erstellung von Fragebogen

Es sollen hier einige (technische) Hinweise zur Erstellung von Fragebogen (in Word) ge-geben werden, die zum einen die Erstellung / Layout betreffen, zum zweiten aber auch bereits die Erfassung vorbereitend erleichtern.

Allgemeines

Ein Fragebogen sollte ansprechend aussehen und nicht durch seine bloße äußere Form abschrecken. Zu Beginn bietet sich (als Blickfang) an, das Logo oder die Logos der betei-ligten Institutionen auf den Kopf des Fragebogens zu platzieren.

Nach einer kurzen Anrede sollte der Bogen mit Fragen beginnen, die in das Thema ein-führen und das Interesse der Befragten wecken. Zu vermeiden sind hier allgemeine An-gaben über Alter, Geschlecht, Situation, ...., diese gehören an den Schluss des Bogens.

Fragen

Die Fragen sollten fortlaufend nummeriert werden, diese Nummerierung dient später auch als Variablennummer in der Auswertungsdatei. (siehe jeweils Beispiel unten)

Es ist zu unterscheiden zwischen offenen Fragen (Raum für Einträge - V1) und ge-schlossenen Fragen (Items zum Ankreuzen vorgegeben). Bei letzteren ist schon im Vor-feld zu klären, ob nur eine Alternative gewählt werden kann, oder Mehrfachnennungen möglich sind. Im ersten Fall sind die Items Ausprägungen der Variable (V2), im zweiten Fall ist jede der möglichen Nennungen eine Variable (V2 - V5).

Beispiel:

1. Wie oft waren Sie im letzten Jahr in der Kunsthalle Bremen? (V1)

____________________Mal

2. Sie Sind hergekommen, um sich anzusehen: (V2)

(1) nur die Sonderausstellung

(2) nur die ständige Sammlung

(3) beides

3. Was hat Sie dazu bewegt, die Sonderausstellung „Der Blaue Reiter“ zu

besuchen?

Werbemaßnahmen (V3)

Mund Propaganda (V4)

Sonstiges ____________________ (V5)

Technische Hinweise zum Nummerieren: Die Nummerierung wurde mittels Feldern (in WinWord - siehe ggf. Hilfe-Funktion) erzeugt und es wird nachdrücklich empfohlen, dies zu tun, da sonst jede Verschiebung der Fragenreihenfolge mit erheblichem Aufwand ver-



bunden ist. Sie können erkennen, wie die Nummerierung erzeugt sind, indem Sie in die-sem (WinWord-) Dokument die Feldfunktionen sichtbar machen. Dies geht entweder über das Menu Extras-Optionen-Ansicht-Feldfunktionen oder mittels der Tastenkombination Alt-F9. Sie erkennen dann, dass in diesem Beispiel die Funktion Seq (sequentielles Nummerie-ren) in zwei Varianten benutzt wird. Die Fragen werden nummeriert mittels Seq f, der einfachsten Anwendung dieses Feldes - f ist dabei eine beliebige Bezeichnung, diese kann frei gewählt werden, Word nummeriert alle Seq-Felder mit der gleichen Bezeichnung aufsteigend. Die Fragen sind nummeriert, indem eine andere Bezeichnung verwendet wird; (VSeq Frage) erzeugt die Variablennummern, bei denen der Buchstabe V unmittel-bar von der Zahl gefolgt wird. Bei der Nummerierung der Alternativen ist es erforderlich, dass diese in jeder Frage wieder von vorne beginnt. Daher muss bei der ersten Alternative der Schalter „\r 1“ gesetzt werden (renumber): (Seq Alt \r 1), danach wird laufend nummeriert: (Seq Alt).

Pretest

Wenn machbar, ist es sehr sinnvoll, einen Pretest durchzuführen, d.h. den Fragebogen mit einigen Test-Personen auszuprobieren und die Daten einzugeben. Die Testpersonen sollten nach Anregungen gefragt, der Fragebogen - nach Feedback und Dateneingabe - auf mögliche Inkonsistenzen untersucht und diese vor der Hauptbefragung beseitigt wer-den.

Diesen Text und auch ein Anwendungsbeispiel (Fragebogen als Word-Datei sowie Daten

und Auswertung als Excel-Dateien) finden Sie auf der Webseite für den MBA-Kurs.

Material zur

Schließenden Statistik

Inhalt

1. Kombinatorik & Wahrscheinlichkeitsrechnung........................................34

Definition von Wahrscheinlichkeiten .................................................................................. 35

Rechnen mit Wahrscheinlichkeiten...................................................................................... 36

2. Theoretische Verteilungen............................................................................38

Wahrscheinlichkeits-Dichte – und Verteilungsfunktion ...................................................... 38

Stetige Verteilungen............................................................................................................. 39

Zentraler Grenzwertsatz ....................................................................................................... 42

3. Schluss von der Stichprobe auf die Grundgesamtheit...............................44

3.1 Schätztheorie .................................................................................................................. 44

3.2 Konfidenzintervalle (für den Mittelwert) .................................................................... 44

3.3 Hypothesentests.............................................................................................................. 46

3.4 Parametrische Tests........................................................................................................ 49

3.4.1 Testen von Mittelwerten................................................................................................................. 49

3.4.2 Zweistichprobentests ...................................................................................................................... 53

3.4.3 Testen der Aussagekraft der Regressionskoeffizienten bei Multipler Regression .......................... 54

3.4.4 Fallbeispiel College Town.............................................................................................................. 55

Schließende Statistik 1 Kombinatorik & Wahrscheinlichkeitsrechnung

P. Schmidt, Hochschule Bremen Seite 33

=

Stichprobe Grundgesamtheit

ermittelt werden z.B. Statistiken Parameter

Mittelwert µ

Standardabweichung s σ

Anzahl der Beobachtungen n Ν

Beispiel:

Als Leiter der Qualitätsabteilung einer Glühbirnenfirma, muss ich wissen, wie lange die pro-

duzierten Glühbirnen im Durchschnitt brennen. Problem: Ich kann nicht alle ausprobieren ...

Deshalb entnehme ich aus der laufenden Produktion 20 Glühbirnen und messe, wie lange die-

se brennen. Es ergibt sich eine durchschnittliche Brenndauer von 290 Stunden

Grundgesamtheit

Stichprobe

x = 290 Stunden s= 30 Stunden

Auf dieser Basis schätze ich ab (statistischer Schluss), dass auch die Grundgesamtheit der

Glühbirnen eine Brenndauer von 290 Stunden hat, stimmt das?

Ausgangspunkt: Man will allgemeine Aussagen über die Grundgesamtheit treffen, diese

ist jedoch gar nicht näher bekannt ( z.B. Mittelwert, Standardabweichung etc.)

Bekannt sind dagegen Aussagen über eine Stichprobe

Ziel: Schluss von der Stichprobe →→→→ auf die Grundgesamtheit



Problem: Wie groß ist die Wahrscheinlichkeit,

„6 Richtige“ im Lotto zu haben?

1. Kombinatorik & Wahrscheinlichkeitsrechnung

Schon in der Antike tritt der Gedanke auf, dass die Naturgesetze durch eine sehr große Anzahl von zufälligen Ereignissen zur Geltung kommen. Die Aufdeckung der Gesetzmäßigkeiten, auf deren Auftreten zahlreiche individuelle Einflüsse einwirken, die nicht oder fast nicht mitein-ander verbunden sind, war auch Ziel der Gelehrten, die die Wahrscheinlichkeitsrechnung we-sentlich beeinflussten.

Vor allem die mit Glücksspielen zusammenhängenden Probleme bildeten den Anlass dafür, dass sich bedeutende Gelehrte mit Fragen der Zufälligkeit von Ereignissen u.a. beschäftigten.

Problem: Wie groß ist die Wahrscheinlichkeit, eine „6“ zu würfeln?

Anzahl der günstigen Ausgänge __________________ Anzahl der möglichen Ausgänge

W = = = =

Anzahl der günstigen Ausgänge __________________ Anzahl der möglichen Ausgänge

W = = = =



Definition von Wahrscheinlichkeiten

Was ist eine Wahrscheinlichkeit?

Watt is en’ Wahrscheinlichkeit? – Da stelle mer uns ens janz dumm:

Et kütt drupp ahn:

a) subjektive Wahrscheinlichkeit → auf welches Ereignis würde ich einen bestimmten Geldbetrag setzen?

b) Klassische Definition nach Laplace c) Statistische (empirische) Definition nach Mises W(A) = f(A) d) Axiomatische Definition nach ΚΟΛΜΟΓΟΡΟΒΚΟΛΜΟΓΟΡΟΒΚΟΛΜΟΓΟΡΟΒΚΟΛΜΟΓΟΡΟΒ (=Kolmogoroff)

(vgl. Formel (6-9))

1. immer ≥ 0 2. W (Ω) = 1 3. additiv

⇒ 0 ≤ W ≤ 1



Rechnen mit Wahrscheinlichkeiten

Additionssätze

1. Allgemeiner Additionssatz:

Die Wahrscheinlichkeit, dass ich eine Flasche Bocksbier oder eine Flasche Hefebier aus dem Kasten ziehe.

2. Spezieller Additionssatz

Die Wahrscheinlichkeit, dass ich eine Flasche Bocksbier classic oder eine Flasche Bocks-bier Gold aus dem Kasten ziehe.

Definition: Wie wahrscheinlich ist es, aus einer Kiste Bier mit mehreren Sorten blind zwei Flaschen meines Lieblings-bieres Bocksbier zu ziehen?

Was muss ich dazu vorher wissen?

W(A ∪ B) = W(A) + W(B)

Definition: Wie wahrscheinlich ist es, aus einer Kiste Bier mit mehreren Sorten blind zwei Flaschen meines Lieblings-bieres Bocksbier zu ziehen?


W(A ∪ B) = W(A) + W(B) – W(A ∩ B)

A

Hefebier

B

Bocksbier

B

Bocksbier classic

A

Bocksbier Gold

Gegeben sei ein gemischter Kasten

Bier



Bo ck´s

Allgemeiner Multiplikationssatz

Nach der Übung kaufe ich mir an der Tankstelle einen gemischten 6Pack mit je 2 Flaschen Bocksbier classic, Bocksbier Gold und Bocksbier bleifrei. Ich nehme 3 Flaschen heraus.

Wie groß ist die Wahrscheinlichkeit, dass ich zuerst ein A, dann ein B und dann ein C er-wische?

1. Griff 2. Griff 3. Griff

Formel: W(A ∩ B ∩ C) = W(A) W(B|A) W(C| A ∩ B) (6-16)

Beim Multiplikationssatz ist also die Wahrscheinlichkeit gesucht, dass ich eine Flasche classic und eine Flasche Gold und eine Flasche bleifrei aus dem Kasten ziehe.

Definition: Wie wahrscheinlich ist es, aus einer Kiste Bier mit mehreren Sorten blind meine Lieblingsbiere Bocksbier

zu ziehen?


A: Bocksbier classic

B: Bocksbier Gold

C: Bocksbier bleifrei

A

B

C

Schließende Statistik 2 Theoretische Verteilungen


2. Theoretische Verteilungen

Wahrscheinlichkeits-Dichte – und Verteilungsfunktion

Zu einem der beliebtesten Experimente in der Statistik gehört das Werfen von Münzen, viel-leicht auch, weil die möglichen Ausgänge dabei sehr begrenzt sind: Kopf/Wappen (W) oder Zahl (Z). Eine abzählbare Anzahl möglicher Ergebnisse deutet auf diskrete Merkmale hin:

In diesem Fall soll eine Münze dreimal geworfen werden. Die ZV X entspricht dabei der Anzahl der geworfenen Wappen:

ΩΩΩΩ Wahrscheinlichkeit X W (X=x)

f(x) F(x)

ZZZ 0,125

ZZW 0,125

ZWZ 0,125

WZZ 0,125

WWZ 0,125

WZW 0,125

ZWW 0,125

WWW 0,125

∑ 1

Wahrscheinlichkeits-Funktion

Wie groß ist die Wahr-scheinlichkeit, dass die Zu-fallsvariable X den Wert x annimmt.

f(x) = W(X = x)

Verteilungs-Funktion

Wie groß ist die Wahr-scheinlichkeit, dass die Zu-fallsvariable X höchstens den Wert x annimmt.

F(x) = W(X x) =x i

≤

≤

∑ f xi

x

( )



Stetige Verteilungen

1) Normalverteilung (nach ihrem Erfinder, dem Mathematiker, Physiker und Astronomen auch Gauß´sche Glockenkurve genannt, der bei der Suche nach einem Verteilungsgesetz für zufällige Beobachtungsfehler im Zusammenhang mit astronomischen Untersuchungen darauf stieß)

Charakteristika:

-

-

-

- Dichtefunktion:

Formel:

2

2

1

2

1),|(

−−

⋅

⋅Π

=σ

µ

σ

σµ

x

exf (7-24)

Fläche unter dem Intervall

Intervall Fläche

Beispiel: Der Durchmesser von Handelsklasse A Melonen sei normalverteilt mit dem Mittelwert 4,5 cm und einer Standardabweichung von 1 cm.

oder kürzer: X →→→→ N (4,5 ; 14,5 ; 14,5 ; 14,5 ; 1)



Lageparameter

Streuungsparameter

Verteilungsfunktion



2) Standardnormalverteilung

Folgt eine Zufallsvariable X einer Normalverteilung mit dem Mittelwert µ=0 und der Stan-dardabweichung σ =1, ist sie standardnormalverteilt.

Man macht in diesem Fall nichts anderes, als dass eine Transformation der x-Werte in z-Werte erfolgt. Tragen Sie dies bitte in den obigen Graphen ein!

Durch diese Transformation lassen sich Wahrscheinlichkeiten aus Tabellen leicht ablesen und müssen nicht mittels komplizierter Formel errechnet werden (Formelsammlung, Tafel 4)

Die Tabellen geben dabei die Fläche unter der Kurve an, dabei wird immer von links angefan-gen zu messen, also die Wahrscheinlichkeit, dass die ZV höchstens den (abgelesenen Wert) z annimmt Formelsammlung S. 25.

Schreibweise:



Zentraler Grenzwertsatz

Verteilung der Grundgesamtheit

Verteilung möglicher Stichproben

Verteilung der Stichprobenmittelwerte

µ

Wichtig(st)e Basis für Schätzen und Testen !!



Beispiel: Eine Grundgesamtheit bestehe aus 5 Angestellten mit den Jahreseinkommen (TEuro):

Angestellte/r Einkommen

Xi ( )

2

∑ − XXi

1. Anne 39 1

2. Ben 41 1

3. Cäsar 25 225

4. Doris 55 225

5. Eva 40 0

ΣΣΣΣXi =200 452

Mittelwert:

Standardabweichung:

Stichproben und Stichprobenmittelwerte:

Stichprobe

1. ABC 35 25.00

2. ABD 45 25.00

3. ABE 40 0.00

4. ACD 39.67 0.11

5. ACE 34.67 28.44

6. ADE 44.67 21.78

7. BCD 40.33 0.11

8. BCE 35.33 21.78

9. BDE 45.33 28.44

10. CDE 40 0.00

Σ X i =400 150.67

Mittelwert:

Standardabweichung:

Schließende Statistik 3 Schluss von der Stichprobe auf die Grundgesamtheit


3. Schluss von der Stichprobe auf die Grundgesamtheit

3.1 Schätztheorie

Damit ist das Abschätzen der Parameter der Grundgesamtheit (σ und µ) auf Basis derer einer Stichprobe gemeint.

Bei einer Punktschätzung werden die konkreten Parameter direkt durch die der Stichprobe geschätzt.

Beispiel für eine Punktschätzung : x=µ s=σ

Dies ist unter Umständen sehr ungenau! Daher behandeln wir im Folgenden Intervallschätzungen:

3.2 Konfidenzintervalle (für den Mittelwert))))

Hier wird davon ausgegangen, dass ein Parameter nur mit einer bestimmten Wahrscheinlich-keit (Signifikanz) vorausgesagt werden kann, also nur „ungefähr“.

Daraus ergibt sich ein symmetrisches Intervall um den Mittelwert der Stichprobe x herum.

Wir sprechen von einer Ober- (go) und einer Untergrenze (gu) des Intervalls.

ασσ µ −=+≤≤− 1)(XcXc

zxzxW

Wiederholung Symbole Parameter der Grundgesamtheit Statistiken der Stichprobe

Mittelwert

Standardabweichung

Anzahl Beobachtungen

Die Stichproben-Standardabweichung X

σ ist dabei abhängig von der Größe der Grundge-

samtheit und der Stichprobe. In der Formelsammlung auf S. 16 sind diese Fallunterscheidun-gen genau aufgeführt.

Im einfachsten Fall gilt: n

X

σσ =

f(x)

95 %

gu go

x

Zc Zc

„critical“

Untergrenze Obergrenze




zxzxW

W( < µ < ) = 0,95

Frage: Wie groß ist die Wahrscheinlichkeit, dass ich mich irre?

Frage: Welche Unter- und Obergrenzen kann ich damit definieren, in dessen Intervall 95 % aller weiteren Chipstüten liegen wird (also in dem der unbekannte Mittelwert µ der Grundgesamtheit liegt?

Problem: In einem Geschäft entdecke ich Chipstüten, auf denen die genaue Inhaltsanga-be vergessen wurde. Bevor ich beim Hersteller anrufe, nicht nur weil diese fehlende An-gabe rechtswidrig ist, sondern weil ich mir eine Belohnung ausrechne, starte ich Testkäu-fe, weil ich nun wirklich wissen will, was drin ist.

Meine Stichprobenwerte (errechnet aus 60 Stichproben) ergeben ein x von 50 g und ein s von 5 g.

Frage: Welches Konfidenzintervall ergibt sich für die Grundgesamtheit?



3.3 Hypothesentests

Vorbemerkung zum Statistischen Testen

Mit Statistik kann man nichts beweisen ! (weil doch irgendwie alles Zufall ist)!

Man kann nur zeigen, dass Aussagen falsch sind (mittels Gegenbeispiel)

- widerlegen

- ablehnen

- „falsifizieren“

Daher wird oft nicht die gewünschte Aussage selbst untersucht, sondern das Ge-genteil – in der Hoffnung, dieses Gegenteil zu widerlegen. Diese Gegenteilige Aussage wird dabei zu einem „Strohmann“ (der verbrannt werden soll).

Statistisch sprechen wir bei diesen Aussagen von Hypothesen. Diese nummerieren wir:

H0 ist die Ausgangshypothese des Tests, die untersucht wird. Diese kann als eventuell widerlegt werden.

H1 ist die Gegenhypothese oder Alternativhypothese. Sie kann eventuelle unterstützt (belegt) werden, indem H0 widerlegt wird



Hypothesentests: Beispiel und Vorgehen

Bei statistischen Tests geht es um die Überprüfung einer Hypothese/einer Behauptung.

Die Schritte im Einzelnen

0. Schritt: Informationen über die Stichprobe und Grundgesamtheit

(je nach Typ des Tests andere oder gar keine Parameter):

Umfang Mittelwert Standardabw.

Grundgesamtheit N = ? µ = ? σ = ?

Stichprobe n = ? x = ? s = ?

1. Schritt: Aufstellen der Hypothesen

• H0 = zu widerlegende Ausgangsbehauptung („Händler“) • H1 = zu untersuchende Gegenbehauptung, anhand derer widerlegt

wird ( S. 79)

2. Schritt: Festlegen des Signifikanzniveaus α

• (ist in der Regel angegeben oder aus der Aufgabe abzuleiten)

Problem: Die Firma Studentenfit hat sich auf Müsliriegel spezialisiert, die den Lerner-folg bei Studenten massiv erhöhen. Der Kohlenhydratgehalt von 100 g dieses Müslirie-gels liegt bei 70 g. Der Riegel darf nicht zu wenig Kohlenhydrate aufweisen, soll die lernfördernde Wirkung des Müsliriegels aufrechterhalten werden (σ = 7g). Bei zu vielen Kohlenhdraten streiken jedoch die Studenten, da sie dem Lernerfolg nicht ihre gute Figur opfern wollen.

Eine zufällige Stichprobe 100 ergibt ein x von 68,9 g.

Frage: Stimmen die Angaben auf der Packung aus statistischer Sich – oder nicht?



3. Schritt: Gegebenenfalles Fallunterscheidung bei der Berechnung von X

σ

• σ bekannt oder unbekannt? • Größe der Stichprobe beachten!!!

S. 16 Formelsammlung

4. Schritt: Ablesen in der Tabelle (z.B. der Standardnormalverteilung FSN)

• ein- und zweiseitige Hypothesen beachten!

5. Schritt: Ablesen bzw. Berechnen des kritischen Wertes

• ein- und zweiseitige Hypothesen beachten!

6. Schritt: Anwenden der Entscheidungsregeln

• H0 verwerfen oder nicht verwerfen („annehmen“)

7. Schritt: Interpretation der Ergebnisse

Wozu das Ganze?

Beispielzeichnung für einen parametrischen Test:



3.4 Parametrische Tests

3.4.1 Testen von Mittelwerten

Bei diesem Test ist der Mittelwert der Grundgesamtheit unbekannt. Es gibt aber eine Vermu-tung (Behauptung), er betrage µ0 . Es soll nun überprüft werden, ob es sich bei µ0 um den wahren Mittelwert µ handeln kann.

Dies wird auf Basis der Stichprobe ermittelt.

Ist nur die Überschreitung in eine Richtung nicht möglich, handelt es sich um einen

→einseitigen Test

Für das Ablesen des zc ergibt sich: FSN ( zc ) = 1 – α

(einseitiger Test, linksseitig kritischer Bereich kann auch abgelesen werden mittels: FSN (–zc) = α

Sind zu beiden Seiten des Mittelwertes Grenzen gesetzt, handelt es sich um einen

→zweiseitigen Test Für das Ablesen des zc ergibt sich: D ( zc ) = 1 – α dies entspricht: FSN ( zc ) = 1 – α/2

→ Tabellierung der Standardnormalverteilung, Tafel 4.

α

2

x

µcu µ0 µc

o

1 - α

Annahmebereich

x µc

u µ0

1 - α α

Annahmebereich

f ( x )

f ( x )



Ermittlung des Annahmebereiches:

Um den Annahmebereich zu ermitteln, gibt es 2 Varianten → Formelsammlung Kapitel 8.3

Variante A:

Testentscheidung auf Basis absoluter Werte: kritischen Grenzen µµµµc (bzw. pc), indem vom an-genommenen Mittelwert µ0 zc Standardabweichungen in die entsprechenden Richtungen abge-tragen werden:

5. Xc

u

cz σµµ ⋅−= 0 bzw.

pc

u

czpp ˆ0 σ⋅−= (8-35)

Xc

o

cz σµµ ⋅+= 0 bzw.

pc

u

czpp ˆ0 σ⋅+= (8-36)

6. Entscheidungsregel: Ablehnung von H0, wenn: (analog für Testwerte t und χ2

)

x > o

cµ bzw. o

cpp >ˆ bei rechts- oder zweiseitigem Test oder (8-37)

x < u

cµ bzw. u

cpp <ˆ bei links- oder zweiseitigem Test (8-38)

7. Interpretation des Ergebnisses

Variante B: (einfacher aber fehleranfälliger) „Z-Test“

Testentscheidung auf Basis der standardisierten Z-Werte

Als Prüfgröße ergibt sich z.B.: X

X

x

z

σ

µ0−= ,

n

s

x

tX

0µ−= oder

p

p

pp

z

ˆ

0ˆ

ˆ

σ

−=

womit im Grunde x bzw. p auf die Z-Achse (oder t-Achse) übertragen werden. Für die Er-

mittlung von X

σ ist auch hier eine Fallunterscheidung nötig.

5. Berechnung der Prüfgröße X

z (bzw. x

t , p

z ˆ , χ2 oder t – siehe Kapitel 8.4.1 bis 8.4.4)

6. Anwendung der Entscheidungsregel (analog für die anderen Prüfgrößen) wenn |

X

z | > | zc | ⇒ Ablehnung von H0 (8-39)


Am besten betrachten wir dies anhand der folgenden Beispiele ...



Beispiel für einen zweiseitigen Test über den Mittelwert µµµµ Der Durchmesser von in Großserie hergestellten Eisenstäben ist nach Angaben des Herstellers

normalverteilt mit Mittelwert µ = 10 mm und einer Standardabweichung von 0,7 mm.

Ein Kunde, der die Eisenstäbe nur verwenden kann, wenn sie die angegebenen Toleranzen

einhalten, entnimmt der laufenden Produktion 144 Eisenstäbe. Deren Untersuchung ergibt

einen Mittelwert von 10,15 mm. Wird der Kunde die Eisenstäbe von diesem Hersteller beziehen, wenn ein Test mit einem Sig-

nifikanzniveau von α = 0,05 durchgeführt wird?

Vorab: Zusammenstellung der vorhandenen Informationen:

Grundgesamtheit: µ = µ0 = 10 ; σ = 0,7 Stichprobe: x = 10,15 ; n=144

„Schritte eines statistischen Hypothesentests“

7. Aufstellen von H0 und H1

H0: µ = µ0 = 10

H1: µ ≠ µ0 → zweiseitig kritischer Bereich

8. Festlegen des Signifikanzniveaus

α = 0,05 in der Aufgabe vorgegeben

9. Bestimmen der geeigneten Prüfverteilung → Fallunterscheidung

σ ist bekannt, n > 50 ⇒ 1. Fall keine Endlichkeitskorrektur, da N sehr groß (Großserie)

⇒ 05833,012

7,0===

nX

σσ

10. Ermittlung der Testgröße durch Ablesen in der Tabelle der Standardnormalverteilung

zweiseitiger Test ⇒ FSN (zc) = 1-a/2 = 0,975

⇒ kritisches |zc| = 1,960

Variante 1: Testentscheidung auf Basis absoluter Werte → kritischer µ-Wert

5. Berechnung der kritischen Wertes

Xc

u

cz σµµ ⋅−= 0 = 10 – 1,96 0,05833 = 9,886

Xc

o

cz σµµ ⋅+= 0 = 10 + 1,96 0,05833 = 10,114

6. Anwendung der Entscheidungsregel

Wenn x > o

cµ oder x < u

cµ soll H0 abgelehnt werden.

Da 10,15 > 10,114 ⇒ Ablehnung von H0


Der Kunde wird die Eisenstäbe nicht von diesem Hersteller beziehen!



Variante 2: Testentscheidung auf Basis der (standardisierten) Z-Werte → „Z-Test“

Zweiseitiger Test über den Mittelwert µ

Schritte 1 bis 4 bleiben gleich.

11. Berechnung der Prüfgröße

2,57150,05833

1010,150=

−=

−=

X

X

x

z

σ

µ

12. Anwendung der Entscheidungsregel

Wenn |X

z | > | zc | soll H0 abgelehnt werden.

Da 2,5715 > 1,96 ⇒ Ablehnung von H0


Der Kunde wird die Eisenstäbe nicht von diesem Hersteller beziehen!



3.4.2 Zweistichprobentests Test auf Mittelwertdifferenz

Problem: Klausuraufgabe: Im Unterricht „Zaubertränke“ bei Prof. Snape gibt es zwei Gruppen von Schülern: 22 Schüler aus Gryffindor (Gruppe G) und 26 Schüler aus Hufflepuff (Gruppe H). Der durchschnittliche Punktabzug für Schwatzen während des Unterrichts beträgt bei G 10,1 Punkte und bei H 9,6 Punkte jeweils mit einer Standardabweichung von 2 Punkten. [Gesamt: 18 Punkte]

Snape geht davon aus, dass er beide Gruppen gleich behandelt. Testen Sie diese Aussage mit einem Konfidenzniveau von 95 %. [7 Punkte]

1. Schritt: Zusammenstellen der Informationen:

Informationen ni Mittelwerte Standardabweichungen

Stichprobe 1 (G) n1 = x1 = s1 =

Stichprobe 2 (M) n2 = x 2 = s2 =

1) Hypothese: Ho: x1 - x2 = 0 ⇒ x1 = x2 2) α = 0,05 lt. Aufgabenstellung

3) bei Mittelwertdifferenz keine Fallunterscheidung (auch keine Ermittlung von x

σ oder p

σ )

4) tc = .......... 5)

2

22

1

21

21

n

s

n

s

xx

t

+

−= = ..........

6) |tx| > |tc| ? →→→→ H0 verwerfen ??

7) Interpretation:



3.4.3 Testen der Aussagekraft der Regressionskoeffizienten bei Multipler Regression

Beispielaufgabe von Seite 37 / 38 (Absatzzahlen Kosmetikartikel)

AUSGABE der Excel-Funktion "Analysefunktionen - Regression"

Regressions-Statistik

Multipler Korrelationskoeffizient 0,97280

Bestimmtheitsmaß 0,94635

Adjustiertes Bestimmtheitsmaß 0,91952

Standardfehler 117,91933

Beobachtungen 10

ANOVA

Freiheitsgrade (df)Quadratsummen (SS)Mittlere Quadratsumme (MS)Prüfgröße (F) F krit

Regression 3 1471570,2 490523,4 35,27684 0,00033

Residue 6 83429,812 13904,969

Gesamt 9 1555000

Koeffizienten Standardfehler t-Statistik P-Wert Untere 95% Obere 95% Untere 95,0%Obere 95,0%

Schnittpunkt 2398,7909 982,3009 2,4420 0,0503 -4,8144 4802,3963 -4,8144 4802,3963

Fläche 0,4151 0,1373 3,0225 0,0233 0,0791 0,7512 0,0791 0,7512

Werbung 1,6903 4,4560 0,3793 0,7175 -9,2131 12,5937 -9,2131 12,5937

Preis -123,8227 58,8809 -2,1029 0,0802 -267,8991 20,2537 -267,8991 20,2537

Zusammenfassung und Formatierung der Ergebnisse einer multiplen Regression:

Gütemaß R2: 0,920 entspricht 92,0 %

p-Wert 95% 90%

Die Schätzergebnisse (Koeffizienten) lauten:

Schnittpunkt mit y-Achse a 2398,8 0,05 nein * ja*

Erklärende Größen:

X1 Fläche b1 0,4 0,02 * ja* * ja*

X2 Werbung b2 1,7 0,72 nein nein

X3 Preis b3 -123,8 0,08 nein * ja*

Signifikanz:

Was wollen uns diese „Worte“ sagen ?



3.4.4 Fallbeispiel College Town

(folgt als Kopie)

Quantitative Methoden – 3. Business Mapping / GIS - Seite 56 -


Business Mapping

durch GeoInformationsSysteme GIS

Jutta Schmidt, Gis.direkt 1


Inhalt

1 Was ist Business Mapping? ...................................................................... 57

2 Geodaten – Basis des Business Mapping ................................................. 58

3 Software .................................................................................................... 60

4 Datenquellen und Geodatenanbieter ......................................................... 60

5 Anwendungsfelder .................................................................................... 61

5.1 Standortmanagement ................................................................................................62

5.2 Zielgruppenanalyse ..................................................................................................63

5.3 Penetrationsanalyse (Marktdurchdringung) .............................................................63

5.4 Tourenplanung .........................................................................................................64

6 Literaturhinweise ...................................................................................... 64

Hinweis: Teile dieser Darstellung sind erschienen in: Schmidt, Jutta und Schmidt, Peter: „Business

Mapping “; in: Dey und Grauvogel (Hrsg.): "Praxishandbuch – Wirtschaftswissen von A-Z für die erfolgreiche

Betriebsratspraxis", Kissing, 2000-2003

1 Kontakt: [email protected]

2 Kontakt: [email protected]



1 WAS IST BUSINESS MAPPING?

Business Mapping steht für die Betrachtung von Daten im Raum: Adressen, Standorte,

Gebiete, Verbindungen, ... und deren Darstellung als Karte (engl. „map“).

„Eine Karte sagt mehr als tausend Worte“ – der Raumbezug von Daten in den Entschei-

dungen von Unternehmen schon immer eine wichtige Rolle gespielt, konnte aber bis vor

kurzem nur unzureichend dargestellt und genutzt werden.

Raumbezug von Daten

Ob es sich um Vertriebsgebiete von Außendienstmitarbeitern, die Standortplanung eines

Filialisten oder Ermittlung neuer Kundenpotenziale handelt – 80% der unternehmerischen

Fragestellungen haben einen konkreten Raumbezug. Mit der Landkarte an der Wand,

Stecknadeln, Fähnchen und Bindfäden wurde diese Tatsache auch schon länger genutzt. In

den letzten 10 Jahren hat sich, bedingt durch die rasche Entwicklung der Computerkarto-

grafie und der Verfügbarkeit des PC praktisch auf jedem Schreibtisch, eine weitaus mäch-

tigere Visualisierungs- und Analysemethode verbreitet, die allgemein als „Business Map-

ping“ bezeichnet wird. Begriffe wie Business Geographics, Geomarketing, Desktop Map-

ping werden analog verwandt. Allen gemeinsam dienen als Grundlage „Geoinformations-

systeme“, kurz GIS genannt.

Geoinformationssysteme

„Geoinformationssysteme“ sind computergestützte Systeme zur Erstellung, Verwaltung,

Analyse und Ausgabe raumbezogener und themenbezogener Daten. Digitale Landkarten

lassen sich mit Daten anreichern, auswerten und darstellen. Hierdurch können räumliche

Strukturen und Entwicklungen aufgezeigt werden.

Abbildung 1: Bevölkerungsdichte Bremer Ortsteile, Beispiel für den Zusammenhang von tabellarischen Da-

ten und kartografischer Darstellung. (Quelle: Daten des statistischen Landesamtes Bremen)

Ein Geoinformationssystem besteht grundsätzlich aus einem Kartografie-Modul, einem

Datenbank-Modul sowie Analysemethoden verschiedenen Funktionsumfanges. Die Reali-

sierungsmöglichkeiten sind vielfältig, vom einfachen Auskunftsarbeitsplatz bis hin zum

Forschungsarbeitsplatz sind diverse Stufen möglich. Während erstere leicht von geschul-

tem Personal bedient werden können, sind für letztere ausgebildete GIS-Fachleute notwen-

dig.



Abbildung 2: Bausteine eines Geoinformationssystems

Geoinformationssysteme werden seit Jahrzehnten in vielen Bereichen eingesetzt, (z.B. Na-

tur- und Umweltschutz, Raumplanung, Verkehrsplanung, Energieversorgung). Mit Beginn

der neunziger Jahre verzeichnet das „Business Mapping“ hohe Wachstumsraten.

Business Mapping

Zunehmende Marktsättigung, verstärkte Nachfrage nach mehr Service und Individualität

sowie wachsende Konkurrenz sind Ursachen dafür, dass Geoinformationssysteme verstärkt

in der Wirtschaft, insbesondere bei Dienstleistern wie z.B. Banken und Versicherungen,

bei Handel oder Industrie genutzt werden. „Business Mapping“ kann als Oberbegriff für

alle Einsatzbereiche von Geoinformationssystemen in der Wirtschaft verstanden werden.

Beispielhafte Anwendungsfelder sind:

Geomarketing

Vertriebsplanung

Standortmanagement

Mediaplanung

Routenplanung

Facility Management

2 GEODATEN – BASIS DES BUSINESS MAPPING

Grundsätzlich benötigt Business Mapping Geodaten, d.h. Daten, die durch Angabe von

Koordinaten einen eindeutigen Bezug zum Raum haben.

Raster- und Vektordaten

Es wird grundsätzlich zwischen Raster- und Vektordaten unterschieden. Rasterkarten sind

Bilder, die aus einzelnen Punkten bestehen. Sie enthalten keine weiteren Informationen

außer dem Farbwert und wirken rein als Bild auf den Betrachter. Beliebt sind sie aufgrund

ihres „vertrauten“ Aussehens, z.B. in Form von Stadtplänen. Vektordaten entstehen durch

Digitalisierung. Diese punkt-, linien- oder flächenhaften Elemente lassen sich beliebig mit

weiteren Informationen anreichern, z.B. kann ein Punkt einen Standort darstellen und mit

einem dazugehörigen Datensatz verknüpft werden. Ein solcher Datensatz kann z.B. die

Adresse, Ansprechpartner, Absatzmengen, Datum der Lieferung, o.ä. enthalten. Aus die-

Benutzeroberfläche

Digitale Landkarten

Analyse-methoden

GIS-Software Hardwarekomponenten

Sach- daten



sem Grunde werden gerade im Business Mapping Vektordaten bevorzugt eingesetzt, wäh-

rend Rasterkarten lediglich der Orientierung dienen.

Ein Business Mapping System setzt sich je nach Fragestellung aus verschiedenen Datenbe-

ständen zusammen:

Geografische Daten (beispielhaft)

Administrative Daten, z.B. Landes- und Kreisgrenzen

Ortspunkte

Straßennetze, Straßenverzeichnisse

Flächennutzungen, topographische Angaben

Thematische Sachdaten

Externe Sachdaten, z.B. demografische Daten (Bevölkerungsdichte, Altersstruktur...)

und Marktdaten, (Kaufkraftkennziffern...)

Unternehmensinterne Daten, z.B. Umsatzkennziffern, Kundenadressen, Fahrtrouten

Informationen in Schichten

Die Daten werden im Geoinformationssystem in Schichten gehalten. Dies ist ähnlich vor-

zustellen, wie durchsichtige Folien, die übereinander gelegt werden, wobei das GIS die

inhaltlichen Informationen der Schichten (anhand ihrer räumlichen Lage) verknüpfen kann.

Der Anwender kann die Daten, die er für seine jeweilige Fragestellung benötigt „überein-

anderschichten“, um dann spezielle Analysen vorzunehmen.

Abbildung 3: Entwicklung einer thematischen Karten aus verschiedenen überlagerten Informationsschichten

Entscheidend für die Datenqualität sind verschiedene Faktoren wie Aktualität, Flächenab-

deckung und geometrische Konsistenz (d.h. die verschiedenen Datenschichten müssen in

ihrem räumlichen Bezug „zusammenpassen“). Nicht zu unterschätzen ist die Bedeutung

der sogenannten Metadaten („Informationen über Informationen“), ohne die die Datenbe-

stände kaum nutzbar sind, wie z.B. Zeitpunkt der Erhebung und notwendige inhaltliche

Erläuterungen. Eine weitere Schwierigkeit liegt in der „Schnittstelle“, d.h. den verschiede-

nen Datenformaten, insbesondere bei der Verwendung verschiedener Datenquellen.



Software für verschiedene Ansprüche

3 SOFTWARE

Die Datenbestände werden in einer leistungsfähigen GIS-Software zusammengeführt, die

mindestens über folgenden Funktionsumfang verfügen sollte:

Datenverwaltung, d.h. Verwaltung von Daten unterschiedlicher Herkunft (Rasterkarten,

Datenbanken, Grafiken)

Dateneingabe zum Aufbau eigener Datenbestände durch Digitalisieren und tabellarische

Datenpflege

Datenvisualisierung bzw. Präsentation (Erstellung von thematischen Karten)

Datenanalyse (Abfragen, statistische Auswertungen, raumbezogene Analysen)

Abbildung 4: Beispiel für eine GIS-Benutzeroberfläche (ArcView 3.2 der Firma ESRI)(Datenquelle: Statisti-

sches Landesamt Bremen)

4 DATENQUELLEN UND GEODATENANBIETER

Die meisten Geodaten müssen vom Unternehmen dazugekauft werden. Nur ein Teil wird

selbst erstellt werden, da dies größeren Aufwand erfordert und höchstens für unterneh-

mensinterne Daten sinnvoll ist. Der Geodatenmarkt ist inzwischen fast unüberschaubar

groß geworden. Sowohl amtliche als auch kommerzielle Anbieter bieten Geobasisdaten

sowie Sachdaten an. Daneben gibt es zunehmend branchenspezifisches Komplettlösungen,

d.h. Softwarepakete mit integrierten Datenpaketen.



Die Betrachtungsebene ist entscheidend

Amtliche Geobasisdaten

Die Vermessungs- und Katasterverwaltungen der einzelnen Bundesländer bieten topografi-

sche Daten als Vektor- und Rasterkarten an. Topografische Vektorkarten umfassen ver-

schiedene Objekte, z.B. Straßen, bebaute Flächen, Gebäude, Gemeindegrenzen. Außerdem

werden Höhenmodelle und Luftbilddaten angeboten. Luftbilder und Rasterkarten dienen

vor allem der Orientierung, da mit ihnen keine weiteren Analysen durchgeführt werden

können. Bezugsquellen sind die jeweiligen Landesvermessungsämter.

Kommerzielle Geobasisdaten

Da das Vermessungswesen Ländersache ist, sind die o.a. Angebote auf das jeweilige Bun-

desland beschränkt. Diese Einschränkung haben die kommerziellen Datenanbieter nicht.

Ihr Angebot geht inzwischen weit über das Angebot amtlicher Anbieter hinaus. Neben

Rasterkarten werden Gebietsgrenzen wie administrative Gebietseinteilungen, Postleitzahl-

bereiche, Telefonvorwahlbereiche angeboten. Interessant sind vor allem Straßendaten, die

z.T. hausnummerngenau digitalisiert sind und sowohl für Routing als auch Geokodierung

genutzt werden können. Für Marktforschung und Marketing relevant sind die Marktzellen,

bestehend aus 10 – 15 Straßenabschnitten. Anbieteradressen werden im Anhang genannt.

Amtliche Sachdaten

Die statistischen Landesämter geben gemeinsam das Datenpaket „Statistik Regional“ her-

aus mit Informationen für die Landkreise und kreisfreien Städte heraus. Es umfasst Anga-

ben zu 16 Fachgebieten. Auf Gemeindeebene sind z.T. noch feiner gegliederte Angaben

beim jeweiligen Statistischen Amt erhältlich. Auch andere Ämter und Behörden bieten

raumbezogene (Spezial-) Daten an. Auf Bundesebene ist hier v.a. die Bundesamt für Bau-

wesen und Raumordnung zu nennen, aber auch Regionalverbände, Städtetage u.v.m. lie-

fern Geodaten. Daneben bieten Industrie- und Handelskammern Daten ihrer Kammerbe-

zirke an.

Kleinräumige Marktdaten

Kommerzielle Sachdaten

Auf verschiedenen räumlichen Ebenen, bis hin zu Marktzellen, bestehend aus 7 bis 15

Haushalten, sind Daten zu Bevölkerung, Bebauung, Branchen, Kaufkraftkennziffern und

PKW-Besitz erhältlich. Fachspezifische Branchenpotenzialdaten, Angaben zu Wahlverhal-

ten und Konsumverhalten u.v.m. wird von einer Vielzahl kommerzieller Datenanbieter

erhoben und gepflegt. Außerdem bieten die meisten von ihnen Geokodierdienste an, d.h.

unternehmensinterne Adressdatenbestände erhalten über die Zuordnung von Koordinaten

räumlichen Bezug, sodass z.B. die räumliche Verteilung von Kundenadressen dargestellt

werden kann.

5 ANWENDUNGSFELDER

Die Verknüpfung unternehmensbezogener Daten mit geografischen und marktbezogenen

Daten verdeutlicht Zusammenhänge zwischen Geschäfts- und Marktdaten. Unternehmeri-

sche Fragestellungen gewinnen unter Berücksichtigung der räumlichen Aspekte erweiterte



Erkenntnisse, sorgen für höhere Kundenpotenzialausschöpfung, höhere Umsätze, geringere

Streuverluste:

Standortmanagement: welche Einzugsgebiete deckt das bestehende Filialnetz ab?

Zielgruppenanalyse, Marktdurchdringung: wie gut werden Kundenpotenziale ausge-

schöpft ?

Konkurrenzanalyse: wo sind Mitbewerber ?

Tourenplanung: wie wird Fahrtzeit, Wegstrecke, Ladevorgänge, Kundenbesuche...

optimiert ?

Beispielhaft werden die Möglichkeiten des Business Mapping für vier Bereiche skizziert.

Szenarien in der Standortplanung

5.1 Standortmanagement

Die Standortanalyse und -planung eines Unternehmens, beispielsweise eines Einzelhan-

delsfilialisten, kann unter Nutzung des Business Mapping effektiver und umfassender wer-

den: Durch die EDV-Unterstützung wird es vereinfacht, verschiedene Szenarien zu entwi-

ckeln.

Beispiel Standortanalyse:

In einem ersten Schritt werden die eigenen Standorte visualisiert, sowie verschiedene Fak-

toren, z.B. Verkaufsfläche, Umsatz, Sortiment der Filialen. Ebenso kann die Wettbewerbs-

situation dargestellt werden. Hierfür werden die Adressen der Mitbewerber und anderer

„points of interest“ geokodiert. Dies kann - je nach gewünschter Genauigkeit - stra-

ßen(abschnitts)- oder sogar hausnummerngenau erfolgen.

Nun wird der Einzugsbereich der Filialen festgelegt: auf Grundlage eines Straßennetzes

werden hierfür Entfernung oder Fahrzeit zum Standort berücksichtigt. Im nächsten Schritt

können sie mit der „Schicht“ der Sachdaten „verschnitten“ werden. Es kann z.B. ermittelt

werden:

− wie viele Haushalte im Einzugsbereich leben (Kundenpotenzial);

− wie die Haushaltsstruktur im Einzugsbereich ist (Alter, Familiengröße – Zielgrup-

penanalyse);

− wie groß das Umsatzpotential (Kaufkraft) ist.



Abbildung 5: Einzugsbereich eines Standortes nach Fahrtzeit

5.2 Zielgruppenanalyse

Visualisierung der Mitbewerber und Kunden

In ähnlicher Weise können die potentiellen Zielgruppen „verortet“ werden: Ist eine solche

Zielgruppe vom Unternehmen einmal definiert, kann sie mit statistischen Daten für das

Untersuchungsgebiet abgeglichen werden. So wird die räumliche Verteilung einer Ziel-

gruppe dargestellt und dient als wesentliche Grundlage für weitere Analysen, z.B. Markt-

potenziale oder Marketingmaßnahmen.

5.3 Penetrationsanalyse (Marktdurchdringung)

Welchen Anteil am Markt schöpft das jeweilige Unternehmen aus? Die Visualisierung der

Marktdurchdringung kann durch verschiedene Verfahren erfolgen, z.B mittels Darstellung

des gesamten Marktvolumens und der Gegenüberstellung des Unternehmensumsatzes. Die

weitere Differenzierung, z.B. nach Marktsegmenten werden Stärken und Schwächen des

Vertriebs sichtbar und räumlich zugeordnet.

Abbildung 6: Visualisierung der Marktausschöpfung



5.4 Tourenplanung

Business Mapping wird auch bei der Tourenplanung eingesetzt: erweiternde Software

macht es möglich, Wege zu optimieren. Dabei geht es nicht nur um die logistische Fragen,

sondern auch um eine optimale Außendienstplanung. Neben einem sogenannten „routing-

fähigen“ Straßennetz und den geokodierten Adressen können auch Besuchsdauer und Be-

suchshäufigkeit berücksichtigt werden. Auf dieser Grundlage können Gebiete der Außen-

dienstmitarbeiter optimiert werden, d.h. die Gebiete werden für die Mitarbeiter strategisch

günstig und zugleich überschneidungsfrei ermittelt.

6 LITERATURHINWEISE

Leiberich (Hrsg.) „Business Mapping im Marketing“, Heidelberg 1997.

Fally/Strobl (Hrsg.) “Business Geographics”, Heidelberg 2000

Weitere Information sowie interessante Datengrundlagen können im Internet gefunden

werden. Wichtige Web-Adressen mit (betriebs-) wirtschaftlich relevanten Informationen

(am Anwendungsbeispiel GIS in der Kommunalen Wirtschaftsförderung) finden sich z.B.

auf der Webseite: http://www.fbw.hs-bremen.de/pschmidt - unter „GIS“.

- 65-


SoSe 2008

Volkswirtschaftslehre und Statistik

: (0421) 5905-4691

Fax: (0421) 5905-4862

[email protected]

www.fbw.hs-bremen.de/pschmidt

Quantitative Methoden

Part 5

Forschungsprojekt als Fallstudie

Das folgende Arbeitspapier „Regional Economic Impacts of Large Cultural Events – Does

public funding of large cultural events make sense from a regional economic point of view?“;

wurde präsentiert auf der Tagung der Academy of Economics and Finance, Nash-

ville/Tennessee, Februar 2008. Es wird Ende des Jahres in den Papers and Proceedings der

Academy of Economics and Finance erscheinen.


P. Schmidt, April 2008 - 66-


Does public funding of large cultural events make sense

from a regional economic point of view?

Peter Schmidt1

Bremen University of Applied Sciences (Hochschule Bremen) / Germany

April 2008

PRELIMINARY VERSION – please do not quote

1 Prof. Dr. Peter Schmidt ([email protected]), Bremer Institut für empirische Handels- und Regionalstrukturfor-

schung der Hochschule Bremen (Bremen Institut of Empirical Research in Trade and Regional Structur at Bremen University of Applied Sciences) and University of North Carolina Wilmington. The help and co-operation of Astrid Kurzeja-Christinck and Jutta Schmidt from GIS.direkt is gratefully acknowledged. Of cour-se all remaining errors are mine. Some of the results are based on earlier joint work with Aldona Kucharczuk.

market.research.culture (markt.forschung.kultur)

Research team at

Werderstrasse 73 D-28199 Bremen / Germany

Phone: +49+ (0) 421 5905-4691 Fax: +49+ (0) 421 5905-4692

email: [email protected] http://www.markt-forschung-kultur.de



Abstract

This paper analyzes the impacts of cultural events from a regional economic perspective.

The research question is whether it is worthwhile for a region or a city to fund large cultural

events like arts exhibitions. The basic idea is that there are indirect effects for the regional

economy if visitors travel long distances to attend the event and also spend time and money

in the region. This way of indirect re-financing of public funding (as an investment) is called

indirect impact (or to translate the German expression literally: ‘detour return on investment’)

One question is whether such an indirect effect can be measured for large exhibitions at the

Kunsthalle Bremen (Arts museum) in northern Germany. The exhibition Van Gogh: The Fields

(2002/03) that was visited by more than 300,000 people is analyzed mainly but altogether

there seven surveys have been conducted in the last 8 years and the estimations are also

conduced for the other exhibitions. In this paper the indirect impact of arts exhibitions is esti-

mated in three steps. First the expenditures of out-of-town visitors are estimated, secondly

the resulting regional value added. In the third step, a preliminary estimate of fiscal impacts is

conducted and some further (non-monetary) aspects are discussed.

The analysis shows that for the Van Gogh exhibition around 200,000 people came to Bre-

men primarily to visit the exhibition and travelled at least 100 km. The estimated expendi-

tures by out-of-town visitors for this exhibition range between € 10 and 12.6 million, leading

to an estimated regional value added of between € 14 and 17.6 million. A preliminary esti-

mate of a potential additional tax revenue due to the exhibition amounts to between € 1.6

and 2 million.

So the research question can be answered with: Yes, in fact the public funding turns out to

be a good ‘investment’ for the city.



Contents

1. Introduction: Arts and Economics – Contradiction or Complements?................................69

2. The Visitors – describing the target group.........................................................................70 2.1 Socio-demographic characteristics............................................................................................70 2.2 Origin of the visitors ...................................................................................................................72 2.3 Motives, Activities and Overnight Stays of Out-of-Town Visitors ..............................................74

2.3.1 Special Exhibition as (main) Reason to visit the City / Region ..................................................... 74 2.3.2 Duration and Type of Overnight Stay ........................................................................................... 75 2.3.3 Further Activities of the Visitors.................................................................................................... 76

3. Regional Economic Impacts of the Arts Exhibitions ..........................................................77 3.1 Estimation of the Expenditures of Out-of-Town Visitors............................................................77 3.2 Regional Value Added: Direct and Indirect Impacts, Regional Multiplier ..................................81 3.3 Fiscal Impacts............................................................................................................................83 3.4 Additional effects: Expenditures of Other Out-of-Town and Local Visitors (Import

Substitution) ...............................................................................................................................84

4. References .......................................................................................................................86

Figures

Figure 1 (Event) Exhibitions and visitors’ surveys at Kunsthalle Bremen........................................70

Figure 2 Age group and Gender at the Van Gogh exhibition...........................................................71

Figure 3 Average Age of visitors at different exhibitions..................................................................71

Figure 4 Origin of the Visitors (Van Gogh exhibition).......................................................................72

Figure 5 Origin of visitors from Germany .........................................................................................73

Figure 6 Out-of-town Visitors with Exhibition as the Reason to Travel to Bremen, Van Gogh........74

Figure 7 Out-of-town Visitors with Exhibition as the Reason to Travel to Bremen, all

Exhibitions..........................................................................................................................75

Figure 8 Average duration of stay (Van Gogh Exhibition)................................................................75

Figure 9 Type of Accommodation of out-of-town visitors.................................................................76

Figure 10 Average duration - overnight stay of out-of-town visitors explicitly coming for the

event ..................................................................................................................................76

Figure 11 Further activities of out-of-town visitors .............................................................................76

Figure 12 Further activities of out-of-town visitors .............................................................................77

Figure 13 Estimation of average daily expenditures of out-of-town visitors.......................................78

Figure 14 Estimation of expenditures of out-of-town visitors staying in hotels ..................................79

Figure 15 Estimation of expenditures of out-of-town visitors staying with friends/family...................79

Figure 16 Estimation of expenditures by out-of-town one day visitors ..............................................79

Figure 17 Estimation total expenditures of out-of-town visitors .........................................................80

Figure 18 Projected Expenditures of Out-of-Town Visitors during event exhibitions (estimated

direct impacts - in 1 000 000 €)..........................................................................................80

Figure 19 Total direct and indirect impacts estimated in the multiplier ..............................................82

Figure 20 Regional Value Added of Out-of-Town Visitors during event exhibitions (estimated

direct plus indirect impacts - in 1 000 000 €) .....................................................................83

Figure 21 Preliminary Estimate of Possible Tax Revenues ...............................................................83



1. Introduction: Arts and Economics – Contradiction or Complements?

The financing of arts institutions in Germany is traditionally (and also established in the Ger-

man constitution) a task of the government – on all levels: national, states and cities. With

increasing financial problems of public households, the public funding has been substantially

reduced over the last years. This paper analyzes from an economic and finance point of view

whether the public “investment” in arts institutions and here especially in large events can

turn out to have a positive “return on investment”. This argumentation is relatively new in the

public debate in Germany as traditionally public funding of arts was primarily discussed as a

part of the government’s (educational) mission. Visitors’ surveys performed professionally on

basis of statistically reliable data bases, also as a means of evaluation of the own perform-

ance, are rarely performed by German museums.

In a traditional discussion the question occurs whether the Arts on the one hand and eco-

nomic / business aspects on the other can go together as complements or whether the two

concepts are a contradiction in itself. The independence of arts has a high value in public

opinion and the question whether this is endangered by private financial engagement in

(public) arts institutions exceeds the scope of this paper.

An interesting aspect of this discussion has been highlighted by authors like Richard Florida

who published his book ’The rise of the creative class ... and how it’s transforming work, lei-

sure, community & every day life’ in 2002. His argument is that regions that want to improve

their economic performance are well advised to open up to creative people. These do not

only include artists in the narrower definition but all creative people. The more a region en-

courages creative activity the more likely is a positive economic development.

Kunsthalle Bremen

The “Kunsthalle Bremen”, founded in 1849, is the traditional arts museum in the city of Bre-

men in Northern Germany. Bremen is the tenth largest city in Germany with around 550 000

inhabitants. Since the year 2000 the Kunsthalle has been organizing several big exhibitions

events, all accompanied by intense and creative marketing. In this period, mar-

ket.research.culture has been performing seven large visitors surveys: the five large exhibi-

tion events (the current is still ongoing up to end of February 2008) und two surveys in “quiet

times” (without event) in order to compare the visitors and impacts of big special exhibitions

with those visiting “only” the permanent exhibition of the Kunsthalle Bremen. Altogether more

than 11 000 visitors took part in these seven surveys as shown in Figure 1.



Figure 1 (Event) Exhibitions and visitors’ surveys at Kunsthalle Bremen

Exhibition Topic Duration Total

Visitors Respondents

(% of all visitors)

Der Blaue Reiter

‘The Blue Rider', group of expres-sionist artists. (Wassily Kandinsky, Franz Marc, August Macke, et. al., also Paul Klee)

25/03/00 - 18/06/00

149 000 811 (0.5 %)

Van Gogh ‘The Fields', landscapes in France 19/10/02 - 26/01/03

296 879 3 019 (1.02 %)

Klee im Norden

‘Paul Klee in Northern Germany', joint exhibitions in Hamburg, Han-nover and Bremen (‘Teacher at the Bauhaus’)

30/11/03 - 29/02/04

68 900 673 (1 %)

(summer 2005) (permanent exhibition) June - August 05

14 943 700 (4.7 %)

Monet & Camille

'Fashion and Portraits of Women in Impressionism' with focus on the early works of Monet comparisons to his contemporaries as Renoir, Manet and other

15/10/05-26/02/06

207 687 2 975 (1.4 %)

(summer 2006) (permanent exhibition) June - August 06

9 182 950 (10.3 %)

Paula in Paris

Paula Modersohn-Becker in Paris and the French avant-garde. The common grounds of her works and those of artists such as Cézanne, Gauguin, and Van Gogh as well as Maillol and Picasso in direct com-parison.

13/10/07 - 24/02/08

208 824 2 086 (1.0 %)

Source: market.research.culture, Bremen 2008 (‘net’-visitors = student groups subtracted)

2. The Visitors – describing the target group

The term ‘target group’ can have different meanings. From a theoretical (marketing) point of

view, a target group has to be defined in advance and the marketing strategy has to be ori-

ented towards that group. On the other hand in empirical analyses often the target group is

defined describing the customers actually interviewed. The latter makes sense also for this

study as the current visitors described by the survey are also the potential customers of fu-

ture events, so it is important to know them for future strategy.

2.1 Socio-demographic characteristics

The findings in our studies are typical for comparable research in the arts / museum seg-

ment: visitors of arts museums are mostly of age 45 and above, especially there are few

young visitors. Normally there are more female visitors, both shown in Figure 2.



Figure 2 Age group and Gender at the Van Gogh exhibition

Agegroup by Gender (absolute numbers)

0

50

100

150

200

250

300

350

400

450

20 or

younger

20-29 30-39 40-49 50-59 60-69 70 plus

male female

Source: market.research.culture, Bremen 2008: Van Gogh visitors, n = 3 019.

It is interesting to see that the average age of the visitors steadily increases in the subse-

quent exhibitions. One possible explanation might be that many visitors return for the next

exhibition - around two years older.

Figure 3 Average Age of visitors at different exhibitions

Average age

49.2

47.36

49.09

46.48

51.15

45.57

44.77

40

42

44

46

48

50

52

Blauer

Reiter

Van Gogh Klee im

Norden

(Summer

05)

Monet &

Camille

(Summer

06)

Paula in

Paris

Source: market.research.culture, Bremen 2008

So one result is that the most important target group consists of (female) visitors aged 45

and above. In addition all surveys show that the majority of visitors has a high level of educa-

tion, in all studies around 50% of all visitors had a university degree, another quarter a col-

lege education.



The typical visitor of an arts exhibition is a woman between 45 and 50 years of age with a

university degree. This is worth noting for the estimation of the expenditures, as these target

groups are wealthier and so are likely to spend more than average tourists of a city / region.

2.2 Origin of the visitors

The visitors were asked for their city and German zip code. From this we developed a classi-

fication based on the distance from their place of residence to the Kunsthalle Bremen. Figure

4 shows the categories and their frequencies for the Van Gogh exhibition. The figure shows

that 84% of all respondents came from out-of-town.

Figure 4 Origin of the Visitors (Van Gogh exhibition)

1. Bremen 490

16.47%

2. Neighborhood 414

13.92%

3. up to 250 km 1451

48.77%

4. 250 plus 506

17.01%

5. Abroad 114

3.83%

Total 2975

Abroad

4%250 plus

17%

up to 250 km

49%

Bremen

16%Neighborhood

14%

Source: market.research.culture, Bremen 2008: Van Gogh visitors, n = 2 975.

This emphasizes the huge success of the exhibition as this corresponds to a projected num-

ber of more than 250 000 out-of-town visitors. More than 83 % of these visitors travelled

more than 100 km to Bremen. This can also be seen on a map depicting the German two-

digit zip codes in Figure 5, which also visualizes the categories of origin. Here the larger cit-

ies in a neighborhood of 120 km, Hamburg and Hannover as well as Berlin and the Ruhr

(Ruhrgebiet) in Western Germany can be identified.

114 visitors from abroad took part in the survey, which is around 4% or the respondents, cor-

responding to a projection of around 11 000 visitors.



Figure 5 Origin of visitors from Germany

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$$$$

$

$$$$

$$$$$$$$$ $$

$$$$$$ $

$

$

$

$

$

$

$$$

$$

$$

$$$

$$$

$$ $

$

$

$$

$

$

$

$

$

$

$

$

$$

$

$$$$$

$

$

$$$$

$$$$$$ $$

$

$

$

$$$$$$$$$$

$

$$$$$$$$$$$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$ $

$$$

$

$$

$

$$

$$

$

$$

$ $

$

$$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$ $

$$

$$

$

$ $$

$

$$

$$$$ $

$

$

$$ $$

$

$

$

$$$

$$

$

$

$$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$ $

$

$$

$

$

$

$

$

$ $

$

$$

$

$

$

$$$

$

$

$

$ $ $$

$

$$$

$

$

$

$

$$

$

$$

$

$

$

$

$$

$

$

$$

$

$

$

$$

$

$

$ $$

$$

$

$$

$$

$

$

$ $

$

$

$

$

$

$$

$

$

$

$

$$$

$

$

$

$

$$

$$

$

$

$ $

$

$$

$

$

$

$

$

$

$

$$$

$$$

$

$

$

$$

$

$

$

$

$

$

$$

$

$

$

$$

$

$$

$

$

$ $

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$$$

$

$

$

$

$$ $

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$ $

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$$

$$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$$

$

$

$

$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$ $

$

$

$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$$

$

$ $

$

$

$

$ $

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$$$

$

$

$

$

$

$

$

$

$ $

$

$

$$

$$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$$

$$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$ $$

$

$$

$$

$

$$

$

$

$

$

$$ $$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$$

$$

$

$

$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$$

$$$

$

$$

$

$

$

$$

$

$

$

$$

$

$

$

$ $

$

$

$

$

$

$

$$

$

$$

$

$$

$

$

$

$

$

$

$$

$$$

$

$

$

$

$

$

$$

$

$

$

$

$$$

$

$$

$

$

$

$$

$

$

$

$

$ $

$

$$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$$

$$

$

$

$

$$

$

$$

$

$

$

$

$

$$

$

$

$$$

$

$

$

$

$

$

$$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$$

$

$$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$$$

$

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$$

$

$$

$

$

$$

$

$

$

$

$

$$

$ $

$

$$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$$ $$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$$$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$$

$$$

$$

$$

$

$$

$

$

$$

$$

$

$

$

$$

$

$$$

$

$$

$$$

$

$

$

$

$

$ $

$

$

$$

$

$

$

$ $$

$

$

$

$

$

$$

$$

$

$

$

$

$

$

$

$

$

$

$$

$$

$

$

$

$

$

$

$

$$

$

$$

$

$$

$

$$

$

$$ $

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$$

$

$

$

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$$$

$

$$$$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$$

$

$

$

$

$$ $

$

$$

$

$$

$

$

$$

$

$

$

$

$

$

$

$ $

$$

$

$

$ $$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$

$

$

$

$

$ $ $

$$

$

$

$

$$

$

$

$

$

$

$$$

$

$$

$

$

$

$$$$

$

$

$

$$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$

$

$

$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$ $

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$ $

$

$

$

$

$

$$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$$

$

$

$

$

$

$

$

$

$$

$

$

$$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$ $

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$ $

$

$

$$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$$ $

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$$

$$

$

$

$$

$

$

$

$$

$

$

$$

$

$

$

$$

$$

$

$$ $$ $

$$

$

$

$$

$$

$$$

$

$

$

$$

$

$

$

$

$

$

$$$

$

$

$

$

$

$

$$ $

$ $

$

$

$$$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$

$$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$ $

$

$$

$

$

$

$$

$

$

$$

$

$

$

$

$

$$

$

$ $

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$ $$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$$$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$ $$

$$

$

$ $

$

$

$

$

$

$$

$$

$

$

$$

$

$

$

$

$

$

$

$

$$

$

$$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$

$$ $

$

$$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$$

$

$$

$ $$ $

$

$

$

$

$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$$

$$

$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$

$$$

$

$$

$

$$$

$

$$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$

$

$$

$

$

$

$$

$$

$

$

$

$

$

$$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$

$$

$

$

$$ $

17

06

39

16

97

49

29

91

19

15

26 27

99

14

94

04

86

24

38

37

83

31

92

84

01

18

21

25

34

74

88

54

3635

48

7285

59

23

56

79

93

95

07

66

87

96

89

02

53

63

09

82

67

55

78

0333

57

98

76 73

32

08

77

65

64

52

47

46

58

71

51

75

41

90

30

28

45

69

61

50

22

42

68

44

40

70

1213

60

80

20

BremenUmlandTagesgästeTouristen

$ 1 Punkt = 1 Befragte/r

Source: GIS.direkt, data: market.research.culture, Bremen 2008: Van Gogh visitors’ origin (2 digit zip codes)

Bremen Neighborhood up to 250 250 +

1 dot = 1 respondent



2.3 Motives, Activities and Overnight Stays of Out-of-Town Visitors

The next important question is whether the out-of-town visitors explicitly came to see the ex-

hibition. If this is the case, they can be taken into account for the estimation of the economic

impacts.

2.3.1 Special Exhibition as (main) Reason to visit the City / Region

All out-of-town visitors were asked ‘Is the exhibition the reason for your visit to Bremen?’ to

which 77 % gave an affirmative answer. This percentage differed with the origin of the re-

spondents, see Figure 6. Towards the end of the exhibition the percentage of out-of-town

visitors coming explicitly to see the exhibition increased, presumably reflecting the success of

the word-of-mouth recommendations, but also marketing and reports.

Figure 6 Out-of-town Visitors with Exhibition as the Reason to Travel to Bremen, Van Gogh

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2

Neigborhood

3 up to 250 4 250 plus 5 Abroad Total


Figure 7 illustrates that percentages of out-of-town visitors vary across the exhibitions as

does the percentage of the out-of-town visitors stating that they came because of exhibition.

The most successful event exhibitions Van Gogh, Monet & Camille and currently Paula in

Paris obviously attract many out-of-town visitors. This indicates that the large scale and crea-

tive marketing for these events is an important key to its success. These numbers are an

important basis for the estimation of economic impacts.



Figure 7 Out-of-town Visitors with Exhibition as the Reason to Travel to Bremen, all Exhibitions

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

Percentage out-of-town

71% 84% 75% 61% 80% 66% (81%)

Percentage out-of-town, coming because of exhibition

n/a 77% 73% 31% 71% 24% 78%


2.3.2 Duration and Type of Overnight Stay

Out-of-town visitors on average stayed in Bremen for 1.5 days. Those out-of-town visitors

who came explicitly to visit the exhibition only spent an average time of 1.2 days in the city.

Figure 8 shows the average length of stay by origin of the visitors – this length increases with

the travel distance of the visitors.

Figure 8 Average duration of stay (Van Gogh Exhibition)

Bayern

Niedersachsen

Hessen

Brandenburg

Sachsen

Baden-

Württemberg

Nordrhein-

Westfalen

Thüringen

Sachsen-

Anhalt

Rheinland-

Pfalz

Mecklenburg-

Vorpommern

Schleswig-

Holstein

Saarland

Berlin

Hamburg

durchschnittliche Besuchsdauer

1 Tag1 - 2 Tage2 - 3 Tage3 - 4 Tageüber 4 TageKeine Befragten

Source: GIS.direkt, data: market.research.culture, Bremen 2008: Van Gogh visitors’ origin

During the Van Gogh exhibition most of the out-of-town visitors (85%) only spent one day in

Bremen without staying overnight. Of those spending the night in the city 52 % lodged in a

Average duration of visit

1 day 1-2 days 2-3 days 3-4 days 4 + days n/a



hotel, 43 % stayed with friends. Figure 9 shows how these percentages vary between the

exhibitions

Figure 9 Type of Accommodation of out-of-town visitors

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

Hotel 60% 52% 62% 25% 32% 18% 61%

Friends/family 31% 43% 18% 53% 63% 75% 34%

other 9% 5% 21% 22% 5% 7% 5%


For the estimation of out-of-town visitors’ expenditures, a differentiation of duration is neces-

sary between those staying in a hotel and those staying with friends, as shown in Figure 10.

Figure 10 Average duration - overnight stay of out-of-town visitors explicitly coming for the event

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

All types of accommo-dation

n/a 2.2 1.88 1.7 1.59 1.94 n/a

In hotels n/a 2.32 1.50 2.95 2.31 2.16 2.72

With friends / family n/a 2.02 1.67 1.30 1.90 2.40 2.81


2.3.3 Further Activities of the Visitors

Another aspect of out-of-town visitors’ expenditures is the question whether they combine

their visit with other activities in Bremen. The answer to this question is shown in Figure 11.

Figure 11 Further activities of out-of-town visitors – all exhibitions

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

Visiting other museums n/a n/a n/a 31% 12% 32% 32%

Other cultural activities 12% 20% 20% 21% 11% 24% 13%

Shopping 22% 33% 36% 30% 35% 34% 31%

Restaurant 24% 47% 49% 37% 47% 35% 39%

Sightseeing 16% 33% 29% 37% 31% 39% 22%




The answer to this question varies substantially by origin of the visitor. While around half of

the visitors intended to eat out, the percentage of respondents visiting other cultural institu-

tions and also of sightseeing increases by distance.

Figure 12 Further activities of out-of-town visitors (Van Gogh)

10% 11%

19%

30%

42%

38%

41%

29%

33%

44%

54%

50%48%

39% 40%

8%

14%

36%

47% 46%

13%

19%22% 22%

18%

0%

10%

20%

30%

40%

50%

60%

1 Bremen 2 Neigborhood 3 up to 250 4 250 plus 5 Abroad

Other cultural institutions Shopping Restaurants Sightseeing Other activities

Source: market.research.culture, Bremen 2008: Van Gogh visitors

3. Regional Economic Impacts of the Arts Exhibitions

The impact of arts exhibitions is estimated in three steps. First the expenditures of out-of-

town visitors are estimated, secondly the resulting regional value added. In the third step, a

preliminary estimate of fiscal impacts is conducted and some further (non-monetary) aspects

are discussed.

3.1 Estimation of the Expenditures of Out-of-Town Visitors

To estimate the expenditures of out-of-town visitors, only those visitors (respondents) are

taken into account who reported that the visit of the expenditure was the reason to come to

Bremen. Furthermore, different categories of visitors had to be differentiated. This was done



with respect to the question, whether, how long, and where they stayed (over night) in the

city/region.2

The expenditures of out-of-town visitors were estimated as follows:

Exp = Σ PVx • AEx • DSx

= PVday • AEday • DSday + PVhot • AEhot • DShot + PVfam • AEfam • DSfam

with: PVx = Respx • EF

and:

Exp Expenditures of out-of-town visitors

Respx Number of respondents in category x

EF Expansion factor (total visitors of the exhibition / respondents in the survey)

(reciprocal of ‘(% of all visitors)’ in Figure 1)

PVx Projected number of out-of-town visitors in category x

DSx Duration of stay of the out-of-town visitors in category x

AEx Average expenditures of out-of-town visitors (tourists) in category x

where x represents:

day one-day visitors

hot visitors staying in a hotel

fam visitors staying with friends/family

For AE the following estimates for Germany have been used:

Figure 13 Estimation of average daily expenditures of out-of-town visitors

source:

Estimated Expendi-tures of one-day

visitors

Estimated Expendi-tures of visitors stay-

ing in hotels

Estimated Expendi-tures of visitors staying

with friends/family

DWIF´93 HB 27.26 €

DWIF´95 26.36 € 128.64 € 67.39 €

DWIF´00 HB 152.81 € 86.40 €

ITF´96 BHV 38.90 € 53.25 €

BTZ´00 HB 45.69 € 126.26 € 59.85 €

Sources: DWIF 93/95 – Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni München; B.

Harrer, Dr. M. Zeiner, Dr. J. Maschke, S. Scherr; Tagesreisen der Deutschen; 1993 und 1995 DWIF 02 – Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni München; Dr. B. Harrer, S.

Scherr; Ausgaben der Übernachtungsgäste in Deutschland; 2002 DWIF05 – Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni München; Dr. B. Harrer, S.

Scherr; Ausgaben der Übernachtungsgäste in Deutschland; 2005 BITF – Bremer Institut für Tourismuswirtschaft und Freizeitforschung; Gästebefragung Stadt Bremen – 2000 (im Auftrag der

BTZ Bremen)

2 Other possible differentiations could have been the further activities reported by the respondents (see 2.3.3), but the average expenditures in the literature sources used for this paper didn’t contain this differentiation.



ITF Research GmbH – Institut für Tourismus- und Freizeitforschung Bremerhaven, Besucherbefragung – 1996

In order to show the single aspects of the projected expenditures, the following three figures

show the three categories separately. In Figure 14 through Figure 16 the estimations based

on the different literature sources are shown. All projected expenditures are converted to

2007 €.

Figure 14 Estimation of expenditures of out-of-town visitors staying in hotels

144 overnight stays in hotels

source:

Average Expendi-ture in year-of-study €

AEhot Average Expendi-

tures in 2007 €

EF Expansion

Factor

Resphot Number of

Respondents staying in

hotels

PVhot

PV * AE expenditures per day by

visitors staying in hotels

DShot Duration of

stay of visitors

staying in hotels

Projected Ex-penditures of


DWIF´95 107.37 € 128.64 € 98.34 144 14,161 1,821,582.06 € 2.3 4,189,638.74 €

ITF´96 BHV 45.11 € 53.25 € 98.34 144 14,161 754,069.38 € 2.3 1,734,359.58 €

DWIF´00 HB 135.83 € 152.81 € 98.34 144 14,161 2,163,849.65 € 2.3 4,976,854.19 €

BTZ´00 HB 112.23 € 126.26 € 98.34 144 14,161 1,787,888.14 € 2.3 4,112,142.72 €

Source: market.research.culture, Bremen 2008: Van Gogh visitors survey plus indicated sources.

Figure 15 Estimation of expenditures of out-of-town visitors staying with friends/family

118 overnight stays with friends or family

source:

Average Expendi-ture in year-of-study €

AEfam Average

Expenditu-res

in 2007 €

EF Expansi-on Factor

Respfam Number of

Respondents staying with

friends/family

PVfam

PV * AE expenditures per day by

visitors staying with

friends/familiy

DSfam Duration of stay of visi-tors staying

with friends/family


visitors staying with

friends/family

DWIF´95 56.25 € 67.39 € 98.34 132 12,980 874,735.17 € 2 1,749,470.35 €

DWIF´00 HB 76.80 € 86.40 € 98.34 132 12,980 1,121,512.30 € 2 2,243,024.59 €

BTZ´00 HB 53.20 € 59.85 € 98.34 132 12,980 776,880.91 € 2 1,553,761.83 €


Figure 16 Estimation of expenditures by out-of-town one-day visitors

1550 one-day visitors

source:

Average Expenditure in year-of-

study €

AEday Average Ex-penditures in 2007 €

EF Expansion

Factor

Respday Number of Re-

spondents staying only one day

Pvday Projected Expendi-

tures of one-day visitors

DWIF´93 HB 21.78 € 27.26 € 98.34 1,550 152,422 4,154,308.74 €

DWIF´95 22.00 € 26.36 € 98.34 1,550 152,422 4,017,516.55 €

ITF´96 BHV 32.95 € 38.90 € 98.34 1,550 152,422 5,928,749.55 €

BTZ´00 HB 40.61 € 45.69 € 98.34 1,550 152,422 6,963,596.13 €




Figure 17 delivers a summary of all estimated expenditures of out-of-town visitors. As not all

sources include values for every category of visitors, the total expenditures were only com-

puted for those sources containing all information. In addition, lowest and a highest projec-

tion estimation was conducted.

Figure 17 Estimation total expenditures of out-of-town visitors

source:


one-day visitors



Projected Expen-ditures of visitors

staying with friends/family

Exp Projected Ex-penditures of

all out-of-town visitors

DWIF´93 HB 4,154,309 € --

DWIF´95 4,017,517 € 4,189,639 € 1,749,470 € 9,956,626 €

DWIF´ 00 HB 4,976,854 € 2,243,025 € --

ITF´96 BHV 5,928,750 € 1,734,360 € --

BTZ´00 HB 6,963,596 € 4,112,143 € 1,553,762 € 12,629,501 €

lowest projection 4,017,517 € 1,734,360 € 1,553,762 € 7,305,638 €

highest projection 6,963,596 € 4,976,854 € 2,243,025 € 14,183,475 €


This approach results in a very broad interval for the estimation of projected expenditures, so

the lowest and highest projection values are not taken into further account. On average the

estimation amounts to approximately 11 million €.

Similar estimations were conducted for the other surveys; the results are shown in Figure 18.

Figure 18 Projected Expenditures of Out-of-Town Visitors during event exhibitions (estimated direct impacts - in 1 000 000 €)

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in Paris

Minimum estimation 9.957 1.165 0.245 7.154 0.128 10.967

Maximum estimation 6.2873

12.629 1.694 0.276 8.789 0.143 11.682


This results show huge differences between the projected expenditures of the different exhi-

bitions. One clear result is that the economic impacts of the permanent exhibitions of an arts

museum are negligible. Not only are the numbers of visitors very small as compared to the

3 The value shown for the ‚Der Blaue Reiter’ exhibition is not completely comparable as the visitors were not asked whether they came to Bremen because of the exhibition. So this percentage was es-timated on basis of the other studies.



events although the time period of the survey is comparable, but also the percentage of peo-

ple coming to Bremen in order to visit the arts museum as was shown in Figure 7. In addition

it can be concluded from the fact that also the Klee exhibition did not result in a comparably

high value of projected expenditures, that joint exhibitions with other large cities which are

‘not far enough away’ also do not pay off as high as events that are focused on and pro-

moted in one city.

3.2 Regional Value Added: Direct and Indirect Impacts, Regional Multipliers

The second step in the analysis of economic impacts is to examine the contribution of these

additional expenditures in the city / region to the local economy. To not only take into account

the direct effects - the direct spending of those visitors who came from outside the town in

order to visit the exhibition as described above - but also the economic transactions caused

by these expenditures called indirect effects, regional multipliers are applied. They measure

the additional regional economic value added. The multiplier analysis was introduced by

John Maynard Keynes who designed this analysis for the macro economy of countries. Here

the multiplier takes into account the marginal propensity of a leakage out of the economy

(MPL): multiplier k = 1 / MPL

with: MPL = MPS + MPM + MPT

where MPS is the marginal propensity so save, MPM the marginal propensity to import and

MPT to be taxed, all measuring the percentage of the additional income not increasing the

total expenditure.4 On a national level the multiplier can take relatively high values.

Using a multiplier the Regional Value Added (RVA) can be estimated:

RVA = Exp + indirect Effects

= Exp • ( 1 + k )

4 Tribe, J. (2005), pages 266 to 271



Figure 19 Total direct and indirect impacts estimated in the multiplier

Source: Figure on the basis of Baum, H., Schneider, J., Esser, K., Kurte, J. (2004), page 10.

Looking at regional multipliers however, the effects are not so clear. ‘Leakages’ already oc-

cur, when some part of the additional expenditures are not spent within the city but in the

surrounding area, belonging to another municipality. This is called the (regional) incidence

(which percentage of the expenditures stays in the city / region?). Depending on the assump-

tions about the leakages and incidence the value of the multiplier to be applied varies sub-

stantially. Tribe quotes Tourism Income Multipliers for different countries for Canada (TIM =

2.5), UK (TIM = 1.8), Iceland (TIM = 0.6), and Edinburgh (TIM = 0.4).5 For cultural events for

example Grozea-Helmenstein, Slavova and Treitler use a multiplier of 1.736 in Austria, also

RIMS II multipliers of the U.S. Department of Commerce, Bureau of Economic Analysis vary

around 1.757

As the leakages are subtracted they lead to a smaller multiplier. We can observe that on av-

erage the smaller the region to be analyzed, the smaller the multiplier.

Bremen is a city state - although it only has 550 000 inhabitants it is one of the 16 German

states (Bundesländer)8 and thus has a certain fiscal autonomy. This also means that the re-

gional incidence is very important in order to evaluate the economic and fiscal effectiveness

of a public activity - and the ‘regional economy’ of Bremen is small. There have been several

attempts to estimate a multiplier for Bremen. Taubmann and Behrens, one of the first and

most quoted German studies about economic impacts of cultural institutions, used a multi-

5 Tribe, J. (2005), page 271

6 Grozea-Helmenstein, D., Slavova, T., Treitler, R. (2004), page 61

7 Chang, S (2002), page 14, using the Regional Input-Output Modeling System (RIMS II), cf. Regional Economic Accounts of the Bureau of Economic Analysis (http://www.bea.gov/bea/regional/rims)

8 The Bundesland Bremen consists of the cities Bremen and Bremerhaven, which add up to a popula-tion of around 660 000.

Exhibition Event

Increased demand in

regional firms

Increased demand for

intermediate products

Impact at Kunst-

halle Bremen

Impact for re-

gional firms

Impact for (re-

gional) producers

RVA

Total

direct

and

indirect

impacts



plier of 1.5, Schönert and Wehling9, in a study about another Bremen museum use the value

of 1.4 quoting Schaefers10 study from the year 2000. Heinemann and Kastin apply a multi-

plier of 1.311. So as a careful estimation a multiplier of 1.4 seems to be appropriate for this

analysis.

Figure 20 shows the magnitude of the direct expenditures plus indirect effects induced by the

exhibition events of Kunsthalle Bremen.

Figure 20 Regional Value Added of Out-of-Town Visitors during event exhibitions (estimated direct plus indirect impacts - in 1 000 000 €)

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

Minimum estimation 13.940 1.631 0.343 10.016 0.179 15.353

Maximum estimation 8.802

17.681 2.372 0.386 12.305 0.200 16.654


3.3 Fiscal Impacts

An in-depth analysis of the fiscal implications of the estimated Regional Value Added would

imply a detailed derivation of employment effects, computed on basis of the industry specific

labor productivity which goes beyond the scope of this paper.

Based on an approach of Baum, H., Schneider, et al.12 we assume an average effective tax

rate (after redistribution) of 22.5%13 which is divided between the political subdivisions as

shown in Figure 21, from which we derive a very preliminary and provisional estimate of pos-

sible tax revenues and their division.

Figure 21 Preliminary Estimate of Possible Tax Revenues

Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

federal (min) 1.367 0.160 0.034 0.983 0.018 1.506

(43.7%) (max)

0.863 1.734 0.233 0.038 1.207 0.020 1.634

9 Schönert and Wehling (2003), page 22

10 Schaefer, H. (2000)

11 Heinemann, A., Kastin, S. (2007), page 21

12 Baum, H., Schneider, J., Esser, K., Kurte, J. (2004), page 50 – 52.

13 Quoted from the German Statistical Office (Statistisches Bundesamt) Statistisches Jahrbuch 2003, page 663.



Blauer Reiter

Van Gogh

Klee im Norden

(Summer 05)

Monet &

Camille

(Summer 06)

Paula in

Paris

state (min) 1.261 0.148 0.031 0.906 0.016 1.389

(40.2%) (max)

0.796 1.599 0.215 0.035 1.113 0.018 1.506

city (min) 0.376 0.044 0.009 0.270 0.005 0.415

(12.0%) (max)

0.238 0.477 0.064 0.010 0.332 0.005 0.450

EU (min) 0.125 0.015 0.003 0.090 0.002 0.138

(4.0%) (max)

0.079 0.159 0.021 0.003 0.111 0.002 0.150

state plus (min) 1.637 0.192 0.040 1.176 0.021 1.803

city (max)

1.034 2.077 0.279 0.045 1.445 0.024 1.956


As Bremen is a city-state both the taxes of the state and the city level are relevant, which is

why both values are added up in the last tow rows of in Figure 21 providing an estimate of

between € 1.6 and 2 million as fiscal impact of the Van Gogh exhibition in 2003/03 (con-

verted int in 2007 €).

From this point of view we can derive that the ‘investment’ of the city state of Bremen in

events of the Kunsthalle Bremen pays off very well. As for the Van Gogh exhibition the public

funding added up to around € 1 million, for the other exhibitions it was even lower.

So on the one hand these figures appear rather huge and this preliminary estimation of tax

revenue has to be revised carefully.

Furthermore in the specific situation of the city state of Bremen there is a German specialty

to be considered. Bremen is heavily overindebted with a huge budged deficit and the state

budget can only be held up by a substantial support of the federal budget and the other

states (Länder) by a system called ‘Länderfinanzausgleich’ (financial equalization scheme

between the Federal Government and the Länder). This results in the fact that from every

additional Euro earned by Bremen around 95 to 97 Cents are deducted from the Länderfi-

nanzausgleich. From this angle there is hardly any incentive for Bremen to make any effort in

raising additional tax revenue.

3.4 Additional effects: Expenditures of other Out-of-Town and Local Visitors (Import

Substitution)

In addition to the estimated direct and indirect monetary impacts of large cultural events

there are some more arguments which are either not included in the estimation above (and

so subject to further research) or are not measurable in monetary terms.



• In only taking into account the out-of-town visitors we underestimate the effect that also

the visitors from the city on Bremen themselves may spend more money during and

around the visit of an exhibition (museum shop, restaurants, ...).

• This is especially true if the inhabitants of Bremen otherwise would have travelled to

another city/region, visited an exhibition and also spent money there (an amount com-

parable to that we estimated the out-of-town visitors to spend in Bremen). As the visit

of art events in another city from an economic point of view is regarded as an import of

services this effect is called import substitution.

• But there are also non-monetary benefits from such events. First to mention is the edu-

cational success. In attracting new visitor for cultural arts a society develops a higher

level of general education and by this the creative potential is increased – also in the

sense of the creative class approach of Richard Florida mentioned above.

• Additionally the (repeated) presentation of nationally and internationally appreciated

exhibitions improves the image of city or region. This may on the one hand lead to a

higher identification of the citizens with their region, but can also be regarded as a loca-

tion factor for future business decisions. This may lead –in an even more indirect way –

to increased economic performance in the future.



4. References

Baum, H., Schneider, J., Esser, K., Kurte, J. (2004), Die regionalwirtschaftlichen Auswirkungen des Low cost-

Marktes im Raum Köln/Bonn

BITF – Bremer Institut für Tourismuswirtschaft und Freizeitforschung (2000), Gästebefragung Stadt Bremen

Bornemann, H., Kaiser, P., Netzer, U. (2002), Wirkungsanalyse des Investitionssonderprogramms (ISP) des Lan-

des Bremen, Evaluierungsgutachten, Endbericht, Prognos AG, Bremen

Bremer Touristik-Zentrale (BTZ) (2000), Touristisches Marketing Bremen: 1999/2000 und Vorschau 2001, Bre-

men

Chang, Semoon (2002), Estimating the Economic Impact of Bay Fest 2001, CBER Report 50, Mobile, Alabama

DWIF (1993, 1995), Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni Mün-

chen; B. Harrer, Dr. M. Zeiner, Dr. J. Maschke, S. Scherr; Tagesreisen der Deutschen

DWIF (2002), Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni München; Dr.

B. Harrer, S. Scherr; Ausgaben der Übernachtungsgäste in Deutschland

DWIF (2005), Deutsches Wirtschaftswissenschaftliches Institut für Fremdenverkehr e.V. an der Uni München; Dr.

B. Harrer, S. Scherr; Ausgaben der Übernachtungsgäste in Deutschland

Florida, R (2004) The rise of the creative class ... and how it’s transforming work, leisure, community & every day

life, New York

Grozea-Helmenstein, D., Slavova, T., Treitler, R. (2004), Umwegrentabilität der Bregenzer Festspiele

Grabow, B., Henckel; D., Hollbach-Grömig, B. (1995), Weiche Standortfaktoren, Schriften des Deutschen Instituts

für Urbanistik 89, Stuttgart

Harrer, B., Zeiner, J., Maschke, S., Scherr, S. (1995), Tagesreisen der Deutschen; DWIF – Deutsches Wirt-

schaftswissenschaftliches Institut für Fremdenverkehr, München

Heinemann, A., Kastin, S. (2007), Die Bedeutung der Universität für Bremen vor dem Hintergrund der extremen

Haushaltsnotlage, Bremen

Hummel, M. (2000), Die volkswirtschaftliche Bedeutung von Kunst, Kultur, und Medien in der Bundesrepublik

Deutschland, Kurzfassung, ifo-Institut für Wirtschaftsforschung

ITF Research GmbH – Institut für Tourismus- und Freizeitforschung Bremerhaven (1996), Besucherbefragung

Kucharczuk, A. (2001), Kultur und Standort – Eine empirische Untersuchung zu der Sonderausstellung Der Blaue

Reiter in Bremen (unpublished Diploma thesis)

Kucharczuk, A., Schmidt, P. (2004), Regionalwirtschaftliche Implikationen von Kulturereignissen - am Beispiel der

Kunstausstellung Van Gogh: Felder; in: H. Bass (ed.), Facetten volkswirtschaftlicher Forschung, Münster /

Hamburg / New York

Kucharczuk, A., Schmidt, P. (2003 through 2007), diverse research reports

Miller, J (1996) Nutzen-Kosten-Analyse - Der fiskalische Nutzen eines Arbeitsplatzes im Land Bremen, BAW-

Arbeitspapier Nr. 11

Pohl, M. (2001), Fiskalische Bedeutung von Arbeitsplätzen, BAW Diskussionsbeitrag 2, Bremen

Pohl, M., Schönert, M. (2002), Regionalwirtschaftliche Bedeutung des Bremer Ratskellers, BAW Monatsbericht

11, Bremen

Riebel, J. (1993), Imageanalyse: Was sind wesentliche Analyse- und Gestaltungsfelder für das Stadtimage? In:

Töpfer, A., Stadtmarketing; FBO-Fachverlag für Büro- und Organisationstechnik GmbH, Baden-Baden

Schaefer, H. (2000), Ermittlung regionaler Multiplikatoren für das Land Bremen, Anlageband IV, Teilgutachten

externer Gutachter, Prognos AG, Bremen

Schönert, M., Wehling, W. (2003), Regionalwirtschaftliche Bewertung des Überseemuseums Bremen, BAW Bre-

men

Taubmann, W., Behrens, F. (1986), Wirtschaftliche Auswirkungen von Kulturangeboten in Bremen, Universität

Bremen

Tribe, J. (2005), The Economics of Recreation, Leisure & Tourism

Wehling, W. (2001), Regionalbericht Bremen 2000, BAW Monatsbericht 11, Bremen


Fachbereich Wirtschaft Volkswirtschaftslehre und Statistik

: (0421) 5905-4691 Telefax: (0421) 5905-4862

[email protected] homepages.hs-bremen.de/~pschmidt

–––––––––– ΣΣΣΣ ττττ αααα ττττ ιιιι σσσσ ττττ ιιιι κκκκ ––––––––––

Auflage 5.1 -- edition 5.1

Dies ist die fünfte, überarbeitete Auflage der Formelsammlung. Trotz aller Bemühungen, den Druck-felerteuffel fernzuhalten, dürften einzelne Stellen Anlass zu konstruktiver Kritik bieten. Für diese bin ich dankbar. This is a basic version of a “bilingual” edition. Most of the statistical terms have been translated, but some parts are still missing. The idea was to present the international terms and abbreviations; you may need them when studying abroad - or simply in reading literature in English Language. There may be (translation-) errors. Please let me know any mistakes, missing topics, comments, … Thank you!

♦ Wenn bei Summen kein expliziter Laufindex angegeben ist, läuft die Summe von i=1 bis n.

♦ Diese Formelsammlung ist für Prüfungen zugelassen - allerdings nur in der Originalheftung. Es dürfen daher KEINE Erläuterungen, Kommentare, Beispiele usw. hinzugefügt werden. Zu-sätzliche Formeln (Umformungen) sind zulässig.

Anregungen und Hinweise Nachdruck und Vervielfältigung nur mit sind sehr willkommen ausdrücklicher Genehmigung des Autors

2 Auswertung und Darstellung eindimensionaler Daten – Analysing and Displaying One-dimensional Data

Formelsammlung Statistik, Auflage 5.1 2007/08 Seite 1

1 Grundlagen – Fundamentals

X, Y, ... Merkmal (Variable) mit einzelnen Beobachtungen (Ausprägungen) Variable with single observation

N Anzahl der Elemente einer Population (Grundgesamtheit) Number of elements of a population

n Anzahl der Elemente einer Stichprobe (Anzahl der Beobachtungen) Number of elements of a sample (number of observations)

Merkmalsausprägungen Values X = ( x1, x2, ... xn ) → xi mit i = 1,2, ...., n

2 Auswertung und Darstellung eindimensionaler Daten – Analysing and Displaying

One-dimensional Data

2.1 Häufigkeiten – Frequencies

Absolute Häufigkeiten von k verschiedenen Merkmalsausprägungen – Absolute Frequencies

ni = h(xi) → Anzahl der Werte mit der Merkmalsausprägung xi.

Relative Häufigkeiten von k Merkmalsausprägungen (Klassen) – Relative Frequencies

n

ni = fi [oder auch f(xi)] mit i = 1, ... k (2-1)

messen den Anteil der Merkmalsausprägung xi an allen Merkmalsausprägungen.

Daher ist 11

=∑=

k

i

if (2-2)

Prozentuale Häufigkeit (Prozentanteil) der Merkmalsausprägung xi – Percentage (proportion)

100100 ⋅=⋅i

i

f

n

n

(2-3)

Klassierte Daten – Classes

xi* → Klassenmitte: (Untergrenze + Obergrenze) / 2

Häufigkeitsdichte (für Histogramm) – Frequency Density

i

i

i

i

i

i

x

xf

oder

x

n

x

xh

also

iteKlassenbre

Häufigkeit

D

∆∆

=

∆

=

)()( **

(2-4)

Klassenbreite ∆ xi = Obergrenze xi - Obergrenze xi-1 (2-5)

Summenhäufigkeiten →→→→ "kumulierte" Häufigkeiten „bis zu“ einem vorgegebenen Wert xj

Cumulative Frequency → cumulated frequencies (counts) „up to“ a given value xj

Absolute Summenhäufigkeit – cumulated absolute frequencies

∑∑==

==

j

i

i

j

i

ijnxhxH

11

)()( (2-6)

Relative Summenhäufigkeit – cumulated relative frequencies

F(xj) = ∑∑=≤

=

j

i

i

xxi

ixfxf

j1

)()( (2-7)



Konzentrationsmessung: Measuring Concentration (Ermittlung der Zwischenschritte sinnvollerweise in Prozent)

Merkmalssumme der einzelnen Merkmalsausprägungen: iii

nxm ⋅= (2-8)

Merkmalssumme aller Merkmalsausprägungen: ∑=i

mm (2-9)

Relative Merkmalssumme: m

m

gi

i= (2-10)

Kumulierte relative Merkmalssumme: ∑=

=

j

i

ijgG

1

(2-11)

Einzelfläche unter der Lorenzkurve: ( )2

1ii

iii

gf

GfFl

⋅

+⋅=−

(2-12)

Gesamtfläche unter der Lorenzkurve: ∑=i

FlFl (2-13)

Lorenz‘sches Konzentrationsmaß (LKM): LKM 5000

1Fl

−= (2-14)

2.2 Lagemaße (Mittelwerte) – Measures of Central Tendency (Averages)

Arithmetisches Mittel: µ → arithmetisches Mittel einer Grundgesamtheit (Population)

Arithmetic Mean x → arithmetisches Mittel einer Stichprobe (Sample)

Einfaches arithmetisches Mittel bei (diskreten) Einzelwerten

simple arithmetic Mean

∑=

⋅=

n

i

ix

n

x

1

1 (2-15)

Gewichtetes arithmetisches Mittel (bei Häufigkeitsverteilungen)

Weighted arithmetic Mean

i

i

inx

n

x

k

∑=

⋅=

1

1 ⇒ ∑

=

⋅=

k

i

i

i

n

n

xx

1

(2-16)

Im Fall von Klassen Klassenmitte x*i verwenden.

Zentralwert (Median) – Median

1) Zentralwert = ZW = 50%-Anteil (Percentil) = 2. Quartil

2) i) sortieren aller Ausprägungen x1, ..., xn nach Größe ii) Suchen der Position von ZW → Ermittlung des Index m, für den xm in der Mitte aller Werte steht

3) ungerades n: ZW = xm mit 2

1+=

n

m (2-17)

gerades n: 2

21 ZWZW

ZW

+

= (2-18)

mit: ZW1 = xm mit

2

n

m = und ZW2 = xu mit

2

2+=

n

u (2-19)

Quantile (Percentile) – Quantiles (Percentiles)

p-Quantil: Q

px = xi mit: F(xi) > p und F(xi-1) < p (2-20)

Häufigster Wert (Modus) – Mode

xmod = xi mit )(maxi

i

xf (2-21)



Schiefe – Skewness x = ZW → symmetrische Verteilung x > ZW → rechtsschiefe Verteilung (2-22) x < ZW → linksschiefe Verteilung

Geometrisches Mittel – Geometric Mean

n

n

i

i

n

nxxxxGM ∏

=

=⋅⋅⋅=

121 ... (2-23)

oder alternativ: n

eauAnfangsniv

Endniveau

GM = (2-24)

2.3 Streuungsmaße – Measures of Variability / Deviation

Spannweite – Range: SW = xMax – xMin (2-25)

Durchschnittliche (mittlere) absolute Abweichung – Mean Absolute Deviation (MAD)

∑=

−=

n

i

ixx

n

DAA

1

1 (Einzelwerte) (2-26)

n

n

xxDAAi

n

i

i⋅−=∑

=1

(Häufigkeitsauszählungen) (2-27)

Anm.: Es kann auch ZW statt x verwendet werden.

Hilfsgröße: Varianz – Variance (auxiliary measure) Stichprobe – s² – Sample Population – σ² – Population

a) Einzelwerte

( )

2

1

2

1

1∑

=

−

−

=

n

i

ixx

n

s (2-28) ( )

2

1

2 1∑

=

−=

n

i

ix

N

µσ (2-29)

b) Klassierte Werte / Häufigkeiten

( )

( )1

1

1

1

2

1

22

−

⋅−=

⋅−⋅

−

=

∑

∑

=

=

n

n

xx

nxx

n

s

i

k

i

i

i

k

i

i

(2-30)

( )

( )N

n

x

nx

N

i

k

i

i

i

k

i

i

⋅−=

⋅−⋅=

∑

∑

=

=

1

2

1

22 1

µ

µσ

(2-31)

Standardabweichung – Standard Deviation

2

ss = 2σσ = (2−32)

Variationskoeffizient – Coefficient of Variance

x

s

VC = µ

σ=VC (2-33)

(Standardisierter) Z-Score – Z-Score

s

xx

zi

−

= σ

µ−

=i

x

z (2-34)

3 Zusammenhänge zwischen mehrdimensionalen Daten – Relations between Multi-Dimensional Variables


3 Zusammenhänge zwischen mehrdimensionalen Daten – Relations between Multi-

Dimensional Variables

3.1 Allgemeine Grundbegriffe – Basic Concepts

Randverteilungen (Zeilen / Spalten) – Marginal Distributions (Columns / Rows)

Zeilensumme ∑q

1=kj );(=)h(x

kjyxh → Zeilenprozente )100(

)h(x

);(h);(

j

⋅=kj

kj

yx

yxf (3-1)

Spaltensumme ∑m

1j=k );(=)h(y

kjyxh → Spaltenprozente )100(

)h(y

);(h);(

k

⋅=kj

kj

yx

yxf (3-2)

∑∑q

1=k

m

1j=

)(=)(=nkj

yhxh ist die Anzahl der Beobachtungen (3-3)

3.2 Zusammenhänge zwischen metrisch skalierten Merkmalen – Correlation of metrically scaled Variables

Kovarianz – Covariance ∑=

−−=

n

i

iiyyxx

n

YXCov

1

))((1

),( (3-4)

Korrelationskoeffizient – Correlation Coefficient (Bravais-Pearson)

YXss

YXCov

r

),(= (3-5)

∑∑

∑

==

=

−−

−−

=n

i

i

n

i

i

n

i

ii

yyxx

yyxx

r

1

2

1

2

1

)()(

))((

(3-6)

Lineare Regression – Linear Regression

Regressionsfunktion: xbay ⋅+=ˆ (3-7)

Beobachtungswerte: exbay +⋅+= (3-8)

Residuen: yye ˆ−= (3-9)

Lineare Einfachregression nach der Methode der Kleinsten Quadrate (KQ) :

Ordinary Least Squares Regression (OLS): ( ) !2

Minei

→∑ ⇒

( )

( )22

22

2

∑∑∑ ∑∑

∑∑∑∑∑∑

−

−

=

−

−

=

ii

iiii

ii

iiiii

xxn

yxyxn

b

xxn

yxxyx

a

(3-10)

alternative Ermittlung der Koeffizienten a und b:

∑

∑

=

=

−

−−

=

−=

n

i

i

n

i

ii

xx

yyxx

b

xbya

1

2

1

)(

))(( (3-11)

3 Zusammenhänge zwischen mehrdimensionalen Daten – Relations between Multi-Dimensional Variables


Bestimmtheitsmaß / Gütemaß R² – Goodness of Fit / Coefficient of Determination R2

( )

( )2

2

2ˆ

∑∑

−

−

=

yy

yy

R

i

i

(3-12)

2

2

2

2ˆ2 1

y

e

y

y

s

s

s

s

R −== (3-13)

Bei linearer Einfachregression gilt: R² = r² (3-14)

(Vorhergesagte) Schätzwerte – Estimated (predicted) Values y

Die geschätzten (vorhergesagten) Werte, d.h. die Werte auf der Regressionsgerade, können

unmittelbar aus der Regressionsfunktion ii

xbay ⋅+=ˆ (3-15)

errechnet werden, indem die ermittelten Werte von a und b sowie jedes einzelne xi eingesetzt werden.

Dies ist etwa zur Ermittlung des R², für Prognosen und Glättung von Zeitreihen erforderlich.

3.3 Rangkorrelationen für ordinal skalierte Merkmale (nach Spearman) –

Rank Correlation for ordinal Variables (Spearman’s ρ)

( )1

61

2

2

−

−=∑nn

d

ri

s [mit: di = xi - yi] (3-16)

3.4 Kontingenzanalyse bei nominal skalierten Variablen – Contingency Measures (As-

sociation of nominal Variables)

Der χ2-Wert als Hilfsgröße (für den Unabhängigkeitstest siehe Kapitel 8.3.4)

1. Schritt: Ermittlung der erwarteten Häufigkeiten he in der Kontingenztabelle:

n

yhxh

hkj

e

)()( ⋅

= (3-17)

2. Schritt: Errechnen von χ2 durch Summieren aller Felder:

( )

);(

);();(2

11

2

kje

kjekj

q

k

m

jyxh

yxhyxh −

= ∑∑==

χ (3-18)

Kontingenzkoeffizient – Coefficient of Contingency

einfacher: n

C

+

=2

2

χ

χ (3-19)

korrigierter: 11 *

*

2

2

*

*

−

⋅

+

=

−

⋅=

K

K

nK

K

CCkorr

χ

χ (3-20)

mit: K* = Min(m;q)

4 Elemente der Zeitreihenanalyse – Time Series Analysis (TSA)



4.1 Komponenten einer Zeitreihe – Components of a Time Series

Yt = TK + KK + SK + RK (4-1)

4.2 Glättung durch Gleitende Durchschnitte – Smoothing with Moving Averages (MA)

Gegeben sei eine Zeitreihe von T Werten yt (t=1, ..., T)

a) Gleitende Durchschnitte ungerader Ordnung

∑

−+

−−=

−+

−+

−−

−−

−−

+==

++++++=

2

1

2

1

2

1

2

3

2

3

2

1

2

1,...,

2

11

......1

k

t

k

ti

i

k

t

k

t

tk

t

k

t

kt

k

T

k

tfüry

k

yyyyy

k

y

(4-2)

b) Gleitende Durchschnitte gerader Ordnung

2,...,1

22

1

2

11

2

12

12

2

k

T

k

tfüryyy

k

yk

t

k

t

k

ti

ik

t

kt −+=

++=+

−+

+−=

−

∑ (4-3)

4.3 Glättung durch lineare Trendfunktion – Smoothing with a Linear Trend Function

Allgemeine Trendfunktion: )(ˆ tfy =

Lineare Trendfunktion: tbay ⋅+=ˆ

Es ergibt sich die Formel zur Ermittlung von a und b analog (3-10):

( )

( )22

22

2

∑∑∑ ∑∑

∑∑∑∑∑∑

−

−

=

−

−

=

ii

iiii

ii

iiiii

ttn

ytytn

b

ttn

yttyt

a

(4-4)

Hinweis:

Durch Transformation des Zeitindex t, so dass 0*=∑ i

t wird

z.B. mittels: tttii

−=* (4-5)

vereinfacht sich (4-4) zu:

∑

∑==

=

2*

*

*

*

i

ii

t

yt

bb

ya

(4-6)



4.4 Ermittlung der (additiven) Saisonkomponente und Saisonbereinigung – Analysis

of Seasonality

1. Schritt: Saisonale Abweichung aller Einzelwerte vom Trend (kt

y oder t

y )

kttt

yySK −= (bei GD) oder (4-7 a)

ttt

yySK ˆ−= (bei KQ) (4-7 b)

2. Schritt: durchschnittliche saisonale Abweichung der Zeiteinheiten

Saisonkomponente – Seasonal Component: ∑∈

=

jtZeiteinheit

tjSK

Q

SK*

1 (4-8)

Q* = Anzahl der Beobachtungen in der jeweiligen SKj (Tertiale, Quartale, Monate, ....)

3. Schritt: saisonbereinigte Reihe – seasonally adjusted series

jtt

SKyy −=~ (4-9)

es verbleibt die Irreguläre oder Rest-Komponente

tktt

yyRK~

−= bzw. ttt

yyRK~ˆ −= (4-10)

4.5 Prognosen – Forecasting

Einfache Prognosen – Simple Forecasts

Konstante Entwicklung tt

yy =+

*1 (4-11)

Additive Entwicklung ( )1*

1 −+−+=

ttttyyyy (4-12)

Multiplikative Entwicklung 1

*1

−

+⋅=

t

t

tt

y

y

yy (4-13)

Prognosen auf Basis von Trendfunktionen – Forecasts based on Trend Analysis

können auf Basis der Fortschreibung der vorhergesagten Werte )(ˆ *tfy

t=

(vergleiche (3-15)) ermittelt werden, indem für t zukünftige Werte eingesetzt werden:

tbayt

⋅+=*ˆ (4-14)

Saisonale Einflüsse bei linearer Trendprognose – Forecasts considering Seasonality

Für die Prognose wird die SK addiert (analog mit t* und a*):

( )jt

SKtbay +⋅+=*ˆ (4-15)

5 Maß- und Indexzahlen – Indices


5 Maß- und Indexzahlen – Indices

5.1 Verhältniszahlen – Ratios

(5.1.1.) Gliederungszahl → relative Häufigkeit )(i

i

xf

n

n

= (5-1)

Beziehungszahl: x

n

x

EinheitenhenstatistiscderAnzahl

sprägungenMerkmalsauderSumme

BZi

=≈=∑

(5-2)

(5.1.2.) Messziffern oder Messzahlen:

X = Reihe von Werten xt mit t = 0, ..., T.

0 = Basisperiode

t = Berichtsperiode.

Messzahl für die „Periode t zur Basis 0“ )100(0

0 ⋅=

x

x

Mtt (5-3)

Reihen von Messziffern – Series of Measures

Verschiedene t

M 0 Werte für laufendes t (d.h. in Bezug zur Vorperiode):

Zuwachsrate: 111

1

10

100

−=

−

=

−

=

−−

−

−

−

t

t

t

tt

t

tt

t

x

x

x

xx

M

MM

Z (⋅ 100 [%]) (5-4)

Wachstumsfaktor: 11

+==

−

t

t

t

tZ

x

x

W Growth Rate (5-5)

Durchschnittlicher Wachstumsfaktor zwischen zwei Zeitpunkten:

( ) n

n

t t

t

t

x

x

WGMW ∏= −

==

1 1

(⋅ 100 [%]) [vgl. auch (2-23)] (5-6)

Umbasierung und Verketten von Messziffern:

(A = altes Basisjahr; N = neues Basisjahr)

N

A

t

At

N

M

M

M = (⋅ 100 [%]) oder (wenn N

AM nicht bekannt) A

N

t

A

t

NMMM ⋅= (⋅ 100 [%]) (5-7)

5.2 Preis- und Mengenindizes – Price and Quantity Indices

pti → Preis des Produktes (Faktors) i zum Zeitpunkt t

qti → Menge des Produktes (Faktors) i zum Zeitpunkt t

Preisindex Mengenindex

Laspeyres ∑∑

=

ii

ii

P

qp

qp

L

00

01 ⋅ 100 (5-8)

∑∑

=

ii

ii

M

pq

pq

L

00

01 ⋅ 100 (5-9)

Paasche ∑∑

=

ii

ii

P

qp

qp

P

10

11 ⋅ 100 (5-10)

∑∑

=

ii

ii

M

pq

pq

P

10

11 ⋅ 100 (5-11)

Wertindex: ∑∑

===

ii

ii

MPMP

qp

qp

LPPLWI

00

11 ⋅ 100 (5-12)

Aus diesen – jeweils zwei Perioden vergleichenden – Messzahlen werden in der Regel Indexreihen gebildet, mit denen wie im Abschnitt 5.1 beschrieben verfahren werden kann.

6 Kombinatorik & Wahrscheinlichkeitsrechnung – Theory of Combination & Probabilities


6 Kombinatorik & Wahrscheinlichkeitsrechnung – Theory of Combination & Probabili-

ties

6.1 Kombinatorik – Combination Theory

Anzahl der Permutationen (Anordnungen) von n Elementen → Fakultäten: n! = 1 ⋅ 2 ⋅3 ⋅ ... ⋅ n (wobei: 0! = 1) (6-1)

Binomialkoeffizient:

)!(!

!

!

)1(...)2()1(

nNn

N

n

nNNNN

n

N

−⋅

=+−⋅−⋅−⋅

=

(6-2)

Anzahl der Kombinationen n-ter Ordnung aus N Elementen:

mit Zurücklegen ohne Zurücklegen

Berücksichtigung Reihenfolge

Nn (6-3) N

N n

!

( )!−

(6-4)

keine Berücksichtigung der Reihenfolge

N n

n

+ −

1 (6-5)

N

n

(6-6)

6.2 Grundbegriffe und Definitionen der Wahrscheinlichkeitsrechnung – Basic Con-

cepts and Definitions of Calculus of Probabilities

Ε = e1, e2, e3, ... → Menge der Elementarereignisse – Events

A, B, C, ... → Ereignisse: alle Untermengen von E (Kombinationen der ei)

Ω = A, B, C, ... → Ereignisraum: Menge aller möglichen Ereignisse

W(A) → Wahrscheinlichkeit dafür, dass Ereignis A eintritt

A → komplementäres Ereignis zu A

mit: W( A ) = 1 – W(A)

( )BAW ∪ → Wahrscheinlichkeit, dass Ereignis A oder Ereignis B eintreten

( )BAW ∩ → Wahrscheinlichkeit, dass Ereignis A und Ereignis B eintreten

Definitionen von Wahrscheinlichkeiten – Definitions of Probabilities

Klassische Definition nach Laplace (a-priori-Wahrscheinlichkeiten)

W A

Anzahl der günstigen Ereignisse

Anzahl der gleichmöglichen Ereignisse

( )" "

= (6-7)

Empirische Wahrscheinlichkeiten (statistische Definition nach Mises) (a-posteriori-Wlk)

W(A) = f (A) → relative Häufigkeit (Anteil) des Ereignisses A (6-8) bei großen Stichproben (Grenzwert) als Anhalt für die realisierte Wahrscheinlichkeit

Axiomatische Definition nach Kolmogoroff [ΚΟΛΜΟΓΟΡΟΒ]

Axiom 1: W ist nichtnegativ: W(A) ≥ 0

Axiom 2: W ist normiert: W(Ω) =1 (6-9)

Axiom 3: W ist additiv: W(A ∪ B) = W(A) + W(B) für W(A ∩ B) = 0

6 Kombinatorik & Wahrscheinlichkeitsrechnung – Theory of Combination & Probabilities


6.3 Rechnen mit Wahrscheinlichkeiten – Calculation with Probabilities

Wahrscheinlichkeiten zusammengesetzter Ereignisse – Probabilities of Unions of Events

Allgemeiner Additionssatz

W(A ∪ B) = W(A) + W(B) – W(A ∩ B) (6-10)

W(A∪B∪C) = W(A) + W(B) + W(C) - W(A∩B) - W(A∩C) - W(B∩C) + W(A∩B∩C) (6-11)

Dieser vereinfacht sich für sich ausschließende Ereignisse (W(A ∩ B) = 0) zu:

Spezieller Additionssatz

W(A ∪ B) = W(A) + W(B) (6-12)

W(A ∪ B ∪ C) = W(A) + W(B) + W(C) (6-13)

Bedingte Wahrscheinlichkeiten – Conditional Probabilities

[ ]W B A

W A B

W A

mit W A( | )( )

( )( )=

∩

> 0 lies: „W von B gegeben A“) (6-14)

[ ]W A B

W A B

W B

mit W B( | )( )

( )( )=

∩

> 0 lies: „W von A gegeben B“) (6-15)

Allgemeiner Multiplikationssatz

W(A ∩ B) = W(A) W(B|A) = W(B) W(A|B) (6-16)

W(A ∩ B ∩ C) = W(A) W(B|A) W(C| A ∩ B) (6-17)

(Stochastische) Unabhängigkeit – stochastic Independence

Es seien die Ereignisse A, B, C mit W(A) >0, W(B) > 0 und W(C) > 0, dann sind die Ereignisse A und B voneinander (stochastisch) unabhängig, wenn A unabhängig von B ist (6-18 a) und B unabhängig von A (6-18 b):

W(A | B) = W(A | B ) = W( A ) und (6-18 a)

W(B | A) = W(B | A ) = W( B ) (6-18 b)

Analog sind die Ereignisse A, B und C voneinander (stochastisch) unabhängig, wenn gilt:

W(A | B) = W(A | C) = W(A | B ∩ C) = W(A) und (6-19 a) W(B | A) = W(B | C) = W(B | A ∩ C) = W(B) und (6-19 b) W(C | A) = W(C | B) = W(C | A ∩ B) = W(C) (6-19 c)

Spezieller Multiplikationssatz

für stochastisch unabhängige Ereignisse vereinfacht sich der Multiplikationssatz wie folgt:

W(A ∩ B) = W(A) W(B) (6-20)

W(A ∩ B ∩ C) = W(A) W(B) W(C) (6-21)

7 Theoretische Verteilungen – Theoretical Distributions



7.1 Zufallsvariablen – Random Variables

X – Zufallsvariable (ZV) mit den Ausprägungen x1, x2, ... xn

7.1.1 Dichte- und Verteilungsfunktion – Density and Distribution Function (Cumulated

Density function - cdf)

Diskrete ZV – Discrete Random Variables

Wahrscheinlichkeitsfunktion → Wahrscheinlichkeit, dass die ZV X den Wert x annimmt

f(x) = W(X = x) (7-1)

Verteilungsfunktion → Wahrscheinlichkeit, dass die ZV X höchstens den Wert x annimmt

F(x) = W(X x) =xi

≤

≤

∑ f xi

x

( ) (7-2)

Stetige ZV – Continuous Random Variables

Dichtefunktion (Wahrscheinlichkeitsdichte): → Wahrscheinlichkeit, dass die ZV X

einen Wert annimmt, der in einem infinitesimal kleinen Intervall um x liegt

f(x) = W(x-ε ≤ X ≤ x+ε) [für ε→ 0] (7-3)

mit: f(x) ≥ 0 und 1)( =∫+∞

∞−

dxxf (7-4)

Intervall: ∫=≤<

b

a

dxxfbXaW )()( (7-5)

Verteilungsfunktion → Wahrscheinlichkeit, dass die ZVX höchstens den Wert x annimmt

∫∞−

=≤=

x

dvvfxXWxF )()()( (7-6)

7.1.2 Parameter von Verteilungen – Parameters of Distributions

Erwartungswert E einer diskreten ZV – Expected Value of a Discrete Random Variable

EX = µ = x f xi i⋅∑ ( ) (7-7)

Erwartungswert E einer stetigen ZV – Expected Value of a Continuous Random Variable

EX = µ = x f x dx⋅

−∞

+∞

∫ ( ) (7-8)

Varianz einer ZV (allgemeine Form) – Variance

VX = σ2 = E(X – EX)2 = EX2 – (EX)2 (7-9)

Varianz einer diskreten ZV

VX = σ2 = ( )x EX f xi i

− ⋅∑2

( ) (7-10)

Varianz einer stetigen ZV

VX = σ2 = ( ) dxxfEXx∫+∞

∞−

⋅− )(2

(7-11)



7.2 Einige spezielle Verteilungen – Specific Distributions

7.2.1 Diskrete Verteilungen – Discrete Distributions

Binomialverteilung – Binomial Probability Distribution

N → Anzahl der Elemente in der Grundgesamtheit – Elements of the population n → Anzahl der (unabhängigen) Experimente = Stichprobenumfang – sample size p → Wahrscheinlichkeit des Erfolgs („günstigen“ Ausganges) eines Experiments,

bei dem nur zwei Ereignisse möglich sind. x → Anzahl der Erfolge („günstigen“ Ereignisse) in der Stichprobe

( )xnx

pp

x

n

xXWpnxf−

−⋅⋅

=== 1)();|( (7-12)

EX = n ⋅ p (7-13)

VX = n ⋅ p ⋅ (1-p) (7-14)

Multinomialverteilung – Multinomial Probability Distribution

f1,2,...k (x1, x2, ... xk) = W(X1 = x1, ... Xk = xk) kx

k

xx

k

ppp

xxx

n

⋅⋅⋅⋅

⋅⋅⋅

= ...!...!!

! 221

21

1 (7-15)

mit: ∑=

=

k

i

inx

1

und ∑=

=

k

i

ip

1

1

EX = n ⋅ pi (7-16)

VX = n ⋅ pi ⋅ (1-pi) (7-17)

Hypergeometrische Verteilung – Hypergeometric Probability Distribution

n → Stichprobenumfang N → Anzahl der Elemente in der Grundgesamtheit M → Anzahl der Erfolge in der Grundgesamtheit

=> p

M

N

= (7-18)

f (x | n ; N ; p) =

−

−⋅

⋅

n

N

xn

pN

x

pN )1(

=

M

x

N M

n x

N

n

−

−

(7-19)

EX = n ⋅ p (7-20)

VX = n ⋅ p ⋅ (1-p) ⋅

N n

N

−

− 1 (7-21)

Poissonverteilung – Poisson Probability Distribution

f (x | µ) = µ

µ

x

x

e

!⋅

− (mit: e = 2,7183... → Euler’sche Zahl) (7-22)

EX = VX = µ (7-23)

Gleichverteilung – Uniform Distribution

f (x) = N

1 (7-24)

EX = µ = x f xi i⋅∑ ( ) VX = σ2 = ( )x EX f x

i i− ⋅∑

2( ) (7-25)



7.2.2 Stetige Verteilungen – Continuous Distributions

Normalverteilung Normal Distribution 2

2

1

2

1),|(

−−

⋅

⋅Π

=σ

µ

σ

σµ

x

exf (7-26)

F x f v dv

x

( | , ) ( | , )µ σ µ σ=

−∞

∫ (7-27)

EX = µ (7-28)

VX = σ2 (7-29)

Die übliche Schreibweise dafür, dass eine Zufallsvariable X einer Normalverteilung

mit Mittelwert µ und Standardabweichung σ folgt, ist:

X →→→→ N (µ, σµ, σµ, σµ, σ) (7-30)

Standardnormalverteilung – Standard Normal Distribution

Wenn X normalverteilt ist mit N(µ, σ), dann ist

Z

X

=

− µ

σ standardnormalverteilt [Z → N (0, 1)] (7-31)

mit:

EX = 0 (7-32)

VX = 1 (7-33)

χχχχ2 2 2 2 –Verteilung [„Chi-Quadrat“] – χχχχ2 2 2 2

Distribution

Seien Z1, Z2, ... Zν unabhängige standardnormalverteilte Zufallsvariable, dann ist die Summe:

Z Z Z12

22 2

+ + +...ν

χχχχ2222- verteilt mit: (7-34)

E( Z Z Z12

22 2

+ + +...ν

) = ν (7-35)

V( Z Z Z12

22 2

+ + +...ν

) = 2ν (7-36)

t –Verteilung (Studentverteilung) – t–Distribution (Student’s Distribution)

Ist Z eine standardnormalverteilte und Y eine mit ν Freiheitsgraden χ2-verteilte Zufallsvariable und sind Z und Y unabhängig, dann ist die Zufallsvariable

T

Z

Y

=

ν

t – verteilt mit: (7-37)

ET = 0 für ν ≥ 2 (7-38)

VT = ν

ν − 2 für ν ≥ 3 (7-39)



7.2.3 Zentraler Grenzwertsatz – Central Limit Theorem

Seien X1, X2, ...., Xn als Stichproben aus einer Grundgesamtheit mit Mittelwert µ und Standardabwei-chung σ gleich verteilte Zufallsvariablen, dann ist der arithmetische Mittelwert dieser Verteilungen:

n

XXX

Xn

+++

=

...21 (7-40)

als Stichprobenfunktion normalverteilt mit

µ=XE und (7-41)

n

XV

2σ

= , (7-42)

so dass sich die Stichprobenstandardabweichung ergibt:

σ

σ

X

n

= (7-43)

7.2.4 Approximationen von Verteilungen – Approximation of Distributions Bei Vorliegen der angegebenen Bedingungen können Verteilungen und ihre Parameter durch andere Verteilungen angenähert (approximiert) werden.

Approximation der hypergeometrischen Verteilung durch die Binomialverteilung

n

N

≤ 0 05, (7-44)

Approximation der Binomialverteilung durch die Poissonverteilung n ≥ 100 ; p ≤ 0,05 (7-45)

Approximation der hypergeometrischen Verteilung durch die Poissonverteilung

n

N

≤ 0 05, ; n ≥ 100 ; p ≤ 0,05 (7-46)

Approximation der Binomialverteilung durch die Normalverteilung

n ⋅ p ⋅ (1-p) > 9 ( )

⇒ >

⋅ −

n

p p

9

1 (7-47)

Approximation der hypergeometrischen Verteilung durch die Normalverteilung

n ⋅ p ⋅ (1-p) > 9 und n

N

≤ 0,05 (7-48)

Approximation der Poissonverteilung durch die Normalverteilung

µ > 9 (7-49)

Approximation der χ2 –Verteilung durch die Normalverteilung

ν ≥ 100 (7-50)

Approximation der t –Verteilung durch die Standardnormalverteilung

ν ≥ 30 bei normalverteilten Grundgesamtheiten (7-51) ν ≥ 50 bei nicht normalverteilten Grundgesamtheiten (7-52)

8 Schluss von der Stichprobe auf die Grundgesamtheit – Statistical Inference



8.1 Schätztheorie: Stichprobenfunktionen – Estimation Theory

Stichprobenmittel – Sample Mean

X Schätzfunktion „Stichprobenmittel“ (vgl. Abschnitt 7.2.3) (8-1)

x Stichprobenmittelwert (einer Stichprobe) (8-2)

µ Mittelwert der Grundgesamtheit (8-3)

σ2 Varianz der Grundgesamtheit (8-4)

N n

N

−

− 1 Endlichkeitskorrektur - nur wenn 05,0>

N

n

. (8-5)

EX = µ (8-6)

VX

nX

= =σ

σ22

[ggf. zu multiplizieren mit Endlichkeitskorrektur, vgl.(8-5)] (8-7)

Stichprobenanteil – Sample Proportion

$P Schätzfunktion „Stichprobenanteil“ (8-8) p Stichprobenanteil (einer Stichprobe) (8-9)

p Anteil der relevanten Elemente in der Grundgesamtheit = Anteil der Erfolge = „empirische Wahrscheinlichkeit“ (8-10)

EP$ = p (8-11)

VP

p p

nP

$( )

$= =

⋅ −

σ2 1

[ggf. zu multiplizieren mit Endlichkeitskorrektur, vgl. (8-5)] (8-12)

8.2 Konfidenzintervalle zur Parameterschätzung – Confidence Intervals

gu / go Untere / obere Grenze des Vertrauensbereiches (8-13)

1-α Sicherheitsgrad (Konfidenzniveau) (8-14)

8.2.1 Konfidenzintervall für den Mittelwert – Confidence Interval for the Mean (µ = „wahrer“ Mittelwert der Population)

Xcuzxg σ−= (8-15)

Xcozxg σ+= (8-16)

Konfidenzintervall – Confidence Interval


zxzxW (8-17)

mit:

zc kritischer Z-Wert – critical value (Standardnormalverteilung Z → N (0, 1)) für den vor gegebenen Sicherheitsgrad 1-α

→ Tabellierung der Standardnormalverteilung, Tafel 4

Achtung, für zc wird immer nur der positive Wert verwendet

Xσ die Standardabweichung des Stichprobenmittels – standard error of the mean (SEM)

für diese ist eine Fallunterscheidung erforderlich →



Fallunterscheidung zur Ermittlung der Stichprobenstandardabweichung – Standard Error of the Mean (SEM)

Xσ

1. Fall: σ bekannt; Grundgesamtheit normalverteilt oder n ≥ 50

σ

σ

X

n

= bei Stichproben mit Zurücklegen oder n

N

≤ 0 05, (8-18)

σ

σ

X

n

=

N n

N

−

− 1 bei Stichproben ohne Zurücklegen und 05,0>

N

n (8-19)

[Vergleiche zur Endlichkeitskorrektur (8-5)]

2. Fall: σ unbekannt; Verteilung der Grundgesamtheit unbekannt; n ≥ 50 und

3. Fall: σ unbekannt; Grundgesamtheit normalverteilt; n > 30

Verwendung der Stichprobenstandardabweichung s statt σ

mit ( )

2

11

1∑

=

−

−

=

n

i

ixx

n

s (8-20)

so dass für die Standardabweichung des Stichprobenmittels gilt:

n

s

X=σ bei Stichproben mit Zurücklegen oder n

N

≤ 0 05, (8-21)

n

s

X=σ

N n

N

−


N

n (8-22)


4. Fall: σ unbekannt; Grundgesamtheit normalverteilt; n ≤ 30

Verwendung der Stichprobenstandardabweichung s (nach (8-20)) statt σ.

Verwendung der Studentverteilung statt der Standardnormalverteilung, d.h. tc statt zc:

tc der kritische (critical) t-Wert (Studentverteilung) für den vorgegebenen Sicherheitsgrad 1-α

→ Tabellierung der Studentverteilung, Tafel 6 mit ν = n – 1 Freiheitsgraden

Ablesen von tc jeweils an der Stelle:

→ zweiseitiger Test: F ( tc | ν ) = 1 – α/2 oder D ( tc | ν ) = 1 – α

→ einseitiger Test: F ( tc | ν ) = 1 – α

Überblick über Fälle für Stichprobenstandardabweichung X

σ (8-23)

Standardabweichung σ der Grundgesamtheit

bekannt unbekannt

Stichprobe mit Zurücklegen

n

X

σσ =

Stichprobe ohne

n

N

≤ 0 05, n

X

σσ ≈

n

s

X≈σ

Zurücklegen 05,0>

N

n

nX

σσ =

N n

N

−

− 1

n

s

X≈σ

N n

N

−

− 1



8.2.2 Konfidenzintervall für den Anteilswert – Confidence Interval for the Proportion

Bei einem ausreichend großen Stichprobenumfang: )1(

9

pp

n

−

> (8-24)

ist der Stichprobenanteil p annähernd normalverteilt.

pcuzpg ˆˆ σ−= (8-25)

pcozpg ˆˆ σ+= (8-26)

Konfidenzintervall – Confidence Interval

ασσ −=+≤≤− 1)ˆˆ( ˆˆPcPc

zppzpW (8-27)

Dabei ist (analog zum Vertrauensbereich für den Mittelwert):

( )

n

pp

P

ˆ1ˆˆ

−=σ bei Stichproben mit Zurücklegen oder n

N

≤ 0 05, (8-28)

( )

n

pp

P

ˆ1ˆˆ

−=σ

N n

N

−


N

n (8-29)


8.2.3 Notwendiger Stichprobenumfang – Sample Size

ε maximaler absoluten Fehler

Schätzung des Mittelwertes µ:

Bei bekannter Standardabweichung σ:

2

22

ε

σc

z

n ≥ bei Stichproben mit Zurücklegen (8-30)

222

22

)1( σε

σ

c

c

zN

Nz

n

+−

≥ bei Stichproben ohne Zurücklegen (8-31)

Wenn Standardabweichung σ nicht bekannt ist:

Verwendung von s (nach (8-20)) statt σ und der Studentverteilung → tc statt zc:

2

22

ε

st

nc

≥ (8-32)

Mindestens muss in diesem Fall jedoch n > 50 sein. Schätzung des Anteilswertes p:

2

2 )ˆ1(ˆ

ε

ppz

nc

−≥ bei Stichproben mit Zurücklegen (8-33)

)ˆ1(ˆ)1(

)ˆ1(ˆ22

2

ppzN

ppNz

n

c

c

−+−

−≥

ε

bei Stichproben ohne Zurücklegen (8-34)



8.3 Hypothesentests – Hypothesis Testing

H0 Nullhypothese (zu testende Ausgangshypothese) – null hypothesis

H1 Alternativhypothese

1-α Sicherheitsgrad (Konfidenzniveau - aber auch „Signifikanzniveau“ s.u.) – significance

α Signifikanzniveau (Irrtumswahrscheinlichkeit - Achtung, Bezeichnung von α und 1-α in der Literatur uneinheitlich)

z c kritischer Wert (bzw. tc oder 2c

χ ) → aus Tabelle abzulesen critical value

X

z Prüfgröße (bzw. t oder χ2) → zu errechnen

Schritte eines Hypothesentests

1. Aufstellen von H0 und H1

2. Festlegen des Signifikanzniveaus (hier i.d. Aufgabenstellung - in der Praxis selbst zu tun)

3. Bestimmen von X

σ (Fallunterscheidung)

4. Aufstellen der Entscheidungsregeln über die Ablehnung von H0: Ermittlung der Testgröße durch Ablesen in der entsprechenden Tabelle

→ kritischer Wert zc (bzw. tc oder 2c

χ )

Variante A: Testentscheidung auf Basis absoluter Werte: kritischen Grenzen µµµµc (bzw. pc):

5. Ermittlung der kritischen Grenzen (Unter- und Obergrenze) für x bzw. p

Xc

u

cz σµµ ⋅−= 0 bzw.

pc

u

czpp ˆ0 σ⋅−= (8-35)

Xc

o

cz σµµ ⋅+= 0 bzw.

pc

u

czpp ˆ0 σ⋅+= (8-36)

6. Entscheidungsregel: Ablehnung von H0, wenn: (analog für Testwerte t und χ2

)

x > o

cµ bzw. o

cpp >ˆ bei rechts- oder zweiseitigem Test oder (8-37)

x < u

cµ bzw. u

cpp <ˆ bei links- oder zweiseitigem Test (8-38)


Variante B: (einfacher aber fehleranfälliger) „Z-Test“

Testentscheidung auf Basis der standardisierten Z-Werte

5. Berechnung der Prüfgröße X

z (bzw. x

t , p

z ˆ , χ2 oder t – siehe Kapitel 8.4 bis 8.4.4)

6. Anwendung der Entscheidungsregel (analog für die anderen Prüfgrößen)

wenn |X

z | > | zc | ⇒ Ablehnung von H0 (8-39)


Bei Verwendung von Variante B muss die entsprechende Prüfgröße (je nach Fragestellung aus Kapitel 8.4 bis 8.4.4) ermittelt werden:



8.4 Parametrische Tests – Parametric Tests

8.4.1 Testen von Mittelwerten – Testing Means

µ0 vermuteter bzw. angegebener Wert, von dem mit dem statistischen Test untersucht werden soll, ob er – auf Basis der Daten – der wahre Mittelwert der Grundgesamtheit sein kann.

Prüfgröße:

X

X

x

z

σ

µ0−= (8-40)

Ablesen von zc jeweils an der Stelle: → zweiseitiger Test – two-tailed test: D ( zc ) = 1 – α dies entspricht: FSN ( zc ) = 1 – α/2

→ einseitiger Test – one-tailed test: FSN ( zc ) = 1 – α

(einseitiger Test, linksseitig kritischer Bereich kann auch abgelesen werden mittels: FSN (–zc) = α

→ Tabellierung der Standardnormalverteilung, Tafel 4.

Für die Ermittlung von X

σ ist die in Punkt „Konfidenzintervalle“ dargestellte Fallunterscheidung

notwendig (vgl. Abschnitt 8.2.1).

Dabei ergibt sich im 4. Fall (σ unbekannt; Grundgesamtheit normalverteilt; n ≤ 30) die

Prüfgröße:

n

s

x

tx

0µ−=

(8-41)

8.4.2 Testen von Anteilswerten – Testing Proportions

p0 vermuteter bzw. angegebener Anteilswert, von dem mit dem statistischen Test untersucht werden soll, ob er – auf Basis der Daten – der wahre Anteilswert der Grundge-samtheit sein kann.

Für )1(

9

pp

n

−

> ergibt sich die (8-24) (s.o.)

Prüfgröße:

p

p

pp

z

ˆ

0ˆ

ˆ

σ

−= (8-42)

Dabei ist wiederum die in Abschnitt 8.2.2 vorgenommene Fallunterscheidung für p

σ zu beachten.



8.4.3 Zweistichprobentests – Two Sample Tests

Es liegen zwei unabhängige Stichproben X1, X2 vor. Die Frage ist, ob die beiden aus gleichen Grund-gesamtheiten stammen können oder ob sich die Populationen signifikant unterscheiden.

H0: Die Stichproben stammen aus der gleichen Grundgesamtheit.

Mittelwertdifferenz zweier unabhängiger Stichproben („t-Test“)

H0: µ1 = µ2 ⇒ µ1 – µ2 = 0 (8-43)

Prüfgröße:

2

22

1

21

21

n

s

n

s

xx

t

+

−= (8-44)

ist t-verteilt mit ν = n1 + n2 - 2 Freiheitsgraden

Differenzen von Anteilswerten zweier unabhängiger Stichproben

H0: p1 = p2 ⇒ p1 – p2 = 0 (8-45)

Prüfgröße: 21

2211

21

21

21ˆˆ

:

)1(

ˆˆ

nn

npnp

Pmit

nn

nn

PP

pp

z

+

+=

⋅

+⋅−⋅

−= (für n1 > 30 und n2 > 30) (8-46)

8.4.4 Testen der Regressionskoeffizienten bei Mehrfachregression – Testing Coeffi-

cients of Multivariate Regressions

Wird das Modell der linearen Einfachregression (3-7) um die Berücksichtigung mehrerer Einflussfak-

toren erweitert, so sprechen wir von multipler Regression oder Mehrfachregression:

kkxbxbxbby ++++= ...ˆ

22110 (8-47)

Es ergeben sich für die k einzelnen Schätzkoeffizienten bi (die gesuchten „wahren“ Werte)

jeweils Schätzwerte i

b und Standardabweichungen sbi.

Es ist zu testen, ob die einzelnen xi einen signifikanten Einfluss auf y haben.

Ausgangshypothesen: kein signifikanter Einfluss:

H0 : bi = 0 ( ∀ i = 1, …. k ) (8-48)

Daraus ergibt sich als

Prüfgröße:

ib

ˆ

s

b

ti

i= (8-49)

die mit ν = n – k Freiheitsgraden studentverteilt ist.

→ Tabellierung der Studentverteilung, Tafel 6

Der Test wird für jedes bi einzeln durchgeführt.



8.5 Nicht-Parametrische Tests – Non-Parametric Tests

8.5.1 Chi-Quadrat Unabhängigkeitstest – Chi-Square Test of Independence

Test der Hypothese H0, dass zwei Zufallsvariable X und Y voneinander unabhängig sind.

Anwendbar ab dem Mindestwert für erwartete Häufigkeiten: he(xj , yk) > 5 ∀ j, k (8-50)

Ermittlung des χ2-Wertes mit Hilfe der erwarteten Häufigkeiten he aus der Kontingenztabelle:

Prüfgröße: ( )

);(

);();(2

11

2

kje

kjekj

q

k

m

jyxh

yxhyxh −

= ∑∑==

χ (3-18) (s.o.)

Ablesen des kritischen χ2-Wertes 2c

χ in der Tabelle mit

ν = (m-1) ⋅ (q-1) Freiheitsgraden – degrees of freedom (dof) (8-51)

8.5.2 Chi-Quadrat Anpassungstest – Chi-Square Test for Distributions

H0: Die Grundgesamtheit folgt einer bestimmten Verteilung. (für hei > 5 ∀ i - vgl. (8-50))

Ermittlung des χ2-Wertes mit Hilfe der erwarteten Häufigkeiten he aus der Kontingenztabelle:

Prüfgröße: ( )

e

i

e

ii

n

ih

hh

2

1

2 −=∑

=

χ (8-52)

Ablesen des kritischen χ2-Wertes 2c

χ in der Tabelle mit ν = (n-1) Freiheitsgraden. (8-53)

9 Tabellenanhang


9 Tabellenanhang

Dieser Tabellenanhang wurde teilweise entnommen aus: Puhani, Josef: „Kleine Formelsammlung zur Statistik“ 1994, BVB Bamberg. Vgl. die weiteren Quellenangaben.

TAFELANHANG:

Tafel 1: Einige Zufallsziffern

Tafel 2: Binomialverteilung

Tafel 3: Poissonverteilung

Tafel 4: Standardnormalverteilung

Tafel 5: Chi-Quadrat-Verteilung

Tafel 6: Student’sche t-Verteilung

Tafel 1: Einige Zufallsziffern

9 Tabellenanhang


Tafel 2: Binomialverteilung

9 Tabellenanhang


Tafel 3: Poissonverteilung

9 Tabellenanhang


Tafel 4: Standardnormalverteilung

Werte der Verteilungsfunktion für gegebene Werte z einer

standardnormalverteilten Zufallsvariablen

Ablesen der Tabellen der Standardnormalverteilung:

FSN(z) = 12

−

α

misst die Fläche links des positiven Wertes z:

)()()( zZWdxxfzF

z

SN≤== ∫

∞−

, d.h. die Wahrscheinlichkeit,

dass die standardisierte Zufallsvariable Z höchstens den Wert z annimmt.

D(z) = 1-α misst die Fläche des symmetrischen Sicherheitsbereiches:

)()()()()( zFzFzZzWdxxfzDSNSN

z

z

−−=≤≤−== ∫−

,

d.h. die Wahrscheinlichkeit, dass die standardisierte Zufallsvariable Z einen Wert zwischen –z und z annimmt.

9 Tabellenanhang


Tafel 4: Standardnormalverteilung (Fortsetzung)

z FSN (-z) FSN (z) D(z) z FSN (-z) FSN (z) D(z) z FSN (-z) FSN (z) D(z)

0 0,5 0,5 0 0,5 0,3085 0,6915 0,3829 1 0,1587 0,8413 0,6827

0,01 0,4960 0,5040 0,0080 0,51 0,3050 0,6950 0,3899 1,01 0,1562 0,8438 0,6875

0,02 0,4920 0,5080 0,0160 0,52 0,3015 0,6985 0,3969 1,02 0,1539 0,8461 0,6923

0,03 0,4880 0,5120 0,0239 0,53 0,2981 0,7019 0,4039 1,03 0,1515 0,8485 0,6970

0,04 0,4840 0,5160 0,0319 0,54 0,2946 0,7054 0,4108 1,04 0,1492 0,8508 0,7017

0,05 0,4801 0,5199 0,0399 0,55 0,2912 0,7088 0,4177 1,05 0,1469 0,8531 0,7063

0,06 0,4761 0,5239 0,0478 0,56 0,2877 0,7123 0,4245 1,06 0,1446 0,8554 0,7109

0,07 0,4721 0,5279 0,0558 0,57 0,2843 0,7157 0,4313 1,07 0,1423 0,8577 0,7154

0,08 0,4681 0,5319 0,0638 0,58 0,2810 0,7190 0,4381 1,08 0,1401 0,8599 0,7199

0,09 0,4641 0,5359 0,0717 0,59 0,2776 0,7224 0,4448 1,09 0,1379 0,8621 0,7243

0,1 0,4602 0,5398 0,0797 0,6 0,2743 0,7257 0,4515 1,1 0,1357 0,8643 0,7287

0,11 0,4562 0,5438 0,0876 0,61 0,2709 0,7291 0,4581 1,11 0,1335 0,8665 0,7330

0,12 0,4522 0,5478 0,0955 0,62 0,2676 0,7324 0,4647 1,12 0,1314 0,8686 0,7373

0,13 0,4483 0,5517 0,1034 0,63 0,2643 0,7357 0,4713 1,13 0,1292 0,8708 0,7415

0,14 0,4443 0,5557 0,1113 0,64 0,2611 0,7389 0,4778 1,14 0,1271 0,8729 0,7457

0,15 0,4404 0,5596 0,1192 0,65 0,2578 0,7422 0,4843 1,15 0,1251 0,8749 0,7499

0,16 0,4364 0,5636 0,1271 0,66 0,2546 0,7454 0,4907 1,16 0,1230 0,8770 0,7540

0,17 0,4325 0,5675 0,1350 0,67 0,2514 0,7486 0,4971 1,17 0,1210 0,8790 0,7580

0,18 0,4286 0,5714 0,1428 0,68 0,2483 0,7517 0,5035 1,18 0,1190 0,8810 0,7620

0,19 0,4247 0,5753 0,1507 0,69 0,2451 0,7549 0,5098 1,19 0,1170 0,8830 0,7660

0,2 0,4207 0,5793 0,1585 0,7 0,2420 0,7580 0,5161 1,2 0,1151 0,8849 0,7699

0,21 0,4168 0,5832 0,1663 0,71 0,2389 0,7611 0,5223 1,21 0,1131 0,8869 0,7737

0,22 0,4129 0,5871 0,1741 0,72 0,2358 0,7642 0,5285 1,22 0,1112 0,8888 0,7775

0,23 0,4090 0,5910 0,1819 0,73 0,2327 0,7673 0,5346 1,23 0,1093 0,8907 0,7813

0,24 0,4052 0,5948 0,1897 0,74 0,2296 0,7704 0,5407 1,24 0,1075 0,8925 0,7850

0,25 0,4013 0,5987 0,1974 0,75 0,2266 0,7734 0,5467 1,25 0,1056 0,8944 0,7887

0,26 0,3974 0,6026 0,2051 0,76 0,2236 0,7764 0,5527 1,26 0,1038 0,8962 0,7923

0,27 0,3936 0,6064 0,2128 0,77 0,2206 0,7794 0,5587 1,27 0,1020 0,8980 0,7959

0,28 0,3897 0,6103 0,2205 0,78 0,2177 0,7823 0,5646 1,28 0,1003 0,8997 0,7995

0,29 0,3859 0,6141 0,2282 0,79 0,2148 0,7852 0,5705 1,29 0,0985 0,9015 0,8029

0,3 0,3821 0,6179 0,2358 0,8 0,2119 0,7881 0,5763 1,3 0,0968 0,9032 0,8064

0,31 0,3783 0,6217 0,2434 0,81 0,2090 0,7910 0,5821 1,31 0,0951 0,9049 0,8098

0,32 0,3745 0,6255 0,2510 0,82 0,2061 0,7939 0,5878 1,32 0,0934 0,9066 0,8132

0,33 0,3707 0,6293 0,2586 0,83 0,2033 0,7967 0,5935 1,33 0,0918 0,9082 0,8165

0,34 0,3669 0,6331 0,2661 0,84 0,2005 0,7995 0,5991 1,34 0,0901 0,9099 0,8198

0,35 0,3632 0,6368 0,2737 0,85 0,1977 0,8023 0,6047 1,35 0,0885 0,9115 0,8230

0,36 0,3594 0,6406 0,2812 0,86 0,1949 0,8051 0,6102 1,36 0,0869 0,9131 0,8262

0,37 0,3557 0,6443 0,2886 0,87 0,1922 0,8078 0,6157 1,37 0,0853 0,9147 0,8293

0,38 0,3520 0,6480 0,2961 0,88 0,1894 0,8106 0,6211 1,38 0,0838 0,9162 0,8324

0,39 0,3483 0,6517 0,3035 0,89 0,1867 0,8133 0,6265 1,39 0,0823 0,9177 0,8355

0,4 0,3446 0,6554 0,3108 0,9 0,1841 0,8159 0,6319 1,4 0,0808 0,9192 0,8385

0,41 0,3409 0,6591 0,3182 0,91 0,1814 0,8186 0,6372 1,41 0,0793 0,9207 0,8415

0,42 0,3372 0,6628 0,3255 0,92 0,1788 0,8212 0,6424 1,42 0,0778 0,9222 0,8444

0,43 0,3336 0,6664 0,3328 0,93 0,1762 0,8238 0,6476 1,43 0,0764 0,9236 0,8473

0,44 0,3300 0,6700 0,3401 0,94 0,1736 0,8264 0,6528 1,44 0,0749 0,9251 0,8501

0,45 0,3264 0,6736 0,3473 0,95 0,1711 0,8289 0,6579 1,45 0,0735 0,9265 0,8529

0,46 0,3228 0,6772 0,3545 0,96 0,1685 0,8315 0,6629 1,46 0,0721 0,9279 0,8557

0,47 0,3192 0,6808 0,3616 0,97 0,1660 0,8340 0,6680 1,47 0,0708 0,9292 0,8584

0,48 0,3156 0,6844 0,3688 0,98 0,1635 0,8365 0,6729 1,48 0,0694 0,9306 0,8611

0,49 0,3121 0,6879 0,3759 0,99 0,1611 0,8389 0,6778 1,49 0,0681 0,9319 0,8638

0,5 0,3085 0,6915 0,3829 1 0,1587 0,8413 0,6827 1,5 0,0668 0,9332 0,8664

Tafel 4: Standardnormalverteilung (Fortsetzung)

9 Tabellenanhang


z FSN (-z) FSN (z) D(z) z FSN (-z) FSN (z) D(z) z FSN (-z) FSN (z) D(z)

1,5 0,0668 0,9332 0,8664 2 0,0228 0,9772 0,9545 2,5 0,0062 0,9938 0,9876

1,51 0,0655 0,9345 0,8690 2,01 0,0222 0,9778 0,9556 2,51 0,0060 0,9940 0,9879

1,52 0,0643 0,9357 0,8715 2,02 0,0217 0,9783 0,9566 2,52 0,0059 0,9941 0,9883

1,53 0,0630 0,9370 0,8740 2,03 0,0212 0,9788 0,9576 2,53 0,0057 0,9943 0,9886

1,54 0,0618 0,9382 0,8764 2,04 0,0207 0,9793 0,9586 2,54 0,0055 0,9945 0,9889

1,55 0,0606 0,9394 0,8789 2,05 0,0202 0,9798 0,9596 2,55 0,0054 0,9946 0,9892

1,56 0,0594 0,9406 0,8812 2,06 0,0197 0,9803 0,9606 2,56 0,0052 0,9948 0,9895

1,57 0,0582 0,9418 0,8836 2,07 0,0192 0,9808 0,9615 2,57 0,0051 0,9949 0,9898

1,58 0,0571 0,9429 0,8859 2,08 0,0188 0,9812 0,9625 2,58 0,0049 0,9951 0,9901

1,59 0,0559 0,9441 0,8882 2,09 0,0183 0,9817 0,9634 2,59 0,0048 0,9952 0,9904

1,6 0,0548 0,9452 0,8904 2,1 0,0179 0,9821 0,9643 2,6 0,0047 0,9953 0,9907

1,61 0,0537 0,9463 0,8926 2,11 0,0174 0,9826 0,9651 2,61 0,0045 0,9955 0,9909

1,62 0,0526 0,9474 0,8948 2,12 0,0170 0,9830 0,9660 2,62 0,0044 0,9956 0,9912

1,63 0,0516 0,9484 0,8969 2,13 0,0166 0,9834 0,9668 2,63 0,0043 0,9957 0,9915

1,64 0,0505 0,9495 0,8990 2,14 0,0162 0,9838 0,9676 2,64 0,0041 0,9959 0,9917

1,65 0,0495 0,9505 0,9011 2,15 0,0158 0,9842 0,9684 2,65 0,0040 0,9960 0,9920

1,66 0,0485 0,9515 0,9031 2,16 0,0154 0,9846 0,9692 2,66 0,0039 0,9961 0,9922

1,67 0,0475 0,9525 0,9051 2,17 0,0150 0,9850 0,9700 2,67 0,0038 0,9962 0,9924

1,68 0,0465 0,9535 0,9070 2,18 0,0146 0,9854 0,9707 2,68 0,0037 0,9963 0,9926

1,69 0,0455 0,9545 0,9090 2,19 0,0143 0,9857 0,9715 2,69 0,0036 0,9964 0,9929

1,7 0,0446 0,9554 0,9109 2,2 0,0139 0,9861 0,9722 2,7 0,0035 0,9965 0,9931

1,71 0,0436 0,9564 0,9127 2,21 0,0136 0,9864 0,9729 2,71 0,0034 0,9966 0,9933

1,72 0,0427 0,9573 0,9146 2,22 0,0132 0,9868 0,9736 2,72 0,0033 0,9967 0,9935

1,73 0,0418 0,9582 0,9164 2,23 0,0129 0,9871 0,9743 2,73 0,0032 0,9968 0,9937

1,74 0,0409 0,9591 0,9181 2,24 0,0125 0,9875 0,9749 2,74 0,0031 0,9969 0,9939

1,75 0,0401 0,9599 0,9199 2,25 0,0122 0,9878 0,9756 2,75 0,0030 0,9970 0,9940

1,76 0,0392 0,9608 0,9216 2,26 0,0119 0,9881 0,9762 2,76 0,0029 0,9971 0,9942

1,77 0,0384 0,9616 0,9233 2,27 0,0116 0,9884 0,9768 2,77 0,0028 0,9972 0,9944

1,78 0,0375 0,9625 0,9249 2,28 0,0113 0,9887 0,9774 2,78 0,0027 0,9973 0,9946

1,79 0,0367 0,9633 0,9265 2,29 0,0110 0,9890 0,9780 2,79 0,0026 0,9974 0,9947

1,8 0,0359 0,9641 0,9281 2,3 0,0107 0,9893 0,9786 2,8 0,0026 0,9974 0,9949

1,81 0,0351 0,9649 0,9297 2,31 0,0104 0,9896 0,9791 2,81 0,0025 0,9975 0,9950

1,82 0,0344 0,9656 0,9312 2,32 0,0102 0,9898 0,9797 2,82 0,0024 0,9976 0,9952

1,83 0,0336 0,9664 0,9328 2,33 0,0099 0,9901 0,9802 2,83 0,0023 0,9977 0,9953

1,84 0,0329 0,9671 0,9342 2,34 0,0096 0,9904 0,9807 2,84 0,0023 0,9977 0,9955

1,85 0,0322 0,9678 0,9357 2,35 0,0094 0,9906 0,9812 2,85 0,0022 0,9978 0,9956

1,86 0,0314 0,9686 0,9371 2,36 0,0091 0,9909 0,9817 2,86 0,0021 0,9979 0,9958

1,87 0,0307 0,9693 0,9385 2,37 0,0089 0,9911 0,9822 2,87 0,0021 0,9979 0,9959

1,88 0,0301 0,9699 0,9399 2,38 0,0087 0,9913 0,9827 2,88 0,0020 0,9980 0,9960

1,89 0,0294 0,9706 0,9412 2,39 0,0084 0,9916 0,9832 2,89 0,0019 0,9981 0,9961

1,9 0,0287 0,9713 0,9426 2,4 0,0082 0,9918 0,9836 2,9 0,0019 0,9981 0,9963

1,91 0,0281 0,9719 0,9439 2,41 0,0080 0,9920 0,9840 2,91 0,0018 0,9982 0,9964

1,92 0,0274 0,9726 0,9451 2,42 0,0078 0,9922 0,9845 2,92 0,0018 0,9982 0,9965

1,93 0,0268 0,9732 0,9464 2,43 0,0075 0,9925 0,9849 2,93 0,0017 0,9983 0,9966

1,94 0,0262 0,9738 0,9476 2,44 0,0073 0,9927 0,9853 2,94 0,0016 0,9984 0,9967

1,95 0,0256 0,9744 0,9488 2,45 0,0071 0,9929 0,9857 2,95 0,0016 0,9984 0,9968

1,96 0,0250 0,9750 0,9500 2,46 0,0069 0,9931 0,9861 2,96 0,0015 0,9985 0,9969

1,97 0,0244 0,9756 0,9512 2,47 0,0068 0,9932 0,9865 2,97 0,0015 0,9985 0,9970

1,98 0,0239 0,9761 0,9523 2,48 0,0066 0,9934 0,9869 2,98 0,0014 0,9986 0,9971

1,99 0,0233 0,9767 0,9534 2,49 0,0064 0,9936 0,9872 2,99 0,0014 0,9986 0,9972

2 0,0228 0,9772 0,9545 2,5 0,0062 0,9938 0,9876 3 0,0013 0,9987 0,9973

9 Tabellenanhang


Tafel 5: Chi-Quadrat-Verteilung

Werte χ2 einer chi-quadrat-verteilten Zufallsvariable für vorgegebene Werte der Verteilungs-

funktion F(χ2) mit ν Freiheitsgraden

F (χχχχ2)

ν 0,6 0,75 0,9 0,95 0,975 0,98 0,99 0,995 0,999

1 0,708 1,323 2,706 3,841 5,024 5,412 6,635 7,879 10,827

2 1,833 2,773 4,605 5,991 7,378 7,824 9,210 10,597 13,815

3 2,946 4,108 6,251 7,815 9,348 9,837 11,345 12,838 16,266

4 4,045 5,385 7,779 9,488 11,143 11,668 13,277 14,860 18,466

5 5,132 6,626 9,236 11,070 12,832 13,388 15,086 16,750 20,515

6 6,211 7,841 10,645 12,592 14,449 15,033 16,812 18,548 22,457

7 7,283 9,037 12,017 14,067 16,013 16,622 18,475 20,278 24,321

8 8,351 10,219 13,362 15,507 17,535 18,168 20,090 21,955 26,124

9 9,414 11,389 14,684 16,919 19,023 19,679 21,666 23,589 27,877

10 10,473 12,549 15,987 18,307 20,483 21,161 23,209 25,188 29,588

11 11,530 13,701 17,275 19,675 21,920 22,618 24,725 26,757 31,264

12 12,584 14,845 18,549 21,026 23,337 24,054 26,217 28,300 32,909

13 13,636 15,984 19,812 22,362 24,736 25,471 27,688 29,819 34,527

14 14,685 17,117 21,064 23,685 26,119 26,873 29,141 31,319 36,124

15 15,733 18,245 22,307 24,996 27,488 28,259 30,578 32,801 37,698

16 16,780 19,369 23,542 26,296 28,845 29,633 32,000 34,267 39,252

17 17,824 20,489 24,769 27,587 30,191 30,995 33,409 35,718 40,791

18 18,868 21,605 25,989 28,869 31,526 32,346 34,805 37,156 42,312

19 19,910 22,718 27,204 30,144 32,852 33,687 36,191 38,582 43,819

20 20,951 23,828 28,412 31,410 34,170 35,020 37,566 39,997 45,314

21 21,992 24,935 29,615 32,671 35,479 36,343 38,932 41,401 46,796

22 23,031 26,039 30,813 33,924 36,781 37,659 40,289 42,796 48,268

23 24,069 27,141 32,007 35,172 38,076 38,968 41,638 44,181 49,728

24 25,106 28,241 33,196 36,415 39,364 40,270 42,980 45,558 51,179

25 26,143 29,339 34,382 37,652 40,646 41,566 44,314 46,928 52,619

26 27,179 30,435 35,563 38,885 41,923 42,856 45,642 48,290 54,051

27 28,214 31,528 36,741 40,113 43,195 44,140 46,963 49,645 55,475

28 29,249 32,620 37,916 41,337 44,461 45,419 48,278 50,994 56,892

29 30,283 33,711 39,087 42,557 45,722 46,693 49,588 52,335 58,301

30 31,316 34,800 40,256 43,773 46,979 47,962 50,892 53,672 59,702

40 41,622 45,616 51,805 55,758 59,342 60,436 63,691 66,766 73,403

50 51,892 56,334 63,167 67,505 71,420 72,613 76,154 79,490 86,660

100 102,946 109,141 118,498 124,342 129,561 131,142 135,807 140,170 149,449

9 Tabellenanhang


Tafel 6 a

t-Verteilung Verteilungsfunktion

F (t) (1−α) 0,7 0,8 0,9 0,95 0,975 0,99 0,995

α 0,3 0,2 0,1 0,05 0,025 0,01 0,005

ν α / 2 0,15 0,1 0,05 0,025 0,0125 0,005 0,0025

1 0,727 1,376 3,078 6,314 12,706 31,821 63,656

2 0,617 1,061 1,886 2,920 4,303 6,965 9,925

3 0,584 0,978 1,638 2,353 3,182 4,541 5,841

4 0,569 0,941 1,533 2,132 2,776 3,747 4,604

5 0,559 0,920 1,476 2,015 2,571 3,365 4,032

6 0,553 0,906 1,440 1,943 2,447 3,143 3,707

7 0,549 0,896 1,415 1,895 2,365 2,998 3,499

8 0,546 0,889 1,397 1,860 2,306 2,896 3,355

9 0,543 0,883 1,383 1,833 2,262 2,821 3,250

10 0,542 0,879 1,372 1,812 2,228 2,764 3,169

11 0,540 0,876 1,363 1,796 2,201 2,718 3,106

12 0,539 0,873 1,356 1,782 2,179 2,681 3,055

13 0,538 0,870 1,350 1,771 2,160 2,650 3,012

14 0,537 0,868 1,345 1,761 2,145 2,624 2,977

15 0,536 0,866 1,341 1,753 2,131 2,602 2,947

16 0,535 0,865 1,337 1,746 2,120 2,583 2,921

17 0,534 0,863 1,333 1,740 2,110 2,567 2,898

18 0,534 0,862 1,330 1,734 2,101 2,552 2,878

19 0,533 0,861 1,328 1,729 2,093 2,539 2,861

20 0,533 0,860 1,325 1,725 2,086 2,528 2,845

21 0,532 0,859 1,323 1,721 2,080 2,518 2,831

22 0,532 0,858 1,321 1,717 2,074 2,508 2,819

23 0,532 0,858 1,319 1,714 2,069 2,500 2,807

24 0,531 0,857 1,318 1,711 2,064 2,492 2,797

25 0,531 0,856 1,316 1,708 2,060 2,485 2,787

26 0,531 0,856 1,315 1,706 2,056 2,479 2,779

27 0,531 0,855 1,314 1,703 2,052 2,473 2,771

28 0,530 0,855 1,313 1,701 2,048 2,467 2,763

29 0,530 0,854 1,311 1,699 2,045 2,462 2,756

30 0,530 0,854 1,310 1,697 2,042 2,457 2,750

40 0,529 0,851 1,303 1,684 2,021 2,423 2,704

50 0,528 0,849 1,299 1,676 2,009 2,403 2,678

60 0,527 0,848 1,296 1,671 2,000 2,390 2,660

80 0,526 0,846 1,292 1,664 1,990 2,374 2,639

100 0,526 0,845 1,290 1,660 1,984 2,364 2,626

150 0,526 0,844 1,287 1,655 1,976 2,351 2,609

300 0,525 0,843 1,284 1,650 1,968 2,339 2,592

1000 0,525 0,842 1,282 1,646 1,962 2,330 2,581

99999999 0,524 0,842 1,282 1,645 1,960 2,326 2,576

9 Tabellenanhang


Tafel 6 b

t-Verteilung Symmetrisches Intervall um den Mittelwert

D (t) (1−α) 0,7 0,8 0,9 0,95 0,975 0,99 0,998

α 0,3 0,2 0,1 0,05 0,025 0,01 0,002

ν α / 2 0,15 0,1 0,05 0,025 0,0125 0,005 0,001

1 1,963 3,078 6,314 12,706 25,452 63,656 318,289

2 1,386 1,886 2,920 4,303 6,205 9,925 22,328

3 1,250 1,638 2,353 3,182 4,177 5,841 10,214

4 1,190 1,533 2,132 2,776 3,495 4,604 7,173

5 1,156 1,476 2,015 2,571 3,163 4,032 5,894

6 1,134 1,440 1,943 2,447 2,969 3,707 5,208

7 1,119 1,415 1,895 2,365 2,841 3,499 4,785

8 1,108 1,397 1,860 2,306 2,752 3,355 4,501

9 1,100 1,383 1,833 2,262 2,685 3,250 4,297

10 1,093 1,372 1,812 2,228 2,634 3,169 4,144

11 1,088 1,363 1,796 2,201 2,593 3,106 4,025

12 1,083 1,356 1,782 2,179 2,560 3,055 3,930

13 1,079 1,350 1,771 2,160 2,533 3,012 3,852

14 1,076 1,345 1,761 2,145 2,510 2,977 3,787

15 1,074 1,341 1,753 2,131 2,490 2,947 3,733

16 1,071 1,337 1,746 2,120 2,473 2,921 3,686

17 1,069 1,333 1,740 2,110 2,458 2,898 3,646

18 1,067 1,330 1,734 2,101 2,445 2,878 3,610

19 1,066 1,328 1,729 2,093 2,433 2,861 3,579

20 1,064 1,325 1,725 2,086 2,423 2,845 3,552

21 1,063 1,323 1,721 2,080 2,414 2,831 3,527

22 1,061 1,321 1,717 2,074 2,405 2,819 3,505

23 1,060 1,319 1,714 2,069 2,398 2,807 3,485

24 1,059 1,318 1,711 2,064 2,391 2,797 3,467

25 1,058 1,316 1,708 2,060 2,385 2,787 3,450

26 1,058 1,315 1,706 2,056 2,379 2,779 3,435

27 1,057 1,314 1,703 2,052 2,373 2,771 3,421

28 1,056 1,313 1,701 2,048 2,368 2,763 3,408

29 1,055 1,311 1,699 2,045 2,364 2,756 3,396

30 1,055 1,310 1,697 2,042 2,360 2,750 3,385

40 1,050 1,303 1,684 2,021 2,32893 2,704 3,307

50 1,047 1,299 1,676 2,009 2,31092 2,678 3,261

60 1,045 1,296 1,671 2,000 2,29905 2,660 3,232

80 1,043 1,292 1,664 1,990 2,28437 2,639 3,195

100 1,042 1,290 1,660 1,984 2,27566 2,626 3,174

150 1,040 1,287 1,655 1,976 2,26412 2,609 3,145

300 1,038 1,284 1,650 1,968 2,25271 2,592 3,118

1000 1,037 1,282 1,646 1,962 2,24478 2,581 3,098

99999999 1,036 1,282 1,645 1,960 2,2414 2,576 3,090

Inhaltsverzeichnis

Formelsammlung Statistik, 5. Auflage WS 2002 / 2003 Seite i

Inhalt der Formelsammlung – Formula Table of Contents

Teil I Deskriptive (beschreibende) Statistik

Descriptive Statistics

1 Grundlagen – Fundamentals ......................................................................................... 1

2 Auswertung und Darstellung eindimensionaler Daten – Analysing and Displaying One-dimensional Data ................................................... 1

2.1 Häufigkeiten – Frequencies ...................................................................................................... 1

2.2 Lagemaße (Mittelwerte) – Measures of Central Tendency (Averages).................................... 2

2.3 Streuungsmaße – Measures of Variability / Deviation......................................................... 3

3 Zusammenhänge zwischen mehrdimensionalen Daten – Relations between Multi-Dimensional Variables...................................................... 4

3.1 Allgemeine Grundbegriffe – Basic Concepts ......................................................................... 4

3.2 Zusammenhänge zwischen metrisch skalierten Merkmalen – Correlation of metrically scaled Variables ................................................................................... 4

3.3 Rangkorrelationen für ordinal skalierte Merkmale (nach Spearman) – Rank Correlation for ordinal Variables (Spearman’s ρ).............................................................. 5

3.4 Kontingenzanalyse bei nominal skalierten Variablen – Contingency Measures

(Association of nominal Variables) .............................................................................................. 5

4 Elemente der Zeitreihenanalyse – Time Series Analysis (TSA) ............................. 6

4.1 Komponenten einer Zeitreihe – Components of a Time Series .............................................. 6

4.2 Glättung durch Gleitende Durchschnitte – Smoothing with Moving Averages (MA) ................ 6

4.3 Glättung durch lineare Trendfunktion – Smoothing with a Linear Trend Function .................. 6

4.4 Ermittlung der (additiven) Saisonkomponente und Saisonbereinigung – Analysis of Seasonality................................................................................................................ 7

4.5 Prognosen – Forecasting ........................................................................................................... 7

5 Maß- und Indexzahlen – Index Numbers .................................................................... 8

5.1 Verhältniszahlen – Ratios ........................................................................................................ 8

5.2 Preis- und Mengenindizes – Price and Quantity Indices .......................................................... 8

Inhaltsverzeichnis – Table of contents

Formelsammlung Statistik, Auflage 5.1 2007/08 Seite ii

Teil II Induktive (schließende) Statistik

Statistical Inference

6 Kombinatorik & Wahrscheinlichkeitsrechnung – Combination Theory & Probabilities ....................................................................................................................... 9

6.1 Kombinatorik – Combination Theory........................................................................................ 9

6.2 Grundbegriffe und Definitionen der Wahrscheinlichkeitsrechnung – Basic Concepts and Definitions of Calculus of Probabilities ....................................................... 9

6.3 Rechnen mit Wahrscheinlichkeiten – Calculation with Probabilities...................................... 10

7 Theoretische Verteilungen – Theoretical Distributions .......................................... 11

7.1 Zufallsvariablen – Random Variables..................................................................................... 11 7.1.1 Dichte- und Verteilungsfunktion –

Density and Distribution Function (Cumulated Density function - cdf) ............................... 11 7.1.2 Parameter von Verteilungen – Parameters of Distributions .................................................. 11

7.2 Einige spezielle Verteilungen – Specific Distributions............................................................ 12 7.2.1 Diskrete Verteilungen – Discrete Distributions ....................................................................... 12 7.2.2 Stetige Verteilungen – Continuous Distributions .................................................................... 13 7.2.3 Zentraler Grenzwertsatz – Central Limit Theorem .................................................................. 14 7.2.4 Approximationen von Verteilungen – Approximation of Distributions ................................. 14

8 Schluss von der Stichprobe auf die Grundgesamtheit – Statistical Inference ...... 15

8.1 Schätztheorie: Stichprobenfunktionen – Estimation Theory.................................................. 15

8.2 Konfidenzintervalle zur Parameterschätzung – Confidence Intervals .................................... 15 8.2.1 Konfidenzintervall für den Mittelwert – Confidence Interval for the Mean........................... 15 8.2.2 Konfidenzintervall für den Anteilswert – Confidence Interval for the Proportion.............. 17 8.2.3 Notwendiger Stichprobenumfang – Sample Size ................................................................... 17

8.3 Hypothesentests – Hypothesis Testing ............................................................................... 18

8.4 Parametrische Tests – Parametric Tests ................................................................................ 19 8.4.1 Testen von Mittelwerten – Testing Means.............................................................................. 19 8.4.2 Testen von Anteilswerten – Testing Proportions.................................................................... 19 8.4.3 Zweistichprobentests – Two Sample Tests ............................................................................ 20 8.4.4 Testen der Regressionskoeffizienten bei Mehrfachregression –

Testing Coefficients of Multivariate Regressions .................................................................. 20

8.5 Nicht-Parametrische Tests – Non-Parametric Tests .............................................................. 21 8.5.1 Chi-Quadrat Unabhängigkeitstest – Chi-Square Test of Independence.............................. 21 8.5.2 Chi-Quadrat Anpassungstest – Chi-Square Test for Distributions ........................................ 21

9 Tabellenanhang ................................................................................................................. 22