Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Formelsammlungfür die Vorlesung
Statistik A
Univ.-Prof. Dr. Kneip
Universität BonnStatistische Abteilung
Wintersemester 2013/2014
Inhaltsverzeichnis2 Univariate Deskription und Exploration von Daten 2
3 Bivariate Deskription und Exploration von Daten 9
4 Zeitreihenanalyse 16
5 Indexzahlen 17
6 Wahrscheinlichkeitsrechnung 20
Formelsammlung Statistik A Seite 2
2 Univariate Deskription und Exploration vonDaten
Gegeben seien Daten x1, . . . , xn eines MerkmalsX mit Ausprägungen a1, . . . , ak.
Häufigkeiten und ihre graphischen DarstellungenFormel/Notation Erläuterung
Absolute Häufigkeit h(aj) = hj Anzahl der Werte mit xi = ajRelative Häufigkeit f(aj) = fj =
hjn
Anteil der Werte mit xi = ajAbs. Häufigkeitsverteilung h1, . . . , hk Menge der abs. HäufigkeitenRel. Häufigkeitsverteilung f1, . . . , fk Menge der rel. Häufigkeiten
Diagramm BeschreibungStrichliste Für jedes ak jeweils hk Striche
Stabdiagramm Über a1, . . . , ak jeweils zur x-Achse senkrechter Strichmit Höhe h1, . . . , hk (oder f1, . . . , fk)
Säulendiagramm wie Stabdiagramm, jedoch mit Rechtecken anstattStrichen
Balkendiagramm wie Säulendiagramm, jedoch mit a1, . . . , ak auf der y-Achse
Kreisdiagramm Kreissektoren mit Winkeln αj = fj · 360, so daß Flä-che proportional zu den Häufigkeiten
Histogramm
Über den Klassen [c0, c1], . . . , (ck−1, ck] Rechtecke mitBreite δj = cj − cj−1 und Höhe gleich (oder propor-tional zu) hj/δj bzw. fj/δj. Damit ist die Fläche derRechtecke gleich (oder proportinal zu) hj bzw. fj.
Kumulierte HäufigkeitsverteilungenFormel/Notation Erläuterung
Absolute kumulierteHäufigkeitsverteilung
H(x) =∑
i:ai≤xh(ai) Anzahl der Werte xi
mit xi ≤ xEmpirische Verteilungs-funktion(relative kumulierteHäufigkeitsverteilung)
F (x) = H(x)n
=∑
i:ai≤xf(ai) Anteil der Werte xi mit
xi ≤ x
Formelsammlung Statistik A Seite 3
LagemaßeLagemaß Formel ErläuterungArithmetischesMittel
x = 1n
n∑i=1
xiEmpirischer Mittelwert der Be-obachtungen
x =k∑j=1
fjaj = 1n
k∑j=1
hjajhj = h(aj) abs. Häufigkeitenfj = f(aj) rel. Häufigkeiten
Median
Für ungerades n:xmed = x(n+1
2 )Für gerades n:xmed = 1
2
(x(n/2) + x(n/2+1)
)x(1) ≤ . . . ≤ x(n) bezeichnetdie aufsteigend sortierte Urlistex1, . . . , xn.
Modus xmod = ai,mit fi = maxj=1,···k fj
Ausprägung mit größter Häufig-keit.
GeometrischesMittel
xgeo = n√x1 · x2 · · ·xn
bzw. ln(xgeo) = 1n
n∑i=1
ln(xi)Nur für positive x1, . . . , xn.
bzw. ln(xgeo) =k∑j=1
fj ln(aj) Häufigkeitsdaten mit aj > 0
HarmonischesMittel
xhar = 1
1n
n∑i=1
1xi
bzw. 1xhar
= 1n
n∑i=1
1xi
Entweder alle xi > 0oder alle xi < 0
bzw. 1xhar
=k∑j=1
fj1aj
Häufigkeitsdaten und entwederalle aj > 0 oder alle aj < 0
LageregelnVerteilung Lagemaßesymmetrisch x ≈ xmed ≈ xmod
linkssteil (rechtsschief) x > xmed > xmod
rechtssteil (linksschief) x < xmed < xmod
Formelsammlung Statistik A Seite 4
StreuungsmaßeStreuungsmaß Formel Erläuterung
Empirische Varianz s2 = 1n
n∑i=1
(xi − x)2 = 1n
n∑i=1
x2i − x2 x emp. Mittelwert
s2 =k∑j=1
fj(aj − x)2 =k∑j=1
fja2j − x2 Für Häufigkeitsdaten
Empirische Standard-abweichung s =
√s2
Quadratwurzel aus emp.Varianz
Stichprobenvarianz s2 = 1n−1
n∑i=1
(xi − x)2 Division durch n− 1
Variationskoeffizient v = s/xSinnvoll fürBeobachtungen xi > 0
Spannweite R = maxi xi−mini xi = x(n)−x(1)x(1) ≤ . . . ≤ x(n), geordneteUrliste
Interquartilsabstand QA = x0.75 − x0.25x0.25, x0.75 unteres bzw. obe-res Quartil
Bemerkung: Die Formel für die empirische Varianz wird oft auch in der
Form s2 = x2− x2, wobei x2 = 1n
n∑i=1
x2i der Mittelwert der quadrierten Daten
ist, geschrieben.
Schichtung und Streuungszerlegung
Eine Erhebungseinheit E vom Umfang n sei zerlegt in r Schichten (oder Teil-gesamtheiten) E1, . . . , Er, jeweils vom Umfang nj,
∑rj=1 nj = n, mit Mittel
xj und Varianz s2j . Dann gilt
• Gesamtmittel in E:
x =1
n
r∑j=1
njxj
• Varianz in E:
s2 =1
n
r∑j=1
nj s2j︸ ︷︷ ︸
Streuung innerhalbder Schichten
+1
n
r∑j=1
nj(xj − x)2
︸ ︷︷ ︸Streuung zwischen
den Schichten
Formelsammlung Statistik A Seite 5
Quantile und Boxplot
Quantile
Für 0 < p < 1 heißt jeder Wert xp, für den
Anzahl(xi : xi ≤ xp)
n≥ p und
Anzahl(xi : xi ≥ xp)
n≥ 1− p
gilt, p-Quantil. Damit gilt für das p-Quantil:
xp = x(bnpc+1),wenn np nicht ganzzahligxp ∈
[x(np), x(np+1)
],wenn np ganzzahlig
Bemerkungen:
• Spezielle Bezeichnungen:x0.5 Medianx0.25, x0.75 Unteres bzw. Oberes Quartilx0.1, . . . , x0.9 Dezile
• Analog zum Median kann man für ganzzahliges np ein p-Quantil aucheindeutig als den Mittelwert xp = 1
2
(x(np) + x(np+1)
)definieren.
• In Statistikprogrammen werden empirische p-Quantile gewöhnlich durchlineare Näherung aus der empirischen Verteilungsfunktion gewonnen.
Graphische Darstellung
• 5-Punkte Zusammenfassung einer Verteilung:Angabe von xmin, x0.25, xmed, x0.75, xmax.
• Boxplot:
1. x0.25 = Anfang der Box2. x0.75 = Ende der Box3. xmed durch senkr. Strich in der Box markieren4. Berechnung der „Zäune“ zu = x0.25 − 1.5 QA und zo = x0.75 +
1.5 QA
5. Zwei Linien („whiskers“) gehen von der Box aus zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs [zu, zo] der Zäu-ne. (Üblicherweise werden die Endpunkte durch senkrechte Strichemarkiert.)
6. Beobachtungen außerhalb der Zäune zu, zo werden einzeln mar-kiert.
Formelsammlung Statistik A Seite 6
Gruppierte Daten
Lagemaße
Formel Erläuterung
Arithm. Mittel x =k∑j=1
fj cjcj Mitte der Klasse (cj−1, cj]fj rel. Häufigkeit
Median xmed = ci−1 + δi0.5−Fi−1
fi
Fi−1 =∑i−1
j=1 fj (emp. Vert.),(ci−1, ci] Einfallsklasse des Medians,d.h. Fi−1 ≤ 0.5 < Fiδi = ci − ci−1 Breite der i-ten Klasse
Modus xmod = ci ci Mitte der Modalklasse
Geom. Mittel ln(xgeo) = 1n
k∑j=1
fj ln(cj) Alle cj > 0
Harm. Mittel 1xhar
= 1n
k∑j=1
fjcj
Entweder alle cj > 0 oder alle cj < 0
Streuungsmaße
Formel Erläuterung
Empirische Varianz s2 =k∑j=1
fj(cj − x)2 =k∑j=1
fj c2j − x2
x emp. Mittelwert,fj rel. Häufigkeit,cj Klassenmitte
Empirische Varianzmit Sheppard-Korrektur
s2 =k∑j=1
fj(cj − x)2 − δ2
12
Nur für konstante Klas-senbreiten δ = cj − cj−1
Spannweite R = ck − c0
c0 Untergrenze der un-tersten Klasseck Obergrenze der ober-sten Klasse
Interquartilsabstand QA = x0.75 − x0.25
x0.25, x0.75 unteres bzw.oberes Quartil (für grup-pierte Daten)
p-Quantil für gruppierte Daten
Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1)definiert durch
xp = ci−1 + δip− Fi−1
fi,
wobei der Index i so bestimmt wird, daß∑i−1
j=1 fj ≤ p <∑i
j=1 fj.
Formelsammlung Statistik A Seite 7
Maßzahlen für Schiefe
Empirische Momente
Formel Erläuterung
Empirische Momente Mr = 1n
n∑i=1
xri r = 1, 2, . . . M1 = Arithmetisches Mittel
Empirische zentraleMomente
mr = 1n
n∑i=1
(xi − x)r r = 2, 3, . . . m2 = Empirische Varianz
Maßzahlen für Schiefe („Skewness“)
Schiefemaß Formel Erläuterung
Momentenkoeffizientder Schiefe
gm = m3
s3mit m3 = 1
n
n∑i=1
(xi − x)3m3 emp. 3tes zentrales Mo-ment,s emp. Standardabw.
Quantilskoeffizientder Schiefe gp = (x1−p−xmed)−(xmed−xp)
x1−p−xpFür p = 0.25 ergibt sichder Quartilskoeffizient
Konzentrationsmaße
Lorenzkurve und Gini-Koeffizient
Die Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1, v1), . . . , (uκ, vκ) =(1, 1), wobei für die Punkte (uj, vj) gilt:
• Bei geordneter Urliste x1 ≤ . . . ≤ xn:
uj =j
nvj =
∑ji=1 xi∑ni=1 xi
für j = 1, . . . , n
• Bei Häufigkeitsdaten (ai, fi)1≤i≤k (aufsteigend geordnet):
uj =
j∑i=1
fi vj =
∑ji=1 fiai∑ki=1 fiai
für j = 1, . . . , k
• Bei gruppierten Daten mit Klassen [c0, c1], . . . , (ck−1, ck] und Klassen-mittelpunkten ci:
uj =
j∑i=1
fi vj =
∑ji=1 fici∑ki=1 fici
für j = 1, . . . , k
Formelsammlung Statistik A Seite 8
Gini-Koeffizient
G =Fläche zw. Diagonale u. LorenzkurveFläche zw. Diagonale und u-Achse
= 2·Fläche zw. Diagonale u. Lorenzkurve
Damit ergibt sich für den Gini-Koeffizienten
• Bei geordneter Urliste x1 ≤ . . . ≤ xn:
G =
2n∑i=1
ixi
nn∑i=1
xi
− n+ 1
n=n+ 1
n− 2 · 1
n
n∑j=1
vj
• Bei Häufigkeitsdaten (ai, fi)1≤i≤k (aufsteigend geordnet):
G =
∑ki=1(ui−1 + ui)fiai∑k
i=1 fiai− 1 = 1− 2 ·
k∑j=1
fj vj, mit vj =vj−1 + vj
2
• Bei gruppierten Daten mit Klassen [c0, c1], . . . , (ck−1, ck] und Klassen-mittelpunkten ci:
G =
∑ki=1(ui−1 + ui)fici∑k
i=1 fici− 1 = 1− 2 ·
k∑j=1
fj vj, mit vj =vj−1 + vj
2
Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient)
G? =G
Gmax
=n
n− 1G mit dem Wertebereich: G? ∈ [0, 1]
Absolute Konzentrationsmaße
Ausgangspunkt ist eine geordnete Urliste x1 ≤ . . . ≤ xn.
• Merkmalsanteil der i-ten Einheit: pi = xin∑
j=1xj
• Konzentrationsrate der g größten Merkmalsträger: CRg =n∑
i=n−g+1
pi
• Herfindahl-Index: H =n∑i=1
p2i ; Wertebereich: H ∈ [ 1
n, 1]
Formelsammlung Statistik A Seite 9
3 Bivariate Deskription und Exploration vonDaten
Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungena1, . . . , ak für X und b1, . . . , bm für Y .Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1, y1), . . . , (xn, yn).
Kontingenztabelle der absoluten Häufigkeiten
Eine (k×m)–Kontingenztabelle der absoluten Häufigkeiten besitzt die Form
XY b1 b2 · · · bma1 h11 h12 . . . h1m h1•a2 h21 h22 . . . h2m h2•...
......
......
ak hk1 hk2 . . . hkm hk•h•1 h•2 · · · h•m n
und gibt die gemeinsame Verteilung der Merkmale X und Y in absolutenHäufigkeiten wieder.
Bezeichnungen
Absolute Häufigkeit der Kom-bination (ai, bj)
hij = h(ai, bj)
Zeilensummen hi• = hi1 + · · ·+ him, 1 ≤ i ≤ k
Spaltensummen h•j = h1j + · · ·+ hkj, 1 ≤ j ≤ m
Gesamtsumme h• • =k∑i=1
m∑j=1
hij =k∑i=1
hi• =m∑j=1
h•j = n
Randhäufigkeitendes Merkmals X h1•, . . . , hk•
Randhäufigkeitendes Merkmals Y h•1, . . . , h•m
Formelsammlung Statistik A Seite 10
Kontingenztabelle der relativen Häufigkeiten
Eine (k ×m)-Kontingenztabelle der relativen Häufigkeiten besitzt die Form
XY b1 b2 · · · bma1 f11 f12 . . . f1m f1•a2 f21 f22 . . . f2m f2•...
......
......
ak fk1 fk2 . . . fkm fk•f•1 f•2 · · · f•m 1
und gibt die gemeinsame Verteilung der Merkmale X und Y wieder.
Bezeichnungen
Relative Häufigkeit der Kombina-tion (ai, bj)
fij =hijn
Zeilensummen fi• = fi1 + · · ·+ fim = hi•n, 1 ≤ i ≤ k
Spaltensummen f•j = f1j + · · ·+ fkj =h•jn, 1 ≤ j ≤ m
Gesamtsummek∑i=1
m∑j=1
fij =k∑i=1
fi• =m∑j=1
f•j = 1
Randverteilung des Merkmals X f1•, . . . , fk•Randverteilung des Merkmals Y f•1, . . . , f•mBedingte Häufigkeitsverteilungvon X unter der BedingungY = bj, kurz X|Y = bj
fX(a1|Y = bj) =f1jf•j
, . . . , fX(ak|Y = bj) =fkjf•j
Bedingte Häufigkeitsverteilungvon Y unter der BedingungX = ai, kurz Y |X = ai
fY (b1|X = ai) =fi1fi•
, . . . , fY (bm|X = ai) =fimfi•
Formelsammlung Statistik A Seite 11
Graphische Darstellung quantitativer Merkmale
Streudiagramm („Scatter plot“)
• Darstellung der Meßwerte (x1, y1), . . . , (xn, yn) im xy-Koordinatensystem.
Zweidimensionales Histogramm
• Intervalle [c0, c1], . . . , (ck−1, ck] für Merkmal X.
• Intervalle [d0, d1], . . . , (dm−1, dm] für Merkmal Y .
• Quader mit den Rechtecken (ci−1, ci] × (dj−1, dj] als Grundfläche undHöhe
hij(ci − ci−1) · (dj − dj−1)
bzw.fij
(ci − ci−1) · (dj − dj−1)
„Odds“ und Kreuzproduktverhältnis
Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häufigkeiten.
• (Empirische) bedingte Chance („Odds“) zwischen Y = br und Y = bsfür gegebenes X = ai ist:
γ(br, bs|X = ai) =hirhis
• Das Kreuzproduktverhältnis („Odds ratio“) zwischen X = ai und X =aj in bezug auf die Chancen von Y = br zu Y = bs ist:
γ(br, bs|X = ai, X = aj) =hir/hishjr/hjs
=hirhjshjrhis
Formelsammlung Statistik A Seite 12
Kontingenz und χ2–KoeffizientFormel Wertebereich/Erläuterung
χ2-Koeffizient χ2 =k∑i=1
m∑j=1
(hij − hi•h•j
n
)2
hi•h•jn
Es gilt: 0 ≤ χ2 ≤ n · (min(k,m)− 1)
hij =hi•h•jn
= erwartete Häufigkeiten,wenn kein Zusammenhang vorliegt.
Kontingenz-koeffizient K =
√χ2
n+ χ2
K ∈ [0, Kmax], wobei Kmax =√
M−1M
,M = min(k,m).
KorrigierterKontingenz-koeffizient
K? =K
KmaxK? ∈ [0, 1]
Assoziationsmaßvon Cramér V =
√χ2
n(min(k,m)− 1)
V ∈ [0, 1]V = |φ-Koeffizient| für 2× 2-Tafeln
Spezialfall: Vierfeldertafel
Für eine (2× 2)–Kontingenztafel der Form
h11 h12 h11 + h12
h21 h22 h21 + h22
h11 + h21 h12 + h22 n
gilt
χ2 =n(h11h22 − h12h21)2
(h11 + h12)(h11 + h21)(h12 + h22)(h21 + h22)
und der φ-Koeffizient ist definiert als
φ =h11h22 − h12h21√
(h11 + h12)(h11 + h21)(h12 + h22)(h21 + h22)
und hat den Wertebereich φ ∈ [−1, 1].
Formelsammlung Statistik A Seite 13
Zusammenhangsmaße bei metrischen Merkmalen
Empirischer Korrelationskoeffizient nach Bravais-Pearson
• Empirische Standardabweichungen (für X bzw. Y ): sX , sY
s2X =
1
n
n∑i=1
x2i − x2 und s2
Y =1
n
n∑i=1
y2i − y2
• Empirische Kovarianz (zwischen X und Y ):
sXY =1
n
n∑i=1
(xi − x)(yi − y) =1
n
n∑i=1
xiyi − x · y
• Empirischer Korrelationskoeffizient :
r = rXY =sXYsX sY
• Wertebereich: r ∈ [−1, 1].
Formelsammlung Statistik A Seite 14
Spearmans Korrelationskoeffizient
• Rang von xi: rang(xi) = Position des i-ten Messwertes in der aufstei-gend sortierten Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) mit der Zusatzregel,dass gleichen Messwerten (sog. Bindungen, „ties“) jeweils das Mittelihrer Ränge zugewiesen wird.
• Mittel aller Ränge: rangX = 1n
n∑i=1
rang(xi) = 1n
n∑i=1
i = n+12
• Spearmans Korrelationskoeffizient :
rSP =
n∑i=1
(rang(xi)− rangX)(rang(yi)− rangY )√n∑i=1
(rang(xi)− rangX)2n∑i=1
(rang(yi)− rangY )2
• Wertebereich: rSP ∈ [−1, 1]
• Rechentechnisch günstige Version:Unter der Voraussetzung, dass keine Bindungen („ties“) auftreten(d.h., xi 6= xj, yi 6= yj für alle i, j), gilt:
rSP = 1−6
n∑i=1
D2i
n(n2 − 1)
mit den Rangdifferenzen Di = rang(xi)− rang(yi), 1 ≤ i ≤ n.
Lineare Einfachregression
Gegeben seien n Beobachtungen der Merkmale Y undX: (y1, x1), . . . , (yn, xn).
• Lineare Einfachregression:
yi = α + βxi + εi, i = 1, . . . , n
• Parameter α, β: α bezeichnet den Achsenabschnitt, β die Steigung.
• Fehlerterme εi. (Annahme: Unsystematische Schwankung um 0.)
Formelsammlung Statistik A Seite 15
• Bestimmung der Paramter der Ausgleichsgeraden durch die Kleinste-Quadrate-Methode:
α = y − βx, β =
n∑i=1
(xi − x)(yi − y)
n∑i=1
(xi − x)2
=sXYs2X
• als Lösung der Normalgleichungen:
α n+ βn∑i=1
xi =n∑i=1
yi
αn∑i=1
xi + βn∑i=1
x2i =
n∑i=1
xiyi
• Angepaßte Werte: yi = α + βxi, i = 1, . . . , n.
• Residuen: εi = yi − yi, i = 1, . . . , n.
• Streuungszerlegung :n∑i=1
(yi − y)2 =n∑i=1
(yi − y)2 +n∑i=1
(yi − yi)2
n∑i=1
(yi − y)2 Gesamtstreuungn∑i=1
(yi − y)2 = β2n∑i=1
(xi − x)2 Durch Regression erklärte Streuungn∑i=1
(yi − yi)2 Residualstreuung
• Bestimmtheitsmaß (Determinationskoeffizient):
R2 =
n∑i=1
(yi − y)2
n∑i=1
(yi − y)2
= 1−
n∑i=1
(yi − yi)2
n∑i=1
(yi − y)2
=
(sXYsX sY
)2
= r2XY
• Prognose an einer Stelle x0: y0 = α + βx0
Formelsammlung Statistik A Seite 16
4 ZeitreihenanalyseGegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merk-mals X: x1, x2, . . . , xn
Graphische Darstellung
• Zeitreihenpolygon: Darstellung der Werte xt1≤t≤n in Abhängigkeitvon t mit anschließender linearer Interpolation.
• Alternativ: Darstellung von xt in Abhängigkeit vom Datum der t-tenMessung mit anschließender linearer Interpolation.
Komponentenmodelle
• Additives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt︸︷︷︸
Trend
+ st︸︷︷︸Saison
+ zt︸︷︷︸Rest
• Multiplikatives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt · st · zt.Durch Logarithmieren kann ein multiplikatives Modell auf ein additivesKomponentenmodell zurückgeführt werden: lnxt︸︷︷︸
x?t
= ln gt︸︷︷︸g?t
+ ln st︸︷︷︸s?t
+ ln zt︸︷︷︸z?t
Schätzung eines linearen Trends
• Modell: gt = β0 + β1 · t
• Schätzung der Parameter durch die KQ-Methode:
β0 und β1 minimierenn∑t=1
(xt − β0 − β1 · t)2
• Lösungen: (für t = 1, 2, . . . , n)
β1 =
12n∑t=1
xt · t
n(n2 − 1)− 6x
n− 1und β0 = x− β1
n+ 1
2
• Geschätzte Trendfunktion: gt = β0 + β1 · t
• Trendbereinigte Zeitreihe: xt − gt
Formelsammlung Statistik A Seite 17
• Bestimmtheitsmaß:
R2 =
∑nt=1(gt − x)2∑nt=1(xt − x)2
=β2
1n(n2 − 1)
12∑n
t=1(xt − x)2
• Exponentieller Trend:Durch Logarithmieren kann ein exponentielles Trendmodell der Form:gt = β0 · βt1 in ein lineares Trendmodell überführt werden.
Schätzung einer konstanten Saisonfigur
• Gegebene Periodizität: lFür j = 1, . . . , l sind xj, xl+j, x2l+j, x3l+j, . . . jeweils die Beobachtungenzur j-ten Periode (Quartal, Monat, o.ä.)
• Annahme: (Konstante Saisonfigur)Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · ·
• Schätzung der sj: Arithmetische Mittel sj = 1mj
mj−1∑k=0
(xkl+j − gkl+j)
(Bemerkung: Falls n = m · l, dann mj = m für alle j)
• Geschätzte Saisonkomponente: st = sj falls t = j, l+ j, 2l+ j, 3l+ j, . . .
• Prognose (von xn+h, h ≥ 1):xn+h = gn+h + sn+h (additiv) bzw. xn+h = gn+h · sn+h (multiplikativ)
5 Indexzahlen
Klassifikation der Verhältniszahlen
• Gliederungszahl
• Beziehungszahl
• Meßzahl (einfache/zusammengesetzte Indexzahl)
Preis-, Mengen und Wertindizes
Bezeichnungen
• Bezeichnungen (Warenkorb mit m Gütern.)q0i, p0i: Menge und Preis des i-ten Gutes in der „Basisperiode 0“qti, pti: Menge und Preis des i-ten Gutes in der „Berichtsperiode t“
Formelsammlung Statistik A Seite 18
• Preisindex nach Laspeyres: PL0t =
m∑i=1ptiq0i
m∑i=1p0iq0i
• Preisindex nach Paasche: P P0t =
m∑i=1ptiqti
m∑i=1p0iqti
• Mengenindex nach Laspeyres: QL0t =
m∑i=1p0iqti
m∑i=1p0iq0i
• Mengenindex nach Paasche: QP0t =
m∑i=1ptiqti
m∑i=1ptiq0i
• Wertindex: (auch: Umsatz- oder Ausgabenindex) W0t =
m∑i=1qtipti
m∑i=1q0ip0i
• Preisindex nach Fisher: P F0t =
√P P
0tPL0t
Indexumrechnungen
• Umbasierung:Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Ba-sisperiode 0): I00 = 1, I01, I02, . . . , I0k, . . . , I0n
I?kt = I0t/I0k ergibt die auf die neue Basisperiode k umbasierte Zeitrei-he.
• Verknüpfung:Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode(hier in t) überlappen: I01, I02, . . . , I0t und Ikt, Ik,t+1, . . .
Fortführung der alten Zeitreihe:
I?0,t+h = Ik,t+h ·I0t
Ikt, h = 1, 2, . . .
Rückrechnung der neuen Zeitreihe:
I?k,t−h = I0,t−h ·IktI0t
, h = 1, 2, . . .
Formelsammlung Statistik A Seite 19
• Verkettung:Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperi-ode als Basis: I01, I12, I23, I34, . . .
I?0t = I01 · I12 · · · It−1,t bezeichnet die verkettete Zeitreihe mit gemeinsa-mer Basis 0.
• Deflationierung oder Preisbereinigung: Division einer nominalenGröße Vt durch einen sachlich zugehörigen Preisindex P0t ergibt diereale (preisbereinigte) Größe Rt = Vt/P0t.
Formelsammlung Statistik A Seite 20
6 Wahrscheinlichkeitsrechnung
KombinatorikAnzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:
Reihenfolge wichtig Reihenfolge nicht wichtig
„Sortieren nicht erlaubt“ „Sortieren erlaubt“
ohne Zurücklegen N · (N − 1) · · · (N − (n− 1))
(N
n
)
mit Zurücklegen Nn
(n+N − 1
n
)=
(n+N − 1
N − 1
)
Binomialkoeffizienten• Definition: (
n
k
)=n · (n− 1) · · · (n− (k − 1))
k · (k − 1) · · · 1=
n!
k!(n− k)!
• Rechenregeln:(n
0
)=
(n
n
)= 1
(n
1
)=
(n
n− 1
)= n
(n
k
)=
(n
n− k
) (n
k
)=
(n− 1
k
)+
(n− 1
k − 1
)
Rechenregeln für Mengen• Kommutativgesetz:A ∩B = B ∩AA ∪B = B ∪A
• Distributivgesetz:(A∪B)∩C = (A∩C)∪ (B ∩C)(A∩B)∪C = (A∪C)∩ (B ∪C)
• Aus A ⊂ B folgt B ⊂ A
• Assoziativgesetz:(A ∩B) ∩ C = A ∩ (B ∩ C)(A ∪B) ∪ C = A ∪ (B ∪ C)
• De Morgansche Regeln:(A ∪B) = A ∩ B(A ∩B) = A ∪ B
• Für die Differenzmenge A\Bgilt: A\B = A ∩ B
Formelsammlung Statistik A Seite 21
Wahrscheinlichkeiten und Axiome von Kolmogoroff
• Endlicher Wahrscheinlichkeitsraum (Ω,P(Ω), P )
- Grundraum Ω = ω1, ω2, . . . ωN- Ereignisse P(Ω) = Menge aller Teilmengen A ⊂ Ω- Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten
von ADie Wahrscheinlichkeitsverteilung P erfüllt dieAxiome von Kolmogoroff :
(A1) (Nichtnegativität) P (A) ≥ 0
(A2) (Normiertheit) P (Ω) = 1
(A3) (Additivität) P (A ∪B) = P (A) + P (B) für A ∩B = ∅
• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) er-setzt durch das Axiom
(A3’) (σ−Additivität) P (∞⋃k=1
Ak) =∞∑k=1
P (Ak) für Ai∩Aj = ∅, i 6= j
Rechenregeln für Wahrscheinlichkeiten1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1
2. A ⊆ B ⇒ P (A) ≤ P (B)
3. P (A) = 1− P (A) mit A = Ω\A
4. Additionssatz: P (A ∪B) = P (A) + P (B)− P (A ∩B)
5. P (A1 ∪A2 ∪ · · · ∪An) = P (A1) + P (A2) + · · ·+ P (An),falls A1, A2, . . . , An paarweise disjunkt, d.h. Ai ∩Aj = ∅
6. P (A1 ∪A2 ∪ · · ·An) ≤ P (A1) + P (A2) + · · ·+ P (An)
7. Wenn die Elementarwahrscheinlichkeiten pi = P (ωi), i = 1, 2, . . . bekanntsind,dann gilt für die Wahrscheinlichkeit eines Ereignisses A:
P (A) =∑i:ωi∈A
P (ωi) =∑i:ωi∈A
pi
Formelsammlung Statistik A Seite 22
Laplace-Modell
1. Annahme: Endlicher Grundraum Ω = ω1, . . . , ωN
2. Annahme: P (ω1) = P (ω2) = · · · = P (ωN)
Wahrscheinlichkeiten: P (A) =Anzahl ωi in AAnzahl ωi in Ω
=#A
#Ω=
#A
N
Bedingte WahrscheinlichkeitBedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =P (A ∩B)
P (B)für A,B ⊂ Ω mit P (B) > 0
Unabhängigkeit von Ereignissen• Zwei Ereignisse A und B heißen stochastisch unabhängig, wennP (A ∩B) = P (A) · P (B)
• Ereignisse A1, . . . , An heißen stochastisch unabhängig, wenn für jede Aus-wahl Ai1 , . . . , Aik mit k ≤ n gilt:P (Ai1 ∩ . . . ∩Aik) = P (Ai1) · P (Ai2) · · ·P (Aik)
Multiplikationssatz• Für Ereignisse A1, . . . , An gilt:
P (A1∩. . .∩An) = P (A1)·P (A2|A1)·P (A3|A1∩A2) · · ·P (An|A1∩. . .∩An−1)
• Falls die Ereignisse A1, . . . , An unabhängig sind, gilt:P (A1 ∩A2 ∩ . . . ∩An) = P (A1) · P (A2) · · ·P (An)
Totale Wahrscheinlichkeit und Satz von BayesSeien A1, . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkteVereinigung der Ai; es gilt: Ai 6= ∅, Ai∩Aj = ∅, i 6= j, und A1∪A2∪ . . .∪An = Ω).
Formelsammlung Statistik A Seite 23
B sei ein Ereignis mit P (B) > 0.
P (B|Ak) · P (Ak) = P (B ∩Ak) = P (Ak|B) · P (B)
P (B) =n∑i=1
P (B|Ai) · P (Ai) =n∑i=1
P (B ∩Ai) (totale Wahrscheinlichkeit)
P (Ak|B) =P (B|Ak) · P (Ak)
P (B)=
P (B|Ak) · P (Ak)n∑i=1
P (B|Ai) · P (Ai)
(Satz von Bayes)