4
Statistik und Wahrscheinlichkeitsrechnung Klausur Do 5. Mai 2011 - 8:00 HCI G3 ETHZ BAUG - FS 2011 06. August 2011 Seite | 1 Christoph Hager STATISTIK & WAHRSCHEINLICHKEIT © chager - Version 2.2 Dr. J. Köhler, ETHZ A ENTSCHEIDUNGSFINDUNG 1 NACHHALTIGKEIT 3 Bedürfnisse heutiger Generationen zu decken, ohne Erfüllung von Bedürfnissen folgender Generationen zu gefährden. ANFORDERNGEN NUTZEN FÜR GESELLSCHAFT 4 Wirtschaftlich Rentabel durch Erfüllung eines Zwecks Erfüllt Anforderungen bezüglich Sicherheit für Menschen Beschränke schädliche Auswirkung für Umwelt PHASEN LEBENSZYKLUS 8 Betrachten aller Unsicherheiten in allen Phasen des Bauwerks RISIKO ERWARTETER NUNTZEN 9 Risiko = Produkt von Warsch. und pos./neg. Konsequenzen: B - WAHRSCHEINLICHKEITSTHEORIE 13 FREQUENTISCHE DEFINITION 15 Nur nach Experimenten: KLASSISCHE DEFINITION (1654) 16 Ohne Experiment: Nach Anzahl Ausgänge für A bezüglich total gleich wahrscheinlicher möglicher Ereignisse. BAYES’SCHE DEFINITIO N 17 Grad persönlicher Überzeugung für a priori Ist subjektiv, aber umfasst freq. und klassische Überlegungen UNSICHERHEITEN 64 Aleatorisch: Unsicherheit infolge natürlicher Variabilität Epistemisch: Unsicherheit infolge unvollständigen Wissens EREIGNISRAUM MENGENLEHRE NICHT FÜR WK 18 Ereignisraum Leere Menge und vereinigt mit geschnitten mit oder ( unabhängig) Disjunkt/unvereinbar: Komplementär : Operationen folgen kommutativ, assoziativ und distributiv - Gesetzen Desweiteren: , DIE DREI AXIOME DER WK-THEORIE 20 1. für WK von 2. für Ereignisraum 3. für unvereinbare BEDINGTE WARSCHEINLICHKEIT 20 WK von wenn eingetreten ist. Folgerung wenn Ereignisse unabhängig sind. SATZ DER TOTALEN WARSCHEINLICHKEIT SDTW 21 falls Ereignisse unvereinbar SATZ VON BAYES 22 TABELLENZUSAMMENSTELLUNG 24 24 A Priori „Realität“ Likelihood - Indikatoren A posteriori 0.65 0.71 0.28 0.01 0.50 0.24 0.18 0.61 0.21 0.40 0.11 0.02 0.32 0.66 0.10 C - BESCHREIBENDE STATISTIK 29 KENNWERTE UND PARAMETER EINER STICHPROBE Stichprobe: Mittelwert: 31 Modus: häufigster auftretende Wert oder Intervall Median: mittlerer (Zentral)Wert einer geordneten Datenreihe Varianz: Standardabweichung 34 Variationskoeffizient: Normalisierte Variabilität Schiefekoeffizient: Mass für Asymmetrie 35 Rechtsschief: , Modus Mittelwert , Schwanz rechts Kurtosis: Mass für Spitzigkeit Normalverteilung: Kovarianz: 36 Korrelationskoeff: , wenn Datenpaare perfekt linear steigend, 0 wenn unabhängig Korrelation bedeutet nicht, dass kausaler Zusammenhang besteht ZENTRALE STICHPROBENMOEMTE 35 Zentral: Momente um Mittelwert GRAFISCHE DARSTELLUNG 37-54 Eindimensionales/Mehrdimensionales Streudiagramm Histogramm: Unterteilung in Intervalle , Darstellung je nach Intervall, Bereich Kumuliertes relatives Häufigkeitsdiagramm Quantil-Plot: Gespiegeltes kum. rel. Häufigkeitsdiagramm Quantil-Index (aus sortierter Datenreihe) Zwischenpunkte werden linear Interpoliert 0.25/0.75-Quantil: Unteres/Oberes Quartil, 0.5-Quantil: Median Tukey Box Plot: Grafische Darstellung mehrerer Param. Ausreisser Werte mit Voyage 200: stats Oberer Nachbarschaftswert: Grösster Wert Oberes Quartil Median Unteres Quartil Unterer Nachbarschaftswert: Kleinster Wert Nachbarschaftswerte sind immer vorhandene Messwerte Q-Q-Plot: Vergleich 2 Datenreihen über zuordnen via Qantile Mittelwert-Differenz-Plot: Differenz über MW von und D - MODELLIERUNG UNSICHERHEITEN 61 Zufallsvariable: , Realisation: VERTEILUNGS- UND DICHTEFUNKTION 67 Diskret Kontinuierlich Kum. Verteilungfunktion - - Fläche von bis Dichtefunktion - Fläche unter Kurve i-te Moment einer Zufallsvariable - Mittelwert/Erwartungswert 1. Moment - Varianz 2. zentrale Moment Variationskoeffizient Normalisierte Variabilität ERWARTUNGSWERTOPERATOR 73 Gleichheit nur bei linearer Funktion Umrechnung: MULTIVARIATE FUNKTIONEN 74 Zufallsvektor: mehrere Zufallsvariablen Multivariate Verteilungsfkt: Multivariate Dichtefkt: Kovarianz: Zentrales multivariantes Moment zw und , wenn unabhängig beschreibt lineare Abhängigkeit zwischen Variablen Korrelationskoeff: BEDINGTE ZUFALLSVARIABLEN 76 Bedingte Dichtefunktion: Unabhängig wenn Bedingte Verteilungsfkt: SdtW: MARGINALE WAHRSCHEINLICHEKEITEN 79 Marginal: Randwahrscheinlichkeiten Diskret Dichte: Verteilung: Kontin. Dichte: Falls und unabhängig → Faltungsintegral: Diskret Dichte: Kontin. Dichte: Summe: Faltungsintegral LINEARKOMBINATION VON ZUFALLSVARIABLEN 76 Für gilt: FUNKTIONEN VON ZUFALLSVARIABLEN 82 für kumulative Verteilungsfunktionen von als Für monoton steigende und bijektive Funktion gilt: Falls monoton fallend → Vorzeichen ändert: Für Zufallsvektoren: gilt: ZUFALLSVARIABLEN ANWENDUNG 86 ZENTRALE GRENZWERTSATZ 90 Die Summe von Zufallsvariablen nähert sich einer Normalverteilung wenn Anzahl Summanden gross wird: Das Produkt von Zufallsvariablen nähert sich einer Lognormalverteilung: WARSCHEINLICHKEITSVERTEILUNGEN 88 Verteilung Parameter Gleichverteilung Normalverteilung Standartnormalverteilung Lognormalverteilung Produkt lognormalvert. unab. ZVar: ist lognormalverteilt Für nur-positive Werte, Ermüdungsdauer, Festigkeiten, Niederschlag, Unsichere Param Exponentialverteilung STOCHASTISCHE PROZESSE UND EXTREMWERTE 94 Realisation zu diskretem Zeiten → Zufallsreihe/Zufallssequenzen Realisation kontinuierlich über Zeit → Zufalls- Stochastischer Prozess BERNULLI-VERSUCHE (DISKRET) 95 Ausgang: Erfolg oder Versagen, WK, Erfolge bei Versuch. [binompdf] [ncr] [binomcdf] WARTEZEIT (DISKRET) 96 Anzahl Versuche bis 1. Erfolg, Dichtefkt. folgt geom. Verteilung WK für Erfolg nach Faire Gewinnchance: Wiederkehrperiode , interquartile Differenz, 50% der Daten

BAUG - FS 2011 STATISTIK & SATZ DER TOTALEN

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BAUG - FS 2011 STATISTIK & SATZ DER TOTALEN

Statistik und Wahrscheinlichkeitsrechnung Klausur Do 5. Mai 2011 - 8:00 HCI G3 ETHZ – BAUG - FS 2011

06. August 2011 S e i t e | 1 Christoph Hager

STATISTIK & WAHRSCHEINLICHKEIT © chager - Version 2.2 Dr. J. Köhler, ETHZ

A – ENTSCHEIDUNGSFINDUNG 1

NACH HALT IG KE IT 3

Bedürfnisse heutiger Generationen zu decken, ohne Erfüllung von Bedürfnissen folgender Generationen zu gefährden.

ANF ORD ER NG EN NUTZ E N FÜR G E SELLSC HAFT 4

Wirtschaftlich Rentabel durch Erfüllung eines Zwecks

Erfüllt Anforderungen bezüglich Sicherheit für Menschen

Beschränke schädliche Auswirkung für Umwelt

PHAS E N LEBE NS Z YK LUS 8

Betrachten aller Unsicherheiten in allen Phasen des Bauwerks

RIS IKO – ERW ART ET ER NU NTZ E N 9

Risiko = Produkt von Warsch. und pos./neg. Konsequenzen:

B - WAHRSCHEINLICHKEITSTHEORIE 13

FREQ U E NTIS CH E D EFI NI TI ON 15

Nur nach Experimenten:

KLASS IS CH E DE FINI TI O N ( 1654) 16

Ohne Experiment:

Nach Anzahl Ausgänge für A

bezüglich total gleich wahrscheinlicher möglicher Ereignisse.

BAYES ’S CH E DEFI NI TI O N 17

Grad persönlicher Überzeugung für a priori Ist subjektiv, aber umfasst freq. und klassische Überlegungen

UN SICH ERHE IT E N 64

Aleatorisch: Unsicherheit infolge natürlicher Variabilität Epistemisch: Unsicherheit infolge unvollständigen Wissens

ER EIGN ISR AUM – ME N GE NL EHRE NICHT F ÜR WK 18

Ereignisraum Leere Menge und vereinigt mit geschnitten mit oder

( unabhängig)

Disjunkt/unvereinbar:

Komplementär : Operationen folgen kommutativ, assoziativ und distributiv - Gesetzen

Desweiteren: ,

DIE DR E I AX IOME D ER WK -THE OR IE 20

1. für WK von 2. für Ereignisraum 3. für unvereinbare

BEDIN GTE W AR SCHE INL I CHK EIT 20

WK von wenn eingetreten ist.

Folgerung

wenn Ereignisse unabhängig sind.

SA TZ D ER TOT AL EN WA RSC HE I NLICHKE IT SDT W 21

falls Ereignisse unvereinbar

SA TZ V ON BA Y ES 22

TABE LLE NZ USAMM E NS TE L LUNG 24 2 4

A Priori „Realität“

Likelihood - Indikatoren A posteriori

0.65 0.71 0.28 0.01 0.50

0.24 0.18 0.61 0.21 0.40

0.11 0.02 0.32 0.66 0.10

C - BESCHREIBENDE STATISTIK 29

KE NNW ERT E UND P ARA ME TER EIN ER ST ICHP ROB E

Stichprobe: Mittelwert:

31

Modus: häufigster auftretende Wert oder Intervall

Median:

mittlerer (Zentral)Wert einer geordneten Datenreihe

Varianz:

Standardabweichung 34

Variationskoeffizient:

Normalisierte Variabilität

Schiefekoeffizient:

Mass für Asymmetrie 35

Rechtsschief: , Modus Mittelwert , Schwanz rechts

Kurtosis:

Mass für Spitzigkeit

Normalverteilung:

Kovarianz:

36

Korrelationskoeff:

, wenn Datenpaare perfekt linear steigend, 0 wenn unabhängig

→ Korrelation bedeutet nicht, dass kausaler Zusammenhang besteht

ZE NTRA LE S TICH PR OBE N M OEM T E 35

Zentral: Momente um Mittelwert

GRAF ISCH E D AR STELL UN G 37 - 5 4

Eindimensionales/Mehrdimensionales Streudiagramm

Histogramm: Unterteilung in Intervalle , Darstellung je nach Intervall, Bereich

Kumuliertes relatives Häufigkeitsdiagramm

Quantil-Plot: Gespiegeltes kum. rel. Häufigkeitsdiagramm

Quantil-Index

(aus sortierter Datenreihe)

Zwischenpunkte werden linear Interpoliert 0.25/0.75-Quantil: Unteres/Oberes Quartil, 0.5-Quantil: Median

Tukey Box Plot: Grafische Darstellung mehrerer Param. Ausreisser Werte mit Voyage 200: stats Oberer Nachbarschaftswert: Grösster Wert Oberes Quartil Median Unteres Quartil

Unterer Nachbarschaftswert: Kleinster Wert

Nachbarschaftswerte sind immer vorhandene Messwerte

Q-Q-Plot: Vergleich 2 Datenreihen über zuordnen via Qantile

Mittelwert-Differenz-Plot: Differenz über MW von und

D - MODELLIERUNG UNSICHERHEITEN 61 Zufallsvariable: , Realisation:

VE RTE ILU N GS- U ND D ICH TEF UNK T ION 67

Diskret Kontinuierlich Kum. Verteilungfunktion - - Fläche von bis

Dichtefunktion - Fläche unter Kurve

i-te Moment einer Zufallsvariable

- Mittelwert/Erwartungswert – 1. Moment

- Varianz – 2. zentrale Moment

Variationskoeffizient

Normalisierte Variabilität

ERWART U NGSW ER TOP ERAT OR 73

Gleichheit nur bei linearer Funktion

Umrechnung:

MULTIV AR IAT E FU NKT IO N EN 74

Zufallsvektor: mehrere Zufallsvariablen Multivariate Verteilungsfkt:

Multivariate Dichtefkt:

Kovarianz:

Zentrales multivariantes Moment zw und , wenn unabhängig beschreibt lineare Abhängigkeit zwischen Variablen

Korrelationskoeff:

BEDI NGT E Z UFA LLSVARIAB LE N 76

Bedingte Dichtefunktion:

Unabhängig wenn

Bedingte Verteilungsfkt:

SdtW:

MARGINA LE WA HRSC HEI NLIC H EK EI TE N 79

Marginal: Randwahrscheinlichkeiten Diskret Dichte:

Verteilung:

Kontin. Dichte:

Falls und unabhängig → Faltungsintegral: Diskret Dichte:

Kontin. Dichte:

Summe: Faltungsintegral

LI NEAR K OMBI NATI ON V O N ZUFA LLSVARIABLE N 76

Für gilt:

FU NK TI ONE N V ON Z UFAL LS VARIABLEN 82

für kumulative Verteilungsfunktionen von als Für monoton steigende und bijektive Funktion gilt:

Falls monoton fallend → Vorzeichen ändert:

Für Zufallsvektoren: gilt:

ZUFALL SVAR IABLE N A NWE NDU N G 86

ZE NTRA LE GRE NZW ERT SA T Z 90

Die Summe von Zufallsvariablen nähert sich einer Normalverteilung

wenn Anzahl Summanden gross wird:

Das Produkt von Zufallsvariablen nähert sich einer Lognormalverteilung:

WARSCH EI NLI CH K EITS VE R T EILU NG E N 88

Verteilung Parameter

Gleichverteilung

Normalverteilung

Standartnormalverteilung

Lognormalverteilung

Produkt lognormalvert. unab. ZVar:

ist lognormalverteilt

Für nur-positive Werte, Ermüdungsdauer, Festigkeiten, Niederschlag, Unsichere Param

Exponentialverteilung

ST OCHA ST ISCH E PRO ZE S SE U ND E XTRE MWER TE 94

Realisation zu diskretem Zeiten → Zufallsreihe/Zufallssequenzen

Realisation kontinuierlich über Zeit → Zufalls- Stochastischer Prozess

BERN ULLI -V ER SUCH E (D ISKR ET) 95

Ausgang: Erfolg oder Versagen, WK, Erfolge bei Versuch.

[binompdf]

[ncr]

[binomcdf]

WART EZ EIT (D ISKR ET) 96

Anzahl Versuche bis 1. Erfolg, Dichtefkt. folgt geom. Verteilung WK für Erfolg nach

Faire Gewinnchance:

Wiederkehrperiode ,

interquartile Differenz, 50% der Daten

Page 2: BAUG - FS 2011 STATISTIK & SATZ DER TOTALEN

Statistik und Wahrscheinlichkeitsrechnung Klausur Do 5. Mai 2011 - 8:00 HCI G3 ETHZ – BAUG - FS 2011

06. August 2011 S e i t e | 2 Christoph Hager

PO SSIO N-PR OZ E SS (D ISKR ET ) 98

Einfacher Poissonprozess (für Versagen, Erdbeben):

WK eines Ereignisses ist asymptotisch proportional zu

WK im Intervall dass mehr als 1 Ereignis stattfindet ist eine Funktion höherer Ordnung in für

Anzahl Ereignisse in disjunkten Intervallen sind unab. ZV

Definition durch Intensität:

(1 Ereignis in )

Poissonprozess homogen, falls konstant, sonst inhomogen Wahrscheinlichkeit genau Ereignisse im Zeitintervall ist:

Inhomogen:

Kein Ereignis ( =0)

Homogen:

Kein Ereignis ( =0)

Wartezeit bis erstes Ereignis folgt Exponentialverteilung

Inhomogene Verteilungsfkt:

Homogene Verteilungsfkt:

Dichtefunktion:

Summe von unab. Exp-Vert. Wartezeiten ist:

Gammaverteilt:

ZUFALL SPR OZ E SS (K O NT IN U IERL IC H) 99

Für Pegelstände, Geschwindigkeiten, Temperatur

Normal/Gauss-Prozess: Wenn normalverteilt ist.

für Dichtefkt von Autokorrelationsfkt: (eine Realisation des Prozesses zu und )

Auto-Kovarianzfkt:

Kovarianzfkt:

Kreuz-Kovarianz: bei Vektorwertigen Prozesses

Korrelationsfunktion:

STATI ONÄR – Z EITI NVARIA NT 10 2

Streng stationärer ZPs: alle Momente invariant über Schwach stationärer ZP: 1.+2. Moment invariant über

ERG OZI TÄT – RE PRES E NTATI VITÄ T 10 3

ZP ergodisch: Extrapolation für probabilistische Modelle

Streng ergodisch ZP: streng stationär und alle Momente können mit einer Realisation bestimmbar. Schwach ergodisch ZP: schwach stationär und 2 erste Momente mit einer Realisation bestimmbar.

EXTR EMW ERT E M IN /MA X 10 4 ,1 06

Für Erdbeben, Kälte, Niederschlag Hochwasser, Konzentration Verteilfkt von für Realisation

Verteilung in Periode :

Dichtefunktion:

→ Tiefer mögliche Werte fallen weg

EXTR EMW ERT V ERT E ILUN G EN 10 8 ,9 6

Verschiedene Typen von Extrembereichen der Dichtefunktionen

Typ I: Oberer Bereich fällt exponentiell ab.

Typ II: nach unten begrenzt, Abfall im oberen Bereich

Typ III: nach unten begrenzt bei , Abfall im unteren Bereich

Verteilung Parameter

Typ I – Gumbel max

,

Typ I – Gumbel min

Typ II – Fréchet max

Fällt oberem Ende ab:

: Verschiebung nach rechts

Typ III – Weibull min

Fällt unten ab:

WIEDER KEHR PE RIOD E 11 2

WK, dass während den Wert überschreitet

Wiederkehrperiode:

oder

E - PARAMETERSCHÄTZUNG 117 Zur Erstellung eines passenden probabilistischen Modells

MOD E LLERS T ELLU NG: 11 9

Beurteilung und statistische Erfassung von Daten

Wahl einer Verteilungsfunktion

Schätzung der Parameter

Testen des Modells

Aktualisierung der Parameters des Modells

WAHL W AHR SCH E INL ICHK E IT SV ER TE ILU NG 12 0

Über Hypothese, Schätzung und Verifikation

Betrachten von physikalischen Argumenten

Wahrscheinlichkeitspapier, Wiederspruch, Formel

WAHRSC HEI NLIC H KEI TSP A PIER 12 1

Darstellung kum. Verteilungsfunktion als Gerade → nichtlineare Skalierung der Y-Achse Vorgehen: Daten Ordnen, Quantil und

berechnen

Quantil:

Y-Achse:

→ Schätzung Parameter aufgrund Steigung und Lage zB. Steigung , y-Achsenabschnitt (Gültigkeit?)

PAR AM ETER SCH ÄTZ UN G 12 5

Durch Punkt- (MoM,MLM) oder Intervallschätzer Darstellung Funktionen: bedingt durch Parameter:

METH OD E D ER MOM E NT E – M OM 12 6

Idee: Momente von Stichprobe und Verteilung gleichsetzen

Momente Verteilungfunktion:

Momente Stichprobe:

Parameter können durch Optimierung gefunden werden. Bsp:

Oder zentrale Momente verwenden → → Parameter

MAX IM L IKEL IH OOD M ET H OD E – MLM 12 6

Idee: Suchen Parameter mit grösster Likelihood/am wahrsch.

Likelihood: Je grösser desto bessere Repräsentation durch , da grösste Dichte dort wo grösste Werte hat. Log-Likelihood: Mit PC: suchen (bessere Algorythmen)

Eigenschaft Likelihood-Methode: Ist Stichprobenumfang gross genug → Verteilung Parameterschätzer

etwa normalverteilt.

Erwartungswert nähert sich asymptotisch wahren Werten.

Epistemische und aleatorische Unsicherheiten werden berücksichtig.

Kovarianzmatrix Fischer-Informationsmatrix, Elemente sind Ableitungen der log-Likelihood im Maximum.

Aussage über Unsicherheit

Siehe s.127-130 im Skript

BAY E S‘ SCH E P AR AM ETE R SCHÄTZ U NG 13 2

Berücksichtigung von a priori (subjektiv/freq.) Informationen und neuen freq. Beobachtungen → a posteriori Modell

Gegeben: ZV mit Dichtefunktion → Parameter sind unsicher mit a priori Dichte:

Neu: Versuche → Satz von Bayes: → a posteriori Dichtefunktion für unsichere

Wir erhalten aktualisierte prädikative Dichtefunktion:

Gewichtung durch

Je mehr neue Werte desto weniger Einfluss hat Vorinformation Mit diversen natürlich konjugierten (gleiche Verteilungsfamilie) für a priori und a posteriori Dichtefunktionen möglich.

Siehe E.24-30 für Anwendung mit Normalverteilung im Skript

BAY E S’ SCH E R EGR E SSIO N SA N ALY SE – A PR IOR I 13 7

Beschreibung Zusammenhang zwischen zwei Datensätzen

Ein lineares Regressionsmodell wird beschrieben durch: : Regressionskoeff. : Residualwert, Fehler der Normalverteilung folgt, → Methode der kleinsten Quadrate zur Schätzung von Multiple Regression:

ANA LY TISC H 13 8

MdkQ:

GLS:

Unsicherheit Regressionsmodell als Normalverteilung:

: Anzahl

Gleiches Resultat mit MLM

MATRIZ E NSC HR EIBWEIS E 13 8

GLS:

für:

Unsicherheit von als Normalvertilung:

AKTU AL IS IERU NG R EGR E SSIO N A P O STER IOR I 14 1

Aktualisierung des Modells mit neuen Daten Gegeben: Daten vom a priori-Modell: und

Neu: Daten und Parameter des a posteriori-Modells:

Regressionsmodell Aktualisiertes Regressionsmodell

EN TSC HE IDU NG SF INDU NG IM ING EN IEURW E SEN 3

Page 3: BAUG - FS 2011 STATISTIK & SATZ DER TOTALEN

Statistik und Wahrscheinlichkeitsrechnung Klausur Do 5. Mai 2011 - 8:00 HCI G3 ETHZ – BAUG - FS 2011

06. August 2011 S e i t e | 3 Christoph Hager

ABSCHÄTZ UN G UND M ODE LL ER ST ELLU NG 12 0

Vorgehen bei Erstellung eines Ingenieurmodells:

PARAME T ERSC HÄT ZU NG F ÜR S TIC HPR OB EN 14 9

Solange Experimente noch nicht realisiert sind werden die Statistische Parameter ( der fiktiven Stichprobe als Zufallsvariablen betrachtet die wiederum einer Verteilung folgen.

Stichprobenmittelwert

→ z. GWS: Dichtefunktion von wird als Normalverteilt angenommen

→ je mehr desto schmaler wird Dichtefunktion (Faktor )

Stichprobenvarianz Nicht erwartUngstreu / biased:

ErwartungsTreu / unbiased:

→ Der nicht erwartungsTreue Schätzer ist effizienter als der erwartungsTreue. → Schätzer können noch mit andern Kriterien bewertet werden: Invarianz, Konsistenz, Suffizienz, Robustheit. → Schätzer die mit MLM bestimmt werden sind ok.

KO NFID E NZ IN TER V ALLE 15 2

→ Intervall, in welcher sich mit best. WS der Parameter befindet.

Das Konfidenzintervall ( Signifikanzniveau) eines geschätzten Parameters ist das Intervall, in welchem der wahre Parameter mit der Wahrscheinlichkeit liegt.

Konfidenzintervalle werden meist für Mittelwert, Varianz und charakteristische Werte (Fraktilwerte) betrachtet

Konfidenzintervall repräsentiert / beschreibt die statistische Unsicherheit, welche durch zu wenig Daten entsteht

Werden auch als Vertrauensintervall bezeichnet.

Je mehr Daten desto kleiner wird Konfidenzintervall

KONFID E NZI NT ERVA LL F ÜR D E N MI TT E LW ERT 15 2

Mittelwert unsicher, Varianz bekannt (unbekannt→ s unbiased) Die standartnormalverteile ZV für den Mittelwert ist:

(aus wahrem MW und Stabw

)

Das zweiseitige und sym. Konfidenzintervall des MW ist:

Annahme MW normalverteilt:

solve(tistat.normcdf(- ,x)=0.90,x)

Werte einsetzen:

( Zahl) Das Konfidenzintervall lässt sich nun für oder betrachten. Bsp. Lösung Konfidenzintervall für :

S IG N IF IKA NZT E ST M ITT EL S H YP OT HE SE NT E ST S 15 5

Problemstellung: Prüfen der statistischen Signifikanz. zB: Kann man aufgrund einer Beob. entscheiden, ob der Stichproben-mittelwert signifikant vom angenommenen Mittelwert abweicht?

Lösungsansatz: Verwendung von genormten Hypothesentests

VORG E HE N 15 5

1. Formulierung Null-Hypothese : Stichprobenstatistik soll bestimmen Werten genügen Formulierung Alternativhypothese : Stichprobenstatistik erfüllt Null-Hypothese nicht.

2. Formulierung einer operativen Regel, wonach mit Tests die Null-Hypothese angenommen oder abgelehnt werden kann. zB. Mittels Konfidenzintervallen

3. Wahl eines Signifikanzniveaus . ist die immer WK, das abgelehnt wird obwohl sie zutrifft (Fehler 1. Art). Dies beeinflusst auch die WK dass akzeptiert wird, obwohl sie nicht zutrifft (Fehler 2. Art)

Entscheidung trifft wirklich zu trifft wirklich zu

Akzeptiere Richtiges Urteil Fehler 2. Art

Akzeptiere Fehler 1. Art Richtiges Urteil

Die Konsequenten dieser Fehler müssen berücksichtigt werden. Je grösser desto konservativer ist der Test

4. Berechnung der Akzeptanzkriterien. zB das Konfidenzintervall aufgrund von . Bei Bedarf kann auch die WK des Fehlers 2. Art berechnet werden.

5. Durchführen des Versuches oder Tests und Überprüfen welche Hypothese angenommen werden kann

6. Rückschluss auf Signifikanzniveau Die Null-Hypothese wird mit WK von abgelehnt. In diesem Fall wird nicht von den Ergebnissen der Stichprobe gestützt.

ANW E ND UNG 15 8

Testen des Mittelwertes – mit bekannter Varianz

Testen des Mittelwertes – mit bekannter Varianz

Testen der Varianz

Testen zweier oder mehrerer Datensätze

Bemerkungen

Verwendbar für eine Vielzahl unterschiedlicher Probleme

Die Aussagen der Tests sollte man nicht überschätzen

Herangehensweise, Formulierung und Signifikanzniveau haben direkten Einfluss auf Wahrscheinlichkeiten

Formulierung der Hypothese möglichst als Entscheidungsproblem behandeln

→ Math. Formelsammlung, Papula s445+

MOD ELLE V ALUA TIO N 16 0

Überprüfung der Verteilung und Parameter durch stat. Tests

CHI - QUADRA T- TE ST (DISKR E T) 16 0 - 1 64

Anwendung: - Diskrete Verteilungen - Diskretisierte kontinuierliche Verteilungen Idee: Differenzen zwischen erwarteten (postulierten) und

beobachteten Datenverteilung sollten klein sein, wenn gewählte Verteilung die Stichprobe gut beschreiben kann.

Notation: : Anzahl Beobachtungen einer diskreten Zufallsvariable .

: Postulierte Häufigkeiten an Beobachtungen von

: Beobachtete Häufigkeiten an Beobachtungen von

: Differenzen zwischen und

Kennwerte: poissonverteilte ZF

Vorgehen:

1. , Verteilung, Parameter und Daten zusammenstellen 2. Aufteilen der Daten in Intervalle (diskretisieren falls nötig)

mindestens 3-5 Beob. pro Intervall, ansonst zusammenfassen 3. Mittelwert und Standartabweichung eruieren

4. Tabelle erstellen und Werte zusammentragen:

Intervall

Beob. Häufigkeit

Vorausg. Wahrscheinlichkeit

Post. Häufigkeit

Fläche unter Verteilungsfunktion im Intervall

im Intervall

→ Voyage: tistat.normcdf(a,b, )

(nicht erwartungstreu)

Wenn gross → folgt Standartnormalverteilung

5. Testen auf Signifikanzniveau:

ist der -Fraktilwert der -Verteilung mit Freiheitsgraden Anzahl Klassen (Intervalle) : Da letzes Intervall von anderen abhängig ist Anzahl geschätzte Parameter der zu testenden Daten → siehe Tabelle s246:

6. Wenn kleiner als ist kann Null-Hypothese nicht

verworfen werden.

Bemerkungen:

Testresultat hängt direkt mit Anzahl Klassen (Intervallen) zusammen

Test ist relativ unkritisch, Hypothese schwierig zu verwerfen

-Verteilung: Siehe s146

KOLM OG OR OV-S MIRNOV ( KONTI NUIER LIC H) 16 5

Anwendung: - kontinuierliche Verteilungen - Verteilung und Parameter werden postuliert Idee: Die grösste Differenz zwischen erwarteten (postulierten) und beobachteten Datenverteilung soll möglichst klein sein. Vorgehen:

1. , Verteilung, Parameter und Daten zusammenstellen 2. Tabelle erstellen:

01

: Index : Beobachtung von : Kumulierte Verteilungsfkt der Beobachtung

Verteilfktswert mit und post. Param berechnen

: Differenz zwischen postulierter und

beobachteter kumulierter Verteilungsfunktion

3. Suche grösste Differenz:

4. Testen auf Signifikanzniveau:

→ siehe Tabelle s247 Kritischen Wert mit und ablesen

5. Wenn kleiner als ist kann Null-Hypothese nicht verworfen werden.

Bemerkungen:

Sehr unkritisch, Hypothese sehr schwierig zu verwerfen. für //

Signifikanzniveau = Irrtumswahrscheinlichkeit

MOD E LLV ERGLEIC H 16 7

Ein Signifikanztest kann folgendes zeigen:

Eine Hypothese muss verworfen werden Gewähltes Modell muss nicht zwingend schlecht sein, es kann auch sein, dass der Beweis nicht stark genug ist um Signifikanz zu zeigen, zB bei zu wenig Daten.

Eine Hypothese wird akzeptiert Hier können die Modelle verglichen werden:

Dazu werden die Likelihoods verglichen (je grösser desto besser)

Stichprobenlikelihoods: MLM, s167/ s126 oder

Likelihoods zwischen Werten der Dichtefunktion E52,76/E79

→ Testresultate können nicht verglichen werden

Page 4: BAUG - FS 2011 STATISTIK & SATZ DER TOTALEN

Statistik und Wahrscheinlichkeitsrechnung Klausur Do 5. Mai 2011 - 8:00 HCI G3 ETHZ – BAUG - FS 2011

06. August 2011 S e i t e | 4 Christoph Hager

F - STRUKTURELLE ZUVERLÄSSIGKEIT 173

LEBE N SZY KLU S

Konzept→Planung/Mahbarkeitsstudie→Untersuchungen→Bemessung→Fertigung→Ausführung→Betrieb/Unterhalt→Rückbau

ZUV ERL ÄSSIG KE IT SAN AL Y SE 17 5

In der Zuverlässigkeitsanalyse von techn. Systemen besteht das Hauptproblem darin die WK des Versagens zu bestimmen. Die Wahrscheinlichkeit für Versagen besteht aus Belastungskomponenten und Wiederstandskomponenten . Diese Ungleichung lässt sich zur Grenzzustandsfunktion umstellen, so das Versagen bei 0 eintritt: ist nun eine Zufallsvariable, als Funktion von anderen ZV wird auch als Sicherheitsmarge bezeichnet Zuverlässigkeit:

FORM 17 7

Lineare Grenzzustandsfunktion, normalverteilte Variablen → ist ebenfalls Normalverteilt → Berechnung der Parameter von (siehe auch linearkombi s76)

Varianz nur Plusrechnen → Die Versagenswarscheinlichkeit lässt sich wie folg berechnen:

ist der Zuverlässigkeitsindex (versch. Definitionen!)

→ Durch wird das Ganze standartnormalverteilt. ist der kürzeste Abstand von zur Funktion

Nichtlineare Grenzzustandsfunktion, normalverteilte Variablen → → Es ist nun einfacher die einzelnen Variablen zu normalisieren:

→ Diese werden nun in eingesetzt → → ist wiederum der Kürzeste „Abstand“. 2D: Gleichung nach einem Parameter umformen: Abstandsfunktion ableiten:

3D: Hässliches Iterationsverfahren → s184 // Lagrange

solve( ) oder nach Script: 1. Beliebiger Linearisierungspunkt wird gewählt 2. Neuen Einheitsvektor berechnen:

Oder mit vereinfachter Formel, für Normalisierung

3. nun in Gleichung einsetzen und berechnen mit Der neue Linearisierungspunkt 4. Wiederhole Schritte 2-4 bis Konvergenz eintritt →

MONTE CAR LO S IM U LATI O N 18 6

Problem: Versagens-Wahrscheinlichkeit

kann nicht berechnet werden. Idee: Simulation der Realisationen der ZV und Versagen zählen.

Vorgehen von Hand:

1. Realisationen des Vektors werden erzeugt Um Variablen der richtigen Verteilungsfunktion zu erhalten, werden zuerst Gleichverteilte Pseudozufallszahlen generiert. wird nun mit der Umkehrfkt berechnet:

2. Für jede Realisation wird die Grenzzustandsfkt berechnet 3. Die Anzahl Realisationen welche sind werden gezählt

4. Versagenswahrscheinlichkeit wird geschätzt mit

FEHLE RFORT PFLA NZ U N G 17 9

Analog FORM/Linearkombination von Zufallsvariablen (s76)

Fehler Idee ist die Funktion mit Taylorentwicklung 1. Ordnung zu approximieren:

ist der Punkt um den linearisiert wird, meist wird verwendet

ANW E ND UNG 18 0

Man kann den Fehler als normale Funktion mit mehreren ZV mit und betrachten und so berechnen wie sich und verhalten. sind die Mittelwerte

Beispiel Pythagoras:

Gesucht ist Verhalten , und bekannt

G - ENTSCHEIDUNGSANALYSE 193

EN TSC HE IDU NG ST HE OR IE 19 5

PROB LEM

Entscheidungsfindung: Mehrere Lösungen sind denkbar, Infos sind rar und es muss eine Entscheidung getroffen werden.

VORG E HE N F O L I EN V1 3

1. Formulierung des Entscheidungsproblems

Ident. des Entscheidungsträger und seinen Präferenzen

Darstellen Entscheidungsprozess

Ident. aller möglichen Entscheidungsalternativen

Ident. der Unsicherheiten 2. Identifizierung von Konsequenzen und ihres Nutzens 3. Beurteilung der Eintrittswahrscheinlichkeiten 4. Vergleich der unterschiedlichen Entscheidungsalternativen

basierend auf dem Erwartungswert ihres Nutzens 5. Entscheidung und Dokumentation der Annahmen, auf

welchen die gewählte Alternative beruht

EN TSC HE IDU NG SMAU M 19 6

Entscheidungen können mit einem Baum dargestellt werden: Grundlegender Aufbau:

Bemerkungen:

Bei Entscheidungen wählt man günstigste Möglichkeit

Nutzen von Betrachter abhängig

Alle Kosten müssen einbezogen werden

Konsequenzen sind häufig lineare Funktionen in Form von sFr

NUT Z EN, K OS T E N U ND E RTRAG

Nutzen ist definiert als Summe von Kosten und Ertrag:

Nutzen (Kosten und Ertrag) der aus der Handlungsalternativen entsteht

Erwartungswert des Nutzens der Konsequenz

: Eintrittswahrscheinlichkeit des Konsequenz

: Potentielle Konsequenz von Handlungsalt.

Testresultate Eigentliche Wahrscheinlichkeiten

A-PR IOR I AN ALY SE 19 9

→ Bei gegebener IST-Information

A-Priori WK

Nutzen:

Wähle:

A-P O STER IOR I A NAL YSE 20 1

→ Bei neuer Information nach Test, Aktualisierung

A-Posteriori WK

sind Indikatoren, → siehe Seite 1, Satz von Bayes → Weiter wie A-Priori, nur mit neuen Wahrscheinlichkeiten

PRE- PO ST ER IO RI A N ALY SE 20 4

→ Bei mehreren möglichen Zusatzuntersuchungen Man kann nun noch verschiedene Tests durchführen um Wissen zu verbessern. Welche Option hat beste Kosteneffizienz?

Vorgehen: Lösen von rechts nach links

1. Ermitteln der Wahrscheinlichkeiten Vorgehen nach A-Priori oder A Posteriori, wenn neue Daten oder Tests möglich sind

2. Ermitteln des erwarteten Nutzens pro Ereignis →Nutzen in Kasten zu Ereignis schreiben

3. Welche Entscheidung würde man treffen Günstigste, bessere wählen → Nutzen übertragen in Kasten (+ evtl. Fixkosten)

4. Wie wahrscheinlich sind die Testergebnisse zB. mit Satz der totalen WK:

5. Erwarteter Nutzen je Untersuchung Wie A-Priori ausrechnen → Nutzen in Kasten eintragen

6. Entscheidung für eine Untersuchung Günstigste, bessere wählen

Zu Beachten:

Keine Kosten vergessen wie Fixbeträge bei Entscheidungen

Vorsichtig mit WK, sind Abhängig vom Aufbau

WK müssen unabhängig sein und als Summe 1 Ergeben

Konsequenzen können sein, vorher definieren

Manchmal besser logisch Überlegen als Formeln folgen

Zuerst SdtW ausrechnen, dann Satz von Bayes

E NTS CH EID U NG MI T R IS I K OBE HA NDLU NG 20 5

Interessant ist nun das Risiko → Seite 1, ganz oben A-Priori -Analyse:

: Nutzen, -te Verzweigungs-WK, : Konsequenz A-Posteriori-Analyse: Ähnlich, nur Berücksichtigung von Massnahmen. u.a. auch Massnahmen die bereits Ausgeführt wurden Pre-Posteriori-Analyse: Es sind keine Entscheidungsregeln für künftige Handlungen nötig. Optimale Untersuchung hier ist:

QUELLEN Vorlesungsunterlagen Statistik Dr. J. Köhler

Wikipedia-Artikel zu diversen Themen

ERGÄNZUNGEN GammaVerteilung? → gamma(x) Chi-Quadrat-Verteilung? Voyage 200 Tipps Übungen, Beispielaufgaben Notieren von Was wo BSp im Buch, Folien, Klausuren Formelsammlung Papula mitnehmen