Upload
ngocong
View
219
Download
0
Embed Size (px)
Citation preview
1. Wykład wstępny
2. Teoria prawdopodobieństwa i elementy kombinatoryki
3. Zmienne losowe
4. Populacje i próby danych
5. Testowanie hipotez i estymacja parametrów
6. Test t
7. Test 2
8. Test F
9. Testy nieparametryczne
10. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
11.Korelacja
12. Regresja liniowa i nieliniowa
13. Określenie jakości dopasowania równania regresji liniowej i nieliniowej
14. Analiza wariancji
15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
STATYSTYKA MATEMATYCZNA
WSTĘP
Regresja liniowa
1. Równanie regresji liniowej
2. Estymacja współczynników prostej regresji
3. Przykłady równań regresji
Regresja nieliniowa
4. Dane pochodzące z rozkładu dwumianowego
5. Transformacje danych dwumianowych
6. Równanie regresji logistycznej
Copyright ©2010, Joanna Szyda
RÓWNANIE REGRESJI
PRÓBA DANYCH
MASA
CIAŁA
ZAW.
TŁUSZCZU
89 28
88 27
66 24
59 23
93 29
73 25
82 29
77 25
100 30
67 23
Copyright ©2015, Joanna Szyda
1. Regresja liniowa = wyznaczenie
prostej, która pozwala na predykcję
wartości zmiennej Y na podstawie
znajomości zmiennej X
2. Zmienna niezależna (X)
• Dokładnie znane wartości /
wartości eksperymentalne
3. Zmienna zależna (Y)
• Zakładamy błąd pomiarowy
Copyright ©2010, Joanna Szyda
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
RÓWNANIE REGRESJI
Copyright ©2010, Joanna Szyda
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
gradient
błąd
wyraz wolny
RÓWNANIE REGRESJI
RÓWNANIE REGRESJI
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
wyraz wolny
Copyright ©2014, Joanna Szyda
xi-xi-1
yi-yi-1
Copyright ©2010, Joanna Szyda
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
RÓWNANIE REGRESJI
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
Wartość zaobserwowana (y)
Wartość przewidziana (ŷ)
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI ?
xy 10
TAK ABY ODLEGŁOŚCI OBSERWACJI OD PROSTEJ BYŁY
JAK NAJMNIEJSZE - metoda najmniejszych kwadratów
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
masa ciała
za
w.
tłu
szc
zu
( )2 → minimum
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
minˆ1
2
10
1
2
N
i
ii
N
i
ii xyyy
00
1
1
2
10
0
1
2
10
N
i
ii
N
i
ii xy
i
xy
02021
10
1
10
N
i
iii
N
i
ii xyxixy
Copyright ©2010, Joanna Szyda
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW
xy 10
JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI
JEŻELI y MIERZONE SĄ ZE ZRÓŻNICOWANĄ
DOKŁADNOŚCIĄ
?
WAŻENIE OBSERWACJI
Copyright ©2010, Joanna Szyda
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW
N
i
ii
N
i
iii
xxw
yyxxw
1
2
1
xy 1
WAŻENIE OBSERWACJI
xy 10
00
1
1
2
10
0
1
2
10
N
i
iii
N
i
iii xyw
i
xyw
Copyright ©2010, Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
WIELOMIANY
xy 10
wielomian
1go stopnia
wielomian
2go stopnia
wielomian
3go stopnia
2
210 xxy 3
3
2
210 xxxy
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
zaw
. tł
uszczu
masa ciała
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
zaw
. tł
uszczu
masa ciała
22
23
24
25
26
27
28
29
30
50 60 70 80 90 100
zaw
. tł
uszczu
masa ciała
Copyright ©2010, Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
REGRESJA LOGARYTMICZNA
xy ln10
22
23
24
25
26
27
28
29
30
50 55 60 65 70 75 80 85 90 95 100
zaw
. tł
uszczu
masa ciała
Copyright ©2011 Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
REGRESJA WIELOKROTNA
MASA
CIAŁA WZROST
ZAW.
TŁUSZCZU
89 154 28
88 176 27
66 166 24
59 189 23
93 199 29
73 160 25
82 178 29
77 158 25
100 173 30
67 169 23
wzwzztztmc xxy 0
0
20
40
60
80
100
120
140
160
180
200
154176166 189 199 160 178 158173
169
Copyright ©2010, Joanna Szyda
DANE
PRÓBA DANYCH 1.
nacisk ilość
całkow.
ilość
uszkod.
2500 50 10
2700 70 17
...
4300 65 51
1. Badanie wytrzymałości złącz w samolotach
2. Zastosowano różne siły nacisku
Copyright ©2012 Joanna Szyda
DANE
PRÓBA DANYCH 1.
0.0
0.2
0.4
0.6
0.8
1.0
2500 2700 2900 3100 3300 3500 3700 3900 4100 4300
pra
wd
op
od
ob
ień
stw
o u
szko
dzen
ia
siła nacisku
Copyright ©2010, Joanna Szyda
DANE
PRÓBA DANYCH 2. chore zdrowe
gr. badawcza 21 2
gr. kontrolna 19 13
1. Grupa badawcza - pomieszczenie wypełniane dymem
papierosowym co godz. przez 12 godz. dziennie
2. Grupa kontrolna - identyczne pomieszczenie bez dymu
3. Sekcja osobników po 1 roku badań - nowotwór płuc
Copyright ©2010, Joanna Szyda
DANE
PRÓBA DANYCH 2.
1. Dane nie pochodzą z rozkładu normalnego
2. Dane pochodzą z rozkładu dwumianowego
3. Y { chory, zdrowy }
4. Prawdopodobieństwo zachorowania
choroba
[y]
grupa
[x]
1 0=b.
1 0
0 0
... ...
1 1=k.
1 1
0 1
Copyright ©2012, Joanna Szyda
TRANSFORMACJA DANYCH
prawdopodobieństwo 0 1
funkcja
prawdopodobieństwa - +
transformacja
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
1. Transformacja logistyczna
- 2.50
- 2.00
- 1.50
- 1.00
- 0.50
0.00
0.50
1.00
1.50
2.00
2.50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
tran
sfo
rmacja
prawdopodobieństwo (p)
p
pp
1lnlogit
p→0 logit(p)→-
p→1 logit(p)→+
p=0.5 logit(p)=0
Copyright ©2012, Joanna Szyda
TRANSFORMACJA DANYCH
1. Transformacja logistyczna
prawdopodobieństwo logit(prawdopodobieństwa)
0.0001 ?
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
0.95
0.9999
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
1. Transformacja logistyczna
p
pp
1lnlogit
zależność nieliniowa
zależność liniowa
- 2.50
- 2.00
- 1.50
- 1.00
- 0.50
0.00
0.50
1.00
1.50
2.00
2.50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
tran
sfo
rmacja
prawdopodobieństwo (p)
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
2. Transformacja probit
pp 1probit
- 3.0
- 2.5
- 2.0
- 1.5
- 1.0
- 0.5
0.0
0.5
1.0
1.5
2.0
2.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
tran
sfo
rmacja
prawdopodobieństwo
probit
logit
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
3. Transformacja log-log
pp 1loglogloglog
- 3.00
- 2.50
- 2.00
- 1.50
- 1.00
- 0.50
0.00
0.50
1.00
1.50
2.00
2.50
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
tran
sfo
rmacja
prawdopodobieństwo
log-log logit
Copyright ©2010, Joanna Szyda
1. Transformacja logit - najczęściej stosowana
2. Transformacja probit - podobna do logit ale
trudniejsza do obliczenia
3. Transformacja log-log - stosowana jeżeli
modelowanie danych wymaga niesymetryczności
względem p=0.5
TRANSFORMACJA DANYCH
Copyright ©2010, Joanna Szyda
ESTYMACJA PARAMETRÓW
Iteracyjna metoda ważonych najmniejszych kwadratów:
Fisher's method of scoring
jj
i
j
N
i
i
j
N
i
jj
ii
j
jj
iii
i
i
ppnw
xxw
yyxxw
1
1
2
11
Copyright ©2014 Joanna Szyda
RÓWNANIE REGRESJI LOGISTYCZNEJ
e podstawa logarytmu naturalnego ≈ 2.718
Copyright ©2014, Joanna Szyda
TRANSFORMACJA DANYCH
Transformacja logistyczna
X beta0 prawdopodobieństwo
-3.0000 ?
-2.00 beta1
-1.00 ?
0.00
1.20
2.40
Copyright ©2014 Joanna Szyda
RÓWNANIE REGRESJI LOGISTYCZNEJ
e podstawa logarytmu naturalnego ≈ 2.718
Copyright ©2014, Joanna Szyda
TRANSFORMACJA DANYCH
Transformacja logistyczna
logit(prawdopodobieństwa) prawdopodobieństwo
-9.2102
-2.94
-2.20
-1.73
-1.39
-1.10
-0.85
-0.62
-0.41
-0.20
0.00
0.20
0.41
0.62
0.85
1.08
1.39
1.73
2.20
2.94
9.2102
Copyright ©2012 Joanna Szyda
PRZYKŁAD
PRÓBA DANYCH 1.
- 1.5
- 1.0
- 0.5
0.0
0.5
1.0
1.5
2500 2700 2900 3100 3300 3500 3700 3900 4100 4300
log
it (
p)
nacisk
1. Równanie regresji
xp
p001548.0340.5
1lnplogit
Copyright ©2012, Joanna Szyda
PRÓBA DANYCH 1.
0.0
0.2
0.4
0.6
0.8
1.0
2500 2700 2900 3100 3300 3500 3700 3900 4100 4300
p
nacisk
2. Np. prawdopodobieństwo uszkodzenia dla nacisku 5000:
917.05000001548.0340.5exp1
5000001548.0340.5exp
p
1. Prawdopodobieństwo uszkodzenia wzrasta wraz z naciskiem
PRZYKŁAD
xp
p001548.0340.5
1lnplogit
Copyright ©2010, Joanna Szyda
PRÓBA DANYCH 2.
1. Równanie regresji
choroba
[y]
grupa
[x]
1 0=b.
1 0
0 0
... ...
1 1=k.
1 1
0 1
xp
p972.1351.2
1lnplogit
3. Prawdopodobieństwo zachorowania w
grupie badawczej:
913.00972.1351.2exp1
0972.1351.2exp
bp
2. Prawdopodobieństwo zachorowania jest
mniejsze w g. kontrolnej
4. Prawdopodobieństwo zachorowania w
grupie kontrolnej:
594.01972.1351.2exp1
1972.1351.2exp
kp
PRZYKŁAD
Copyright ©2010, Joanna Szyda
INTERPRETACJA RÓWNAŃ REGRESJI
temp21.036.8interval
1. Wraz ze wzrostem temperatury czas pomiędzy odgłosami
skraca się
2. Wzrost temperatury o 1°C powoduje skrócenie odstępu o
0.21 s.
3. W temperaturze 10°C osobniki wydają dogłosy średnio co
6.26 s. : 26.61021.036.8interval
Copyright ©2010, Joanna Szyda
INTERPRETACJA RÓWNAŃ REGRESJI
1. Model:
2. Partnerzy, którzy w 2003 r. mieli średnio 40 lat oraz, u
których mąż jest starszy o 15 mają średnio 2.42 dzieci:
3. Partnerzy, którzy w 2003 r. mieli średnio 25 lat oraz, u
których mąż jest starszy o 4 mają średnio 2.66 dzieci:
2r_w002.0r_w03.0wiek01.082.2n_dzieci
42.215002.01503.04001.082.2n_dzieci 2
66.24002.0403.02501.082.2n_dzieci 2
Copyright ©2011 Joanna Szyda
REGRESJA
LINIOWA
xy 10 ( )2 → minimum
22
24
26
28
30
50 70 90
za
w. …
masa ciała