Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
STATISTIKA
ANALIZA VARINCE
16.3.2011
Doc.dr. Tadeja Kraner Šumenjak
2
ANALIZA VARIANCE
Proučuje, kako ena ali več neodvisnih
spremenljivk (faktorjev) vpliva na slučajno
odvisno spremenljivko Y, ki meri izid poskusa.
Odgovori na vprašanje: Ali so odstopanja zaradi
vpliva različnih faktorjev ali pa so slučajna?
Variabilnost izida poskusa povzročajo
Proučevani dejavniki
Kontrolirani moteči dejavniki
Nekontrolirani moteči dejavniki. Ta del
variabilnosti ostane nepojasnjen. Imenujemo ga
OSTANEK ali EKSPERIMENTALNA NAPAKA
Primer
V vsaki skupini živali so potomci drugega očeta.
Zanimajo nas dnevni prirastki mas v posameznih
skupinah v določenem starostnem obdobju. Če potomci
določenega očeta hitreje pridobivajo na masi, so
primernejši za vzrejo. Pri meritvah smo dobili dnevne
prirastke mas (v gramih), ki so prikazani v preglednici:
Ponovitev 1. skupina 2. skupina 3. skupina 4. skupina
1 892 849 795 925
2 871 885 872 908
3 812 910 817 917
4 923 795 903 1000
5 869 932 841 881
6 894 898
7 937
Skupaj 4367 6202 4228 5529
Povprečje skupine 873,5 886,0 845,6 921,5
Če glede na velikost aritmetičnih sredin,
sklepamo, da biki četrte skupine najhitreje
pridobivajo na masi, lahko pridemo do napačnih
zaključkov.
Poleg genetskih lastnosti namreč na pridobivanje
mase vplivajo tudi drugi dejavniki kot so prebolele
bolezni, vplivi okolja in drugi. Zato moramo za
primerjavo aritmetičnih sredin uporabiti metodo,
ki bo izločila slučajne vplive.
Pri analizi variance skušamo sprejeti eno izmed
hipotez:
H1: najmanj dve aritmetični sredini nista enaki.
H0: M1 = M2 = M3 = … = Mk
Rešitev
K=2 naredimo t-test za neodvisne vzorce
K=3 tri parne primerjave (pogojno)H0: M1 = M2H0: M1 = M3H0: M2 = M3
K>3 ne smemo narediti vse parne primerjave, ker so medsebojno odvisne. To bi imelo za posledico, da bi zavrnili več H0, kot bi jih smeli pri predpisani vrednosti α.
K≥3 ANOVA
OPOMBA: pri K=2 tudi lahko uporabljamo ANOVO, vendar je t-
preizkus enostavnejši
•Y naj bo slučajna spremenljivka, ki meri izid poskusa.
•Yi naj opisuje izid pri i-tem obravnavanju (obravnavanja so
lahko različne sorte, gostote setve)
•Yi~N(Mi,σ)
•Za analizo variance mora biti izpolnjena predpostavka o
homogenosti varianc, torej standardni odklon populacije je za
vsa obravnavanja enak (LEVENOV TEST).
•Zagotovljena mora biti medsebojna neodvisnost obravnavanj.
•Mi si bomo ogledali le primer, ko je število ponovitev pri vseh
obravnavanjih enako.
ENOSMERNA ANALIZA VARIANCE
(SLUČAJNE SKUPINE)
k
i
n
j
iij
k
i
i
k
i
n
j
ij xxxxnxxQ1 1
22
1
0
1 1
200
)()()(
Skupna vsota kvadratov
Merjena z vsoto kvadratov
odklonov opazovanih
vrednosti od aritmetične
sredine
Vsota kvadratov
pojasnjena z
obravnavanji
(Zaradi razlik med
obravnavanji)
Nepojasnjena
variabilnost
Ostanek,
napaka
0 0 je število skupin je število ponovitev n=kk n n
Različni viri variiranjai
skupno povprečje
x povprečje za i-to skupino
x
Q = Qn+Qg
2
1 1
01
k
i
n
j
ijxn
C
k
i
n
j
ij
k
i
n
j
k
i
n
j
ijij
k
i
n
j
ij Cxxn
xxxQ1 1
2
2
1 1 1 1
2
1 1
200 00 1
)(
Cxn
xxnQk
i
k
i
n
j
ijig
2
1 1 10
2
0
01)(
Vpeljimo parameter C, ki je definiran kot:
Nato izračunamo skupno vsoto kvadratov odstopanj od
skupne aritmetične sredine. Ta je:
Vsota kvadratov odstopanj aritmetičnih sredin
skupin od skupne aritmetične sredine pa je:
Vir variabilnosti
Vsota
kvadrato
v
Število
prostostnih
stopenj
Srednji
kvadriran
odklon
F
Fkritični
OBRAVNAVANJE
(med obravnavanji)
Qg
k - 1
2
gs 2
2
n
g
s
s
tabelirana
vrednost
NAPAKA
(znotraj
obravnavanj)
Qn
n - k
2
ns
Skupaj
Q
n - 1
Povprečje vsote kvadratov dobimo:
kn
Qs
k
Qs
nn
g
g
2
2
1
Izkaže se, da je v primeru, ko je ničelna hipoteza
pravilna kvocient
2
2
n
g
s
sF
je porazdeljen po Fisherjevi F(k1, Nk) porazdelitvi.
Ničelno hipotezo, ki pravi, da so aritmetične sredine
posameznih skupin enake lahko zavrnemo, če je gornji
izraz večji od tabelirane vrednosti F - porazdelitve pri
izbrani stopnji tveganja. Rečemo, da so razlike
statistično značilne.
Zap.
številka
1.
pasma
2.
pasma
3.
pasma
1 36,6 31,0 35,9
2 36,1 27,0 33,6
3 36,1 26,8 36,4
4 38,3 31,3 35,8
5 36,6 29,0 35,2
6 39,2 30,5 29,2
Pri merjenju debeline hrbtnega sala treh pasem svinj
smo dobili naslednje rezultate (v mm)
Ali je debelina sala odvisna od pasme?
Ponovitev Sorta A Sorta
B
Sorta
C
Sorta
D
1 33 27 37 11
2 25 43 17 48
3 20 36 28 14
4 19 20 40 23
5 42 22 26 36
V poljedelskem poskusu smo preverjali štiri
sorte krompirja in ugotavljali višino pridelka (v
tonah)
Ali je pridelek krompirja glede na posamezne
sorte statistično različen?
Sum of
Squares df
Mean
Square F Sig.
Between
Groups191,654 2 95,827 22,181 ,000
Within
Groups64,803 15 4,320
Total 256,458 17
Sum of
Squares df Mean Square F Sig.
Between Groups 36,150 3 12,050 ,094 ,962
Within Groups 2050,400 16 128,150
Total 2086,550 19
17
Primer
18
Primer 2
19
R.MEAD-NASVET
Potrebno število enot n v poskusu:
10 20df
df za ostanek
(napaka)
Več kot 20 ni potrebno,
10 je premalo.
PREIZKUSI MNOGOTERIH
PRIMERJAV
Med povprečnimi vrednostmi obstajajo statistično
značilne razlike. ANALIZO VARIANCE
NADALJUJEMO:
-PREIZKUSI MNOGOTERIH PRIMERJAV
(LSD, Tukey,Duncan)
-NAČRTOVANE PRIMERJAVE KONTRASTI
ENOSMERNA ANALIZA VARIANCE
(SLUČAJNI BLOKI)
Skupine
(t)
1 2 … j … b Skupaj Pov.
1
2
:
i
:
t
x11
x21
xi1
xt1
x12
x22
xi2
xt2
… x1j
x2j
xij
xtj
… x1b
x2b
xib
xtb
x10
x20
xi0
xt0
Skupaj x01 x02 … x0j … x0b
Pov.
Bloki
00
00
0
0
22 200
1 1 1 1
2
00
2
0
1
B
2
skupno povprečje
x skupna vsota
povprečje skupin 1,2,...,
povprečje blokov j 1,2,...,
; je korekcijski člen
Q
i
j
t b t b
ij ij
i j i j
b
j
j
i
g
x
x i t
x b
xQ x x C
bt
xC bt n C
bt
x
Ct
x
Q
0
1
t
i
n B g
Cb
Q Q Q Q
B
g
Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F
BLOKI Q -1
OBRAVN. Q -1
b
kg g
n
nn
Q Q ( 1)( 1)
k-1 Q ( 1)
QNAPAKA Q ( -1)( -1)
( -1)( -1)
SKUPAJ Q -1
b t
k
b tb t
bt
Testiramo ničelno domnevo, da so aritmetične
sredine po obravnavanjih enake.
Izračunan F je porazdeljen po Fisherjevi F(k1,
(B-1)(K-1)) porazdelitvi.
Ničelno hipotezo, ki pravi, da so aritmetične
sredine posameznih skupin enake lahko
zavrnemo, če je gornji izraz večji od tabelirane
vrednosti F - porazdelitve pri izbrani stopnji
tveganja. Rečemo, da so razlike statistično
značilne.
25
H1
5
H4
4
H3
4,3
H2
4,8
H2
5
H3
4,2
H1
5,7
H4
4,9
H3
5
H1
4,6
H4
4,1
H2
4,5
H4
5
H2
4,6
H1
5,2
H3
4
H4
4,4
H2
5,4
H3
4,2
H1
5,3
Postavitev NAKLJUČNI BLOK
Primerjava pridelkov zrnja (t/ha, 14% vlaga) štirih hibridov koruze, v petih
ponovitvah (Vir: Hadživuković, 1989).
I
II
III
IV
V
1 2 3 4 5 sum pov
1 5 5,7 4,6 5,2 5,3 25,8 5,16
2 4,8 5 4,5 4,6 5,4 24,3 4,86
3 4,3 4,2 5 4 4,2 21,7 4,34
4 4 4,9 4,1 5 4,4 22,4 4,48
sum 18,1 19,8 18,2 18,8 19,3 94,2
pov 4,525 4,95 4,55 4,7 4,825 4,71
00
00
2
1 1
2 2
00
2
0 2 2 2 2 21
B
2
2 2 2 20
1
4,71
x =94,2
448,34 443,682 4,658
(94,2)443,682
20
(18,1 19,8 18,2 18,8 19,3 )Q 443,682 444,205 443,682 0,523
4
(25,8 24,3 21,7 22,4
t b
ij
i j
b
j
j
t
i
ig
x
Q x C
xC
bt
x
Ct
x
Q Cb
)
443,682 2,0745
2,06n B gQ Q Q Q
Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F
BLOKI 0,523 4
OBRAVN. 2,074 3 0,6913 4,026
NAPAKA 2,06 12 0,1717
SKUPAJ 4,658 19
Ničelno domnevo zavrnemo. Pri 5% tveganju lahko trdimo, da
ima hibrid statistično značilen vpliv na pridelek.
29
Potek dela:
1. zapis podatkov v Excel-ovo tabelo (neodvisne spremenljivke; hibrid, ponovitev in
odvisna spremenljivka; pridelek)
30
2. tabelo (neposredno) prenesemo v statistični program SPSS,
STATISTIX, STATGRAPH....
31
2. tabelo (neposredno) prenesemo v statistični program SPSS,
STATISTIX, STATGRAPH....
32
3. naredimo (ustrezno) analizo variance ANOVA
33
34
35
3. naredimo (ustrezno) analizo variance ANOVA :
Interpretiranje rezultatov: GLEJ P-vrednost!!
P blok ne interpretiramo
P hibrid 0,05 s 5%-nim tveganjem oz. 95% zanesljivostjo lahko trdimo,
da ima hibrid statistično značilen vpliv na pridelek (*)
Po domače: ni vseeno kateri hibrid sejemo!
,034
36
Namen: ugotoviti vpliv dodatne svetlobe na nesnost kokoši v zimskem času.
Obravnavanja:- K kontrola
-PDan podaljšani dan (14 ur)
-Blisk (K+1 krat 20 sek bliskavice na noč)
Poskusni material:
4 kurniki
v vsakem 3 kletke
v vsaki kletki po šest kokoši
Poskusna zasnova: slučajni bloki (en kurnik je blok). Narediti moramo
slučajni izbor za vsak kurnik posebej.
Izid: skupno število jajc na kletko v času od 1. decembra do 22. februarja
Še en primer:
37
kurnik K Pdan Blisk
1 330 372 359
2 288 340 337
3 295 343 373
4 313 341 302
Tabela: Skupno število jajc na kletko po obravnavanjih in blokih.