Upload
mehonjic
View
284
Download
9
Embed Size (px)
DESCRIPTION
Dobar seminarski rad iz statističkog programa SPSS. Može poslužiti i kao neka vrsta tutorijala za isti.
Citation preview
Državni univerzitet u Novom Pazaru,Departman za matematičke nauke
Seminarski radiz SPSS-a
Student: Profesor: Zlatko Mehonjić Dragić Banković
U Novom Pazaru,
januara 2013.Seminarski rad 3 Zlatko Mehonjić
1. Da li je tačna hipoteza da je srednja vrednost promenljive VAR3 u populaciji jednaka 100? Ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanim promenljivom BB1 statistički značajna.
2. Da li su razlike srednjih vrednosti promenljive VAR1 između populacija definisanim promenljivom SET2 statistički značajne? Nacrtati odgovarajući dijagram.
3. Da li su razlike u preživljavanju (VREME, STATUS) između populacija definisanim promenljivom SET4 statistički značajne?
4. Ispitati zavisnost promenljive BB2 od promenljivih VAR1, VAR2, VAR3, VAR9, VAR21. Objasniti Exp(B)
1. Da li je tačna hipoteza da je srednja vrednost promenljive VAR3 u populaciji jednaka 100? Ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 statistički značajna.Treba testirati hipotezu da je srednja vrednost promenljive jednaka zadatoj vrednosti. Prvo ćemo proveriti normalnost promenljive VAR3.
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
var3 ,042 236 ,200* ,994 236 ,487
a. Lilliefors Significance Correction
*. This is a lower bound of the true significance.
Kolmogorov-Smirnov test (df > 50 pa koristimo ovaj test) pokazuje da je raspodela normalna (p ≥ 0.200 > 0.05). Stoga ćemo za proveru koristiti Studentov t test (One-Sample T Test).One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
var3 236 93,2133 18,65582 1,21439
One-Sample Test
Test Value = 100
t df Sig. (2-tailed) Mean Difference
95% Confidence Interval of the
Difference
Lower Upper
var3 -5,589 235 ,000 -6,78669 -9,1792 -4,3942
Studentov t test pokazuje da su odstupanja vrednosti od obeležja od zadate vrednosti statistički značajna (p < 0.0005 < 0.05). Aritmetička sredina obeležja VAR3 u uzorku je 93.21±18.66. U drugom delu zadatka treba ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 statistički značajna.Promenljiva BB1 je kategorijska promenljiva sa dve populacije. Prvo ćemo ispitati normalnost promenljive VAR3 u obe populacije definisane promenljivom BB1. Nakon toga ćemo, zavisno od rezultata pristupiti odgovarajućem testu.
Tests of Normality
bb1
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
var3 ,00 ,044 124 ,200* ,994 124 ,848
1,00 ,050 112 ,200* ,986 112 ,283
a. Lilliefors Significance Correction
*. This is a lower bound of the true significance.
Test Kolmogorov-Smirnov pokazuje da je raspodela promenljive VAR3 u obe populacije definisane promenljivom BB1 normalna (u oba slučaja je p ≥ 0.200 > 0.05).Stoga ćemo za testiranje hipoteze o jednakosti srednjih vrednosti koristiti t test nezavisnih uzoraka (Independent-Samples T test).Group Statistics
bb1 N Mean Std. Deviation Std. Error Mean
var3 ,00 124 99,0892 16,75197 1,50437
1,00 112 86,7079 18,56346 1,75408
Independent Samples Test
Levene's Test for
Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Difference
F Sig. t df
Sig. (2-
tailed)
Mean
Difference
Std. Error
Difference Lower Upper
var3 Equal variances assumed 2,868 ,092 5,386 234 ,000 12,38134 2,29879 7,85237 16,91030
Equal variances not
assumed
5,358 224,658 ,000 12,38134 2,31083 7,82766 16,93501
T test nezavisnih uzoraka pokazuje da razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 jeste statistički značajna (p < 0.0005 < 0.05).Srednja vrednost obeležja VAR3 u uzorku iz populacije 0 definisane promenljivom BB1 je 99.09 ± 16.75.Srednja vrednost obeležja VAR3 u uzorku iz populacije 1 definisane promenljivom BB1 je 86.71 ± 18.56.
2. Da li su razlike srednjih vrednosti promenljive VAR1 između populacija definisanih promenljivom SET2 statistički značajne? Nacrtati odgovarajući dijagram.Promenljiva SET3 je kategorijska promenljiva koja ima četiri populacije, dok je promenljiva VAR1 numerička promenljiva. Zbog toga prvo proveravamo normalnost promenljive VAR1 u populacijama definisanim promenljivom SET3.
Tests of Normality
set2
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
var1 1,00 ,152 24 ,161 ,906 24 ,029
2,00 ,093 77 ,097 ,954 77 ,007
3,00 ,095 89 ,047 ,966 89 ,020
4,00 ,161 43 ,007 ,770 43 ,000
a. Lilliefors Significance Correction
Promenljiva VAR1 u populacijama 1, 3 i 4 nema normalnu raspodelu (p = 0.029, p = 0.047 i p < 0.0005, respektivno).Promenljiva VAR1 u populaciji 2 ima normalnu raspodelu (p = 0.097). Promenljiva VAR1 nema normalnu raspodelu u 3 od 4 populacije definisane promenljivom SET2, tako da ćemo za proveru značajnosti razlika srednjih vrednosti koristiti Kruskal-Wallis-ov test.
Ranks
set2 N Mean Rank
var1 1,00 24 12,50
2,00 77 63,00
3,00 89 146,00
4,00 43 212,00
Total 233
Test Statisticsa,b
var1
Chi-Square 208,992
df 3
Asymp. Sig. ,000
a. Kruskal Wallis Test
b. Grouping Variable: set2
Na osnovu rezultata Kruskal-Wallis-ovog testa, odbacuje se hipoteza o jednakosti srednjih vrednosti promenljive VAR1 u populacijama definisanim promenljivom SET2 (p<0.0005<0.05), odnosno medijane promenljive VAR1 definisane promenljivom SET2 se statistički značajno razlikuju. Sada treba proveriti u među kojim populacijama promenljive VAR1 definisanim promenljivom SET2 postoje statistički značajne razlike. Koristićemo Mann-Whitney-ev test i testirati populacije par po par.Ranks
set2 N Mean Rank Sum of Ranks
var1 1,00 24 12,50 300,00
2,00 77 63,00 4851,00
Total 101
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 300,000
Z -7,373
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
U prethodnoj tabeli vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 2 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.Ranks
set2 N Mean Rank Sum of Ranks
var1 1,00 24 12,50 300,00
3,00 90 69,50 6255,00
Total 114
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 300,000
Z -7,507
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 3 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.
Ranks
set2 N Mean Rank Sum of Ranks
var1 1,00 24 12,50 300,00
4,00 43 46,00 1978,00
Total 67
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 300,000
Z -6,748
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.
Ranks
set2 N Mean Rank Sum of Ranks
var1 2,00 77 39,00 3003,00
3,00 90 122,50 11025,00
Total 167
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 3003,000
Z -11,124
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 2 i 3 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.Ranks
set2 N Mean Rank Sum of Ranks
var1 2,00 77 39,00 3003,00
4,00 43 99,00 4257,00
Total 120
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 3003,000
Z -9,061
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 2 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.
Ranks
set2 N Mean Rank Sum of Ranks
var1 3,00 90 45,50 4095,00
4,00 43 112,00 4816,00
Total 133
Test Statisticsa
var1
Mann-Whitney U ,000
Wilcoxon W 4095,000
Z -9,308
Asymp. Sig. (2-tailed) ,000
a. Grouping Variable: set2
Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 3 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.
Percentiles
set2
Percentiles
25 50 75
var1 1,00 18,1350 18,8150 19,5200
2,00 21,8700 22,9100 23,7200
3,00 26,2900 27,3400 28,3700
4,00 31,5850 33,3300 35,7650
Srednja vrednost obeležja VAR1 u uzorku iz populacije 1 je 18.81 (18.14 – 19.52).
Srednja vrednost obeležja VAR1 u uzorku iz populacije 2 je 22.91 (21.87 – 23.72). Srednja vrednost obeležja VAR1 u uzorku iz populacije 3 je 27.34 (26.29 – 28.37). Srednja vrednost obeležja VAR1 u uzorku iz populacije 4 je 33.33 (31.58 – 35.76).
Dijagram koji ovo ilustruje je dat sledećom slikom.
3. Da li su razlike u preživljavanju (VREME, STATUS) između populacija definisanih promenljivom SET4 statistički značajne?Treba ispitati da li su razlike u preživljavanju između populacija definisanih kategorijskom promenljivom SET4 statistički značajne. Koristićemo Kaplan-Meier-ove krive.
set4
Frequency Percent Valid Percent
Cumulative
Percent
Valid ,00 117 44,3 49,6 49,6
1,00 109 41,3 46,2 95,8
2,00 10 3,8 4,2 100,0
Total 236 89,4 100,0
Missing System 28 10,6
Total 264 100,0
Overall Comparisons
Chi-Square df Sig.
Log Rank (Mantel-Cox) 1,396 2 ,497
Test of equality of survival distributions for the different levels of
set4.
Iz tabele vidimo da razlike u preživljavanju između populacija definisanih promenljivom SET4 nisu statistički značajne (p = 0.497 > 0.05). Međutim, iz tabele frekvencija vidimo da uzorak populacije 2 definisane promenljivom SET4 ima frekvenciju 10, što je veoma mali uzorak, tako da ćemo ispitati da li su razlike u preživljavanju između preostale 2 populacije statistički značajne, s obzirom da su uzorci te dve populacije imaju znatno veći, sa frekvencijama 117 odnosno 109. To ćemo uraditi tako što ćemo eliminisati populaciju 2 iz
promenljive SET4, koristeći opciju Select Cases iz menija Data, a zatim opet nacrtati Kaplan-Meier-ove krive i proveriti signifikantnost.
Overall Comparisons
Chi-Square df Sig.
Log Rank (Mantel-Cox) ,379 1 ,538
Test of equality of survival distributions for the different levels of
set4.
Vidimo da ni razlike između populacija 0 i 1 nisu statistički značajne (p = 0.538 < 0.05).
4. Ispitati zavisnost promenljive BB2 od promenljivih VAR1, VAR2, VAR3, VAR9, VAR21. Objasniti Exp(B). BB2 je binarna promenljiva, a ostale promenljive su numeričke. Koristićemo univarijantnu binarnu logističku regresiju da ispitamo zavisnost promenljive BB2 od ostalih, a zatim i multivarijantnu logističku regresiju sa onim promenljivim za koje se pokazalo da BB2 od njih zavisi univarijantno.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var1 ,039 ,033 1,433 1 ,231 1,040 ,975 1,109
Constant -2,712 ,898 9,117 1 ,003 ,066
a. Variable(s) entered on step 1: var1.
Promenljiva BB2 ne zavisi od promenljive VAR1 (p = 0.231 > 0.05).
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var2 -,034 ,008 17,179 1 ,000 ,966 ,951 ,982
Constant ,909 ,609 2,225 1 ,136 2,481
a. Variable(s) entered on step 1: var2.
Promenljiva BB2 zavisi od promenljive VAR2 (p < 0.0005 < 0.05). Odds ratio (količnik rizika) iznosi 0.966 (0.951 – 0.982) što znači da kada se vrednost promenljive VAR2 poveća za 1, rizik ishoda 1 za promenljivu BB2 se smanjuje za 3.4%.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var3 -,026 ,010 6,906 1 ,009 ,974 ,955 ,993
Constant ,672 ,886 ,576 1 ,448 1,959
a. Variable(s) entered on step 1: var3.
Promenljiva BB2 zavisi od promenljive VAR3 (p = 0.009 < 0.05). Odds ratio (količnik rizika) iznosi 0.974 (0.955 – 0.993) što znači da kada se vrednost promenljive VAR3 poveća za 1, rizik ishoda 1 za promenljivu BB2 se smanjuje za 2.6%.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var9 ,018 ,006 8,041 1 ,005 1,018 1,006 1,031
Constant -2,605 ,403 41,775 1 ,000 ,074
a. Variable(s) entered on step 1: var9.
Promenljiva BB2 zavisi od promenljive VAR9 (p = 0.005 < 0.05). Odds ratio (količnik rizika) iznosi 1.018 (1.006 – 1.031) što znači da kada se vrednost promenljive VAR3 poveća za 1, rizik ishoda 1 za promenljivu BB2 se povećava za 1.8%.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var21 ,000 ,012 ,003 1 ,960 ,999 ,977 1,022
Constant -1,639 ,894 3,358 1 ,067 ,194
a. Variable(s) entered on step 1: var21.
Promenljiva BB2 ne zavisi od promenljive VAR1 (p = 0.960 > 0.05).Sada ćemo uraditi multivarijantnu binarnu logističku regresiju sa promenljivim VAR2, VAR3 i VAR9 za koje se univarijantno pokazalo da BB2 zavisi od njih.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
95% C.I.for EXP(B)
Lower Upper
Step 1a var2 -,055 ,015 13,607 1 ,000 ,946 ,919 ,974
var3 ,035 ,018 3,555 1 ,059 1,035 ,999 1,073
var9 ,017 ,007 6,062 1 ,014 1,017 1,003 1,030
Constant -1,440 1,066 1,823 1 ,177 ,237
a. Variable(s) entered on step 1: var2, var3, var9.
Multivarijantna logistička regresija pokazuje da promenljiva BB2 zavisi od promenljivih VAR2 i VAR9 (p < 0.0005 i p = 0.014, respektivno), a ne zavisi od promenljive VAR3 (p = 0.059) mada je taj zaključak indikativan, zbog male signifikantnosti. Ovo može značiti da se uticaj promenljive VAR3 multivarijantno iskazuje preko neke druge promenljive (VAR2 ili VAR9).U ovom slučaju količnici rizika za VAR2 i VAR9 su, respektivno 0.946 (0.019 – 0.974) (rizik za ishod 1 promenljive BB2 se smanjuje za 5.4% kad se VAR2 poveća za 1) i 1.017 (1.003 – 1.030) (rizik za ishod 1 promenljive BB2 se povećava za 1.7% kad se VAR9 poveća za 1).