21
Državni univerzitet u Novom Pazaru, Departman za matematičke nauke Seminarski rad iz SPSS-a Student: Profesor: Zlatko Mehonjić Dragić Banković

Seminarski rad iz SPSS

Embed Size (px)

DESCRIPTION

Dobar seminarski rad iz statističkog programa SPSS. Može poslužiti i kao neka vrsta tutorijala za isti.

Citation preview

Page 1: Seminarski rad iz SPSS

Državni univerzitet u Novom Pazaru,Departman za matematičke nauke

Seminarski radiz SPSS-a

Student: Profesor: Zlatko Mehonjić Dragić Banković

U Novom Pazaru,

Page 2: Seminarski rad iz SPSS

januara 2013.Seminarski rad 3 Zlatko Mehonjić

1. Da li je tačna hipoteza da je srednja vrednost promenljive VAR3 u populaciji jednaka 100? Ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanim promenljivom BB1 statistički značajna.

2. Da li su razlike srednjih vrednosti promenljive VAR1 između populacija definisanim promenljivom SET2 statistički značajne? Nacrtati odgovarajući dijagram.

3. Da li su razlike u preživljavanju (VREME, STATUS) između populacija definisanim promenljivom SET4 statistički značajne?

4. Ispitati zavisnost promenljive BB2 od promenljivih VAR1, VAR2, VAR3, VAR9, VAR21. Objasniti Exp(B)

Page 3: Seminarski rad iz SPSS

1. Da li je tačna hipoteza da je srednja vrednost promenljive VAR3 u populaciji jednaka 100? Ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 statistički značajna.Treba testirati hipotezu da je srednja vrednost promenljive jednaka zadatoj vrednosti. Prvo ćemo proveriti normalnost promenljive VAR3.

Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

var3 ,042 236 ,200* ,994 236 ,487

a. Lilliefors Significance Correction

*. This is a lower bound of the true significance.

Kolmogorov-Smirnov test (df > 50 pa koristimo ovaj test) pokazuje da je raspodela normalna (p ≥ 0.200 > 0.05). Stoga ćemo za proveru koristiti Studentov t test (One-Sample T Test).One-Sample Statistics

N Mean Std. Deviation Std. Error Mean

var3 236 93,2133 18,65582 1,21439

One-Sample Test

Test Value = 100

t df Sig. (2-tailed) Mean Difference

95% Confidence Interval of the

Difference

Lower Upper

var3 -5,589 235 ,000 -6,78669 -9,1792 -4,3942

Page 4: Seminarski rad iz SPSS

Studentov t test pokazuje da su odstupanja vrednosti od obeležja od zadate vrednosti statistički značajna (p < 0.0005 < 0.05). Aritmetička sredina obeležja VAR3 u uzorku je 93.21±18.66. U drugom delu zadatka treba ispitati da li je razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 statistički značajna.Promenljiva BB1 je kategorijska promenljiva sa dve populacije. Prvo ćemo ispitati normalnost promenljive VAR3 u obe populacije definisane promenljivom BB1. Nakon toga ćemo, zavisno od rezultata pristupiti odgovarajućem testu.

Tests of Normality

bb1

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

var3 ,00 ,044 124 ,200* ,994 124 ,848

1,00 ,050 112 ,200* ,986 112 ,283

a. Lilliefors Significance Correction

*. This is a lower bound of the true significance.

Test Kolmogorov-Smirnov pokazuje da je raspodela promenljive VAR3 u obe populacije definisane promenljivom BB1 normalna (u oba slučaja je p ≥ 0.200 > 0.05).Stoga ćemo za testiranje hipoteze o jednakosti srednjih vrednosti koristiti t test nezavisnih uzoraka (Independent-Samples T test).Group Statistics

bb1 N Mean Std. Deviation Std. Error Mean

var3 ,00 124 99,0892 16,75197 1,50437

1,00 112 86,7079 18,56346 1,75408

Page 5: Seminarski rad iz SPSS

Independent Samples Test

Levene's Test for

Equality of

Variances t-test for Equality of Means

95% Confidence

Interval of the

Difference

F Sig. t df

Sig. (2-

tailed)

Mean

Difference

Std. Error

Difference Lower Upper

var3 Equal variances assumed 2,868 ,092 5,386 234 ,000 12,38134 2,29879 7,85237 16,91030

Equal variances not

assumed

5,358 224,658 ,000 12,38134 2,31083 7,82766 16,93501

T test nezavisnih uzoraka pokazuje da razlika srednjih vrednosti promenljive VAR3 između populacija definisanih promenljivom BB1 jeste statistički značajna (p < 0.0005 < 0.05).Srednja vrednost obeležja VAR3 u uzorku iz populacije 0 definisane promenljivom BB1 je 99.09 ± 16.75.Srednja vrednost obeležja VAR3 u uzorku iz populacije 1 definisane promenljivom BB1 je 86.71 ± 18.56.

Page 6: Seminarski rad iz SPSS

2. Da li su razlike srednjih vrednosti promenljive VAR1 između populacija definisanih promenljivom SET2 statistički značajne? Nacrtati odgovarajući dijagram.Promenljiva SET3 je kategorijska promenljiva koja ima četiri populacije, dok je promenljiva VAR1 numerička promenljiva. Zbog toga prvo proveravamo normalnost promenljive VAR1 u populacijama definisanim promenljivom SET3.

Tests of Normality

set2

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

var1 1,00 ,152 24 ,161 ,906 24 ,029

2,00 ,093 77 ,097 ,954 77 ,007

3,00 ,095 89 ,047 ,966 89 ,020

4,00 ,161 43 ,007 ,770 43 ,000

a. Lilliefors Significance Correction

Promenljiva VAR1 u populacijama 1, 3 i 4 nema normalnu raspodelu (p = 0.029, p = 0.047 i p < 0.0005, respektivno).Promenljiva VAR1 u populaciji 2 ima normalnu raspodelu (p = 0.097). Promenljiva VAR1 nema normalnu raspodelu u 3 od 4 populacije definisane promenljivom SET2, tako da ćemo za proveru značajnosti razlika srednjih vrednosti koristiti Kruskal-Wallis-ov test.

Page 7: Seminarski rad iz SPSS

Ranks

set2 N Mean Rank

var1 1,00 24 12,50

2,00 77 63,00

3,00 89 146,00

4,00 43 212,00

Total 233

Test Statisticsa,b

var1

Chi-Square 208,992

df 3

Asymp. Sig. ,000

a. Kruskal Wallis Test

b. Grouping Variable: set2

Na osnovu rezultata Kruskal-Wallis-ovog testa, odbacuje se hipoteza o jednakosti srednjih vrednosti promenljive VAR1 u populacijama definisanim promenljivom SET2 (p<0.0005<0.05), odnosno medijane promenljive VAR1 definisane promenljivom SET2 se statistički značajno razlikuju. Sada treba proveriti u među kojim populacijama promenljive VAR1 definisanim promenljivom SET2 postoje statistički značajne razlike. Koristićemo Mann-Whitney-ev test i testirati populacije par po par.Ranks

set2 N Mean Rank Sum of Ranks

var1 1,00 24 12,50 300,00

2,00 77 63,00 4851,00

Total 101

Page 8: Seminarski rad iz SPSS

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 300,000

Z -7,373

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

U prethodnoj tabeli vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 2 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.Ranks

set2 N Mean Rank Sum of Ranks

var1 1,00 24 12,50 300,00

3,00 90 69,50 6255,00

Total 114

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 300,000

Z -7,507

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 3 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.

Page 9: Seminarski rad iz SPSS

Ranks

set2 N Mean Rank Sum of Ranks

var1 1,00 24 12,50 300,00

4,00 43 46,00 1978,00

Total 67

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 300,000

Z -6,748

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 1 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.

Ranks

set2 N Mean Rank Sum of Ranks

var1 2,00 77 39,00 3003,00

3,00 90 122,50 11025,00

Total 167

Page 10: Seminarski rad iz SPSS

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 3003,000

Z -11,124

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 2 i 3 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.Ranks

set2 N Mean Rank Sum of Ranks

var1 2,00 77 39,00 3003,00

4,00 43 99,00 4257,00

Total 120

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 3003,000

Z -9,061

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 2 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.

Page 11: Seminarski rad iz SPSS

Ranks

set2 N Mean Rank Sum of Ranks

var1 3,00 90 45,50 4095,00

4,00 43 112,00 4816,00

Total 133

Test Statisticsa

var1

Mann-Whitney U ,000

Wilcoxon W 4095,000

Z -9,308

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: set2

Iz prethodne tabele vidimo da je p < 0.0005 < 0.05, odnosno odbacuje se nulta hipoteza da obeležje VAR1 u populacijama 3 i 4 ima istu raspodelu, tj. razlika između medijana obeležja posmatranih populacija je statistički značajna.

Percentiles

set2

Percentiles

25 50 75

var1 1,00 18,1350 18,8150 19,5200

2,00 21,8700 22,9100 23,7200

3,00 26,2900 27,3400 28,3700

4,00 31,5850 33,3300 35,7650

Srednja vrednost obeležja VAR1 u uzorku iz populacije 1 je 18.81 (18.14 – 19.52).

Page 12: Seminarski rad iz SPSS

Srednja vrednost obeležja VAR1 u uzorku iz populacije 2 je 22.91 (21.87 – 23.72). Srednja vrednost obeležja VAR1 u uzorku iz populacije 3 je 27.34 (26.29 – 28.37). Srednja vrednost obeležja VAR1 u uzorku iz populacije 4 je 33.33 (31.58 – 35.76).

Dijagram koji ovo ilustruje je dat sledećom slikom.

Page 13: Seminarski rad iz SPSS

3. Da li su razlike u preživljavanju (VREME, STATUS) između populacija definisanih promenljivom SET4 statistički značajne?Treba ispitati da li su razlike u preživljavanju između populacija definisanih kategorijskom promenljivom SET4 statistički značajne. Koristićemo Kaplan-Meier-ove krive.

set4

Frequency Percent Valid Percent

Cumulative

Percent

Valid ,00 117 44,3 49,6 49,6

1,00 109 41,3 46,2 95,8

2,00 10 3,8 4,2 100,0

Total 236 89,4 100,0

Missing System 28 10,6

Total 264 100,0

Page 14: Seminarski rad iz SPSS

Overall Comparisons

Chi-Square df Sig.

Log Rank (Mantel-Cox) 1,396 2 ,497

Test of equality of survival distributions for the different levels of

set4.

Iz tabele vidimo da razlike u preživljavanju između populacija definisanih promenljivom SET4 nisu statistički značajne (p = 0.497 > 0.05). Međutim, iz tabele frekvencija vidimo da uzorak populacije 2 definisane promenljivom SET4 ima frekvenciju 10, što je veoma mali uzorak, tako da ćemo ispitati da li su razlike u preživljavanju između preostale 2 populacije statistički značajne, s obzirom da su uzorci te dve populacije imaju znatno veći, sa frekvencijama 117 odnosno 109. To ćemo uraditi tako što ćemo eliminisati populaciju 2 iz

Page 15: Seminarski rad iz SPSS

promenljive SET4, koristeći opciju Select Cases iz menija Data, a zatim opet nacrtati Kaplan-Meier-ove krive i proveriti signifikantnost.

Overall Comparisons

Chi-Square df Sig.

Log Rank (Mantel-Cox) ,379 1 ,538

Test of equality of survival distributions for the different levels of

set4.

Vidimo da ni razlike između populacija 0 i 1 nisu statistički značajne (p = 0.538 < 0.05).

Page 16: Seminarski rad iz SPSS

4. Ispitati zavisnost promenljive BB2 od promenljivih VAR1, VAR2, VAR3, VAR9, VAR21. Objasniti Exp(B). BB2 je binarna promenljiva, a ostale promenljive su numeričke. Koristićemo univarijantnu binarnu logističku regresiju da ispitamo zavisnost promenljive BB2 od ostalih, a zatim i multivarijantnu logističku regresiju sa onim promenljivim za koje se pokazalo da BB2 od njih zavisi univarijantno.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var1 ,039 ,033 1,433 1 ,231 1,040 ,975 1,109

Constant -2,712 ,898 9,117 1 ,003 ,066

a. Variable(s) entered on step 1: var1.

Promenljiva BB2 ne zavisi od promenljive VAR1 (p = 0.231 > 0.05).

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var2 -,034 ,008 17,179 1 ,000 ,966 ,951 ,982

Constant ,909 ,609 2,225 1 ,136 2,481

a. Variable(s) entered on step 1: var2.

Promenljiva BB2 zavisi od promenljive VAR2 (p < 0.0005 < 0.05). Odds ratio (količnik rizika) iznosi 0.966 (0.951 – 0.982) što znači da kada se vrednost promenljive VAR2 poveća za 1, rizik ishoda 1 za promenljivu BB2 se smanjuje za 3.4%.

Page 17: Seminarski rad iz SPSS

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var3 -,026 ,010 6,906 1 ,009 ,974 ,955 ,993

Constant ,672 ,886 ,576 1 ,448 1,959

a. Variable(s) entered on step 1: var3.

Promenljiva BB2 zavisi od promenljive VAR3 (p = 0.009 < 0.05). Odds ratio (količnik rizika) iznosi 0.974 (0.955 – 0.993) što znači da kada se vrednost promenljive VAR3 poveća za 1, rizik ishoda 1 za promenljivu BB2 se smanjuje za 2.6%.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var9 ,018 ,006 8,041 1 ,005 1,018 1,006 1,031

Constant -2,605 ,403 41,775 1 ,000 ,074

a. Variable(s) entered on step 1: var9.

Promenljiva BB2 zavisi od promenljive VAR9 (p = 0.005 < 0.05). Odds ratio (količnik rizika) iznosi 1.018 (1.006 – 1.031) što znači da kada se vrednost promenljive VAR3 poveća za 1, rizik ishoda 1 za promenljivu BB2 se povećava za 1.8%.

Page 18: Seminarski rad iz SPSS

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var21 ,000 ,012 ,003 1 ,960 ,999 ,977 1,022

Constant -1,639 ,894 3,358 1 ,067 ,194

a. Variable(s) entered on step 1: var21.

Promenljiva BB2 ne zavisi od promenljive VAR1 (p = 0.960 > 0.05).Sada ćemo uraditi multivarijantnu binarnu logističku regresiju sa promenljivim VAR2, VAR3 i VAR9 za koje se univarijantno pokazalo da BB2 zavisi od njih.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a var2 -,055 ,015 13,607 1 ,000 ,946 ,919 ,974

var3 ,035 ,018 3,555 1 ,059 1,035 ,999 1,073

var9 ,017 ,007 6,062 1 ,014 1,017 1,003 1,030

Constant -1,440 1,066 1,823 1 ,177 ,237

a. Variable(s) entered on step 1: var2, var3, var9.

Multivarijantna logistička regresija pokazuje da promenljiva BB2 zavisi od promenljivih VAR2 i VAR9 (p < 0.0005 i p = 0.014, respektivno), a ne zavisi od promenljive VAR3 (p = 0.059) mada je taj zaključak indikativan, zbog male signifikantnosti. Ovo može značiti da se uticaj promenljive VAR3 multivarijantno iskazuje preko neke druge promenljive (VAR2 ili VAR9).U ovom slučaju količnici rizika za VAR2 i VAR9 su, respektivno 0.946 (0.019 – 0.974) (rizik za ishod 1 promenljive BB2 se smanjuje za 5.4% kad se VAR2 poveća za 1) i 1.017 (1.003 – 1.030) (rizik za ishod 1 promenljive BB2 se povećava za 1.7% kad se VAR9 poveća za 1).