Upload
sinisa-ristic
View
216
Download
2
Embed Size (px)
Citation preview
Najpre moramo da definišemo parametre vezane za
promenljive. Pri tome treba obratiti pažnju da:
--> pitanje u upitniku kod koga se bira samo jedan odgovor -
predstavlja jednu promenljivu
(na primer, pitanje 2 iz upitnika "Mesto stalnog boravka" )
--> pitanje u upitniku kod koga se može odabrati više
odgovora -ne može da čini jednu promenljivu, već ga
razbijamo na podceline (tj. podpromenljive).
(na primer, pitanje 12 iz upitnika "Koji metod kontracepcije
koristite")
Uporedite upitnik i strukturu matrice (uključiti Variable View) da
biste videli ovu logiku definisanja promenljivih. Svaka
promenljiva se definiše u redovima, a parametri koji su vezani
za tu promenljivu nalaze se u kolonama. Ime (Name) treba
odabrati što kraće i što jasnije jer će ono biti prikazano u Data
View; opis (Label) treba da bude detaljan za odabranu
promenljivu; vrednosti (Values) promenljive su diskretnog
numeričkog tipa; upitnik je bio takav da nisu tolerisana
zabušavanja , znači da su žene morale je da popune sve
podatke, stoga nema "nedostajućih vrednosti" (Missing).
Ono što može da buni, kod definisanja parametra Values, je
kvantifikacija podataka, čija je priroda kvalitativna (al' sam ga
sročio).
--> Dakle, sve ćemo odgovore ispitanica (koji su većinom
kvalitativni) prikazati brojem !
Ovde ćemo razlikovati 4 situacije:
a) od ispitanice se očekuje neki unos (na primer, pitanje 1.
"Godine starosti")
--> ovde nema problema sa preslikavanjem na brojnu vrednost
jer se godine izražavaju brojem
b) od ispitanice se očekuje zaokruživanje jednog odgovora (na
primer, pitanje 2. "Mesto stalnog boravka")
--> svakoj opciji ćemo dodeliti po jednu numeričku vrednost
Da ne bi mnogo filozofirali, slika će da objasni ovaj princip:
1
Slika: definisanje numeričkih vrednosti za odgovore
Prvo se postarajmo da smo u Variable View. Potom kliknimo
naValues i kada je pojavi kvadratić, kliknimo na njega. Otvoriće
se novi prozor (u fokusu) gde definišemo preslikavanje
odgovora na numeričku vrednost. Kada povežemo oznaku i
broj, treba kliknuti naAdd.
c) ispitanica može da zaokruži više odgovora (na primer,
pitanje 12. vezano za izbor metode kontracepcije)
--> pitanje nećemo predstaviti sa jednom promenljivom, već sa
više tzv. DA/NE promenljivih. Svaka mogućnost koja može biti
zaokružena, biće predstavljena sa posebnom promenljivom.
Evo slike i za ovu situaciju:
Slika: primer razlaganja na više promenljivih sa vrednostima
DA i NE (tj. 1 i 2)
Malo edukacije: ovde nije pomenuta "apstinencija" koja takođe
predstavlja metodu kontracepcije i to jedinu 100% uspešnu
(drug je verovatno ovo sveo na pitanje 9 pod c)). Po jednom
istraživanju najčešća metoda kontracepcije kod srba je
takozvani "coitus interruptus" ili "prekinuti snošaj". Videću da
2
ubacim još jedan rad koji pokazuje FAIL ovih metoda, tj. kolika
je šansa da žena zatrudni ukoliko pribegava specifičnim
metodama kontracepcije. Koliko me sećanje služi, impulsivni
muškarci ne smeju pribegavati C.I. metodi jer ne mogu da
kontrolišu ejakulaciju. Oni koji, pak, mogu a pri tome su
neiskusni ~20% šanse je da će partner zatrudneti. Kod iskusnih
se ovaj procenat značajno smanjuje. Samo teorijski i uz grubu
apstrakciju posmatrano, ko želi potpuno "prirodan" metod
kontracepcije drugar preporučuje kombinaciju: praćenje
plodni/neplodni dani + apstinencija za vreme plodnih dana +
prekinut snošaj.
Nego, vratimo se mi na matricu
d) Numerički odgovori koji su zasnovani na Likertovoj skali (1-
5). Ako se sve ispratili do sada, i ovo bi trebalo da bude jasno.
Videti sliku:
Slika: prikaz odgovora po Likertovoj skali
OK, sad bi trebalo da znate da formulišete sve promenljive
(varijable) i odredite sve parametre sa lakoćom.
Sada je vreme da se prebacimo na Data View. U Data View, u
kolonama se nalaze promenljive, a u redovima opservacije
(odnosno jedan red = jedna opservacija = jedna ispitanica).
Možda ovo opet deluje pomalo nejasno, pa ćemo proći kroz
primer (da ne bih mnogo filozofirao):
3
Slika: prikaz dela opservacije u Data View
OK, nahvatali smo prvu tetu s reda. Da vidimo kako ćemo
tumačiti podatke (otvorite u isto vreme matricu i sliku upitnika):
--> Ima 22 godine, živi u gradu, ide u srednju skolu, partner joj
ide na faks, ima stalnog partnera, u dugoj je emotivnoj vezi,
nema dece, broj dece je 0 (primetite bug ) , rijetko ima
seksualne odnose, koristi kontracepciju, pri tome koristi je
uvek, i to kondom i pilulu.
(naravno, reverznom metodom se na osnovu upitnika
popunjava matrica ! )
To je to. Očekuje vas naporan posao ukucavanja svih
opservacija....................
* Učitavanje matrice, čuvanje matrice, generisanje statistika, ...
i sve druge aktivnosti će biti logovane u Output prozoru. Kada
ga ugasite, SPSS će vas upitati da li želite da sačuvate
promene. Ovo pitanje nije vezano za samu matricu već samo
za Output prozor. Dakle, ako ne sačuvate promene to neće da
utiče na matricu.
[5] STATISTIKA
* Ukliko već niste, preuzmite i otvorite rad (DOC datoteku)
koji sam linkovao na početku članka
Za potrebe ovoga rada, najpre će nam trebati deskriptivna
statistika, deo oko analize frekvenci. Obratite pažnju na
poglavlje:Rezultati istraživanja i potpoglavlje 3.1 - Karakteristike
ispitivane populacije, grafikon 2.
Dakle, potrebno je odabrati meni: Analyze --> Descriptive
Statistics --> Frequencies...
4
Slika: odabir menija za analizu frekvenci
Klikom na strelicu udesno biramo promenljive koje će biti
analizirane:
Slika: odabir promenljive za analizu
Klikom na dugme Charts... dobija se sledeći prozor, gde
biramo opciju Histograms i treba štriklirati opciju With normal
curve (da bi se dobila linija normalne raspodele na
histrogramu).
5
Slika: odabir histograma, kao načina prikazivanja podataka
Rezultate analize softvera možete videti u tzv. Output
prozoru. U njemu se prate sve akcije, počevši od čuvanja
matrice, učitavanje nove datoteke, izvršene analize i druge
izvršene operacije.
Bitno je da nema missing values jer se ovaj parametar
pokazuje da li neke vrednosti nedostaju u matrici (ovo može
poslužiti kao mini reper za kontrolu unosa podataka u matricu).
N predstavlja veličinu uzorka;
Tabelu treba analizirati na sledeći način: broj anketiranih
devojaka koje imaju 16 godina je 3; procentualno 1.4% od
ukupnog broja anketiranih devojaka i kumulativni procenat
predstavlja zbir svih ostalih procenata u koloni do tekućeg reda.
Ovaj parametar se iskoristio u radu da se konstatuje da je npr.
uzrast ispitanica od 16 - 20 god. zastupljen sa 11.7 % .
6
Slika: Output prozor i rezultat analize frekvenci
Na prozoru Output prikazuje se i grafikon koji smo odabrali:
Slika: prikaz histograma koji je iskorišten za rad
Na grafikonu 3 je odabrana opcija Bar Charts sa definisanim
procentima kao vrednostima grafika:
7
Slika: prikaz definisanja parametara za Bar Chart
Kako na lak način da ubacite sve ove grafikone i tabele u
vaš seminarski/maturski/diplomski rad?
--> U prozoru Output, na beloj (slobodnoj) površini kliknite
desnim tasterom miša i odaberite opciju Export... Pojaviće se
sledeći prozor:
Slika: prozor za izvoz (export) sadržaja prozora Output
[url=http://www.mycity.rs/must-login.png prilažem i datoteku
koju sam dobio sa exportovanjem. Dakle, pomoću LibreOffice-
a,OpenOffice-a ili nekog drugog tekst procesora (tipa Microsoft
Office Word 2010) možete otvoriti datoteku i jednostavno u rad
8
iskopirati tabele ili grafikone koji su vam od značaja.
Grafike je moguće formulisati i pojedinačno, bez statistika, a na
osnovu podataka iz matrice. Za te potrebe služi
meni Charts. Chart Builder predstavlja moćni Wizard koji služi
za definisanje informacija koje će se pojaviti u grafiku. Druga,
jednostavnija opcija je Legacy Dialogs, na primer:
Slika: odabir stavke Legacy Dialogs
Slika: odabraćemo grupu slučajeva
9
Slika: Parčiće grafika (slices) ćemo odabrati po promenljivoj
"broj dece"
Slika: rezultirajući grafik u osnovnoj formi
Dakle, u ovoj situaciji pojaviće se samo grafik bez statistika, i to
bazična verzija grafika. Dvostrukim klikom na grafik moguće je
urediti taj grafik, na primer dodavanje procenata na parčiće,
definisanje drugog tipa grafika, dodavanje dimenzije, izmena
10
legende i drugo.
Kroz čitava potpoglavlja 3.1 i 3.2 iskorišteni su ovi, do sad
navedeni statistički principi, samo sa drugim promenljivima.
U potpoglavlju 3.3 - Faktori koji utiču na upotrebu kontracepcije
i negativni stavovi o kontracepciji, koristi se takozvani Hi-
kvadrat test (Chi Square Test) koji će biti upotrebljen iz
upoređivanja promenljivih (Crosstabulation).
Odaberite meni i stavke kao sa sledeće slike:
Slika: odabir stavke Crosstabs...
Želimo da vidimo kakvo je stanje sa upotrebom kontracepcije u
odnosu na mesto stalnog boravka:
11
Slika: definisanje promenljivih u redu i koloni
Kliknimo na dugme Statistics...; Označiti stavke kao sa slike i
potvrditi sa Continue.
Slika: dijalog Statistics...
Zatim treba kliknuti na dugme Cells jer želimo uključiti i prikaz
procenata; označiti parametre kao sa slike:
12
Slika: dijalog Cell Display...
Pojaviće se sledeći output prozor sa rezultatima analize.
Uporediti sa tabelom u radu:
Slika: prikaz rezultata u Output prozoru
Iz jedne druge analize vidimo deo koji se tiče Hi-kvadrat testa:
13
Slika: odeljak koji se tiče Chi Square testa
Parametri koji treba da se nalaze u vašem radu su:
Value --> predstavlja vrednost statistike
df --> predstavlja broj stepeni slobode (degrees of freedom). U
literaturi se označava i sa "n".
sig --> predstavlja značajnost statistike (significance); U literturi
se označava sa "p".
Najpre, hipoteze za Hi-kvadrat test nezavisnosti se postavljaju
na sledeći način (u opštem slučaju):
Ho: Dve kategoričke promenljive su nezavisne (ovo je tzv. nulta
hipoteza).
Ha: Dve kategoričke promenljive su zavisne (povezane).
Odlučivanje za odbacivanje ili prihvatanje hipoteza se vrši na
osnovuznačajnosti. Naime, ako je "p" <= 0.05, tada je
test statistički značajan i odbacuje se nulta hipoteza (Ho).
Dakle:
- Ukoliko je vrednost parametra "p" <= 0.05 hipoteza Ha se
prihvata, a odbacuje Ho.
- Ukoliko je vrednost parametra "p" > 0.05 hipoteza Ho se
prihvata, a Ha se odbacuje
Što se tiče frekventne analize ajtema, vrši se idenično kao
analiza frekvneci:
14
Slika: prikaz jedne frekventne analize ajtema
Za dalju diskusije oko prihvatanja ili odbacivanja hipoteza na
osnovu ovih statističkih rezultata i neslaganja rezultata sa
postojećim arhivskim rezultatima našeg područja, treba
pročitati deo u radu koji nosi naziv Diskusija.
Objašnjenje i izbor tipa varijable
Pogledajmo opciju sa slike:
Ukratko ćemo je pojasniti.
Postoje tri tipa (ili "nivoa merenja")
varijabli: nominalni, ordinalni iintervalni.
Nominalni. Odlika ovih varijabli je što o relaciji između
vrednosti jedne nominalne varijable ne možemo znati ništa
osim da se one razlikuju. Ilustrujmo primerima.
Primer 1
15
Nazovimo varijablu Boja. Pripišimo joj
vrednosti crna, crvena,žuta i plava. Sve što možemo reći o
odnosima ovih vrednosti je da se međusobno razlikuju.
Dakle,
crna ≠ crvena
crna ≠ crvena
crna ≠ žuta
crvena ≠ crna
crvena ≠ žuta
crvena ≠ plava
...
Zbog ovog svojstva varijabla je nominalna. Navedimo još
jedan primer.
Primer 2
Varijabla Grad. Vrednosti su Beč, Kan, Sidnej i Jagodina
Beč ≠ Kan
Beč ≠ Sidnej
Beč ≠ Jagodina
Kan ≠ Beč
Kan ≠ Sidnej
Kan ≠ Jagodina
Itd.
Sad, pretpostavimo da imamo skup od 9 ispitanika. (pravilnije
je reći jedinica istraživanja nego ispitanik, jer se istraživanja
vrše i na porodicama, domaćinstvima, raznim drugim grupama i
objektima) Skupu od devetoro ispitanika dodeljujemo vrednosti
varijable Grad. Onda ih grupišemo prema tim vrednostima i
poređamo u red. I dobijemo, recimo:
Sidnej
Sidnej
Kan
Kan
Jagodina
Beč
Beč
Beč
Beč
16
Vrednost koja se najviše puta pojavila
zovemo mod, modus ilimodalna vrednost (u SPSSu mod). U
ovom slučaju mod jeBeč. Moguće je imati više modalnih
vrednosti.
Idemo dalje.
Ordinalni. Pored toga što vrednosti ordinalne varijable
možemo međusobno da razlikujemo, možemo i da ih stavimo u
poredak (order - ordinal). Dakle, za svaku vrednost ordinalne
varijable znamo da li je veća ili manja od neke druge vrednosti
iste te varijable.
Primer
Varijabla Temperatura. Vrednosti i njihov poredak: jako
hladno> hladno > mlako > toplo > jako toplo.
Kao i u slučaju sa nominalnom varijablom, uzmemo npr. 9
nasumičnih vrednosti ove varijable, ali ih poređamo rastućim
redom.
jako hladno
jako hladno
jako hladno
hladno
mlako
toplo
toplo
toplo
toplo
Pored moda, kod ordinalnih varijabli možemo da izračunamo
imedian, minimum, maximum i range.
Median - vrednost srednjeg člana u ovako postavljanom nizu.
U ovom slučaju to je 5. član = mlako. Kada imamo paran broj
slučajeva, onda možemo da se opredelimo za jednu od
vrednosti dva srednja člana.
Minimum i maximum - najmanja i najveća vrednost u ovako
postavljenom nizu. U ovom slučaju jako hladno i toplo.
Range - opseg u kome se kreću vrednosti u nizu. Razlika
između maksimuma i minimuma. U ovom slučaju ... pogledaj
17
zvezdicu.
*u SPSSu nećemo videti u tabeli "mlako", "jako hladno", "toplo"
itd. Sva je prilika da ćemo ove vrednosti kodirati brojevima 1, 2,
3 itd. zbog lakšeg unosa u bazu podataka (matricu). Ono što
ćemo u tabeli u SPSSu da dobijemo su upravo ti kodovi-brojevi
za minimum, maksimum, range...
Npr. imamo varijablu Posećivanje crkve, a vrednosti su
Range, minimum i maximum su
Intervalni - vrednosti intervalnih varijabli imaju sva svojstva
vrednosti ordinalnih varijabli, sa time što u slučaju intervalnih
varijabli možemo da kažemo i za koliko je jedna vrednost od
druge veća ili manja. Najjednostavnije, vrednosti intervalnih
varijabli su najčešće brojčane vrednosti.
Pored mediane, moda, min/maksimuma itd., kod intervalnih
varijabli možemo da računamo i mean (aritmetičku sredinu)
ikvartile (quartiles).
Nije potrebno objašnjavati kako se računa aritmetička sredina.
Quartiles. Kvartili su, u rastućem nizu vrednosti svih slučajeva
(kao u primerima sa nominalnim i ordinalnim varijablama),
vrednosti slučajeva ispod kojih se nalazi četvrtina slučajeva. Pa
18
tako imamo 1. i 3. kvartil, tj. vrednosti slučajeva ispod kojih
stoje 25%, odnosno, 75% svih slučajeva. 2. kvartil je Mediana.
Percentiles (percentili) su, sledstveno ovome, vrednosti ispod
kojih spada određen procenat ukupnih slučajeva.
Primer
4,3
5,1
5,5
5,6
5,6
5,7 <--- 1. kvartil / 25. percentil - ispod ovog člana nalazi se
25% ukupnih slučajeva
5,8
5,9
5,9
5,9
6,2
6,3
6,4 <--- 2. kvartil / 50. percentil / Mediana - ispod ovog člana
nalazi se 50% ukupnih slučajeva
6,4
6,6
6,7
6,8
6,8
7,1
7,1 <--- 3. kvartil / 75. percentil - ispod ovog člana nalazi se
75% ukupnih slučajeva
7,1
7,3
7,4
7,5
8,1
9,1
Evo kako to izgleda u tabeli:
19
Sve ove pokazatelje možemo prikazati tabelarno sledećim
koracima:Analyze - Descriptive
statistics - Frequencies - Statistics.
Ove pokazatelje možemo prikazati i grafički sledećim
koracima:Analyze - Descriptive
statistics - Frequencies - Charts. (*za nominalne varijable
pogodni su Bar charts, za ordinalne Pie charts, a za
intervalne Histograms)
Generalno, pri formiranju varijabli (a one se vrlo često formiraju
iz pitanja u anketnim upitnicima), treba težiti tome da tip
varijable bude što višeg nivoa (intervalni je najviši), jer što viši
nivo varijable, to će više moći da nam pokaže, da nam da više
informacija. Recimo, dok nominalnu varijablu možemo opisati
samo modom, kod intervalne imamo i kvartile, mean, range itd.
BONUS - Dihotomne varijable
Dihotomne varijable su varijable koje imaju samo dve
vrednosti. Pogodne su jer ih možemo predstaviti i kao
nominalne i kao ordinalne i kao intervalne.
Indeks korisnih poruka u temi
* Izvrtanje odgovora na inverzna pitanja: LINK
* Hi-kvadrat se koristi kod kategorijalnih
(nominalnih i ordinalnihvarijabli) 1.
Ako je uspeh u školi varijabla ordinalnog tipa, trebalo bi da
20
uraditiANOVA test, koji proverava da li postoje razlike između
pojedinih grupa. 2.
*ANOVA test, proverava da li postoje razlike između pojedinih
grupa.
Preciznije: ANOVA proverava da li postoje razlike u prosečnim
vrednostima (tj. aritmetičkim sredinama)
intervalne Dependentvarijable za svaku od kategorija, pri čemu
su "kategorije", zapravo vrednosti kategorijalne Factor varijable
(a kategorijalne varijable su nominalnog ili ordinalnog tipa).
Hipoteza koja se testira ANOVA testom je da ne postoje
razlike u prosečnim vrednostima između grupa.
Dok nam ANOVA tabela u SPSS-u govori da li razlike
postoje, druga tabela, koja treba da bude rezultat
onog Bonferroni testa, treba da pokaže između kojih
grupa razlike postoje. link
* Više o tumačenju Bonferroni testa: LINK
* Faktorska analiza se koristi prilikom ispitivanja značaja
delovanjaodređenih faktora na varijablu. Na primer: varijabla
je hibrid, na koju deluju 3 faktora (preparat, godina i
tretman). link.
* PSPP je besplatna alternativa SPSS-u. Može da otvara baze
podataka iz SPSS-a (.sav), ali ne otvara output fajlove (.spo) iz
SPSSa (niti ih čuva u tom formatu). LINK
21