Predavanja Statistika (1.Dio)

Embed Size (px)

Citation preview

Ivica Boljat

Ivica Boljat ([email protected])Primjena statistike u istraivanju obrazovanja

Predavanja 15. i 16.06.2012.

* prepisala sam svoje zabiljeke sa predavanja* ne mogu tvrditi da sam sve tono pohvatala (pa sam malo nadodala sa googlea)

* ako ete koristiti materijale za spremajte ispita - molim odreenu dozu opreznosti iz vie razloga: materija mi je realtivno nepoznata, morala sam je nadopuniti da ima glavu i rep terminoloki sustav nepoznat ( google svata nudi i ne mogu biti sigurna u ispravnost podataka (toliko u detaljeba i nisam provjeravala) nisam nita nadopunjavala materijalima prof.Boljata

Teme:

populacija

uzorak (kakav i koliki)

tipovi podataka i vrste mjera

parametrijske i neparametrijske metode

distribucije

z-vrijednost

hi- kvadtrat

analogije meu testovima

t-test i analiza varijance(jedno i viesmjerna)

korelacije (3 vrste)

viestruke regresije

faktorska analiza

klasterska analiza

SPSS

Kratki uvodPojam statistika ima najmanje dva znaenja.

- statistika oznaava numerike vrijednosti kojima se opisuje skup podataka

- statistika je grana matematike i predstavlja skup postupaka koje koristimo za prikupljanje, prezentaciju, analizu i interpretaciju podataka.

Na drutvenim studijima izuava se primijenjena statistika, odnosno metode za deskripciju i analizu podataka izvedene iz osnovnih matematikih principa. Naini kojim se do njih dolo predmetom su izuavanja teorijske statistike.

Postupci koje koristimo u opisu podataka (npr. odreivanje broj kategorija, centralne vrijednosti, aritmetike sredine, itd.) dio su deskriptivne statistike, dok je donoenje zakljuaka o populaciji na osnovu podataka dobivenih na uzorku dio inferencijalne statistike. Deskriptivne statistike postupke koristimo, npr., kada elimo opisati jednu ili vie grupa ispitanika, a inferencijanu statistiku kako bi pokazali da li je razlika dobivena na ogranienom skupu podataka vjerovatna i na populacijama.

Statistika je sastavni dio istraivakog procesa jer provedba istraivanja ukljuuje prikupljanje, obradu i analizu podataka. Statistika je vana i u svakodnevnom ivotu. Poznavanje statistikih pojmova i koncepata, vjetine i sposobnosti njihovog koritenja ine statistiku pismenost. Obzirom da smo svakodnevno izloeni podacima na osnovu kojih donosimo odluke, statistika pismenost pomae nam da bolje razumijemo svijet u kojem ivimo. Ponekad podaci ne odraavaju realnost i mogu nas navesti na donoenje pogrene odluke. Statistika nam pomae da izmeu nekoliko odluka izaberemo najbolju.

POPULACIJAPopulacija je osnovni skup su svi lanovi neke skupine s odreenim obiljejem koje mjerimo, odnosno skupina osoba, predmeta ili pojedinosti iz koje se izdvajaju uzorci radi mjerenja.UZORAKUzorak je skup jedinica populacije na kojima je provedeno istraivanje.Najvanija prednost zakljuivanja na temelju uzoraka je uteda vremena, financijskih i ljudskih resursa. Ali ne moe se nikada utvrditi posve tona informacija ve samo predvidjeti.Dva imbenika koja djeluju na stupanj sigurnosti o zakljucima koji se donose natemelju uzorka su:

1) veliina uzorka (zakljuci zasnovani na veim uzorcima nude veu sigurnost od onih zasnovanih na manjim to je vei uzorak, to je rezultat pouzdaniji) Zakljuci izvedeni na osnovu uzorka bit e to kvalitetniji to je uzorak vei. Ovo pravilo naziva se zakon velikih brojeva. Veliina uzorka ovisi o: homogenosti populacije s obzirom na ispitivano obiljeje, kao i o uestalosti ispitivanog obiljeja u populaciji.

2) varijabilitetu - koliina variranja u populaciji koju istraujemo (to je variranje karakteristike koju mjerimo vee, to je pouzdanost izmjerenog manja).Varijabilnost uzorka istraivau je esto nepoznata.

U sluaju kada poznata velika varijabilnost uzorka ugroava njegovu reprezentativnost uzorak bi trebalo poveati.

Kada svaki element populacije ima jednaku ansu da bude izabran i svaki uzorak ima jednaku

ansu da bude izabran uzorak je sluajan, randomiziran (engl. random sample). Najee

koritene metode za odabir sluajnog uzorka su lutrijska metoda, ili odabir uzorka pomou

tablice sluajnih brojeva. Danas se za odabir sluajnog uzorka preteno koriste raunala.

Vie je vrsta uzoraka1) sluajni (jednostavnii sustavni)

2) stratificirani

3) uzorak skupine (cluster)

4) viefazni

5) prigodni

6) uzorak koji slui svrsi (ciljani)

7) uzorak udjela

z2 x p x qn=

d2n je uzoraka veliina uzorka

z je statistika mjera (1,96 kod 95%)

p je proporcija

q je 1-p

d je veliina pogreke (sami odreujemo koja nam treba)

1,962 x 0,5 x 0,5n= = 600 0,042Ako elimo smanjit greku na 1% d=0,01 n e biti 9604TIPOVI PODATAKA I VRSTE MJERA

Pri razliitim mjerenjima koriste se razliite mjerne skale, koje je potrebno poznavati da bi

se koristile odgovarajue statistike analize. Ovisno o vrsti skale odreujemo koje statistike postupke moemo koristiti1. NOMINALNE SKALE (kvalitativna ili kategorika obiljeja)2. ORDINALNE SKALE (kvalitativna ili kategorika obiljeja)3. INTERVALNE SKALE (kvantitativna ili numerika obiljeja)4. OMJERNE SKALE (kvantitativna ili numerika obiljeja)*****************.

NOMINALNA SKALA prati najnii nivo mjerenja. Ova skala se primjenjuje za podatke koji su klasificirani u odreeni broj i tip modaliteta. Na primjer: spol muki/enski, krvna grupa 0/A/B/AB. Izmeu modaliteta ne moe se uspostaviti redoslijed. Nisu skale u pravom smislu rijei jer nemaju slijed veliina i slue nam samo za identifikaciju ili kategorizaciju. Oznaavamo istu stvar istim brojem ili simbolom npr. brojevi igraa u portu (jer slue samo za identifikaciju), brojevi automobila i sl.

Odreenim stvarima moemo pridruiti broj koji im slui kao oznaka (npr. muko = 1, ensko = 2), tako da odreenu pojavu moemo samo brojati. Ovakvim podacima moemo odrediti dominantnu vrijednost.Mjera centralne tendencije: MODStatistiki testovi: 2 hi kvadrat , koeficijent kontigencije C*****************ORDINALNA SKALA utvrene modalitete moe da rangira tj. moe utvrditi redoslijed, ali ne moe utvrditi apsolutnu razliku meu modalitetima. Npr, nivo bola jak/srednje jak/slab/ bez bola, zatim stadiji neke teke bolesti I, II, III, IV stadij. Modaliteti su rangirani od najmanjeg do najveeg, ali se ne moe rei da je stadij IV dva puta gori od stadija II ili da je jednaka razlika izmeu stadiju I i III i izmeu stadiju II i IV. Ovakve podatke moemo poredati, tj. moemo odrediti da li je odreena pojava vea ili manja na toj skali, ali razlike izmeu pojedinih jedinica skale nisu jednake. Tipian primjer su kolske ocjene (znate da je 3 vee od 2, ali razlike od 1 do 2 i od 2 do 3 nisu iste).

Obiljeje kojemu vrijednost dodjeljujemo prema ordinalnoj mjernoj skali redoslijedno obiljeje ili rang varijabla

Vrijednost je broj ili naziv koji izraava redoslijed ili intenzitet, pr. ocjena uspjeha na fakultetu, ekonomska razvijenost, kolska sprema, Ne mogu se provoditi nikakve raunske operacije, ali se te vrijednosti mogu meusobno usporeivati-slue za oznaavanje redoslijeda ili poretka-tipian primjer ordinalne skale je poredak igraa po uspjenosti uspjenosti na nekom na nekom natjecanju natjecanju

-ordinalne skale odreuju samo relativan poloaj rezultata u grupi, odnosno odreuju da li je neto manje ili vee, ali nepoznata je razlika meu pojedinim jedinicama skale, odnosno rangovima, i ona nije jednaka.

Mjera centralne tendencije: MEDIJANStatistiki testovi: Mann-Whitneyev(za 2 grupe), Kruskal-Wallis(za 3 grupe), Spearmanov koeficijent korelacije *****************INTERVALNA SKALA karakterizira je jedinica mjere, mogue je utvrditi apsolutnu razliku meu ispitivanim podacima, ali ne postoji mogunost uspostavljanja relativnog odnosa meu ispitivanim podacima. Primjer je temperatura koja se moe izraziti u Celzijusima (C) ili u Farenhajtima (F). Ne moe se uspostaviti relativni odnos, jer nula ne predstavlja odsustvo temperature. Osim toga, nule se ne poklapaju: 0S = 32F, 10S=42F, 2h10S84F ve 52F. Za ovakve podatke znamo slijed, ali i razliku izmeu brojeva na skali koja je jednaka na svakom dijelu skale. Ono to nemamo je apsolutna nula, tj. nemamo neke nulte vrijednosti od koje skala kree. Npr. takva skala je Celzijeva skala za temperaturu, gdje ne moemo rei da je temperatura od 100C dva puta vee od 50C, ali znamo da je prijelaz sa 50 na 51C jednak kao i sa 100 na 101C-vrijednost intervalnog obiljeja je broj

-jednake razlike u brojevima na intervalnoj skali predstavljaju jednake razlike u promatranom svojstvu

-za intervalnu skalu je karakteristino to su poloaj nule i mjerne jedinice odreeni dogovorno. Posebno, vrijednost nula ne oznaava ne postojanje promatranog svojstvaMjera centralne tendencije: ARITMETIKA SREDINA, (st. devijacija, Z-vrijednost)Statistiki testovi: t-test (za 2 grupe), analiza varijance ANOVA (za 3 i vie grupa), Pearsonov koeficijent korelacije *****************OMJERNA SKALA je najpreciznija skala. Njene osnovne karakteristike su da ima jedinice mjere, moe se utvrditi kako apsolutna tako i relativna razlika meu ispitivanim podacima. Primjer za ovu mjernu skalu je tjelesna teina ili visina. Ako uzmemo da je jedan student medicine visok 180cm, a drugi 198 cm mogue je utvrditi da je apsolutna razlika u visini izmeu ova dva studenta 18 cm, ali i da je drugi student vii za 10% od prvog studenta.Slino kao i intervalna skala, ali ima i apsolutnu nulu, to znai da jednaki brojani odnosi (omjeri) znae i jednako odnose u mjerenoj pojavi. Primjeri ovakvih podataka su pr. teina, visina, temperatura u stupnjevima KelvinaSastoji se od brojeva ije jednake razlike predstavljaju jednake razlike u mjerenom svojstvu

Nula na omjernoj skali upuuje na nepostojanje svojstva

Obiljeje kojemu vrijednost dodjeljujemo prema omjernoj skali zove se numeriko obiljeje takav su na primjer ova obiljeja: broj zaposlenih, stanje na tekuem raunu, visina osobe, ...

-osim to imaju sve osobine intervalnih skala, imaju i svojstvo da jednaki brojani odnosi (omjeri) znae i jednake odnose u mjerenoj pojavi.

-to je zato jer te skale imaju apsolutnu nulu apsolutna nula-podrazumijeva odsustvo pojave koja se mjeri

-to su npr. duina, teina, otpor itd (fizikalne jedinice). Tako moemo npr. utvrditi da je da je duina od 30 centimetara tri puta vea od duina od 10 centimetara jer je to tako u svim sustavima mjerenja Mjera centralne tendencije: ARITMETIKA SREDINA, (st. devijacija, Z-vrijednost)

Statistiki testovi: osim statistikih postupaka za nominalne,, ordinalne i intervalne skale, doputeno je koristiti i koeficijent varijabilnosti i geometrijsku sredinuOdabir testova

Ovisno o vrsti ispitivanog svojstva statistike metode koje testiraju hipoteze dijelimo na: ( metode koje usporeuju metrike varijable (npr. t-test) i metode procjenjuju povezanosti kategorijskih varijabli (npr. (( test), dok su ( za ordinalne varijable razvijeni su posebni, neparametrijski testovi.Obino metrike varijable usporeujemo parametrijskim testovima. Bitna je pretpostavka tih testova da je raspodjela aritmetikih sredina normalna, ili barem simetrina. To je uvijek tako ako su same varijable simetrino distribuirane, a za velike uzorke i bez obzira na njihovu raspodjelu (tzv. teorem o sredinjoj graninoj vrijednosti). Ako se radi o malim uzorcima i uz to su jo varijable vrlo nesimetrino rasporeene, parametrijski testovi nisu uporabivi.

Parametrijska statistika

provodi se ako su zadovoljena sljedea tri uvjeta:

(1) da su varijable intervalne ili omjerne, odnosno vie nego ordinalne,

(2) da je distribucija populacije normalna i

(3) da su varijance obje varijable jednake ili homogene.

Neparametrijski testovi ne tretiraju varijable kao brojeve s kojima su mogue matematike operacije, ve kao rangirani niz (zato ih moemo koristiti za ordinalne varijable).

Dakle, neparametrijske testove koristimo:( uvijek za ordinalne varijable( ponekad za metrike varijable, kada je broj podataka N mali, a podaci su nesimetrino distribuirani i ne mogu se transformirati u simetrino (normalno) rasporeene.

Odstupanje od normalne(Gaussove) raspodjele testira se posebnim testovima (Kolmogorov Smirnovljev test)Inae, neparametrijske testove izbjegavamo jer su manje pouzdani od parametrijskih testova

Neparametrijski testoviNACRT ISTRAIVANJAPARAMETRIJSKA PROCEDURANEPARAMETRIJSKA PROCEDURA

Dva nezavisna uzorkaT-test nezavisni uzorciMann-Whitney U-test

Dva zavisna uzorkaT-test zavisni uzorciWilcoxonov test ekvi. nizova

Nekoliko nezavisnih grupaANOVAKruskal-Wallis test

Nekoliko zavisnih grupaANOVA ponovljena mjerenjaFriedman test

Korelacijsko istraivanjePearson rSpearman rs, Kendall's tau

Neparametrijske inaice t-testa za dva nezavisna uzorkaNeparametrijska statistika koristi se kod podataka koji imaju neke od sljedeih karakteristika:

distribucija malog broja podataka znaajno odstupa od normalne

podaci su izraeni na nominalnim ili ordinalnim mjernim ljestvicama

raspodjela se znaajno razlikuje od normalne (U raspodjela, multimodalna, Poissonova raspodjela)Razlika izmeu prametrijskih i neparametrijskih testovaparametrijskineparametrijski

intervalna, omjernaskale mjerenjanominalna, ordinalna

normalna ili priblinooblik distribucijenije relevantno

veastatistika snagamanja

podjednakevarijancanije relevantno

veaosjetljivostmanja

vearazumljivost za korisnikemanja

Parametrijski testovi

Analiza varijance(ANOVA): je tehnika upotrebe razlika izmeu prosjeka uzoraka u zakljuivanju o postojanju (ili ne) razlika izmeu prosjeka populacija. To je jedinstveni postupak kojim je mogue ralaniti i procijeniti varijabilnosti uvjetovane razliitim imbenicima izvorimaANOVA je raunski postupak pomou kojega se ispituju podaci odreenoga pokusa, kroz procjenu otklona pojedinih srednjih vrijednosti od prosjene vrijednosti uzoraka uzetih iz nekog osnovnog skupa.

Analiza varijance se najee upotrebljava kada elimo testirati

postoji li razlika izmeu aritmetikih sredina tri ili vie osnovnih

skupova.

Cilj je ispitati odnos varijacija izmeu uzoraka s varijacijama unutar uzoraka. Ako je taj odnos, tzv. empirijski F-omjer, statistiki znaajan zakljuujemo kako promatrani uzorci ne pripadaju istoj populaciji, odnosno aritemetike sredine se znaajno razlikuju. Kroz niz relativno jednostavnih izraunavanja potrebito je dobiti F vrijednost. Sinonim za izraunavanje F

vrijednosti je F test ili grupni test za ispitivanje hipoteze pokusa.

F testom ispituje se, pokusom postavljena, nulta hipoteza da su aritmetike sredine k osnovnih

skupova ili tretmana meusobno jednake, odnosno, da u cjelini nema statistiki znaajne razlike. Dakle, za analizu varijance bitan je odnos variranja izmeu i unutar skupina. Izraunava se tzv. F vrijednost testa: V ig

F =

VugVig varijanca izmeu skupina

Vug varijanca unutar skupina

Uz pripadajui F ide p vrijednost (ako je p 0,05 statistiki je znaajno)

Varijanca

Varijanca je podijeljena (unutar grupa izmeu grupa) Rauna se kao suma kvadrata odstupanja od zajednike aritmetike sredine

Suma kvadrata odstupanja (SS, Sums of Squares)Ogranienja

mora postojati homogenost varijanci (Levene test za provjeru znaajnosti odstupanja)

dovoljan broj ispitanika po skupinama (n>30) normalna distribucija (distribucije rezultata varijable u svakoj grupi trebaju biti priblino normalne)Vrste ANOVA:

jednosmjerna ANOVA (one way)

dvosmjerna analiza varijance faktorijalna (two way)

viestruka MANOVA (Koristi se kada elimo ispitati utjecaj i interakciju veeg broja nezavisnih (kategorijskih) varijabli na vei broj zavisnih (metrikih, kontinuiranih) varijabli.)Normalna raspodjela

Krivulja prikazana na slici je normalna krivulja i grafiki opisuje kontinuiranu raspodjelu koju zovemo normalna raspodjela. Normalna raspodjela je zvonolikog oblika, simetrina i unimodalna. Normalna raspodjela je u potpunosti determinirana vrijednostima aritmetike sredine i standardne devijacije. Aritmetika sredina nalazi se u centru raspodjele, tj. tjemenu krive, i iste je vrijednosti kao i medijana.

Normalna raspodjela je vana u statistici jer:

vrijednosti mnogih psiholokih varijabli u populaciji se rasporeuju normalno,

osnova je za mnoge statistike testove, i

pod odreenim uvjetima, predstavlja aproksimaciju razliitih diskretnih raspodjela (binomne i Poissonove).

Ukoliko znamo vrijednosti aritmetike sredine i standardne devijacije, tada moemo odrediti broj rezultata unutar nekog opsega. Odnosno vrijedi da se u...

intervalu nalazi se 68,26% svih rezultata

intervalu 2 nalazi se 95,44% svih rezultata

intervalu 3 nalazi se 99,73% svih rezultataStandardna normalna raspodjela

Empirijski dobivene normalne raspodjele moemo aproksimirati na jednu normalnu raspodjelu ako podatke izrazimo u jedinicama standardne devijacije, tj. transformiramo u z-vrijednosti.

Transformacija rezultata u z-vrijednosti naziva se standardizacija rezultata. Pomou z-vrijednosti izraavamo koliko je neki rezultat udaljen od aritmetike sredine i u kojem smjeru (desno ili lijevo od aritmetike sredine), pri emu se udaljenost izraava u jedinicama standardne devijacije. Z-vrijednost odreujemo koristei izraz: Raspodjela rezultata izraenih u z-vrijednostima naziva se standardna normalna raspodjela. Standardizacijom rezultata bilo koju normalnu raspodjelu svodimo na jednu, standardnu raspodjelu. Aritmetika sredina ove raspodjele iznosi =0 a standardna devijacija =1. Povrina pod standardnom normalnom raspodjelom iznosi p=1.

Povrina pod krivom proporcionalna je broju podataka u raspodjeli, pa se odreivanje broja podataka u odreenom intervalu svodi na odreivanje povrine pod normalnom krivuljom. Za standardnu normalnu raspodjelu vrijednosti povrina za pojedine opsege rezultata ispod normalne krivulje oitavamo iz tablice standardne normalne raspodjele, koje se nalaze u svakom udbeniku statistike.

Postupak odreivanja broja podataka u odreenom intervalu sastoji se u tome da, najprije, granine vrijednosti intervala pretvorimo u z-vrijednosti, a zatim, koristei se odgovarajuom tablicom, utvrdimo proporciju rezultata unutar datog intervala (tj. odredimo povrinu krivulje koja odgovara datom intervalu).

Obzirom da nikad ne moemo biti sigurni koliko su uzorci reprezentativni za matine populacije, u statistici nema potpuno sigurnih tvrdnji, sve se vezuje za odreene vjerojatnosti

Razgranienje pomou granine razine znaajnosti povlai mogunost pogreaka u zakljuivanju:

Alfa (() pogreka (ili pogreka tipa 1) je odbacivanje nul-hipoteze, dok je ona u stvari tona.

Beta (() pogreka (ili pogreka tipa 2) je prihvaanje nul-hipoteze, dok je ona u stvarnosti netona. Vjerojatnost alfa pogreke jednaka je p-vrijednosti.

-Vjerojatnost da neemo napraviti pogreku tipa 1 je razina znaajnosti (1-p).

-Vjerojatnost beta pogreke ovisi o tome to prihvaamo kao stvarnu razliku u promatranoj veliini. -Vjerojatnost da neemo napraviti pogreku tipa 2 zove se snaga istraivanja. Snaga istraivanja raste s veliinom uzorka (N) i s veliinom razlike koju smatramo stvarno znaajnom, a opada s razinom znaajnosti (statistike). Korelacija i regresija sukladnost u variranju vrijednosti dvije (ili vie) varijabli

oznaava povezanost izmeu varijabli

na osnovi same veliine korelacije ne moe se nita zakljuivati o uzrono-posljedinom odnosu meu varijablama

Najjednostavniji oblik primjene korelacijske analize je kada su varijable ( napr. varijabla X i varijabla Y ) u linernom odnosu

najvei stupanj sukladnosti u variranju, tzv. potpuna korelacija ili funkcionalna veza, postoji kad svakoj vrijednosti u jednoj varijabli ( napr. varijabli X) odgovara samo jedna vrijednost u drugoj varijabli ( napr. varijabli Y)

djelomina korelacija znai da odreenoj vrijednosti varijable X odgovara vie razliitih vrijednosti varijable Y

korelacija je manja to ima vie razliitih vrijednosti varijable Y koje veemo uz odreenu vrijednost varijable X

korelacija je vea to ima manje razliitih vrijednosti varijable Y koje veemo uz odreenu vrijednost varijable X pokazuje stupanj ( i smjer) korelacije -1................0.............+1

funkcionalna negativna nema funkcionalna pozitivna

korelacija korelacije korelacija

zakljuke o vrijednosti koeficijenta korelacije donosimo uz odreenu razinu vjerojatnosti (p