32
TAIKOMOJI STATISTIKA TAIKOMOJI STATISTIKA Statistika Statistika –tai mokslas apie duomenų rinkimą vaizdavimą ir analizę Literatūra: V.Sakalauskas. Duomenų analizė su STATISTICA Kitos Statistinės programos : SPSS Statgraphics SysStat S-Plus SigmaStat

STATISTIKA I dalis

  • Upload
    ppnyt

  • View
    1.158

  • Download
    1

Embed Size (px)

Citation preview

Page 1: STATISTIKA I dalis

TAIKOMOJI STATISTIKATAIKOMOJI STATISTIKA

StatistikaStatistika –tai mokslas apie duomenų rinkimą vaizdavimą ir analizę

Literatūra: V.Sakalauskas. Duomenų analizė su STATISTICA

Kitos Statistinės programos:SPSSStatgraphicsSysStatS-PlusSigmaStat

Page 2: STATISTIKA I dalis

Duomenų rinkimasDuomenų rinkimas Populiacija- tai tiriamų objektų aibė. Imtis-populiacijos dalis naudojama

tyrimams. Imtys būna: netikimybinės-ekspertinė, kvotinė, proginė ir tikimybinės-

sisteminė, sluoksninė, lizdinė, paprastoji atsitiktinė. Tyrimai, apklausos, eksperimentai. Populiacijos dydis. Ištisinis ir pasirinktinis tyrimai Imties reprezentatyvumas. Atsitiktinė (nuo imties kitimo) ir sisteminė paklaida (dėl imties

netobulumo). Požymiai-kiekybiniai (tolydieji, diskretieji) ir kokybiniai. Kokybiniai skirstomi į nominaliuosius (lytis, tautybė, telefonas)

ir ranginius (mokosi klasėje, vieta varžybose). Kiekybiniai būna intervaliniai (temperatūra, laikas, intelekto

koeficientas) ar santykių skalėje (visuomet teigiami-ūgis, svoris, atlyginimas, laikas nuo..).

Page 3: STATISTIKA I dalis

Aprašomoji StatistikaAprašomoji Statistika

Kiekybiniai ir kokybiniai požymiai Dažnių lentelės

Stebėjimas tik į vieną grupę Jų skaičius nemažesnis už 4 ir nedidesnis už 20 Paprastai ilgis vienodas

Dažnių lentelės su STATISTICA Histogramos

Dažnį charakterizuoja ribojama sritis

Page 4: STATISTIKA I dalis

Grafinis duomenų vaizdavimas

Diagramų tipai Stulpelinės Skritulinės Linijinės Sklaidos Kombinuotos

Diagramų vaizdavimas su STATISTICA ir EXCEL

Page 5: STATISTIKA I dalis

Skaitinės duomenų charakteristikos

Padėties Aritmetinis vidurkis, Mediana, Moda, Kvartiliai

(percentiliai)

Sklaidos Plotis, Absoliutinis nuokrypis, Dispersija, Skewness

(simetriškumui įvertinti), Kurtosis (smailiaviršūniškumui) kuo arčiau 0 tuo simetriškiau, atitinkamai tuo panašiau į normalinį pasiskirstymą. Pvz

3

3

)2()1(

)(

nn

xxnSkewness i

i

Page 6: STATISTIKA I dalis

Svarbiausi tikimybiniai skirstiniai

Imtis kaip atsitiktinis dydis Imties statistikos sąvoka:

n

XX

n

ii

1

Diskrečiųjų ir tolydinių a.d. samprata. Pasiskirstymo ir tankio funkcijos.

Page 7: STATISTIKA I dalis

Diskretieji skirstiniai

Binominis skirstinys-sėkmių sk. iš n band.knkk

n ppCkXP )1()( Geometrinis-band. sk. iki pirmos sėkmės

(pvz. minučių eilėje skaičius).

pXppkXP k 1

,)1()( 1

Puasono-įvykių sk. fiks. situacijoje (klaidų psl., riešutų bandelėje, e-mail’ų per parą).

Xek

kXPk

,!

)(

Page 8: STATISTIKA I dalis

Tolydieji skirstiniai Tolygusis skirstinys int. [a,b]. Eksponentinis. .0,0,)(

xxexf

2

2

2

2)(

2

1)(

x

exf

)1,0(,... 22

2

2

1

2 NXkurXXX in

n

Xt

n

n 2

n

mF

n

mnm 2

2

,

abxf

1)(

Normalusis.

2 skirstinys.

Stjudento t skirstinys.

Fišerio skirstinys

Page 9: STATISTIKA I dalis

Taškiniai parametrų įverčiai Imties statistika Q* naudojama populiacijos nežinomam

parametrui Q įvertinti, vadinama Q taškiniu įvertinimu. Parametras Q tai nežinomas skaičius Parametro įvertis (statistika) Q* yra atsitiktinis dydis Jo realizacija – skaičius randamas iš konkrečios imties.

Įverčiai būna: Suderinti t.y. kiekvienam >0, P(|Q*-Q|> )0, kai n . Nepaslinkti t.y. MQ*=0 Q*

1 efektyvesnis už Q*2, jei D Q*

1 <D Q*2.

Vidurkiui įvertinti naudojam , o dispersijai

n

XX

n

ii

1

1

)(1

2

2

n

XXS

n

ii

Page 10: STATISTIKA I dalis

Intervaliniai įverčiai Nežinomo parametro Q pasikliautinu intervalu su

patikimumu p, vadiname intervalą [Q*1,Q*2], tokį kad P(Q*1<Q< Q*2)=p.

Jei -žinomas, tai vidurkio pasikl.int. su patikimumu 1- vadiname intervalą: , kur z/2 – N(0,1), 1-/2 lygmens kvantilis.

Jei -nežinomas, tai vidurkio pasikl.int. su patikimumu 1- vadiname intervalą: , kur t/2,n-1 – t skirstinio, 1-/2 kvantilis.

Mokėti naudotis Probability calculator ir Statistica priemonėm pasikliautinų intervalų radimui.

Imties tūrio nustatymas

nzx

2/

n

stx

n 1,2

22/ )(v

zn

Page 11: STATISTIKA I dalis

Hipotezių tikrinimas Hipotezė tai teiginys apie populiacijos požymio skirstinį ar jo parametrų

reikšmes, kelių populiacijų sąryšį, skirstinių sutapimą Tikrinama hipotezė vadinama nuline ir žymima H0, jai priešinga-

alternatyvia ir žymima H1.

Galimos dviejų rūšių klaidos: Pirmos rūšies: H0 atmetama kai ji teisinga;

Antros rūšies: H0 priimama kai ji klaidinga. (pvz. teisėjas, dėstytojas)

Tikslas padaryti minimalias abiejų klaidų tikimybes. Tačiau tai neįmanoma ir reikalaujama tik I rūšies klaidos minimalumo.

I rūšies klaidos tikimybė pasirenkama maža (žym. ) ir vadinama kriterijaus reikšmingumo lygmeniu. =P(H0 atmesti | kai H0 teisinga).

Taisyklė pagal kurią iš imties rezultatų darome išvadą apie hipotezės teisingumą ar klaidingumą vadinama statistiniu kriterijumi

Page 12: STATISTIKA I dalis

Kritinė sritis ir kritinė reikšmė Tardami, kad H0-teisinga, sudarome imties rezultatų funkciją

(statistiką) S=S(X1,X2,…,Xn). Paprastai jos skirstinys- vienas iš žinomų. Normalinis, t, F ar chi2.

Hipotezė H0 priimama ar atmetama atsižvelgiant į S realizaciją. Jei S patenka į skaičių aibę R tai hipotezė H0 atmetama, priešingu atveju – priimama. Aibė R vadinama kritine sritimi.

Paprastai R =(-,c) U (d, ). c ir d vadinamos kritinėmis reikšmėmis.

Kritinės reikšmės išreiškiamos atitinkamų skirstinių kvantiliais. lygmens kritinė reikšmė lygi 1- kvantiliui.

=P(S R | H0-teisinga). =0.05,0.01,… 1-antros rūšies klaida = - vadinamas kriterijaus galia. Kuo

didesnis tuo kriterijus galingesnis.

Page 13: STATISTIKA I dalis

Parametriniai kriterijai Tai hipotezės apie populiacijos parametrų reikšmes.

Pvz. Televizijos programa A daugiau žiūrima už B, važinėjantys mašina žmonės daugiau uždirba už nevažinėjančius, akcijos kursas svyruoja ne daugiau kaip 10% nuo nominalios vertės.

Hipotezės tikrinimo kelias:1. Tikimybinio modelio parinkimas- koks matuojamo kint. skirstinys.

2. Hipotezės suformulavimas-paprastai H0 reiškia, kad nėra skirtumo.

3. Statistikos parinkimas-S tokia, kad kai H0-teisinga, ji turi žinomą sk.

4. Reikšmingumo lygmens parinkimas-paprastai =0.05 ar 0.01.

5. Kritinės srities sudarymas-t.y. =P(S R | H0-teisinga).

6. Kriterijaus taikymas-jei realizacija s R , tai H0-atmetame

7. Išvadų formulavimas: sakome H0 atmesti nėra pagrindo,o stebimi skirtumai paaiškinami imties atsitiktinumu.

Page 14: STATISTIKA I dalis

P-reikšmė. t-kriterijus vienai imčiai Jei s yra statistikos S realizacija, tai p-reikšme vadiname: p=P(S s) ,

kai H0-teisinga. Kartais jos vadinamos skirstinio uodegos tikimybėmis arba stebimuoju reikšmingumo lygmeniu.

Jos naudojamos hipotezei priimti ar atmesti.

Tai mažiausias reikšmingumo lygmuo su kuriuo hipotezė gali būti atmesta.

Kitaip sakant-tai p lygi pirmos rūšies klaidos tikimybei arba

Tai tikimybė padaryti klaidą atmetus teisingą hipotezę lygi p.

Pvz., jei p=0.03, tai H0, galime atmesti ir klaidos padarymo tikimybė ne didesnę už 0.03.

Hipotezė apie vidurkio lygybę skaičiui. Tarkime X~N(,2), kur parametrai nežinomi. Norime patikrinti hipotezę H0: =a, čia a-fiksuotas skaičius.

Sudarome statistiką: Kritinė sritis su patikimumu bus:

nS

aXST

/2

),(),( 1,21,2 nn ttR

Page 15: STATISTIKA I dalis

Pavyzdys. t-kriterijus vienai imčiai Norime žinoti ar šiais metais studentai sugaišta kelionei į paskaitas

mažiau laiko nei pernai. Pernai vidurkis buvo 28 min. Iškeliame hipotezę H0:=28. Sudarome imtį iš 200 studentų. Imame =0.98. Randame imties vidurkį 29.5 ir s2=62.4. Paskaičiuojame:

68.2200/4.62

285.29

/2

nS

aXt

Surandame

Kadangi 2.68>2.6 tai hipotezę galime atmesti su reikšmingumo lygmeniu =0.98 ir galime teigti, kad šiemet kelionė pailgėjo.

),6.2()6.2,(),(),( 199,01.0199,01.0 ttR

Surasime p-reikšmę(stebimą reikšmingumo lygmenį):

p=P(t s)=P(t 2.68)=0.0079 Tai radome su Probability calculator.Reiškia, jei atmesime H0, galime padaryti klaidą su tikimybe 0.0079. Taigi atmesti turime rimtą pagrindą.

Page 16: STATISTIKA I dalis

Hipotezės dviems imtims.t kriterijus neprikl. imtims. Tiriami 2 populiacijų parametrų skirtumai. Ar yra tokie skirtumai

nustatoma lyginant atitinkamų imčių statistikų skirtumus. Pavyzdžiui: Ar 2 grupių studentai vienodai išlaikė egzaminą Ar skirtingi akumuliatoriai tarnauja tiek pat laiko Ar vyrų ir moterų intelekto koeficientas vienodas Ar skiriasi dviejų televizijų reitingai.

Lyginsime 2 populiacijų požymių vidurkius. Ir tikrinsime hipotezę H0 apie

vidurkių lygybę. Tam naudojamas Stjudento t kriterijus. Tiriami požymiai N(a,2) Dvi nepriklausomos imtys tūrio n ir m. H0-vidurkiai sutampa. t kriterijaus

statistika:

mn

mnmn

smsn

yxt

yx

)2(

)1()1( 22

Turi t skirstinį su n+m-2 df. ),(),( 2,22,2 mnmn ttR

Page 17: STATISTIKA I dalis

T kriterijaus pavyzdys. Norime nustatyti ar besidraudžiančių gyvybę žmonių vidutinės pajamos

didesnės nei nesidraudžiančių. Apklausėm n=40 apsidraudusių ir m=50 nesidraudusių žmonių. Gavome:

300;2900;200;3050 yx sysx

715.25040

)25040(5040

300)150(200)140(

2900305022

t

),28.2()28.2,(05.0 R

Kadangi tR0.05 tai H0 galime atmesti su patikimumu =0.05.

P-reikšmė būtų p=P(t s)=P(t 2.715)=0.008

Surasti p-reikšmę ir su Statistica.

Page 18: STATISTIKA I dalis

t-kriterijus priklausomoms imtims Pavyzdžiai: dietos efektyvumas, IQ priklausomybė nuo paros laiko,

kvalifikacijos kėlimas padidina našumą t.y. stebima 2 kartus ta pati imtis. Lyginsime 2 priklausomų imčių vidurkius. Ir tikrinsime hipotezę H0 apie vidurkių

lygybę. Tam naudojamas Stjudento t kriterijus priklausomoms imtims. Tiriamas požymis pasiskirstęs pagal N(a,2)

Imties tūris n. H0-vidurkiai sutampa. t kriterijaus statistika:

ns

yxt

yx /2

turi t skirstinį su n-1 df; ),(),( 1,21,2 nn ttR

Uždavinys: ar staklių patobulinimai duoda naudos. Eksperimentas su 12 darbininkų.

65.51213.10

5.16.13.10;5.16;12 tTaigisyxn yx

),2.2()2.2,(05.0 R tai H0 galime atmesti su patikimumu =0.05.

P-reikšmė būtų p=P(t s)=P(t 5.65)=0.000149. Išspr. su Statistica.

Page 19: STATISTIKA I dalis

2 suderinamumo kriterijus I Jis naudojamas hipotezėms apie kintamojo skirstinį populiacijoje tikrinti. Ar

teorinio ir empirinio skirstinių skirtumas yra reikšmingas? Pagal šį kriterijų lyginami stebimi dažniai su teoriniais, jei H0 teisinga.

Sakykime stebime diskretųjį skirstinį.

1. Imties tūris n.

2. Hipotezė: H0: p1=p01,… pk=p0k

3. Statistika

Reišmės x1 x2 … xk

Dažnis d1 d2 … dk

k

i i

ii

pn

pnd

1 0

202 )(

turės 2 skirstinį su k-1 laisvės laipsniu.

4. Hipotezę priimsim su reikšm. lygmeniu , jei 2

1,2

kPavyzdys: 100 žmonių atsakė į klausimą kuri maisto parduotuvė geriausia:

Reišmės IKI VP ŠILAS RIMI VIKONDA

Dažnis 27 26 22 11 14

Page 20: STATISTIKA I dalis

2 suderinamumo kriterijus II

Nonparametrics modulis

Page 21: STATISTIKA I dalis

2 normališkumui tikrinti 2 dažnai taikomas tikrinti hipotezę ar stebimas požymis turi normalųjį

skirstinį. H0: X~N(,2) Kriterijaus statistika: , kur o i-stebimi

intervaliniai dažniai, ei-tikėtini int. dažniai. Ji turi 2 skirstinį su k-3 df. df skaičiuojamas nuo intervalų ,kuriuose reikšmių >5. Imsime pavyzdį su X-laikas sugaištamas kelionei į paskaitą.

k

i i

ii

e

eo

1

22 )(

Page 22: STATISTIKA I dalis

Požymių neprikl. tikrinimas I Pvz. Ar TV kanalo pasirinkimas priklauso nuo lyties, ar avarijų skaičius-

nuo paros meto, ar nusikalstamumas –nuo bedarbystės lygio, ar prielankumas partijai – nuo gyvenimo vietos ir t.t. Dažniausiai kokybiniams kintamiesiems. Kiekybinių priklausomumą apsprendžia koreliacijos koeficientas.

Tarkime turime kintamųjų porą (X,Y) ir stebėjimų imtį (x1,y1), (x2,y2),… (xn,yn). Duomenis užrašomi porine dažnių lentele:

Reišmės y1 y2… ys

x1d11 d12 … d1s n1s

x2d21 d22 … d2s n2s

… … … … … …

xrdr1 dr2 … drs nrs

nr1 nr2 … nrs n

Page 23: STATISTIKA I dalis

Požymių neprikl. tikrinimas II. Požymio homogeniškumas. Kintamieji nepriklausomi, jei pij = P(X=xi,Y=yj) = P(X=xi) P(Y=yj)=pi*pj

Todėl H0: pij = pi*pj

Kriterijus

L

LG

nnn

nnnDr

i

s

j isir

isirij2

1 1

22 )(

/

)/(

Jis turi 2 pasiskirstymą su (r-1)(s-1) laisvės laipsnių.

Analogiškai tikrinimas ir požymio homogeniškumas. Pvz. Ar rūkančių vyrų ir moterų procentas toks pat, ar įvairių tautybių išsilavinimas vienodas, ar kaimo ir miesto gyventojų partiniai įsitikinimai vienodi ir t.t.

Skirtumai: Požymių nepriklausomumas taikomas kai stebima kintamųjų pora vienoje populiacijoje, o Homogeniškumas, kai stebimas tas pats kintamasis keliose populiacijose.

2 taikomas kai n>30, ir dažnis >5

Page 24: STATISTIKA I dalis

2 kriterijaus taikymo pavyzdys H0: Televizijų pasirinkimas nepriklauso nuo to ar žmogus

gyvena Vilniuje ar Kaune. (nepriklausomumas) H0:Vilniečių ir kauniečių žiūrimos TV pasirinkimas yra toks

pat (homogeniškumas). Tikėtinas 12=746*588/2072=211.7

Page 25: STATISTIKA I dalis

Dvireikšmių požymių dažniai Dažnai stebima kintamųjų pora, kurią užrašome 2x2 matrica. Tiriamas

požymio homogeniškumas 2 populiacijose. Pvz. Ar gripu serga (požymis) dažniau vyrai (I pop.) ar moterys (II pop.), ar aerobiką daugiau lanko nutukę ar normalūs žmonės, ar geriau mokosi aukštojoje buvę ir mokykloje pirmūnais ar vidutiniokais.

Jei stebėjimų nedaug tam taikomas tikslus Fišerio kriterijus, kitais atvejais 2. Sakykim 2 kriterijus su Jeitso tolydumo pataisa bus toks:

Vyras Moteris Viso

Serga a b r1

Sveikas c d r2

Viso s1 s2 n

2121

)21( 2

2

rrss

nnbcad

Jis turi 2 skirstinį su 1 df.

Statistica – crostabulations, tables ir banners.

Page 26: STATISTIKA I dalis

Pavyzdys dvireikšmių požymių Ar gripu serga daugiau vyrai ar moterys. H0-vienodai.

(Nonparametrics arba crosstabulation)

Priklausomiems kintamiesiems (prieš bandymą ir po)

Page 27: STATISTIKA I dalis

Kategorinių duomenų ryšio matai Kai turime du kategorinius požymius dažnai domina ir jų

tarpusavio ryšio stiprumas. Kuo mato reikšmė didesnė tuo ryšys stipresnis.Koeficientas phi:

2121

)( 22

rrss

nbcad

kurn

,2

Julo asociacijos: bcad

bcadQ

Kontingencijos: n

C

2

2

Yra ir kitų. Kramero, Gama, sąlyginis prognozės indeksas

Page 28: STATISTIKA I dalis

Dispersinė analizė arba F kriterijus Angliškai ANOVA. Jis naudojamas dviejų ar daugiau populiacijų

vidurkių lyginimui. Kai lyginame 2, F kriterijus sutampa su t-kriterijumi. Pvz. Ar skirtingų firmų gaminami kamuoliai turi tą patį svorį, ar yra

vidutinio atlyginimo skirtumai skirtingose pramonės šakose, ar skirtingų gamintojų akumuliatoriai vienodai ilgai tarnauja.

Paprastai reikalaujama, kad požymis būtų normaliai pasiskirstęs ir turėtų tą pačią dispersiją.

Nagrinėjant siekiama išsiaiškinti kaip stebimą dydį veikia įvairūs faktoriai nuo kurių jis priklauso. Svorį-firma gamintoja, atlyginimą-priklausomumas pramonės šakai.

Kai stengiamasi nustatyti ar yra priklausomybė nuo vieno faktoriaus turime taip vadinamą vieno faktoriaus metodą. Jei nagrinėjama požymio priklausomybė nuo 2 faktorių – dviejų faktorių metodą.

Page 29: STATISTIKA I dalis

Vieno faktoriaus metodas I Spręsime uždavinį ar skiriasi 3 firmų krepšinio kamuolių vidutinis svoris.

Iškelsime hipotezę H0: nesiskiria

Kamuolių svoris gramais Vidurkis

A 610 635 580 701 640 632 633

B 595 614 550 602 633 612 601

C 527 621 564 598 601 593 584 Dispersinės analizės idėja-padalinti nuokrypius nuo bendro vidurkio į

keletą dalių, kiekvienai priskiriant savą variacijos šaltinį. Mūsų atveju nuokrypius sąlygoja Skirtumai tarp atskirų firmų gaminamų kamuolių svorių(pagrindinis

faktorius)-sisteminis nuokrypis. Skirtumai tarp tos pačios firmos produkcijos (triukšmas).

Mums reikia mokėti atskirti triukšmą nuo sisteminių nuokrypių. Hipotezė bus atmetama, kai triukšmo įtaka bus nežymi palyginus su sisteminiu nuokrypiu.

Page 30: STATISTIKA I dalis

Vieno faktoriaus metodas II Bendras vidurkis 606 gr. Nuokrypiai nuo bendro vidurkio:

Nuokrypiai nuo bendro vidurkio

A 4 29 -26 95 34 26

B -11 8 -56 -4 27 6

C -79 15 -42 -8 -5 -13

PNKS=42+…+132=24980

Sisteminiai nuokrypiai(633-606=27)SNKS=6*(272+52+222)=7428Kadangi PNKS=SNKS+TNKS,tai 24980=7428+17552. Dydžiai PNKS, SNKS ir TNKS turi 2 skirstinį su

17=2+15 laisvės laipsnių. F kriterijaus statistika apibrėžiama taip:

Sisteminiai nuokrypiai

A 27 27 27 27 27 27

B -5 -5 -5 -5 -5 -5

C -22 -22 -22 -22 -22 -22

TNKSn

SNKSmDS1

1

Ir turi Fišerio pasiskirstymą su m ir n df. Mūsų atveju DS=7428*(1/2)/17552*(1/15)=3.17, o P(DS>3.17)=0.071 ir neturime pagrindo atmesti H0.

Page 31: STATISTIKA I dalis

F kriterijus su Statistica

Page 32: STATISTIKA I dalis

F kriterijus dviejų faktorių uždav. Pridedame dar vieną faktorių. Tarkime, kad po tris kiekvienos firmos

kamuolius buvo jau dėvėti. Dabar turime jau 4 nuokrypių šaltinius: Skirtumai tarp firmų kamuolių (pirmas faktorius); Skirtumai tarp naudotų ir ne (antras faktorius); Skirtumai dėl pirmųjų sąveikos; Skirtumai tarp pačios firmos produkcijos (triukšmas).