Upload
ppnyt
View
1.158
Download
1
Embed Size (px)
Citation preview
TAIKOMOJI STATISTIKATAIKOMOJI STATISTIKA
StatistikaStatistika –tai mokslas apie duomenų rinkimą vaizdavimą ir analizę
Literatūra: V.Sakalauskas. Duomenų analizė su STATISTICA
Kitos Statistinės programos:SPSSStatgraphicsSysStatS-PlusSigmaStat
Duomenų rinkimasDuomenų rinkimas Populiacija- tai tiriamų objektų aibė. Imtis-populiacijos dalis naudojama
tyrimams. Imtys būna: netikimybinės-ekspertinė, kvotinė, proginė ir tikimybinės-
sisteminė, sluoksninė, lizdinė, paprastoji atsitiktinė. Tyrimai, apklausos, eksperimentai. Populiacijos dydis. Ištisinis ir pasirinktinis tyrimai Imties reprezentatyvumas. Atsitiktinė (nuo imties kitimo) ir sisteminė paklaida (dėl imties
netobulumo). Požymiai-kiekybiniai (tolydieji, diskretieji) ir kokybiniai. Kokybiniai skirstomi į nominaliuosius (lytis, tautybė, telefonas)
ir ranginius (mokosi klasėje, vieta varžybose). Kiekybiniai būna intervaliniai (temperatūra, laikas, intelekto
koeficientas) ar santykių skalėje (visuomet teigiami-ūgis, svoris, atlyginimas, laikas nuo..).
Aprašomoji StatistikaAprašomoji Statistika
Kiekybiniai ir kokybiniai požymiai Dažnių lentelės
Stebėjimas tik į vieną grupę Jų skaičius nemažesnis už 4 ir nedidesnis už 20 Paprastai ilgis vienodas
Dažnių lentelės su STATISTICA Histogramos
Dažnį charakterizuoja ribojama sritis
Grafinis duomenų vaizdavimas
Diagramų tipai Stulpelinės Skritulinės Linijinės Sklaidos Kombinuotos
Diagramų vaizdavimas su STATISTICA ir EXCEL
Skaitinės duomenų charakteristikos
Padėties Aritmetinis vidurkis, Mediana, Moda, Kvartiliai
(percentiliai)
Sklaidos Plotis, Absoliutinis nuokrypis, Dispersija, Skewness
(simetriškumui įvertinti), Kurtosis (smailiaviršūniškumui) kuo arčiau 0 tuo simetriškiau, atitinkamai tuo panašiau į normalinį pasiskirstymą. Pvz
3
3
)2()1(
)(
nn
xxnSkewness i
i
Svarbiausi tikimybiniai skirstiniai
Imtis kaip atsitiktinis dydis Imties statistikos sąvoka:
n
XX
n
ii
1
Diskrečiųjų ir tolydinių a.d. samprata. Pasiskirstymo ir tankio funkcijos.
Diskretieji skirstiniai
Binominis skirstinys-sėkmių sk. iš n band.knkk
n ppCkXP )1()( Geometrinis-band. sk. iki pirmos sėkmės
(pvz. minučių eilėje skaičius).
pXppkXP k 1
,)1()( 1
Puasono-įvykių sk. fiks. situacijoje (klaidų psl., riešutų bandelėje, e-mail’ų per parą).
Xek
kXPk
,!
)(
Tolydieji skirstiniai Tolygusis skirstinys int. [a,b]. Eksponentinis. .0,0,)(
xxexf
2
2
2
2)(
2
1)(
x
exf
)1,0(,... 22
2
2
1
2 NXkurXXX in
n
Xt
n
n 2
n
mF
n
mnm 2
2
,
abxf
1)(
Normalusis.
2 skirstinys.
Stjudento t skirstinys.
Fišerio skirstinys
Taškiniai parametrų įverčiai Imties statistika Q* naudojama populiacijos nežinomam
parametrui Q įvertinti, vadinama Q taškiniu įvertinimu. Parametras Q tai nežinomas skaičius Parametro įvertis (statistika) Q* yra atsitiktinis dydis Jo realizacija – skaičius randamas iš konkrečios imties.
Įverčiai būna: Suderinti t.y. kiekvienam >0, P(|Q*-Q|> )0, kai n . Nepaslinkti t.y. MQ*=0 Q*
1 efektyvesnis už Q*2, jei D Q*
1 <D Q*2.
Vidurkiui įvertinti naudojam , o dispersijai
n
XX
n
ii
1
1
)(1
2
2
n
XXS
n
ii
Intervaliniai įverčiai Nežinomo parametro Q pasikliautinu intervalu su
patikimumu p, vadiname intervalą [Q*1,Q*2], tokį kad P(Q*1<Q< Q*2)=p.
Jei -žinomas, tai vidurkio pasikl.int. su patikimumu 1- vadiname intervalą: , kur z/2 – N(0,1), 1-/2 lygmens kvantilis.
Jei -nežinomas, tai vidurkio pasikl.int. su patikimumu 1- vadiname intervalą: , kur t/2,n-1 – t skirstinio, 1-/2 kvantilis.
Mokėti naudotis Probability calculator ir Statistica priemonėm pasikliautinų intervalų radimui.
Imties tūrio nustatymas
nzx
2/
n
stx
n 1,2
22/ )(v
zn
Hipotezių tikrinimas Hipotezė tai teiginys apie populiacijos požymio skirstinį ar jo parametrų
reikšmes, kelių populiacijų sąryšį, skirstinių sutapimą Tikrinama hipotezė vadinama nuline ir žymima H0, jai priešinga-
alternatyvia ir žymima H1.
Galimos dviejų rūšių klaidos: Pirmos rūšies: H0 atmetama kai ji teisinga;
Antros rūšies: H0 priimama kai ji klaidinga. (pvz. teisėjas, dėstytojas)
Tikslas padaryti minimalias abiejų klaidų tikimybes. Tačiau tai neįmanoma ir reikalaujama tik I rūšies klaidos minimalumo.
I rūšies klaidos tikimybė pasirenkama maža (žym. ) ir vadinama kriterijaus reikšmingumo lygmeniu. =P(H0 atmesti | kai H0 teisinga).
Taisyklė pagal kurią iš imties rezultatų darome išvadą apie hipotezės teisingumą ar klaidingumą vadinama statistiniu kriterijumi
Kritinė sritis ir kritinė reikšmė Tardami, kad H0-teisinga, sudarome imties rezultatų funkciją
(statistiką) S=S(X1,X2,…,Xn). Paprastai jos skirstinys- vienas iš žinomų. Normalinis, t, F ar chi2.
Hipotezė H0 priimama ar atmetama atsižvelgiant į S realizaciją. Jei S patenka į skaičių aibę R tai hipotezė H0 atmetama, priešingu atveju – priimama. Aibė R vadinama kritine sritimi.
Paprastai R =(-,c) U (d, ). c ir d vadinamos kritinėmis reikšmėmis.
Kritinės reikšmės išreiškiamos atitinkamų skirstinių kvantiliais. lygmens kritinė reikšmė lygi 1- kvantiliui.
=P(S R | H0-teisinga). =0.05,0.01,… 1-antros rūšies klaida = - vadinamas kriterijaus galia. Kuo
didesnis tuo kriterijus galingesnis.
Parametriniai kriterijai Tai hipotezės apie populiacijos parametrų reikšmes.
Pvz. Televizijos programa A daugiau žiūrima už B, važinėjantys mašina žmonės daugiau uždirba už nevažinėjančius, akcijos kursas svyruoja ne daugiau kaip 10% nuo nominalios vertės.
Hipotezės tikrinimo kelias:1. Tikimybinio modelio parinkimas- koks matuojamo kint. skirstinys.
2. Hipotezės suformulavimas-paprastai H0 reiškia, kad nėra skirtumo.
3. Statistikos parinkimas-S tokia, kad kai H0-teisinga, ji turi žinomą sk.
4. Reikšmingumo lygmens parinkimas-paprastai =0.05 ar 0.01.
5. Kritinės srities sudarymas-t.y. =P(S R | H0-teisinga).
6. Kriterijaus taikymas-jei realizacija s R , tai H0-atmetame
7. Išvadų formulavimas: sakome H0 atmesti nėra pagrindo,o stebimi skirtumai paaiškinami imties atsitiktinumu.
P-reikšmė. t-kriterijus vienai imčiai Jei s yra statistikos S realizacija, tai p-reikšme vadiname: p=P(S s) ,
kai H0-teisinga. Kartais jos vadinamos skirstinio uodegos tikimybėmis arba stebimuoju reikšmingumo lygmeniu.
Jos naudojamos hipotezei priimti ar atmesti.
Tai mažiausias reikšmingumo lygmuo su kuriuo hipotezė gali būti atmesta.
Kitaip sakant-tai p lygi pirmos rūšies klaidos tikimybei arba
Tai tikimybė padaryti klaidą atmetus teisingą hipotezę lygi p.
Pvz., jei p=0.03, tai H0, galime atmesti ir klaidos padarymo tikimybė ne didesnę už 0.03.
Hipotezė apie vidurkio lygybę skaičiui. Tarkime X~N(,2), kur parametrai nežinomi. Norime patikrinti hipotezę H0: =a, čia a-fiksuotas skaičius.
Sudarome statistiką: Kritinė sritis su patikimumu bus:
nS
aXST
/2
),(),( 1,21,2 nn ttR
Pavyzdys. t-kriterijus vienai imčiai Norime žinoti ar šiais metais studentai sugaišta kelionei į paskaitas
mažiau laiko nei pernai. Pernai vidurkis buvo 28 min. Iškeliame hipotezę H0:=28. Sudarome imtį iš 200 studentų. Imame =0.98. Randame imties vidurkį 29.5 ir s2=62.4. Paskaičiuojame:
68.2200/4.62
285.29
/2
nS
aXt
Surandame
Kadangi 2.68>2.6 tai hipotezę galime atmesti su reikšmingumo lygmeniu =0.98 ir galime teigti, kad šiemet kelionė pailgėjo.
),6.2()6.2,(),(),( 199,01.0199,01.0 ttR
Surasime p-reikšmę(stebimą reikšmingumo lygmenį):
p=P(t s)=P(t 2.68)=0.0079 Tai radome su Probability calculator.Reiškia, jei atmesime H0, galime padaryti klaidą su tikimybe 0.0079. Taigi atmesti turime rimtą pagrindą.
Hipotezės dviems imtims.t kriterijus neprikl. imtims. Tiriami 2 populiacijų parametrų skirtumai. Ar yra tokie skirtumai
nustatoma lyginant atitinkamų imčių statistikų skirtumus. Pavyzdžiui: Ar 2 grupių studentai vienodai išlaikė egzaminą Ar skirtingi akumuliatoriai tarnauja tiek pat laiko Ar vyrų ir moterų intelekto koeficientas vienodas Ar skiriasi dviejų televizijų reitingai.
Lyginsime 2 populiacijų požymių vidurkius. Ir tikrinsime hipotezę H0 apie
vidurkių lygybę. Tam naudojamas Stjudento t kriterijus. Tiriami požymiai N(a,2) Dvi nepriklausomos imtys tūrio n ir m. H0-vidurkiai sutampa. t kriterijaus
statistika:
mn
mnmn
smsn
yxt
yx
)2(
)1()1( 22
Turi t skirstinį su n+m-2 df. ),(),( 2,22,2 mnmn ttR
T kriterijaus pavyzdys. Norime nustatyti ar besidraudžiančių gyvybę žmonių vidutinės pajamos
didesnės nei nesidraudžiančių. Apklausėm n=40 apsidraudusių ir m=50 nesidraudusių žmonių. Gavome:
300;2900;200;3050 yx sysx
715.25040
)25040(5040
300)150(200)140(
2900305022
t
),28.2()28.2,(05.0 R
Kadangi tR0.05 tai H0 galime atmesti su patikimumu =0.05.
P-reikšmė būtų p=P(t s)=P(t 2.715)=0.008
Surasti p-reikšmę ir su Statistica.
t-kriterijus priklausomoms imtims Pavyzdžiai: dietos efektyvumas, IQ priklausomybė nuo paros laiko,
kvalifikacijos kėlimas padidina našumą t.y. stebima 2 kartus ta pati imtis. Lyginsime 2 priklausomų imčių vidurkius. Ir tikrinsime hipotezę H0 apie vidurkių
lygybę. Tam naudojamas Stjudento t kriterijus priklausomoms imtims. Tiriamas požymis pasiskirstęs pagal N(a,2)
Imties tūris n. H0-vidurkiai sutampa. t kriterijaus statistika:
ns
yxt
yx /2
turi t skirstinį su n-1 df; ),(),( 1,21,2 nn ttR
Uždavinys: ar staklių patobulinimai duoda naudos. Eksperimentas su 12 darbininkų.
65.51213.10
5.16.13.10;5.16;12 tTaigisyxn yx
),2.2()2.2,(05.0 R tai H0 galime atmesti su patikimumu =0.05.
P-reikšmė būtų p=P(t s)=P(t 5.65)=0.000149. Išspr. su Statistica.
2 suderinamumo kriterijus I Jis naudojamas hipotezėms apie kintamojo skirstinį populiacijoje tikrinti. Ar
teorinio ir empirinio skirstinių skirtumas yra reikšmingas? Pagal šį kriterijų lyginami stebimi dažniai su teoriniais, jei H0 teisinga.
Sakykime stebime diskretųjį skirstinį.
1. Imties tūris n.
2. Hipotezė: H0: p1=p01,… pk=p0k
3. Statistika
Reišmės x1 x2 … xk
Dažnis d1 d2 … dk
k
i i
ii
pn
pnd
1 0
202 )(
turės 2 skirstinį su k-1 laisvės laipsniu.
4. Hipotezę priimsim su reikšm. lygmeniu , jei 2
1,2
kPavyzdys: 100 žmonių atsakė į klausimą kuri maisto parduotuvė geriausia:
Reišmės IKI VP ŠILAS RIMI VIKONDA
Dažnis 27 26 22 11 14
2 suderinamumo kriterijus II
Nonparametrics modulis
2 normališkumui tikrinti 2 dažnai taikomas tikrinti hipotezę ar stebimas požymis turi normalųjį
skirstinį. H0: X~N(,2) Kriterijaus statistika: , kur o i-stebimi
intervaliniai dažniai, ei-tikėtini int. dažniai. Ji turi 2 skirstinį su k-3 df. df skaičiuojamas nuo intervalų ,kuriuose reikšmių >5. Imsime pavyzdį su X-laikas sugaištamas kelionei į paskaitą.
k
i i
ii
e
eo
1
22 )(
Požymių neprikl. tikrinimas I Pvz. Ar TV kanalo pasirinkimas priklauso nuo lyties, ar avarijų skaičius-
nuo paros meto, ar nusikalstamumas –nuo bedarbystės lygio, ar prielankumas partijai – nuo gyvenimo vietos ir t.t. Dažniausiai kokybiniams kintamiesiems. Kiekybinių priklausomumą apsprendžia koreliacijos koeficientas.
Tarkime turime kintamųjų porą (X,Y) ir stebėjimų imtį (x1,y1), (x2,y2),… (xn,yn). Duomenis užrašomi porine dažnių lentele:
Reišmės y1 y2… ys
x1d11 d12 … d1s n1s
x2d21 d22 … d2s n2s
… … … … … …
xrdr1 dr2 … drs nrs
nr1 nr2 … nrs n
Požymių neprikl. tikrinimas II. Požymio homogeniškumas. Kintamieji nepriklausomi, jei pij = P(X=xi,Y=yj) = P(X=xi) P(Y=yj)=pi*pj
Todėl H0: pij = pi*pj
Kriterijus
L
LG
nnn
nnnDr
i
s
j isir
isirij2
1 1
22 )(
/
)/(
Jis turi 2 pasiskirstymą su (r-1)(s-1) laisvės laipsnių.
Analogiškai tikrinimas ir požymio homogeniškumas. Pvz. Ar rūkančių vyrų ir moterų procentas toks pat, ar įvairių tautybių išsilavinimas vienodas, ar kaimo ir miesto gyventojų partiniai įsitikinimai vienodi ir t.t.
Skirtumai: Požymių nepriklausomumas taikomas kai stebima kintamųjų pora vienoje populiacijoje, o Homogeniškumas, kai stebimas tas pats kintamasis keliose populiacijose.
2 taikomas kai n>30, ir dažnis >5
2 kriterijaus taikymo pavyzdys H0: Televizijų pasirinkimas nepriklauso nuo to ar žmogus
gyvena Vilniuje ar Kaune. (nepriklausomumas) H0:Vilniečių ir kauniečių žiūrimos TV pasirinkimas yra toks
pat (homogeniškumas). Tikėtinas 12=746*588/2072=211.7
Dvireikšmių požymių dažniai Dažnai stebima kintamųjų pora, kurią užrašome 2x2 matrica. Tiriamas
požymio homogeniškumas 2 populiacijose. Pvz. Ar gripu serga (požymis) dažniau vyrai (I pop.) ar moterys (II pop.), ar aerobiką daugiau lanko nutukę ar normalūs žmonės, ar geriau mokosi aukštojoje buvę ir mokykloje pirmūnais ar vidutiniokais.
Jei stebėjimų nedaug tam taikomas tikslus Fišerio kriterijus, kitais atvejais 2. Sakykim 2 kriterijus su Jeitso tolydumo pataisa bus toks:
Vyras Moteris Viso
Serga a b r1
Sveikas c d r2
Viso s1 s2 n
2121
)21( 2
2
rrss
nnbcad
Jis turi 2 skirstinį su 1 df.
Statistica – crostabulations, tables ir banners.
Pavyzdys dvireikšmių požymių Ar gripu serga daugiau vyrai ar moterys. H0-vienodai.
(Nonparametrics arba crosstabulation)
Priklausomiems kintamiesiems (prieš bandymą ir po)
Kategorinių duomenų ryšio matai Kai turime du kategorinius požymius dažnai domina ir jų
tarpusavio ryšio stiprumas. Kuo mato reikšmė didesnė tuo ryšys stipresnis.Koeficientas phi:
2121
)( 22
rrss
nbcad
kurn
,2
Julo asociacijos: bcad
bcadQ
Kontingencijos: n
C
2
2
Yra ir kitų. Kramero, Gama, sąlyginis prognozės indeksas
Dispersinė analizė arba F kriterijus Angliškai ANOVA. Jis naudojamas dviejų ar daugiau populiacijų
vidurkių lyginimui. Kai lyginame 2, F kriterijus sutampa su t-kriterijumi. Pvz. Ar skirtingų firmų gaminami kamuoliai turi tą patį svorį, ar yra
vidutinio atlyginimo skirtumai skirtingose pramonės šakose, ar skirtingų gamintojų akumuliatoriai vienodai ilgai tarnauja.
Paprastai reikalaujama, kad požymis būtų normaliai pasiskirstęs ir turėtų tą pačią dispersiją.
Nagrinėjant siekiama išsiaiškinti kaip stebimą dydį veikia įvairūs faktoriai nuo kurių jis priklauso. Svorį-firma gamintoja, atlyginimą-priklausomumas pramonės šakai.
Kai stengiamasi nustatyti ar yra priklausomybė nuo vieno faktoriaus turime taip vadinamą vieno faktoriaus metodą. Jei nagrinėjama požymio priklausomybė nuo 2 faktorių – dviejų faktorių metodą.
Vieno faktoriaus metodas I Spręsime uždavinį ar skiriasi 3 firmų krepšinio kamuolių vidutinis svoris.
Iškelsime hipotezę H0: nesiskiria
Kamuolių svoris gramais Vidurkis
A 610 635 580 701 640 632 633
B 595 614 550 602 633 612 601
C 527 621 564 598 601 593 584 Dispersinės analizės idėja-padalinti nuokrypius nuo bendro vidurkio į
keletą dalių, kiekvienai priskiriant savą variacijos šaltinį. Mūsų atveju nuokrypius sąlygoja Skirtumai tarp atskirų firmų gaminamų kamuolių svorių(pagrindinis
faktorius)-sisteminis nuokrypis. Skirtumai tarp tos pačios firmos produkcijos (triukšmas).
Mums reikia mokėti atskirti triukšmą nuo sisteminių nuokrypių. Hipotezė bus atmetama, kai triukšmo įtaka bus nežymi palyginus su sisteminiu nuokrypiu.
Vieno faktoriaus metodas II Bendras vidurkis 606 gr. Nuokrypiai nuo bendro vidurkio:
Nuokrypiai nuo bendro vidurkio
A 4 29 -26 95 34 26
B -11 8 -56 -4 27 6
C -79 15 -42 -8 -5 -13
PNKS=42+…+132=24980
Sisteminiai nuokrypiai(633-606=27)SNKS=6*(272+52+222)=7428Kadangi PNKS=SNKS+TNKS,tai 24980=7428+17552. Dydžiai PNKS, SNKS ir TNKS turi 2 skirstinį su
17=2+15 laisvės laipsnių. F kriterijaus statistika apibrėžiama taip:
Sisteminiai nuokrypiai
A 27 27 27 27 27 27
B -5 -5 -5 -5 -5 -5
C -22 -22 -22 -22 -22 -22
TNKSn
SNKSmDS1
1
Ir turi Fišerio pasiskirstymą su m ir n df. Mūsų atveju DS=7428*(1/2)/17552*(1/15)=3.17, o P(DS>3.17)=0.071 ir neturime pagrindo atmesti H0.
F kriterijus su Statistica
F kriterijus dviejų faktorių uždav. Pridedame dar vieną faktorių. Tarkime, kad po tris kiekvienos firmos
kamuolius buvo jau dėvėti. Dabar turime jau 4 nuokrypių šaltinius: Skirtumai tarp firmų kamuolių (pirmas faktorius); Skirtumai tarp naudotų ir ne (antras faktorius); Skirtumai dėl pirmųjų sąveikos; Skirtumai tarp pačios firmos produkcijos (triukšmas).