82
Katedra aplikovanej matematiky a ˇ statistiky Fakulta matematiky, fyziky a informatiky Univerzita Komensk´ eho v Bratislave Vybran´ e kapitoly z poˇ ıtaˇ covej ˇ statistiky I aklady matematickej ˇ statistiky a jej aplik´ acie pouˇ zit´ ım programovac´ ıch jazykov R a S elektronick´ studijn´ e materi´ aly Stanislav Katina [email protected] 18/01/2006 Podporen´ e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇ sek ˇ Stulajter, CSc., Mgr. J´ an Somorˇ ık

Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina [email protected] 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

Katedra aplikovanej matematiky a statistikyFakulta matematiky, fyziky a informatiky

Univerzita Komenskeho v Bratislave

Vybrane kapitoly z pocıtacovej statistiky I

Zaklady matematickej statistiky a jej aplikacie pouzitım programovacıchjazykov R a S

elektronicke studijne materialy

Stanislav Katina

[email protected]

18/01/2006

Podporene grantami VEGA 1/0272/03 a 2/3203/24Recenzenti: Doc. RNDr. Frantisek Stulajter, CSc., Mgr. Jan Somorcık

Page 2: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

Obsah

1 Uvodne poznamky 11.1 Objekty a ich typy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Vektory 4

3 Zoradene a nezoradene premenne 73.1 Funkcie ”apply”, ”tapply”, ”sapply” a ”lapply” . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Matice 94.1 Polia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.2 Objekt ”list” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.3 Datove ramce ’’data.frame’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.4 Operacie - vektory, matice, polia, datove ramce . . . . . . . . . . . . . . . . . . . . . . . . 12

5 Zaklady statistickeho uvazovania 14

6 Poznamky ku rozdeleniam pravdepodobnosti nahodnych premennych 176.1 Normalne rozdelenie pravdepodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176.2 Rozdelenia odvodene od normalneho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186.3 Binomicke rozdelenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186.4 Kvantily a kriticke hodnoty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.5 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7 Zakladna (deskriptıvna) statistika 227.1 Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227.2 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

8 Graficka interpretacia vyberoveho suboru 278.1 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

9 Statisticka inferencia 379.1 Statisticka inferencia pre parametre normalneho rozdelenia . . . . . . . . . . . . . . . . . 37

9.1.1 Intervaly spolahlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379.1.2 Testovanie hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409.1.3 Zavisle pozorovania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439.1.4 Vztah IS a testovania hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439.1.5 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

9.2 Statisticka inferencia pre parametre binomickeho rozdelenia . . . . . . . . . . . . . . . . . 469.2.1 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

9.3 Neparametricke dvojvyberove testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489.3.1 Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489.3.2 Mann-Whitney test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

9.4 Neparametricke parove testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.1 Znamienkovy test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.2 Wilcoxonov znamienkovany test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

9.5 Korelacna analyza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519.5.1 Korelacny koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529.5.2 Spearmanov korelacny koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549.5.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9.6 Testovanie normality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Page 3: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9.6.1 Chi-kvadrat test dobrej zhody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569.6.2 Kolmogorov - Smirnovov test dobrej zhody . . . . . . . . . . . . . . . . . . . . . . 579.6.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

10 Linearne regresne modely 6010.1 Jednoduchy linearny regresny model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6010.2 Mnohorozmerny linearny regresny model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

10.2.1 Regresna diagnostika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6710.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

11 Prıklad analyzy dat v R 72

Page 4: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

1 UVODNE POZNAMKY 1

1 Uvodne poznamky

Zakladne informacie o R-ku a S-PLUS:

• http://www.defm.fmph.uniba.sk/~katina/katina.htm (Teaching, Computer Statistics: texty adata)

• standardny balık : http://cran.r-project.org (cesta: Windows (95 and later) → base → R-2.2.1-win32.exe)

• Vanables, W.N., Smith, D.M., 2005: An Introduction to R. Notes on R: A Programing Environmentfor Data Analysis and Graphics. Version 2.2.1 (2005-12-20), zdroj: http://cran.r-project.org(cesta: Documentation → Manuals)

• R kniznice: http://cran.r-project.org (cesta: → Packages (podla potreby))

Zakladne prıkazy:

• default promt: " "

• ukoncenie v R: q()

• default promt ak nie je ukonceny prıkaz - ’’+’’

• nepouzıva sa diakritika !!!

• komentar: hashmark ’’#’’, vsetko do konca riadka je komentar

• historia prıkazov: sıpky hore ↑ a dole ↓

• separacia slov: bodka ’’.’’ (napr. pri priradovanı nazvov ku objektom)

• objekty: su ukladane podla mien - zobrazenie mien existujucich objektov objects() alebo ls();subor objektov sa nazyva workspace a R ho zapisuje do suboru ’’.RData’’, odstranenie objektovrm()

pozn.: treba priradovat mena podla nasledovnych pravidiel - vektory malymi pısmenami, maticevelkymi pısmenami, objektom davat kratke zrozumitelne mena, radsej zacat velkym pısmenom,aby sa neprepısal nazov nejakej funkcie

• separacia prıkazov: bodkociarka ’’;’’ alebo novy riadok (enter)

• odstranenie pısaneho textu: cely riadok - sıpky hore ↑ a dole ↓, cast textu - dell, backspace

• funkcia a jej argumenty: nazov.funkcie(’’character.string’’ ),args(’’nazov.funkcie’’ )

• prıklad a demo: example(topic ), demo(topic ) v R, example.topic(topic ) v S-PLUS

• help - help(name )

• zakladne funkcie a operacie:

- ’’+’’, ’’-’’, ’’*’’, ’’/’’

- ’’<’’, ’’>’’, ’’<=’’, ’’>=’’, ’’==’’... rovnost , ’’!=’’... nerovnost

- sqrt(x), ’’∧’’, abs(x)

Trigonometricke funkcie a ich inverzie:

Page 5: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

1 UVODNE POZNAMKY 2

- sin(x), cos(x), tan(x), asin(x), acos(x), atan(x)

Hyperbolicke funkcie a ich inverzie

- sinh(x), cosh(x), tanh(x), asinh(x), acosh(x), atanh(x)

Exponencialne a logaritmicke funkcie

- exp(number )

- prirodzeny (natural) logaritmus (zaklad e, ln) log(number, base=number ), dekadicky (common)logaritmus log10(number)

- log(100, 10) == log10(100)

Gama funkcia a logaritmus gama funkcie gamma(), lgamma()...loge Γ (x)

- zaokruhlovanie round(number,digits = pocet.miest )

- sign(x)vracia znamienka cısel v podobe 1, 0 alebo −1, ak bocıslo kladne, nula alebo zaporne

- a sucasne (AND) ’’c1 & c2’’

- alebo (OR) ”c1 | c2’’- negacia (NOT) ”! c1’’

- union A ∪B, intersect A ∩B, setdiff A ∩B a is.element x ∈ A

• zakladne prıkazy pri cıtanı dat:

- nacıtanie vlozenych dat data(data.frame )

- priame cıtanie stlpcov attach(data.frame ) alebo nazov.dataframe$nazov.stlpca

- nazvy stlpcov names(data.frame )

- ukoncenie priameho cıtania stlpcov detach(data.frame )

- x < − scan()

# pokial mame malo dat, enter a vkladame cısla s medzerou medzi nimi

# dalsie sposoby cıtania dat - z kniznice v Rkudata(); data.frame()data(package=’’name ’’)data(name,package=’’name ’’)library(name); data(); data(name )# editovanie datxnew edit(xold)xnew edit(data.fram() )

• vlozenie dat: v S-PLUSe (pozri v helpe importData), v Rku read.table(’’cesta a nazovsuboru’’, header=T)

# nikdy nepouzıvame separator v ceste ”\”, ale ”\\” alebo ”/”# volitelne parametre# separaror sep=’’’’, napr. sep=’’/t’’ pre tabulku, sep=’’’’ pre volny priestor (default), alebo

sep = ’’,’’, sep = ’’;’’# hlavicka header=T, bez hlavicky header=F# desatinna bodka alebo ciarka dec = ’’.’’ alebo dec = ’’,’’# nazvy riadkov a stlpcov pouzitım row.names=..., col.names=...NAZOV< −read.table(’’D:/Dokumenty/nazov.txt’’,header=T)

Page 6: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

1 UVODNE POZNAMKY 3

• export grafu a vysledkov v tabulke

# aktıvne okno (GSD2)

export.graph(’’D:\\graph.wmf’’, Name=’’GSD2’’, ExportType = ’’WMF’’)

exportData(meno, ’’D:\\data.xls’’, type=’’EXCEL’’

• desatinna bodka: ’’.’’

• priradovanie: ’’< −’’ alebo ’’ ’’

• instalacia kniznice v R

• volanie kniznice library(name ), library(help = section )

Prıklad 1 prıklady na zakladne funkcie a operacie

sqrt(-5)sqrt(-5+0i))

Prıklad 2 help(sin), example(sin), args(’’sin’’)

Prıklad 3 data(iris), attach(iris), names(iris), detach(iris)

Prıklad 4 data(geyser), attach(geyser), names(geyser)

Prıklad 5 nacıtanie dat do S-PLUS a R

1.1 Objekty a ich typy

Objekty:

• vektor vector

• matica matrix

• pole array

• faktor factor - pre kategorialne data

• mnozina objektov list

• datovy ramec data.frame

• funkcia function

Triedy objektov, class(object ):

• numeric - realne cısla

• integer - cele cısla

• complex - komplexne cısla

• logical - logicky, hodnoty TRUE alebo FALSE

• character, factor - text a premenna

Page 7: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

2 VEKTORY 4

2 Vektory

• vektor: x c(cislo,...,cislo )

• dlzka vektora: length(x)

• sucet a nasobenie clenov vektora: sum(x), prod(x)

• zoradenie clenov vektora (vzostupne a zostupne): sort(x); rev(sort(x))

• priradenie poradia clenom vektora: order(x)

• operacie s vektormi

Prıklad 6 atributy vektora a ich zmeny

z 0:9charz as.character(z)intz as.integer(charz)

# vytvorte numericky vektor e s dlzkou 3 tak, aby prve dva komponenty boli NA a tretı cıslo 17# typ pridavanych komponentov suhlası s typom predhadzajucich komponentove[3] 17length(e)# zmena atributu ”dimenzia” = vytvorte z vektora z maticu s rozmermi 2× 10dim(z) c(2,10)

Prıklad 7 operacie s vektormi

x c(1,3,5)length(x)sum(x)prod(x)sort(x)rev(sort(x))order(x)z c(x,2,x)u 2*x + z + 1v x-1y 1/x

• jednoducha sekvencia vpred a vzad c(1:n), c(n:1)

• zlozitejsia sekvencia e seq(from=value, to=value, by=value, length=value )

• opakovane sekvencie g rep(x,times=value )

Prıklad 8 jednoducha sekvencia vpred a vzad, zlozitejsia sekvencia a opakovane sekvencie

n 5c(1:n)a c(1:n-1)b c(1:(n-1))c(n:1)d c(10:1)e2 seq(from=0, to=1, by=0.01 )e1 seq(from=0, to=1, length=10 )# zopakujte trojku 6x

Page 8: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

2 VEKTORY 5

Logicke vektory:

• mozne hodnoty: TRUE (T,1), FALSE (F,0), NA

• su generovane pouzitım tzv. conditions (podmienky)

Chybajuce hodnoty, nekonecno, cısla a ’necısla’:

• ”not available”, (”missing values”, NA)

• is.na(x) oznacenie, ktore dava logicky vektor dlzky ako x s hodnotami TRUE ak prisluchajucahodnota na danom mieste je NA v x

• ±nekonecno: ”Inf”, resp. ”-Inf”

• ”number”

• ”not a number” NaN ’’0/0’’

• is.na(xx) je TRUE pre NA a aj NaN hodnoty

• is.nan(xx) je TRUE len pre NaN

Prıklad 9 logicke vektory, chybajuce hodnoty, nekonecno, cısla a ’necısla’

x < − 1:20x.do15 x > 15p c(1:5,NA)mv.p is.na(p)bezmv.p p[!is.na(p)]# nekonecno1/0x c(-1,0,1)/0xis.na(x)x > Infnek c(1:5,Inf,-Inf)

Vektory premennych:

• c(’’x1’’,’’x2’’)

• paste(vektor,sep=string )

Indexovane vektory: vector[index.vector ]

• odstranovanie zloziek: x[-CISLO], x[- RETAZEC]

• logicke indexovanie: x[!is.na(x)]

# vyradenie chybajucich hodnot vo vektore

Page 9: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

2 VEKTORY 6

Prıklad 10 vektory premennych, indexovanie

fruit c(4,8,2,9)names(fruit) c(’’banana’’,’’orange’’,’’apple’’,’’peach’’)# vybratie len tych poloziek vo fruit, ktore zodpovedaju prvym dvom nazvom, teda ’’banana’’,

’’orange’’

# c(’’X’’,’’Y’’) su opakovane 5x v sekvencii za sebou a postupne su knim priradovane cısla 1:10,teda c(’’X1’’,’’Y2’’,...,’’X9’’,’’Y10’’)

# vytvorte sekvenciu X1 X2 ... X50

x[3]x[1:10]x1 x[-5]x2 x[-(1:3)]p1 p[!is.na(p)]

# nahradnie chybajucich hodnot v x nulami, teda x[is.na(x)] 0s c(-1,-5, 1:7,NA)# vytvorte objekt f, kde vyradte vo vektore x+1 chybajuce a kladne hodnoty# vytvorte vektor zz1 absolutnych hodnot nejakeho vektora zz zlozeny z nejakych celych cısel,

potom vyberte zo zz len zaporne cleny priradte ich do vektora zz2 a nakoniec vytvorte opacny vektorku vektoru zz a oznacte ho zz3

# co tak cosi zlozitejsie, sekvenciu ”XYYX” 4x

Prıklad 11 vektory

# vytvorte vektor x = (1, 2, 5, 6, 9)# vytvorte vektor y = (3, 1, 2, 5, 6, 9, 10, 1, 2, 5, 6, 9, 2)# vytvorte vektor z, ktory obsahuje len 3. az 7. prvok vektora y# vytvorte vektor z, ktory je odvodeny z vektora y tak, ze ho tvoria len cleny prisluchajuce poradiu

odvodenemu z clenov vektora x# vlozte na tretie, sieste a osme miesto vektora z cıslo 7# vlozte do vektora z na miesta zodpovedajuce druhemu az siestemu clenu vektora y cısla 11, 12, 13, 14,

15# vypıste vektor z

Prıklad 12 funkcia rep

# vytvorte vektor a = (1, 2, 3, 4)# vytvorte vektor b = (2, 2, 2, 2)# vytvorte vektor c = (1, 2, 3, 4, 1, 2, 3, 4)# vytvorte vektor d = (1, 1, 2, 2, 3, 3, 4, 4)# vytvorte vektor e = (1, 2, 2, 3, 3, 3, 4, 4, 4, 4)

Prıklad 13 rep - dalsie

# 8 x jedna, 8 x dva, 8 x tri# vytvorte 3x za sebou sekvenciu cısel 112233

Page 10: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

3 ZORADENE A NEZORADENE PREMENNE 7

3 Zoradene a nezoradene premenne

Faktor je vektorovy objekt pouzıvany na specifikaciu diskretnej klasifikacie komponentov inych vek-torov rovnakej dlzky. Funkcia ordered() zoraduje faktory podla abecedy, casto je identicka ku funkciifactor(), ale nie vzdy.

Prıklad 14 staty

staty c(’’sl’’,’’cz’’,’’po’’,’’ru’’, ’’ukr’’, ’’bi’’,’’sl’’,’’cz’’,’’po’’,’’ru’’,’’ukr’’, ’’bi’’)

statyfak factor(staty)levels(statyfak)attr(statyfak,’’levels’’)attr(statyfak,’’class’’)# frekvencna tabulka pre premenne definovane ako factor (multy-way frequency array)table(statyfak)

Prıklad 15 prıjmy

prijmy ordered(c(’’Mid’’, ’’Hi’’, ’’Lo’’, ’’Mid’’, ’’Lo’’, ’’Hi’’, ’’Lo’’))# abecedne zoradenie, teda to, co nechcemeprijmy# Hi < Lo < Midas.numeric(prijmy)pri ordered(c(’’Mid’’, ’’Hi’’, ’’Lo’’, ’’Mid’’, ’’Lo’’, ’’Hi’’, ’’Lo’’),

levels = c( ’’Lo’’, ’’Mid’’, ’’Hi’’))# to, co skutocne chcemepri# Lo < Mid < Hi

Prıklad 16 geyser, pozri help(geyser)

attach(geyser)names(geyser)# waiting casovy interval medzi erupciami# duration trvanie prıslusnej erupcie# rozdelte duration na 6 skupın a potom priradte cısla 1 az 6 tymto skupinam, teda abz islo o

zoradene faktoryerupt cut(duration,breaks=0:6)erupt ordered(erupt, labels=levels(erupt))# erupt ... 0+ thru 1 < 1+ thru 2 < 2+ thru 3 < 3+ thru 4 < 4+ thru 5 < 5+ thru 6# intervaly su typu (i, i + 1〉, teda 4 minutova erupcia je dana do kategorie 3+ thru 4# co tak ine delenieeruptNEW1 cut(duration,4)eruptNEW2 cut(duration,quantile(duration, c(0,1/3,2/3,1)), include.lowest=T, labels

= c(’’low’’, ’’mid’’, ’’high’’))

3.1 Funkcie ”apply”, ”tapply”, ”sapply” a ”lapply”

• apply(), zvolena funkcia sa aplikuje na obe dimenzie matice (riadky alebo stlpce), alebo jednotlivedimenzie pola

• tapply(), tu ”t” znamena ”table” a pouzıva sa na vypocty v tzv. ”ragged arrays”, teda je kom-binacia numerickeho vektora a vektora premennych, podla ktorych delıme (klasifikujeme) do pod-skupın numericky vektor, vytvorı sa tzv. ”cross-classified table”, podla funkcie, ktoru pouzijeme.

Page 11: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

3 ZORADENE A NEZORADENE PREMENNE 8

• lapply(), tu ”l” znamena ”list”, teda vytvorı sa list ako vysledok aplikovania nejakej funkcie

• sapply(), tu ”s” znamena ”simplify”, teda vytvorı sa vector ako vysledok aplikovania nejakejfunkcie

Prıklad 17 staty

prijem c(10 000, 13 000, 12 500, 9 400, 9 100, 9 300, 10 100, 13 100, 12 600, 9 500,9 200, 9 400)

prijemMean tapply(prijem, statyfak, mean)prijemMean

pozn.:# v Rkulibrary(MASS)library(help=MASS)data(quine)tapply(Days,Age,mean)tapply(Days,list(Sex,Age),mean)

Prıklad 18 staty opat

# rozdelenie prıjmu na pravidelne skupiny podla presne stanoveneho kriteriaprijemfak cut(prijem,breaks=9000+1000*(0:6))# frekvencna tabulkatable(prijemfak,statyfak)

Prıklad 19 iris (pole 50× 4× 3 )

# priemer podla stlpcovapply(iris, 2, mean)# priemer podla druhej a zaroven tretej dimenzie pola s odseknutymi okrajmi (10%)apply(iris, c(2,3), mean,trim=0.1)

Prıklad 20 ISwR kniznica pre Rko, instalovanie kniznice, praca s chybajucimi pozorovaniami, datathuesan

library(ISwR)library(help=ISwR)data(tuesan)help(tuesan)lapply(thuesen, mean, na.rm=T)sapply(thuesen, mean, na.rm=T)

Page 12: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

4 MATICE 9

4 Matice

Prıkazy suvisiace s maticami:

• spajanie vektorov do matice: rbind(...) ... horizontalne, po riadkoch, cbind(...) ...vertikalne, po stlpcoch

• vytvorenie matice: matrix(name, nrow=...,ncol=...)

• vytvorenie matice inak: matrix(name, dim=c(...,...))

• priradenie nazvov riadkom: row.names(...) c(’’...’’,...,’’...’’)

• vypisovanie: meno[,...], meno[...,], meno[...,...], meno[,...:...],meno[...:...,]

• priradenie nazvov riadkom a stlpcom: dimnames(...) list(c(row ),c(column ))

• priradenie nazvov stlpcom: dimnames(...) list(NULL,c(column ))

Prıklad 21 matice

# vytvorte maticu pozostavajucu z prvkov 1 az 12 nasledovne# po stlpcoch bycol=T (default)# po riadkoch byrow=T# priradte mena riadkom a aj stlpcom# este inakmatrix(1:12,nrow=3)

Prıklad 22 staty znova, dim atribut, volby bycol a byrow

names(staty) statyfaknames(staty) NULLdim(staty) c(2,6)statydim(staty) NULL# bycol=T (default)S1 matrix(staty,2,6)S2 matrix(staty,2,6,byrow=T)

Prıklad 23 geyser opat, funkcia cbind

cbind(waiting,erupt)

Prıklad 24 dolna trojuholnıkova matica (lower.tri, upper.tri)

A matrix(1:16,dim=c(4,4))Aut A[col(A)>= row(A)]Alt A[col(A)<= row(A)]

Page 13: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

4 MATICE 10

4.1 Polia

Prıklad 25 praca s dimenziami, parameter a funkcia dim()

# pole 2x2x5 z cısel 1 az 20# pole 4x5 z cısel 1 az 20# cosi naviacZ array(c(1:10,11:20), dim=c(2,10))I array(c(1:3,3:1), dim=c(3,2))X[5]X[5] 0

Prıklad 26 pole este raz

# pole 2x2x5 z cısel 1 az 20 inak# pole nul 2x2x5

4.2 Objekt ”list”

List - objekt pozostavajuci zo zoradeneneho zoznamu objektov, teda z komponentov

• pouzitie napr. pri programovanı funkciı a hladanı komponentov vysledkov nejakej funkcie

• List list(name=’’Fred’’, wife=’’Mary’’, no.children=’’3’’, child.age=c(4,7,9))

List list(name.1=object.1, ..., name.m=object.m)

• komponenty su ocıslovane: List[[1]], List[[2]],...,

• 4. komponent a jeho prva polozka: List[[4]][1]

• pocet hierarchicky najvyssıch komponentov: length(List)

• pomenovania - name$component.name (List$wife je ako List[[2]], List[[’’wife’’]] je’’Mary’’); x ’’wife’’; List[[x]]

• pozor na hierarchiu ’’[[]]’’ a potom ’’[]’’

• ak objekt pozostava z jednotlivych listov, tak aj celok je list List.ABC c(List.A, List.B,List.C)

4.3 Datove ramce ’’data.frame’’

• uz bolo: attach(name.dataframe), detach(name.dataframe)

• indexacia

name [1:3, c(1,5,7)]

• konverzia dvoch ramcov z a do matice

as.data.frame()

as.martix()

# pozri aj data.matrix() a column.levels

Page 14: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

4 MATICE 11

Prıklad 27 podmnoziny, funkcia subset()

# v Rkulibrary(ISwR)library(help=ISwR)data(tuesan)help(tuesan)thuesanNEW < − subset(thuesan, blood.glucose < 7)# v S-PLUShelp(painters)attach(painters)painters[Colour >= 17, ]painters[Colour >= 15 & Composition > 10,]painters[Colour >= 17 & School != ’’D’’, ]painters[is.element(Shool, c(’’A’’,’’B’’,’’D’’)), ]# v R a S-PLUS 6.1 a 6.2painters[School %in% c(’’A’’,’’B’’,’’D’’)), ]

Prıklad 28 podmnoziny, funkcia transform(), scale()

# pokracujeme s datami tuesanthuesanNEW1 transform(thuesan, log.gluc = log(blood.glucose))

# pokracujeme s datami crabscrabsNEW crabs# centrovanie a preskalovaniecrabsNEW[, 4:8] lapply(crabsNEW[, 4:8], scale)# centrovaniecrabsNEW[, 4:8] lapply(crabsNEW[, 4:8], scale, scale=F)# ktore premenne su numericke?sapply(crabs,is.numeric)crabsNEW[ ] lapply(crabsNEW, function(x)if(is.numeric(x)) scale(x) else x)

Prıklad 29 chybajuce pozorovania, funkcia na.omit()

help(claims)names(claims)attach(claims)claimsNEW na.exclude(claims)claimsNEW na.omit(claims)

Prıklad 30 funkcia aggregate

• pouzitie aggregate je ekvivalentne tapply na kazdom stlpci datoveho ramca

attach(crabs)

aggregare(crabs[, 4:8], list(sp=crabs$sp, sex=crabs$sex), median)

Prıklad 31 funkcia by()

• funkcia by vyraba datovy ramec a delı ho (split) podla druheho argumentu funkcie, podobnefunkcii tapply

by(crabs[, 4:8], list(crabs$sp, crabs$sex),summary)

Page 15: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

4 MATICE 12

Prıklad 32 funkcia merge()

• funkcia merge spaja dva datove ramce ako databazy - kombinuje napr. prıslusne riadky

help(merge)# vytvorte datovy ramec authors a potom books v S-PLUS 6.2 podla stlpcov 1 a 2, kde su mena a

priezviskamerge(authors, books, by=1:2)# v S-PLUS 4.5, podla stlpca ”row.names”merge(Animals, mamals, by=’’row.names’’)

Prıklad 33 sortovanie a nahodny vyber

library(car)library(help=car)data(Womenlf)help(Womenlf)attach(Womenlf)# 20 nahodne vybratych riadkovsample.20 < − sort(sample(nrow(Womenlf),20))# podla tohoto nahodneho vyberu vyberte prisluchajuce riadkyWomenlf[sample.20, ]

Prıklad 34 prekodovavanie recode()

# pokracujeme s datami Womenlfworking < − recode(partic,c(’partime’,’fulltime’)=’yes’; ’notwork’=’no’’’)working[sample.20]# alternatıvneworking.alt < − recode(partic,c(’partime’,’fulltime’)=’yes’; else=’no’’’)# ponechajte len pracujucich, ostatnı budu NAfulltime < − recode(partic,’fulltime’=’yes’;’partime’=’no’;’notwork’= NA’’)fulltime[sample.20]# prekodujte regionregion.4 < − recode(region,’’c(’Prairie’,’BC’)=’West’’’)region.4[sample.20]

4.4 Operacie - vektory, matice, polia, datove ramce

- operacie clen-po-clene su ’’+’’, ’’-’’, ’’*’’, ’’/’’.- rozsırene operacie pozri v - library(Matrix)

Prıklad 35 operacie - prıklady

# vytvorte maticu z cısel 1 az 9 po stlpcoch a pripocıtajte k nej vektor 1:3 po stlpcochA matrix(1:9,ncol=3) + 1:3# alternatıvnesweep(A ,1,1:3,’’+’’)# pripocıtaj k matici A vektor 1:3 po riadkochmatrix(1:9,ncol=3) + t(1:3)# alternatıvnesweep(matrix(1:9,ncol=3),2,1:3,’’+’’)# vynasobte maticu A s maticou AB A%*%A# vynasobte maticu A s maticou B a potom maticu B s maticou A, porovnajte

Page 16: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

4 MATICE 13

C1 A%*%BC2 B%*%A# vynasobte maticu A s vektorom 1:3 z lava a potom vektorom 1:3 transponovanym, porovnajteD1 1:3%*%AD2 t(1:3)%*%A# jednotkova matica (identity matrix)diag(4)# matica s cıslami 1, 2, 3, 4 na diagonalediag(1:4) ... matica s cıslami 1, 2, 3, 4 na diagonale# vektor 3, 5, 7 na diagonalex c(3,5,7); diag(x)# A′ transpozıcia maticeAt t(A)# A−1 inverzia maticeAs solve(A)

Prıklad 36 Riesenie systemu linearnych rovnıc

solve(A, c(9,5,14))

Prıklad 37 stopa matice a jej determinant

# stopa (trace) stvorcovej matice tr(A); sum(diag(A)) # ak A je stvorcova matica a Ax = λx, kdeλ je skalar a x je vektor, potom λ je vlastne cıslo (eigenvalue) matice A a x je vlastny vektor (eigenvector)matice A

eigen() ... (...$values, ...$vectors)# determinant maticedetA function(x) prod(eigen(x)$values)

Prıklad 38 zoradovanie, poradia vo vektoroch, maticiach a datovych ramcoch

# zorad zostupne 10 statov USA (state.name) podla oblastıstate.name[rev(order(state.x77[,’’Area’’]))][1:10]# vytvorte maticu a potom ju uprav podla prveho stlpca a nasledne podla zoradenych prvych dvoch

stlcovMAT < − matrix(c(1, 3, 2, 2, 5, 4, 6, 5, 6, 9, 7, 8, 10, 11, 11, 12, 12, 16, 14,

14), 5, 4)MAT1 < − MAT[order(MAT[,1]),1:4]MAT1 < − MAT[order(MAT[,1],MAT[,2]),]# priradte clenom vektora ich poradiarank(c(20:1,1:5))

Page 17: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

5 ZAKLADY STATISTICKEHO UVAZOVANIA 14

5 Zaklady statistickeho uvazovania

V nasledovnom texte budeme pracovat s pojmami, ktore treba dosledne rozlisovat, ako

• zakladny subor → vyberovy subor,

• parameter → odhad,

• populacny priemer → vyberovy priemer,

• populacna disperzia → vyberova disperzia,

• populacna smerodajna odchylka → vyberova smerodajna odchylka

• populacna standardna chyba → vyberova standardna chyba,

• pravdepodobnost → relatıvna pocetnost.

Statisticky (zakladny) subor je konecna mnozina prvkov (napr. osob), na ktorej sledujeme urciteznaky, veliciny, vlastnosti a pod. Ak uskutocnıme vyber zo statistickeho suboru (pozri nizsie), hovorımeo vyberovom subore, ktory reprezentuje statisticky subor vyberom urciteho poctu statistickych jednotiek.Statisticke jednotky tvoria napr. respondenti dotaznıka, pricom po uskutocnenı vyberu hovorıme ovyberovych jednotkach. Na statistickych jednotkach skumame statisticke znaky (premenne, faktory),ktore mozeme rozdelit do nasledovnych kategoriı:

1. kvantitatıvne (metricke, kardinalne) - diskretne, spojite a intervalove (jav, kt. nevieme presnepozorovat)

2. kvalitatıvne

- nominalne znaky (neusporiadana kategorizacia, natural ordering) - ide o prıslusnost sledovanehoobjektu k urcitej triede objektov, napr. vyucovacie predmety; nabozenstva - Katolıci, Protestanti,Zidia, Moslimovia; typ sıdla - dom, apartman, kondo

- ordinalne znaky (usporiadana kategorizacia, ordered categories) - ide o znak, ktoreho hodnotymozeme prirodzene usporiadat, napr. stupnica znamok; socialne skupiny - horna, stredna, nızka;politicka filozofia - liberalna, stredna, konzervatıvna

- alternatıvne (binarne) - typ ano/nie.

3. frekvencie vyskytu nejakej udalosti - budeme striktne rozlisovat nasledovne:

- frekvencie (frequencies) - ak sa udalosti vyskytuju nezavisle na roznych statistickych jednotkach(units) alebo jedincoch (individuals),

- pocetnosti (counts) - ak mame rozne udalosti na tej istej premennej na rovnakej statistickej jednotke- tu mozeme ocakavat urcity typ zavislostı medzi opakovanymi udalostami

Vyber moze byt

1. nahodny (pravdepodobnostny) - vyberanie satistickych jednotiek z populacie celkom nahodne anezavisle na nasom usudku -

· jednoduchy nahodny - priamy vyber statistickych jednotiek, pricom kazda ma rovnaku pravde-podobnost, ze bude vybrana (napr. losovanie, pricom je vyhodne, ked su statisticke jednotkyocıslovane a je mozne pouzit matematicku teoriu nahodnych cısel);

· mechanicky (systematicky) - je zalozeny na urcitom, dopredu stanovenom, usporiadanı prvkovpopulacie - do vyberoveho suboru zaradıme vsetky prvky, ktore su od seba vzdialene o zvolenyvyberovy krok, kedy prvy prvok vyberieme jednoduchym nahodnym vyberom; pri tomto vyberemusıme dat pozor, aby usporiadanie prvkov nesuviselo so sledovanym znakom;

Page 18: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

5 ZAKLADY STATISTICKEHO UVAZOVANIA 15

Prıklad: z abecedne usporiadanej kartoteky (databazy) pacientov u praktickeho lekara, vyberames krokom 10 a prvu kartu vylosujeme (napr. to bude deviata karta) a potom bude vyber tvorenypacientami s poradiami kariet 9, 19, 29, 39, 39 atd.;

Prıklad: zistujeme znak zamestnanie u stomatologickeho pracoviska, pacienti prichadzaju v urci-tom casovom slede a ich zaznamy su potom takto aj usporiadane; urobıme vyber s krokom rovnymdennemu poctu pacientov, kedy predpokladame, ze kazdy den prıde do ambulancie rovnaky pocetpacientov; teto postup vedie potom k znacne selektıvnemu vyberu, kedy vyberame pacientov, ktorıprichadzaju v urcity cas dna, co moze suvisiet s typom ich zamestnania;

· oblastny (stratifikovany) - zakladny subor je rozdeleny na oblasti podla urciteho hladiska, suvytvorene tak, aby boli vnutri homogenne (v sledovanych znakoch sa prıliz neodlisuju) a medzi sebouheterogenne (v sledovanych znakoch sa znacne odlisuju); v jednotlivych oblastiach sa uskutocnıjednoduchy nahodny vyber alebo mechanicky vyber; percento vybranych jednotiek moze byt budvo vsetkych oblastiach rovnake, alebo sa medzi oblastami moze aj lısit (tu napr. mame ekonomickedovody na vyberanie mensieho poctu jednotiek alebo aj narocnost vyberu jednotiek); konecnyvyberovy subor vytvorıme spojenım vsetkych oblastı;

Prıklad: ak robıme vyber na obyvatelstve SR, oblastami su uzemne celky, vekove skupiny alebosocioekonomicky status;

· skupinovy - pokial je statisticky (zakladny) subor pomerne rozsiahly (stotisıce alebo miliony osob),mozeme uskutocnit jedoduchy NV velmi tazko; najprv sa nahodne vyberu skupiny jednotiek (niejednotlive jednotky), ktore tvoria bud prirodzene alebo umele agregaty; je ziaduce, aby boli jed-notlive agregaty, pokial je to mozne, rovnako velke a vnutri kazdej skupiny roznorode; variabilitamedzi skupinami musı byt co najmensia (obratena podoba, ako pri oblastnom vybere);

Prıklad: agregat moze byt maly - rodina, skola, podnik, zdravotny obvod, ale i vacsı - obec, okres;

tu nastupuju dve moznosti:

− vyber vsetkych jednotiek v agregate (skupine)

− viacstupnovy vyber (dvoj a viacstupnovy vyber) - je zalozeny na hierarchickom popise prvkovzakladneho suboru, ku ktorym sa dostavame postupne cez vyssie vyberove jednotky; kazda vyberovajednotka je skupinou vyberovych jednotiek nizsieho radu; rozlisujeme jednotky prveho stupna (pri-marne jednotky), potom jednotky druheho stupna (sekundarne jednotky), atd. az nakoniec mamezakladne jednotky statistickeho suboru; postupne vybery prebiehaju casto jednoduchym nahod-nym vyberom, alebo sa moze pouzit aj mechanicky alebo oblastny vyber; tento vyber ma hlavneekonomicke vyhody a naviac sa pouzıva aj vtedy, ked nie je v danej situacii (pred zaciatkomvyberoveho postupu) uplna opora vyberu;

Prıklad: vyssie vyberove jednotky → prvkov zakladneho suboru = mesta - bloky - domy -domacnosti, okresy - podniky - dielne - zamestnanci;

2. selektıvny - dava skresleny obraz o studovanej populacii;

Prıklad: vzorka 15 − 16 rocnych chlapcov, prvoligovych basketbalistov, z ktoreho by sme chcelirobit inferenciu o vyske celej slovenskej populacie 15− 16 rocnych chlapcov;

3. zamerny - o vybere jednotky rozhoduju okrem nahody castokrat nekontrolovatelne cinitele (sub-jektıvny nazor vyberajuceho, ochota, resp. neochota odpovedat na kladene otazky a pod.); vseobec-ne sa tvrdı, ze tento typ vyberu sa opiera o ”expertne” stanovisko a rozne ”odhady”, ako zıskatreprezentatıvny vyber - takto zıskane vyberove subory su casto ovplyvnene subjektıvnym pohladom”experta” ale aj dalsımi faktormi ovplyvnujucimi tvorbu vyberu a presnost zovseobecnujucichzaverov sa skor opiera o ”expertny” pohlad nez o metodologiu.

Nahodny vyber (NV) z daneho rozdelenia F je usporiadana n-tica X1, X2, ..., Xn rovnako rozdelenychnezavislych premennych, ktorych realizacie su x1, x2, ..., xn.

Page 19: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

5 ZAKLADY STATISTICKEHO UVAZOVANIA 16

Typy statistickeho triedenia dat:

• sluzi na rozdelenie vyberovych jednotiek do skupın (tried) podla dopredu urcenych triediacichznakov;

• podla poctu triediacich znakov rozlisujeme

- jednostupnove - len jeden triediaci znak, napr. triedenie novorodencov podla pohlavia,

- viacstupnove (kombinacne) - dva a viac triediacich znakov, napr. triedenie zomretych osob podlaveku, pohlavia a zamestnania;

• triedy - pri triedenı podla kvantitatıvnych znakov su urcene pomocou triednych intervalov (TI),ktore musia pokryt vsetky hodnoty sledovaneho kvantitatıvneho znaku a musia byt vzajomne saneprekryvajuce (disjunktne); hranice TI su dane cıselne a ich rozdiel je dlzka TI ; stred TI - arit-meticky priemer hranıc TI; rovnako dlhe TI - ekvidistantne; pocet TI - najcastejsie od 5 do 20, jeurceny s ohladom na rozsah suboru a jeho rozpatie.

Page 20: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 17

6 Poznamky ku rozdeleniam pravdepodobnosti nahodnych pre-mennych

V nasledovnej kapitole sa budeme venovat vybranym rozdeleniam pravdepodobnosti bezprostredne suvi-siacich so statistickou inferenciou.

Zakladne pojmy:Diskretne rozdelenie pravdepodobnosti xi, pin(∞)

i=1 .Distribucna funkcia FX (x) = Pr (X < x)FX (x) =

∑i:xi<x P (X = xi) =

∑i:xi<x pi,

∑∞i=1 pi = 1

FX (x) =∫ x

−∞ f (t) dt, f (x) > 0,∫∞−∞ f (x) dx = 1

Vyjadrenie: vzorec, tabulka, grafStredna hodnota E (X) =

∑∞i=1 xipi, E (X) =

∫∞−∞ xf (x) dx

DisperziaD [X] = E

[(X − E [X])2

]= E

[X2]− E2 [X] =

∑∞i=1 [xi − E (X)]2 pi =

∑∞i=1 x2

i pi − [∑∞

i=1 xipi]2,

D (X) =∫∞−∞ [x− E (X)]2 f (x) dx,D (X) = E

[(X − E (X))2

]= E

(X2)− [E (X)]2

Vlastnosti:E [X + Y ] = E [X] + E [Y ]E [cX] = cE [X]E [∑n

k=1 ckXk] =∑n

k=1 ckE [Xk]v prıpade nezavislosti E [XY ] = E [X]E [Y ]D [cX] = c2D [X]v prıpade nezavislosti D [X + Y ] = D [X] + D [Y ]

6.1 Normalne rozdelenie pravdepodobnosti

Vseobecne normalne rozdelenie N(µ, σ2

)hustota f (x) = 1√

2πσe−

(x−µ)2

2σ2 , x ∈ R

Standardizovane normalne rozdelenie N (0, 1)hustota f (x) = 1√

2πe−

x22

distribucna funkcia FX (x) = P (X < x) =∫ x

−∞ f (t) dtVlastnosti:- f (x) - symtericka okolo osi y, t.j. priamky x = 0, f (−x) = f (x)- FX (−x) = 1− FX (x) ,- Pr(X > x) = 1− Pr(X < x)- f (x) 7→ 0 velmi rychlo pre x 7→ ±∞- f (±3) ≈ 0- µ =modus=median- inflexne body v x = ±1- Pr (a ≤ X ≤ b) = Pr (X ≤ b)− Pr (X < a) = FX (b)− FX (a)- Pr (|X − µ| > σ) = 0.3173,Pr (|X − µ| < σ) = 1− 0.3173 = 0.6827- Pr (|X − µ| > 2σ) = 0.0455,Pr (|X − µ| < 2σ) = 1− 0.0455 = 0.9545- Pr (|X − µ| > 3σ) = 0.0027,Pr (|X − µ| < 3σ) = 1− 0.0027 = 0.9973- pravidlo 68.27− 95.45− 99.73 (”miery normalneho rozdelenia”)

Standardizacna rovnica, standardizacia.

Veta 39 Ak X ∼ N(µ, σ2) a Z = X−µσ , potom Z ∼ N(0, 1).

Page 21: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 18

Definıcia 40 95% predikcny interval (a, b) nazyvame interval, pre kt. platı P (a ≤ X ≤ b) = 0.95.

Veta 41 Nech X1, ..., Xn je nahodny vyber z N(µ, σ2

), potom platı

1. X ∼ N(µ, σ2/n

)⇐⇒ X−µ

σ

√n ∼ N (0, 1) ,

2. (n−1)S2

σ2 ∼ χ2n−1,

3. X−µS

√n ∼ tn−1.

6.2 Rozdelenia odvodene od normalneho

Chı-kvadrat χ2n-rozdelenie s n stupnami volnosti

Ak su Z1, ..., Zn ∼ N (0, 1) nezavisle, potom platı

X2 =n∑

i=1

Z2i ∼ χ2

n.

Studentovo tn-rozdelenie s n stupnami volnostiAk Y ∼ χ2

n a Z ∼ N (0, 1) su nezavisle, potom

T =Z√Y/n

∼ tn.

Fisherovo Fn1,n2-rozdelenieNech X1 ∼ χ2

n1, X2 ∼ χ2

n2, X1a X2 su nezavisle, potom

F =X1/n1

X2/n2∼ Fn1,n2 .

Pozn.: Platı Z2 ∼ χ21, T 2 ∼ F1,n2 . Dalej Fn1,n2 (α) = 1

Fn1,n2 (1−α) (aproximacia pre tabulky).

Logaritmicko - normalne (lognormalne) rozdelenieNahodna premenna X ∼ LN

(µx, σ2

x

)ak velicina Y = lnX ∼ N

(µy, σ2

y

). Zo skusenostı vieme, ze

LN rozdelenie mava napr. telesna hmotnost, cas dozıvania po jednej davke oziarenia, minimalna smrtnadavka prıpravku v homogennej skupine pokusnych zvierat. Z dat sa da lahko usudit, ci je takyto modelvhodny. Velmi casto su zosikmene kladne alebo zaporne, napr. pri hematologickych, hormonalnych aleboinych biologickych velicinach.

Potom- aritmeticky priemer y = 1

n

∑ni=1 lnxi → x = exp (y)

- median y0.5 = ln x0.5 → x0.5 = exp (y0.5)

- vyberova smerodajna odchylka sy =√

1n−1

∑ni=1 (lnxi − y)2 → sx = exp (sy)

Pozn.: V prıpade potreby mozeme pouzit iny typ transformacie,√

x, kde x ∈ R+1/x, kde x 6= 0.Pokial nenajdeme vhodnu transformaciu, pouzijeme alternatıvne prıstupy (pozri dalej).

6.3 Binomicke rozdelenie

Nahodna premenna X ma binomicke rozdelenie pravdepodobnosti s parametrami n ∈ N, p ∈ (0, 1) , aknadobuda hodnoty 0, 1, 2, ..., n s pravdepodobnostami Pr (X = k) =

(nk

)pk (1− p)n−k

, k = 0, 1, 2, ..., n.Ozn.: X ∼ Bin (n, p) , distribucna funkcia FX (x) = Pr (X < x) =

∑k<x

(nk

)pk (1− p)n−k, E [X] = np,

D [X] = np (1− p), kde ide o postupnost n− nezavislych pokusov, k je pocet nastatı uspesnych pokusova p je pravdepodobnost nastatia uspesneho pokusu.

Page 22: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 19

Veta 42 Moivre - Laplace. Nech Xn je pocet uspechov pri n-nasobnom nezavislom opakovanı pokusu,pricom pravdepodobnost uspechu v jednom pokuse je p ∈ (0, 1) . Potom pre nahodnu premennu Zn plati

Zn =Xn − np√np(1− p)

∼ N(0, 1), limn→∞

P (Zn < x) = Φ (x) .

6.4 Kvantily a kriticke hodnoty

Definıcia 43 Nech F je spojita a monotonna funkcia, nech β ∈ (0, 1) . Potom cıslo xβ = F−1 (β)(F (xβ) = β) sa nazyva β-kvantil prıslusneho rozdelenia a platı:

• Pr(xα/2 < X < x1−α/2

)= F

(x1−α/2

)− F

(xα/2

)= 1− α, kde α ∈ (0, 1/2)

• Q1 = F−1 (1/4), 1. kvartil (dolny)

• Q2 = F−1 (1/2), 2. kvartil, median

• Q3 = F−1 (3/4), 3. kvartil (horny)

• F−1 (k/10), k-ty decil, F−1 (k/100), k-ty percentil

Definıcia 44 Kriticka hodnota prıslusneho rozdelenia je hodnota, ktoru nahodna premenna X prekrocıs pravdepodobnostou α.

• Pr (X > u(α)) = α pre X ∼ N (0, 1)

• Pr(X > χ2

n(α))

=∫∞

χ2(n,α)fn (x) dx = α pre X ∼ χ2

n

• Pr (X > tn (α)) = α pre X ∼ t (n)

• Pr (X > Fn1,n2(α)) = α pre X ∼ F (n1, n2)

Pozn.: pravidlo 90.00− 95.00− 99.00 (”upravene miery normalneho rozdelenia”)- 90.00% dat lezı v intervale µ± 1.64σ, kde u(0.1) = 1.64,- 95.00% dat lezı v intervale µ± 1.96σ, kde u(0.05) = 1.96,- 99.00% dat lezı v intervale µ± 2.57σ, kde u(0.01) = 2.57.

6.5 Prıklady v S-PLUS a R

Popis argumentov funkciıKoncova cast funkcie po d..., p..., q... hovorı o type rozdelenia. V prvom argumente funkcie je

vzdy hodnota, ktora vstupuje do vypoctu, teda q (pre kvantilovu funkciu), d pre hustotu a p pre CDFfunkciu. Dalsie argumenty specifikuju parametre s ”defaultom” pre standardnu verziu rozdelenia, naprpri normalnom rozdelenı ide o parametre rozdelenia N (0, 1). Prvym argumentom funkcie moze byt ajvektor.

Page 23: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 20

Niektore rozdelenia a ich parametre

rozdelenie nazov v S-PLUS a R parametrebinomicke binom size, probchi-kvadrat chisq df

exponencialne exp rateFisherovo F f df1, df2

gama gamma shape, rategeometricke geom prob

hypergeometricke hyper m, n, klognormalne lnorm meanlog, sdlognormalne norm mean, sd

Poissonovo pois lambdaStudentovo t t dfWilcoxonovo wilcox m, n

mnohorozmerne normalne mvnorm mean, cov, ...

Prıklad 45 normalne rozdelenie, t-rozdelenie, F-rozdelenie (R a S-PLUS)

• dvojstranny test al. dvojstranny interval spolahlivosti (IS)

qt(0.975, df=11)...2.200985, kde df je pocet stupnov volnosti, 97.5 percentil, 2.5% kriticka hod-nota

qf(0.995,2,7)...12.40396, kde n1 = 2, n2 = 7, 99.5 percentil pre F (2, 7) alebo 0.5% kritickahodnota

1-pnorm(1.96)...0.025, p-hodnota pre N(0, 1)1-pt(1.96,100000) ... 0.025, p-hodnota pre tn

• jednostranny test al. jednostranny IS

qt(0.95, df=11)...1.795885, kde df je pocet stupnov volnosti, 95 percentil, 5% kriticka hodnotaqf(0.99,2,7)...9.546578, kde n1 = 2, n2 = 7, 99 percentil pre F (2, 7), 1% kriticka hodnota1-pnorm(1.644854)...0.05, p-hodnota pre N(0, 1)1-pt(1.644869,100000) ... 0.05, p-hodnota pre tn

• ak predpokladame, ze pre systolicky krvny tlak existuje model N(132, 132

), potom aka cast

populacie bude mat hodnoty vacsie ako 160?

1-pnorm(160,mean=132,sd=13)# teda asi 1.6% ppopulacie z N

(132, 132

)• binomicke rozdelenie = predpokladajme, ze pocet ludı uprednostnujucich liecbu A pred liecbou B

sa sprava podla modelu Bin (n = 20, p = 0.5)., teda ludia preferuju oba typy liecby rovnako. Akaje pravdepodobnost, ze budem mat 16 a viac pacientov uprednostnujucich liecbu A pred liecbou B?

pbinom(16,size=20,prob=0.5)# potom1-pbinom(16,size=20,prob=0.5)# Pozor! To znamena, ze ide o pravdepodobnost ≤ 16, ale my potrebujeme1-pbinom(15,size=20,prob=0.5)# co ak hladam pravdepodonost, ze budem mat 16 a viac a zaroven 4 alebo menej pacientov upred-

nostnujucich liecbu A pred liecbou B?1-pbinom(15,size=20,prob=0.5) + pbinom(4,size=20,prob=0.5)

Page 24: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 21

# to je v skutocnosti 2× predchadzajuca pravdepodobnost

Generovanie presudonahodnych cısel z daneho rozdelenia a permutacie- predpona funkcie je r, co znamena ”random”, napr. rnorm je funkcia na generovanie presudonahod-

nych cısel z normalneho rozdelenia

• prvy argument n je rozsah nahodneho vyberu a potom nasleduju parametre rozdelenia

Prıklad 46 generovanie presudonahodnych cısel z normalneho rozdelenia z rozsahom 100, so strednouhodnotou rovnou 0, smerodajnou odchylkou rovnou 1. Potom zamente parametre na strednu hodnoturovnu 50, smerodajnu odchylku rovnu 0.4.

rnorm(100)rnorm(100, mean=50, sd=0.4)

Prıklad 47 Vygenerujte 100 pseudonahodnych vyberov z kontaminovaneho normalneho rozdelenia, vktorom mame N(0, 1) s pravdepodobnostou 0.95 a inak N(0, 9)

rnorm(100,0,1+2*rbinom(100,1,0.05))

Prıklad 48 funkcia sample

Funkcia sample prevzorkuje (resamples) z vektora dat, s alebo bez nahradenia. Parameter n je celecıslo, x je vektor pozorovnı, p je rozdelenie pravdepodobnosti na 1, ..., length(x)

sample(n) vyber nahodnej permutacie z 1, ... nsample(x) nahodne permutovany vektor xsample(x, replace=T) bootstrapovy vybersample(x, n) vyber n jednotiek z x bez nahradeniasample(x, n, replace=T) vyber n jednotiek z x s nahradenım s rovnakou pravdep.sample(x, n, replace=T, prob=T) vyber n jednotiek z x s nahradenım s roznou pravdep.

# zoberie nahodne 10 statov zo suboru state.name (staty USA)sample(state.name, 10)# zoberie nahodne 75 cısel medzi jedna a jeden milionsample(1e6, 75)# zoberie nahodne permutacie cısel 1:50sample(50)# Bernuliho rozdelenie s p = 0.3 pre jednotky a p = 0.7 pre nuly s rozsahom 100sample(0:1,100,replace=T,prob=c(0.3,0.7))# 20 rovnomerne (s rovnakou pravdepodobnostou) rozdelenych cısel z vektora 1:10 s nahradenımsample(10, 20, T)# 24 nerovnomerne (s roznou pravdepodobnostou, tu c(.3,.4,.1,.1,.1)) rozdelenych cısel z vektora

1:5 s nahradenımsample(5, 24, replace=T, prob=c(.3,.4,.1,.1,.1))

Page 25: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 22

7 Zakladna (deskriptıvna) statistika

Hodnoty sledovanych znakov pre jednotlive premenne zapisujeme do tabuliek. Najprv zapıseme hodnotysledovanych znakov v poradı, v ktorom ich dostavame, t.j. do primarnej tabulky. Potom tuto tabulkukvoli prehladnosti prepıseme do sekundarnej tabulky (tabulka rozdelenia pocetnosti), ktora nam usporiadasledovane znaky podla velkosti.

7.1 Charakteristiky polohy

Majme nahodny vyber (NV) X1, X2, ..., Xn z nejakej populacie, kde n je jeho rozsah, realizacie tohoto NVbudeme oznacovat ako x1, x2, ..., xn, uporiadane realizacie budu x(1) ≤ x(2) ≤ ... ≤ x(n). Potom mozemedefinovat

• minimum xmin = x(1),

• maximum xmax = x(n),

• aritmeticky priemer x = 1n

∑ni=1 xi,

• median (prostredna hodnota, robustny odhad polohy)

x =

x(n+1

2 ) ak n je neparne12

(x(n

2 ) + x(n2 +1)

)ak n je parne

Kvantily su hodnoty skumanej veliciny, ktore delia subor na dve casti. Kvartily pozname tri

• prvy kvartil predstavuje hodnotu, od ktorej je 1/4 dat mensia a 3/4 dat je vacsia,

Q1 = P [−∞, x0.25] = Pr [X ≤ x0.25] =14, Q1 = Pr [x0.25,+∞] = Pr [X ≥ x0.25] =

34

• median (druhy kvartil) je hodnota, od ktorej je 1/2 dat mensia a 1/2 dat je vacsia,

Q2 = Pr [−∞, x0.5] = Pr [X ≤ x0.5] =12, Q2 = Pr [x0.5,+∞] = Pr [X ≥ x0.5] =

12

• tretı kvartil predstavuje hodnotu, od ktorej je 1/4 dat je vacsia a 3/4 dat je mensıch

Q3 = Pr [−∞, x0.75] = Pr [X ≤ x0.75] =34, Q3 = Pr [x0.75,+∞] = Pr [X ≥ x0.75] =

14

• decily - delia subor na desatiny

• percentily p ∈ (0, 1) - delia subor na stotiny a ich vseobecna definıcia je nasledovna - 100p-percentil

xp =

x(k+1) pre k 6= np12

(x(k) + x(k+1)

)pre k = np

,

kde k = [np], co je cela cast cısla np.

Prıklad 49 Majme vysky n = 12 nahodne vybranych 10 rocnych dievcat v cm usporiadanych podlavelkosti (ri poradia (ranks) pre x(i), pri rovnakych pozorovaniach hovorıme o strednoporadiach)

i 1 2 3 4 5 6 7 8 9 10 11 12x(i) 131 132 135 141 141 141 141 142 143 146 146 151ri 1 2 3 5.5 5.5 5.5 5.5 8 9 10.5 10.5 12

Page 26: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 23

x·= 140.83, x = 1

2

(x(6) + x(7)

)= 141, Q1 = x0.25 = 1

2

(x(3) + x(4)

)= 138, kde k = [12× 0.25] = 3,

Q3 = x0.75 = 12

(x(9) + x(10)

)= 144.5, kde k = [12× 0.75] = 9

Existuju aj ine moznosti vypoctu kvantilov (pozri Zvara 2003, str. 20).Co sa stane so spomınanymi charakteristikami polohy, pokial zmenıme merıtko (skalu)? Napr. gramy

na kilogramy, alebo namiesto hmotnosti, pouzijeme logaritmus hmotnosti.Nech a, b ∈ R su nejake dane konstanty. Potom yi = a + bxi a pre priemer

y =1n

n∑i=1

(a + bxi) =1n

(na + b

n∑i=1

xi

)= a + by = a + by.

Pokial b ∈ R+, sa usporiadanie hodnot xi pri prechode na yi = a + bxi nezmenı, teda

a + bx(1) ≤ a + bx(2) ≤ ... ≤ a + bx(n).

Teda pre median v tomto prıpade platı

y = a + bx = a + bx.

lahko sa da nahliadnut, ze usporiadanie zachova kazda rastuca fcia g (x), teda platı

g(x(1)

)≤ g

(x(2)

)≤ ... ≤ g

(x(n)

)a pre median bude platit g (x) ·= g (x). Pre neparne n platı predchadzajuci vztah presne, oznacenie”pribliznosti” potrebujeme pre parne n, kde x(n

2 ) < x(n2 +1). V tomto prıpade je vsak 1/2 hodnot g (xi)

mensia ako g (x). Teda specialne mozeme median logaritmu (napr. hmotnosti) spocıtat ako logaritmusmedianu (napr. hmotnosti).

Pozn.: Pokial teda dojde v pozorovaniach k posunutiu, dojde k rovnakemu posunutiu ak u charakter-itiky polohy. Ak zmenıme merıtko, potom stacı urobit rovnaku upravu aj u charakteristiky polohy.

7.2 Charakteristiky variability

Definujeme nasledovne zakladne pojmy

• vyberovy rozptyl

s2x =

1n− 1

n∑i=1

(xi − x)2 .

Pri linearnej transformacii sa rozptyl menı nasledovne

s2y = s2

a+bx = b2s2x,

preco?

s2y = s2

a+bx =1

n− 1

n∑i=1

(a + bxi − a + bx

)2=

1n− 1

n∑i=1

(a + bxi − (a + bx))2

=1

n− 1

n∑i=1

(b (xi − x))2 = b2s2x

Page 27: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 24

• smerodajna odchylkasx =

√s2

x.

Pri linearnej transformacii sa smerodajna odchylka menı nasledovne

sy = sa+bx = |b| s2x,

teda, ak pripocıtame ku vsetkym pozorovaniam rovnaku konstantu, miera variability sa nezmenı.Zmena merıtka (u pomeroveho merıtka zmena jednotiek) ma za nasledok rovnaku upravu jd-notlivych pozorovanı i miery variability (s vynimkou rozptylu).

• vypoctova podoba rozptylu

s2x =

1n− 1

(n∑

i=1

x2i − nx2

)=∑n

i=1 x2i fi∑n

i=1 fi− n

n− 1x2,

kde fi su frekvencie (pocty) prisluchajucich xi a n =∑n

i=1 fi.

• vyberovy koeficient variacie - podiel variability na priemere

Vk =sx

x.

Pouzıva sa pri porovnavanı variability suborov s nerovnakymi priemermi (napr. pri porovnanıvariability vysky detı urciteho veku s vyskou dospelych urciteho veku alebo pri porovnanı variabilitypremennych meranych v roznych jednotkach), je bezrozmerny a zvycajne sa vyjadruje v percentach,t.j. 100 (σ/µ) %.

• odhad rozptyl priemeru

s2x =

s2x

n,

• odhad strednej chyby priemeru (standardna chyba, standard error)

sx =sx√n

,

• vyberovy koeficient sikmosti (skewness)

b1 =n−1

∑ni=1 (xi − x)3[

n−1∑n

i=1 (xi − x)2]3/2

=√

n∑n

i=1 (xi − x)3[∑ni=1 (xi − x)2

]3/2,

kde rozdelenie je pozitıvne zosikmene (rozdelenie pravdepodobnosti na lavej strane stupa strmejsie,b1 > 0), negatıvne (b1 < 0),

• vyberovy koeficient spicatosti (kurtosis)

b2 =n−1

∑ni=1 (xi − x)4[

n−1∑n

i=1 (xi − x)2]2 − 3 =

n∑n

i=1 (xi − x)4[∑ni=1 (xi − x)2

]2 − 3,

kde rozdelenie je spicate (leptokurticke, b2 > 0), normalne (mezokurticke, b2 = 0) a ploche(platykurticke, b2 < 0),

• suma stvorcov (sum of squares)

SS =n∑

i=1

(xi − x)2

Page 28: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 25

– citatel rozptylu, pouzıva sa napr. v regresnej analyze, v modeli ANOVA.

• rozpatie (distance) D = xmax − xmin,

• medzikvartilove rozpatie DQ = Q3 −Q1,

• decilove rozpatie,

• percentilove rozpatie,

• 5 cıselne summary: xmin,Q1, Q2, Q3, xmax,

• symetria: Q3 −Q2 = Q2 −Q1

• pozitıvna sikmost: Q3 −Q2 > Q2 −Q1

• negatıvne sikmost: Q3 −Q2 < Q2 −Q1

• robustny vypocet minima a maxima (”vnutorne hradby”, prvky vybocujuce z hradieb sa povazujuza podozrive, potencionalne outliery - pozri dalej)

- x∗min = BD = Q1 − 1.5 (Q3 −Q1) = Q1 − 1.5DQ

- x∗max = BH = Q3 + 1.5 (Q3 −Q1) = Q3 + 1.5DQ

”Vonkajsie hradby” B∗D = Q1 − 3DQ, B∗

H = Q3 + 3DQ. Pokial su nejake xi < B∗D ∨ xi > B∗

H ,hovorıme, ze ide o vzdialene body, ak xi ∈ 〈B∗

D, BD)∨ (BH , B∗H〉, ide o body vonkajsie, ak xi ∈ 〈BD, BH〉,

ide o body vnutorne, alebo body prilahle medianu. Pre normalne rozdelenie platı BH−BD = Q3+1.5DQ−Q1 + 1.5DQ = 4DQ

·= 4.2. Pravdepodobnost, ze xi /∈ 〈BD, BH〉 je potom 0.04.Niekedy nas zaujımaju normovane protajsky realizaciı, a to z-skore (casto pouzıvane v antropologii)

zi =xi − x

sx,

ktore dostaneme ako specialny prıpad linearnej transformacie y = a + bx, kde volbou b = 1/sx a a =−x/sx. Potom dostaneme

z = − x

sx+

1sx

x = 0

a

s2z =

(1sx

)2

s2x = 1

a preto nazyvame z-skore aj normovane veliciny. Pomocou z-skore mozeme vyjadrit aj koeficient sikmostia spicatosti

b1 =1n

n∑i=1

(xi − x

sx

)3

=1n

n∑i=1

z3i ,

kde ak data pochadzaju z normalneho rozdelenia

E [b1] = 0, V ar [b1] =n− 2

(n + 1) (n + 3),

b2 =1n

n∑i=1

(xi − x

sx

)4

=1n

n∑i=1

z4i ,

kde ak data pochadzaju z normalneho rozdelenia

E [b2] = 3− 6n + 1

, V ar [b2] =24n (n− 2) (n− 3)

(n + 1)2 (n + 3) (n + 5).

Pokial data pochadzaju z normalneho rozdelenia, budu mat oba koeficienty hodnoty blızko nuly (prib2, ak od neho odcıtame konstantu 3).

Page 29: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 26

7.3 Prıklady v S-PLUS a R

Prıklad 50 charakteristiky polohy a variability

• x 1:100, funkcie:

minimum min(x)maximum max(x)rozsah suboru c(max(x),min(x)); range(x)median median(x)aritmeticky priemer mean(x); sum(x)/length(x)prvy kvartil q1 quantile(x,0.25)druhy kvartil q2 quantile(x,0.50)tretı kvartil q3 quantile(x,0.75)kvartily quantile(x,c(0.25,0.5,0.75))5 cıselne summary quantile(x,c(0,0.25,0.5,0.75,1))medzikvartilove rozpatie Dq quantile(x,0.75)-quantile(x,0.25)zistovanie symetrie c(q3 - q2, q2 - q1)robustny vypocet minima a maxima (”vnutorne hradby”)Bd q1-1.5Dq; Bh q3+1.5Dqrobustny rozsah suboru c(Bd,Bh)rozptyl var(x)sum((x-mean(x))^2)/(length(x)-1)standardna chybastderr function(x) sqrt(var(x) / length(x))stderr(x)prijemstderr tapply(prijem, statyfak,stderr)

• posun o konstatnu a < − 900:

x c(907,908,898,902,897)x1 x-900mean(x)var(x)

• vytvorte funkciu na vypocet sumy stvorcov

• vytvorte funkciu na vypocet vyberoveho koeficientu sikmosti a spicatosti

• vytvorte funkciu na vypocet 5 cıselneho summary, priemeru a smerodajnej odchylky tak

CHAR.SAMPLE< −function(x)RESULTS < − list( QUANTILE = 0, MEAN = 0, SD = 0)QUANTILE < − quantile(x, c(0, 0.25, 0.5, 0.75, 1))MEAN < − mean(x)SD < − sqrt(var(x))RESULTS < − rbind(QUANTILE, MEAN, SD)RESULTS$QUANTILE < − QUANTILERESULTS$MEAN < − MEANRESULTS$SD < − SDreturn(RESULTS)

• vytvorte funkciu na vypocet aritmetickeho priemeru tak, aby bol osetrena na chybajece pozorovaniapouzitım nejakej zakladnej funkcie

Mmean function(x) mean(x[!is.na (x)])

Page 30: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 27

8 Graficka interpretacia vyberoveho suboru

V modernej pocıtacovej statistike hovorıme o exploratornej analyze dat (EDA).Graficka interpretacia vyberoveho suboru je mozna pomocou nasledovnych grafov.

• Stlpcovy diagram (barplot) - cıselne hodnoty su vyjadrene pomocou obdlzdnikovych stlpcov (obycaj-ne v zvislej polohe), casto skalovany (v relatıvnej skale, ak sledujeme viac suborov, ide potom olepsie porovnanie tychto suborov; neskalovany - absolutna skala) - jeho specialnymi prıpadmi suvekova pyramıda (strom zivota, znazornuje vekove zlozenie obyvatelstva) a histogram.

• Spojnicovy graf - znazornuje priebeh casoveho radu a jeho specalnymi prıpadmi su polygon pocet-nosti, frekvencna krivka, polygon kumulatıvnych pocetnostı.

• Bodovy graf (scatterplot) - zobrazuje namerane hodnoty v pravouhlej suradnicovej sustave (2D, 3D),na odlısenie roznych kategoriı pouzijeme rozne znaky, farby a pod.; casto pouzıvany na zobrazeniezavislosti dvoch znakov.

• Kruhovy diagram (vysecovy, kolacovy, piechard) - zachytava strukturu suboru, kde plocha kruhupredstavuje cely subor a jednotlive casti su znazornene kruhovymi vysecami, tu 360st. zodpoveda100% plochy kruhu, vysec 3.6 stupna je 1%.

• Histogram - stlpcovy diagram s k stlpcami, ktorych zakladna sa rovna sırke intervalu Ii = (xi, xi+1〉a vyska i−teho stlpca jeho pocetnosti (i = 1, 2, ..., k); vystihuje celkom presne pocet pozorovanı vjednotlivych intervaloch; mnozstvo intervalov volı prıslusny software alebo aj sam uzıvatel. His-togram (a mnohe dalsie zobrazovacie metody) mozeme pouzit aj v skale relatıvnych pocetnostı.Potrebujeme aspon 12 triednych intervalov (ich pocet nesmie klesnut pod 6). Sırka jedneho jeminimalne hmin = 0.08(xmax − xmin). Musı obsahovat minimalne 5 meranı. Frekvencna tabulka:znak, pocetnost, relatıvna pocetnost. Pocet tried je k = log2 n+1 ·= 2+3.3 log10 n (Sturgesova for-mula), intervaly su definovane ako 〈x0, x1〉 , (x1, x2〉 , ...; sırka intervalov je teda h = D/ (log2 n + 1)pre realizacie z normalneho rozdelenia (Scott, 1992). Teraz uz vlastne nepracujeme s realizaciami xi,ale so stredmi intervalov x∗i = (xi + xi+1) /2. Pocty hodnot ni, ktore sa v intervale Ii nachadzaju,sa nazyvaju triedne pocetnosti. Pokial realizacie nemaju normalne rozdelenie, treba pouzit robustnealgoritmy. Taktiez outliery mozu dramaticky nafuknut (inflate) rozpatie suboru, co moze sposobitnarast sırky intervalov. Preto sa vyuzıvaju dva algoritmy ako kompromis medzi vychylkou (biasom)a rozptylom realizaciı pochadzajucimi z normalneho rozdelenia. Potom sırky triednych intervalovbudu h1 = 3.49σn−1/3, σ = s (pre vybery z normalneho rozdelenia, Scottova formula, Scott, 1979),h2 = 2DQn−1/3 (robustnejsia, Freedman - Diaconisova formula, ktora je nezavisla od outlierov avybera mensie intervaly ako Scottova formula (Freedman, Diaconis, 1981). Pre symetricke rozdele-nia platı h3 = [2

√n] alebo h4 =

[2.46× (n− 1)0.4

], kde [x] je cela cast cısla x. Pokial sa neocakava

prıliz zosikmene rozdelenie, sırka triednych intervalov h je konstantna. Pre komplikovanejsie tvaryvyberovych rozdelenı treba zvacsit pocet triednych intervalov, alebo pouzit specialne postupy nahladanie nekonstantne dlhych triednych intervalov (pozri Meloun a Militky, 2004).

• Polygon pocetnosti - spojnicovy diagram, kde nad stredmi triednych intervalov Ii vztycime kolmice,ktorych vyska je umerna prıslusnym triednym pocetnostiam a koncove body kolmıc pospajame, ichsuradnice su [x∗i , ni]; ide o dost dobre podanie priebehu pocetnosti aj vnutri jedneho intervalu, aleplocha uzavreta spojnicou polygonu nie je umerna poctu pozorovanı v intervale.

• Frekvencna krivka - vznikne ak koncove body polygonu pospajame hladkou krivkou; vystihujecelkom presne priebeh rozdelenia pocetnosti a plocha v kazdom mieste ohranicena krivkou je priamoumerna poctu pozorovanı.

• Histogram kumulatıvnych pocetnostı (suctovy histogram) - namiesto pocetnosti bude- me nad jed-notlivymi intervalmi Ii zakreslovat obdlzniky s vyskou rovnajucou sa prıslusnym kumulatıvnym

Page 31: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 28

pocetnostiam, Ni =∑i

j=1 nj . Kumulatıvne relatıvne pocetnosti definujeme ako Ni/n, comu zod-poveda empiricka distribucna funkcia, definovana pre zvolene cıslo x, ako relatıvna pocetnost vintervale (−∞, x〉, teda ako Ni-tina hodnot xi mensıch alebo rovnych ako x

FX (x) =#xi < x

n.

• Boxploty - ”krabicove diagramy” (dobre identifikuju symetriu rozdelenia medzi kvartilmi, symetriurozdelenia v koncoch rozdeleniaoutliery, znazornuju robustny odhad polohy - median - naviacsa pouzıvaju na graficke porovnanie dvoch suborov), ktorych sırka

√n predstavuje odmocninu

z rozsahu vyberoveho suboru a vidiet na nich po poradı xmin,Q1, Q2, Q3 a xmax a je mozne donich vkreslit aj aritmeticky priemer, co zvyrazenı prıpadne odchylky od normality. Ak Q2 < x, ideo pravostranne zosikmene rozdelenie, ak Q2 > x, ide o lavostranne zosikmene rozdelenie. Pokialhovorıme o ”krabicovych diagramoch so zarezom”, ide o zarez charakterizujuci robustny intervalspolahlivosti (pozri nizsie) medianu x ∈ (IDH , IHH), kde

IDH = x− 1.57DQ√

n, IHH = x + 1.57

DQ√n

,

naviac odhadom teoretickeho medianu je x (ako uz vieme) a odhadom jeho rozptylu je σ2ex =DQ/1.349, kde vo vseobecnosti platı (pre akekolvek rozdelenie pravdepodonosti)

σ2ex (f (x)) = 1/(4f2 (x)

),

kde f je hustota rozdelenia pravdepodobnosti. Pre normalne rozdelenie bude platit σ2ex = σ2x

π2n , kde

x ∼ N(µ, σ2

x

).

• Kvantilove diagramy (qq-diagramy, normal probability plot) - zobrazuju body so suradnicami[Φ−1 (i/ (n + 1)) , x(i)

], kde Φ−1 (p) je kvantilova funkcia normovaneho normalneho rozdelenia defi-

novana nasledovnePr(Z ≤ Φ−1 (p)

)= p.

Sikmost b1 > 0 sa prejavı v podobe konvexneho usporiadania hodnot, b1 < 0 sa prejavı v podobekonkavneho usporiadania hodnot. Taktiez je tu viditelna dlzka ”chvostov” rozdelenia, kratke”chvosty” su prejavom esoviteho usporiadania bodov, dlhe ”chvosty” naopak hovoria o inverzneesovitom usporiadanı bodov. Tiez je zretelna prıpadna bimodalita rozdelenia. Statisticky je moznetestovat normalitu rozdelenia pomocou simulaciı z N (0, 1) a vytvorenım Atkinsonovej obalky (e.g.Katina, 2003). Pre normalne rozdelenie bude platit σ2exp

= σ2x

π2

24 ln n , kde xp ∼ N(µp, σ

2exp

).

Pozn.: Ako jednoducho identifikovat hodnoty vybocujuce (pre normalne rozdelenie)? Ako mierurozptylu definujme kvantilovu odchylku DQ∗ = 2DQ. Pokial urobıme standardi- zaciu (pozri Melouna Militky, 2004, str. 86; Parsen, 1988), dostaneme DQ∗

st= 1 a standardizovany median bude xst = 0 a

standardizovana kvantilova funkcia indikujuca tvar bude

Qst (p) =xp − x0.5

DQ∗.

Hodnoty kvantilov, pre ktore platı |Qst (p)| ≥ 1, su povazovane za vybocujuce (pre normalne rozdelenie)a hovorıme potom o identifikatoroch dlhych chvostov (koncov). Hodnoty Qst (p) mozeme pouzit na

- identifikaciu miery sikmosti SQ = Qst (0.25) + Qst (0.75), kedy je rozdelenie pravdepodobnostisymetricke, ak SQ je rovne nule,

- identifikaciu dlzky koncov, kedyQst (0.95) < 0.5 hovorı o kratkych koncoch,Qst (0.95) > 1 hovorı o dlhych koncoch apre stredne dlhe konce bude platit Qst (0.95) ∈ 〈0.5, 1.0〉.

Page 32: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 29

Co je homogenny NV ? vsetky prvky NV xi, i = 1, 2, ..., n, pochadzaju z rovnakeho rozdelenia pravde-podobnosti s konstantnym rozptylom σ2, ako sme uz spomınali. K nehomogenitam dat dochadza vsadetam, kde sa vyskytuju vyrazne nerovnomernosti na- meranych premennych, nahle sa menia podmienkyexperimentu a pod. Nehomogenita moze byt sposobena aj nevhodnou specifikaciou suboru. Pokial ideNV rozdelit podla nejakych logickych kriteriı do niekolkych podskupın, je mozne statisticky spracovatkazdu takuto podskupinu zvlast a potom ich porovnat napr. na zaklade testov strednych hodnot.

Specialnym prıpadom su odlahle pozorovania. Taketo pozorovanie skresluju odhady polohy a hlavnerozptylu σ2, takze mozu znehodnotit dalsiu statisticku analyzu. Problem takychto pozorovanı je znacnekomplikovany. Pri ich overovanı sa pouzıva mnoho ideali- zovanych predpokladov. Je nutne poznat ichpredpokladany pocet, ich rozdelenie a tiez rozdelenie ostatnych prvkov NV. Naviac je nutne zostrojitmodel, podla ktoreho sa odlahle pozorovania chovaju. Testovanie odlahlych pozorovanı bez doplnkovychinformaciı je teda malo spolahlive.

Jednoduchou technikou, kedy sa predpoklada, ze data maju normalne rozdelenie, je modifikaciavnutornych hradieb BD a BH na

BmodD = Q1 − kDQ, Bmod

H = Q3 + kDQ,

kde sa parameter k sa volı tak, aby pravdepodobnost Pr (n, k), ze z NV s rozsahom n pochadzajuceho znormalneho rozdelenia, nebude ziaden prvok mimo intervalu I =

⟨Bmod

D , BmodH

⟩, bola dostatocne vysoka,

napr. 0.95. Ak Pr (n, k) = 0.95 a n ∈ 〈8, 100〉 pouzijeme aproximaciu k ≈ 2.25 − 3.6/n. Teda, prvkymimo I sa povazuju za odlahle. Postup spomenuty vyssie je robustny.

8.1 Prıklady v S-PLUS a R

• histogram, hustota rozdelenia pravdepodobnosti a kumulatıvna distribucna funkcia

Prıklad 51 histogram hist(variable,probability = T, nclass = number, plot = T)

argumenty: probability = T je pravdepodobnostna skala, nclass = number pocet tried, plot = Fsluzi na vypısanie hranıc intervalov

default pre nclass je log2n+1 (Sturgesova formula), intervaly su definovane ako 〈x0, x1〉 , (x1, x2〉 , ...;specialne mozeme vylucit lavy koncovy bod x0 prostrednıctvom argumentu include.lowest=F (s de-faultom T); sırka intervalov je teda range(x)/ log2n + 1, pre normalne rozdelene data (Scott, 1992)

help(lottery.payoff)hist(lottery.payoff)hist(lottery.payoff, nclass=15)hist(lottery.payoff, nclass=15, probability=T)x < − hist(lottery.payoff, nclass=15, probability=T, plot = F)xattach(geyser)names(geyser)hist(waiting,probability=T)# ciernobiely styl s ”kobercom”hist(waiting,probability=T,nclass=20,style=’’old’’)rug(waiting)Pozn.: Outliery mozu dramaticky umelo nafuknut rozsah suboru, co moze sposobit narast sirky inter-

valov v centre rozdelenia. Preto sa najcastejsie vyuzıvaju dve pravidla ako kompromis medzi vychylkou arozptylom pre data z normalnho rozdelenia s outliermi , ktore vyuzıvaju nasledovne sırky intervalov defi-novane ako Scottova formula (Scott, 1979) h1 = 3.49σn−1/3 a Freedman-Diaconisova formula (Freedmana Diaconis, 1981) h2 = 2DQn−1/3, kde r = Q3 −Q1

# Scottova formulanclas.scott function(x)

h 3.5*(sqrt(var(x))*length(x)∧(-1/3)

Page 33: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 30

ceiling(diff(range(x))/h)hist.scott function(x, prob=T, xlab=deparse(substitute(x)), ...)

invisible(hist(x, nclass=nclass.scott(x), prob=prob,xlab=xlab,...))# Freedman-Diaconisova formulanclass.FD function(x)

r as.vector(quantile(x,c(0.25,0.75)))h 2*(r[2]-r[1])*length(x)∧(-1/3)ceiling(diff(range(x))/h)

hist.FD function(x, prob=T, xlab=deparse(substitute(x)), ...)

invisible(hist(x, nclass=nclass.FD(x), prob=prob,xlab=xlab,...))

Prıklad 52 hustota rozdelenia pravdepodobnosti, funkcia plot() a jej argumenty, tu zakreslenieciary type=’’l’’

x < − seq(-4,4,by=0.01)plot(x,dnorm(x),type=’’l’’)# type= ’’p’’ pre body (points), type=’’l’’ pre ciary (lines), type=’’b’’ pre oboje (both),

type=’’n’’ pre prazdny obrazok# V Rku inak, funkcia curve(), odkial, kam a kolko bodovcurve(dnorm(x),from=-4,to=4,n=10000)# vkreslenie hustoty do histogramux < − rnorm(10000)hist(x,prob=T)lines(density(x))# v Rkux < − rnorm(1000)hist(x,freq=F)curve(dnorm(x),from=-4,to=4,n=1000,add=T)# co tak v Rku hustotu binomickeho rozdelenia s parametrami n = 50, p = 0.33x < − 0 : 50plot(x,dbinom(x, size=50, prob=0.33),type=’’h’’)

Prıklad 53 kumulatıvna distribucna funkcia, funkcia cdf.compare()

- jednovyberovy problem: graficke porovnanie empirickej a hypotetickej (teoretickej) kumulatıvnejdistribucnej funkcie (ecdf a tcdf)

- dvojvyberovy problem: graficke porovnanie dvoch empirickych kumulatıvnych distribucnych funkciıpozn.: pouzitie pred Kolmogorov-Smirnov testom- argumenty funkcie:cdf.compare(x, y = NULL, distribution = ’’normal’’)x a y su numericke vektory (y len pri porovnavanı dvoch ecdf)typ rozdelenia pravdepodobnosti: distribution = ’’normal’’, ’’chisquare’’, ’’f’’,

’’gamma’’, ’’lognormal’’, ’’logistic’’, ’’t’’, ’’binomial’’, ’’geometric’’,’’hypergeometric’’, ’’poisson’’, ’’wilcoxon’’

# jednovyberovy problem# nasimulujte data z normalneho rozdelenia s rozsahom 100z < − rnorm(100)# porovnajte ich s tcdf normalneho a potom chi-kvadrat rozdeleniacdf.compare(z,dist=’’normal’’)

Page 34: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 31

cdf.compare(z,dist=’’chisquare’’,df=2)

# dvojvyberovy problem# nasimulujte data z normalneho rozdelenia s rozsahom 25 a normalneho rozdelenia s rozsahom 100x < − rnorm(25)y < − rexp(100)# porovnajte ichcdf.compare(x,y)# realne data waitingcdf.compare(waiting,dist=’’norm’’)cdf.compare(waiting,dist=’’norm’’,mean=mean(waiting),sd=sqrt(var(waiting)))

# v Rku# funkcia ecdf(), parameter do.points=F nekreslı body a verticals=T kreslı schodovitu funkciulibrary(ISwR)library(help=ISwR)data(vitcap2)attach(vitcap2)names(vitcap2)plot(ecdf(vital.capacity),do.points=F, verticals=T)x < − seq(min(vital.capacity), max(vital.capacity), by=0.01)lines(x,pnorm(x,mean=mean(vital.capacity),sd=sqrt(var(vital.capacity))))

• krabicovy diagram (boxplot)

# argumenty funkcie boxplot()varwidth je argument relatıvnej sırky jednotlivych krabiciek. Default je F, co znamena rovnaka sırka

pre vsetky krabicky; ak ho zmenıme na T, sırka krabiciek bude proporcionalna ku druhej odmocnine zpoctu pozorovanı

names je vektor pomenovanı pre jednotlive zobrazovane skupiny, ak ho vynechame, pouziju sa nazvyz atributu names z datoveho ramca

plot ak je T, krabicky sa zobrazia, ak je F, budu pocıtane charakeristiky krabiciek v cıselnej podobenotch ak je T, zobrazia sa zarezy krabiciek, ktore zodpovedaju 95% intervalom spolahlivosti pre

medianboxcol zodpoveda farbe vnutri krabiciek, uvedie sa cıslo farby; ak boxcol=-1, nepouzije sa ziadna

farbamedchar logicky argument indikukuci, ci zobrazit median ako bod alebo nie. Implicitne je nastavene

T, ak je pouzity argument medpch, inak default je F.medpch typ bodu na zobrazenie medianu (cıslo typu bodu), default je NA, lebo median je zobrazovany

ako useckamedline logicky argument indikujuci, ci zobrazit median ako usecku alebo nie. Default je T, ak je

pouzity argument medlwdmedlwd sırka usecky charakterizujucej median. Implicitne je nastavena ako T, ak medline parameter

je T, inak je hodnota medlwd rovna NA, default je rovny 5medcol farba medianu v podobe usecky alebo bodu; default je 0confint ak je rovn/’y (T, zobrazia sa intervaly spolahlivosti pre median. Ak sa intervaly dvoch

krabiciek neprekryvaju, indikuje to, ze neexistuje rozdiel medzi medianmi na 5% hladine vyznamnosticonfnotch ak je rovny T, zarezy intervalov spolahlivosti su zobrazene, default je F.confcol farba intervalov spolahlivosti, default je 2.outchar logicky argument na zobrazenie outlierov ako bodov; je implicitne nastaveny ako T, ak je

pouzity outpch argument, default je Foutpch typ bodu na zobrazenie outlierov; je implicitne nastaveny ako 1, ak je pouzity argument

outchar

Page 35: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 32

outline logicky argument indikujuci, ci zobrazit outliery ako horizontalne usecky alebo nie; implicitneje nastaveny ako T, ak je pouzity argument outwex

outwex= sırka usecky predstavujucej oultiery, proporcna ku sırke krabiciek; default je 1

Prıklad 54 funkcie split(), boxplot(), datovy ramec market.frame

attach(market.frame)# priemerny prıjem podla vekusapply(split(income,age), mean)# alternatıvny vypocettapply(income,list(age), mean)# po dekadachsplit(income,age %/% 10)# nastavte argumenty funkcie boxplot() boxplot(split(income,age))boxplot(split(income, age), varwidth=TRUE, notch=TRUE)boxplot(split(age, employment), notch = TRUE)

Prıklad 55 funkcia split, datovy ramec ship

# komponent pre kazdy mesiacsplit(ship, cycle(ship))# nastavte argumenty funkcie boxplot()boxplot(split(ship, cycle(ship)))

Prıklad 56 datove ramce lottery.payoff, lottery2.payoff, lottery3.payoff.

boxplot(lottery.payoff, lottery2.payoff, lottery3.payoff)boxplot(split(lottery.payoff, lottery.number%/%100),main=’’NJ Pick-it Lottery (5/22/75-3/16/76)’’,sub=’’Leading Digit of Winning Numbers’’,ylab=’’Payoff’’)

Prıklad 57 vkreslenie aritmetickeho priemeru do krabicoveho diagramu

x <- boxplot(lottery.payoff, lottery2.payoff, lottery3.payoff)lp.mean <- mean(lottery.payoff)lp2.mean <- mean(lottery2.payoff)lp3.mean <- mean(lottery3.payoff)lp1.mean <- mean(lottery.payoff)lp.mean <- c(lp1.mean,lp2.mean,lp3.mean)points(x,lp.mean,pch=16)

• kvantilovy diagram (qq-plot)

Prıklad 58 funkcie qqnorm(), qqline(), qqplot()

# zobrazenie kvantilov nahodneho vyberu generovanych pseudonahodnych cısel oproti kvantilomnormalneho normovaneho rozdelenia

nc50 < − rnorm(50)qqnorm(nc50)qqnorm(nc50)nc1000 < − rnorm(1000)qqnorm(nc1000qqnorm(nc1000)

Page 36: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 33

# nagenerujte 1000 bodov z t10 rozdelenia a porovnajte ich s normalnym rozdelenımx rt(1000,10)# vidime ”dlhochvoste” rozdelenieqqnorm(x);qqline(x)# zobrazenie kvantilov nahodneho vyberu oproti kvantilom normalneho normovaneho rozdeleniaqqnorm(lottery.payoff);qqline(lottery.payoff)# zobrazenie kvantilov standardizovaneho nahodneho vyberu (z-skore) oproti kvantilom normalneho

normovaneho rozdeleniaLPscale < − scale(lottery.payoff)qqnorm(LPscale);qqline(LPscale)# zobrazenie kvantilov dvoch nahodnych vyberov a MNS priamky (podrobnosti neskor)qqplot(lottery.payoff, lottery3.payoff)zz < − qqplot(lottery.payoff, lottery3.payoff, plot = F)plot(zz)abline(lm(zz$y~zz$x))# znazornenie nahodneho vyberu oproti t-rozdeleniuplot(qt(ppoints(waiting),298),sort(waiting))# kde funkcia ppoints() zobrazuje prislusnu mnozinu pravdepodobnostı pre kvantilovy graf - tieto

hodnoty su (i− 1/2) /n pre n ≥ 11 a (i− 3/8) / (n + 1/4), pre n ≤ 10 a su generovane v rastucom poradı

Pozn.: Vizualizacia rozdelenia pravdepodobnosti nahodnej premennej kvantil-kvantil grafom (qq graf)nam elegantne ukaze, kde sa mozne odchylky od normality nachadzaju. Zobrazenie rozdelenia pravde-podobnosti q-q grafom nam ale dava len ciastocnu informaciu. Vieme povedat, kolko modusov manase rozdelenie, ci ma tazsie alebo lahsie ”chvosty” ako normalne rozdelenie. Nevieme vsak povedat,ci su vychylky statisticky ”zavazne” alebo nie. To nam povie napr. qq graf s Atkinsonovu obalkou(napr. Katina 2003). Tento graf zobrazuje teoreticke hodnoty kvantilov z N(0, 1) oproti kvantilom sorto-vanych hodnot nahodneho vyberu transformovanych na N(0, 1). Atkinsonova obalka sluzi na ohranicenieodchylok od normality, t.j. ide o porovnanie vyberovych qq-grafov zıskanych z mnozstva inych qq-grafov generovanych z nahodnych vyberov z normalneho rozdelenia. Toto horne a dolne ohraniceniezıskame napr. zo 100 simulaciı z N(0, 1) s rozsahom rovnym rozsahu hodnot sledovaneho parametratak, ze pocıtame minima a maxima pre kazdy kvantil nasledovne. Nech xi, i = 1, 2, ..., n, n = 100, supseudonahodne cısla, Xi ∼ N(0, 1). Oznacme j-te kvantily i-teho nahodneho vyberu qij , potom y-novesuradnice hranıc obalky budu take, ze dolna hranica= mini(qij) a horna hranica= maxi(qij), kde x-ovesuradnice zodpovedaju prıslusnym teoretickym kvantilom N(0, 1).

Prıklad 59 qq graf s Atkinsonovu obalkou, datovy ramec swiss

# klasicky qqplotswiss.df data.frame(Fertility=swiss.fertility,swiss.x)attach(swiss.df)swiss.df[1:5,]qqnorm(Infant.Mortality)qqline(Infant.Mortality)# Atkinsonovu obalkavyberN01 cbind(Infant.Mortality,matrix(rnorm(47*19),47,19))vyberN01 apply(scale(vyberN01),2,sort)IM vyberN01[,1]XIM qqnorm(IM,plot=F)$xOBALKA t(apply(vyberN01[,-1],1,range))# argumenty funkcie matplot(): type=’’pnn’’ - nakreslı sa prvy stlpec (IM) ako body, dalsie

stlpce (OBALKA) sa nekreslia, ale hranice osı sa pre ne vytvoria; pch=4 a mkh=0.06 su typ a velkostbodov

matplot(XIM,cbind(IM,OBALKA),pch=c(4,18,18),mkh=0.5)

Page 37: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 34

• kruhovy diagram (piechart)

# funkcia pie(x)# argumentyx vektor relatıvnych hodnot (pravdepodobnostı), ktore v sucte davaju 1, teda i-ta polozka bude

abs(x[i])/sum(abs(x)) kruhu (ale aj pocetnostı). Graf zacına horizontalnou ciarou doprava a pokracujeproti smeru hodinovych ruciciek

names vektor mien prisluchajucich jednotlivym polozkam grafuexplode logicky vektor specifikujuci polozky, ktore maju byt vysunutecol vektor farieb, ktorymi su jednotlive polozky vyfarbene

Prıklad 60 datovy ramec testscores

# vytvorte kruhovy diagram skore pre jedneho studentast18 < − testscores[18,]name < − attributes(st18)pie(st18, names = name, col = c(3:7))# vysun skore < 20%pie(st18, names = name, col = c(3:7), explode = st18 < 20)

Prıklad 61 datovy ramec telsam.response

SUManketa < − apply(telsam.response, 2, sum)pie(SUManketa, dimnames(telsam.response)[[2]], explode = c(T, F, F, F),col = c(3:6))

# pridajte do grafu nadpistitle(main =’’Kruhovy diagram’’)

• stlpcovy diagram (barplot)

# funkcia barplot()names vektor pomenovanı pre jednotlive stlpcelegend vektor pomenovanı pre jednotlive polozky vramci stlpcacol vektor farieb jednotlivych poloziek vramci stlpca

Prıklad 62 datovy ramec telsam.response

# pouzite prvych 5 riadkov datoveho ramca telsam.response, kde tieto budu predstavovat 5 ludı,ktorı zaradili do kategoriı poor, fair, good and excellent prisluchajuce pocty otatok v dotaznıku azobrazte ich prostrednıctvom stlpcoveho diagramu

barplot( t(telsam.response[1:5,]), ylim=c(0, 200))# ohranicte y-ovu os tak, aby na nej bolo dost miesta na legendubarplot( t(telsam.response[1:5,]), ylim=c(0, 200))# priradte do grafu mena (cısla) participujpcich ludı, popis x.ovej a y-ovej osi, nazov grafu# popisky x-ovej, y-ovej osi a nadpis# xlab=’’retazec’’, ylab=’’retazec’’, main=’’retazec’’barplot( t(telsam.response[1:5,]), ylim=c(0, 200),legend=dimnames(telsam.response)[[2]],names=as.character(dimnames(telsam.response)[[1]][1:5]),xlab=’’respondent’’, ylab=’’pocet odpovedi’’,main=’’Odpovede respondentov’’)

Page 38: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 35

• funkcia plot() a jej argumenty (mozno ich pouzit aj pri mnohych inych grafickych funkciach)

- plot(x,y) - ak su x a y vektory, ide o scatterplot vektora x oproti vektoru y, ak zadame lenplot(xy), potom je xy list obsahujuci dva argumenty alebo dvoj-stlpcova matica

- plot(x) - ak x je casovy rad, potom ide o ”time series plot”, ak x je numericky vektor, potomzobrazujeme hodnoty vektora oproti indexu vo vektore, ak x je komplexny vektor, zobrazuje sa imaginarnazlozka versus realna zlozka vektora

Pozn. ku Rku:plot(f) - kde f je vektor faktorov, v R -ku pojde o barplotplot(f,y) - zobrazı stlpcovy diagram vektora y pre vsetky hladiny faktora fpairs(X) - matica rozptylovych grafov pre jednotlive premenne (”pairwise scatterplot”)

• type= argument kontrolujuci typ grafu: type=’’p’’ - body (default), type=’’l’’ - ciary, type=’’b’’ - body pospajane ciarami, type=’’s’’ - skokova funkcia, type=’’n’’ - ziadne zobrazenie,len osi

• xlab=’’retazec’’, ylab=’’retazec’’, main=’’retazec’’, sub=’’sring’’ - podnadpis podx-ovou osou

• points(x,y), lines(x,y) - pridavanie bodov a ciar do obrazka

• text(x, y, labels) - pridanie textu v bodoch specifikovanych x, y; teda labels[i] sa zobrazujev bodoch (x[i], y[i]), default je 1:length(x)

plot(x,y, type=’’n’’); text(x, y, names)

• title(main, sub) - dodatocne pridanie nadpisu a podnadpisu

• legend(x, y, legend) - dodatocne pridanie legendy v specifickom umiestnenı

# argumentylegend( , fill=v) - farby vyplne krabicieklegend( , col=v) - farba nakreslenych bodov alebo ciarlegend( , lty=v) - typ ciarlegend( , lwd=v) - sırka ciarlegend( , pch=v) - typ bodov

• urcenie polohy specifikovaneho bodu na grafe pouzitım mysi locator(n, type)

# bodove (jedno kliknutie) urcenie outliera

• text(locator(1), ’’outlier’’)

# pozıcia legendy

legend(locator(1), legend=c(’’Janko’’, ’’Marienka’’), fill=2:3)

• identifikıcia bodov identify(x,y, labels)

Prıklad 63 priklady ku vyssie uvedenym funkciam a ich argumentom

# datovy ramec swiss.dfattach(swiss.df)plot(Ferility,Infant.Mortality)# datovy ramec cornhelp(corn)plot(corn.rain, corn.yield)

Page 39: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 36

# datovy ramec shiphelp(ship)plot(ship)

# identitikaciax < − c(1, 2, 3)y < − c(3, 4, 5)plot(x, y)# kliknutie vzdy raz na body (x[i],y[i])body < − locator()# oznacenie bodovidentify(x, y, pts = pts)# pouzitie argumentu type, typu ciary a bodovplot(1:10, type=’’b’’, lty=2, pty=7)

# vlozenie textu do grafu, funkcia paste znamena vloz, argument sep separaciu nazvov, argumentadj oznacuje vzdialenost od bodu,

population < − state.x77[,’’Population’’]area < − state.x77[,’’Area’’]plot(area, population, log=’’xy’’, xlab=’’Oblast v stvorcovzch milach’’,ylab=’’Populacia v tisicoch’’)staty.ozn < − c(’’Alaska’’, ’’California’’, ’’Florida’’, ’’Hawaii’’,’’New Jersey’’, ’’New York’’, ’’Rhode Island’’, ’’Texas’’, ’’Wyoming’’)text(area[staty.ozn], population[staty.ozn],paste(’’ ’’, staty.ozn, sep=’’’’), adj=0)

# legenda s pouzitım funkcie locatorplot(freeny.x[,1], ylim = c(1,10), pch = 15, col = 2)points(freeny.x[,2], pch = 15, col = 3)points(freeny.x[,3], pch = 15, col = 4)typ.names < − c(’’price index’’, ’’income level’’, ’’market potential’’)legend(locator(1), legend = typ.names, fill = 2:4)# legenda s umiestnenım, graf typu casovy rad tsplot()tsplot(bonds.yield[1:40,], lty = 1:6)legend(13, .086, legend = as.character(bonds.coupon),lty = 1:6, pch = ’’OXAC*I’’)

# legenda s roznymi typmi bodovplot(testscores[,1], pch = 8)points(testscores[,2], pch = 7)points(testscores[,3], pch = 5)legend(1,20,c(’’DG’’,’’C’’,’’A’’), marks = c(8,7,5))

# vlozenie priamky do grafu, funkcia abline()abline(a, b) - intercept-skoln typ ciaryabline(LRM$coef) - vyberanie regresnych koeficientov z vysledkov linearnej regresie (neskor)abline(LRM) - priame pouzitie zadania pre linearny regresny model (neskor)

x < − 1:100y < − rnorm(100)plot(x,y)abline(0,0)LRMxy < − lm(y~x)abline(LRMxy) alternatıvne abline(LRMxy$coef)

Page 40: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 37

9 Statisticka inferencia

9.1 Statisticka inferencia pre parametre normalneho rozdelenia

V nasledovnej kapitole sa budeme venovat vybranym rozdeleniam pravdepodobnosti bezprostredne suvi-siacich so statistickou inferenciou, itervalom spolahlivosti a testovaniu hypotez.

9.1.1 Intervaly spolahlivosti

Ciel: zostrojit na zaklade dat interval, o ktorom mozeme dost spolahlivo prehlasit, ze obsahuje skutocnu(neznamu) hodnotu parametra θ, teda tvrdıme to s primeranym stupnom dovery.

Uloha: najst na zaklade nahodneho vyberu X1, ..., Xn taky interval, kt. bude obsahovat neznamuhodnotu parametra θ s pravdepodobnostou 1−α. Taketo intervaly sa nazyvaju 100× (1− α)% intervalyspolahlivosti (IS ) s koeficientom spolahlivosti 1−α, α = 0.05, α = 0.01, α = 0.001 - a je volena statistikom.

Dlzka IS:

• ↑ spolahlivost - dlhsı IS,

• ↓ spolahlivost - kratsı IS.

IS rozlisujeme:

• dvojstranne (DIS )

pre DIS su koncove body DH (X1, ..., Xn) a HH (X1, ..., Xn) vytvorene tak, aby platilo

Pr (DH (X1, ..., Xn) ≤ θ ≤ HH (X1, ..., Xn)) = 1− α

• jednostranne (JIS )

pre JIS volıme konkretnu hranicu tak, aby mohlo dojst iba k podceneniu neznameho parametra(pravostranny) alebo k preceneniu neznameho parametra (lavostranny), tj. aby platilo

Pr (DH∗ (X1, ..., Xn) ≤ θ) = 1− α, pre ∀θ ∈ Θ (dolny)

Pr (θ ≤ HH∗ (X1, ..., Xn)) = 1− α, pre ∀θ ∈ Θ (horny)

IS dostaneme pouzitım kvantilov, resp. kritickych hodnot rozdelenia prıslusnej nahodnej premennej(v tabulkach 1-18 su pouzite kriticke hodnoty).

ISs pre parametre normalneho rozdelenia:Tab. 1

IS pre θ1 = µ, θ2 = σ2 - zname(X − u (α/2) σ√

n≤ µ ≤ X + u (α/2) σ√

n

)(X − u (α) σ√

n≤ µ

)(µ ≤ X + u (α) σ√

n

)Tab. 2

IS pre θ1 = µ, θ2 = σ2 - nezname(X − tn−1 (α/2) S√

n≤ µ ≤ X + tn−1 (α/2) S√

n

)(X − tn−1 (α) S√

n≤ µ

)(µ ≤ X + tn−1 (α) S√

n

)

Page 41: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 38

Tab. 3

IS pre θ1 = σ2, θ2 = µ- nezname((n−1)S2

χ2n−1(α/2)

≤ σ2 ≤ (n−1)S2

χ2n−1(1−α/2)

)((n−1)S2

χ2n−1(1−α)

≤ σ2)(

σ2 ≤ (n−1)S2

χ2n−1(α)

)Oznacenia:Normovane dvojrozmerne normalne rozdelenie

N2

((0, 0)T

,

(1 ρρ 1

))je rozdelenie normalneho vektora (X, Y )T s hustotou

f (x, y) =1

2π√

1− ρ2exp

−x2 − 2ρxy + y2

2 (1− ρ2)

, (x, y)T ∈ R2,

kde ρ ∈ (−1, 1) je parameter; distribucna funkcia je

F (x, y) =∫ x

−∞

∫ y

−∞

1

2π√

1− ρ2exp

−w2 − 2ρwz + z2

2 (1− ρ2)

dwdz, (x, y)T ∈ R2.

Marginalne rozdelenie X a Y je N (0, 1), kde E [X] = E [Y ] = 0, V ar [X] = V ar [Y ] = 1, Cov (X, Y ) = ρa

fX (x) =∫ ∞

−∞

1

2π√

1− ρ2exp

−x2 − 2ρxy + y2

2 (1− ρ2)

dy

=1√2π

exp−x2

2

∫ ∞

−∞

1√2π (1− ρ2)

exp

− (y − ρx)2

2 (1− ρ2)

,

kde 1

2π√

2π(1−ρ2)exp

− (y−ρx)2

2(1−ρ2)

, y ∈ R1 je hustota N

(ρx, 1− ρ2

). Stredne hodnoty a rozptyly plynu

zo skutocnosti, ze nahodne veliciny X a Y maju normovane normalne rozdelenie. Pre kovarianciu mame

Cov (X, Y ) =∫ ∞

−∞

∫ ∞

−∞xy

1

2π√

1− ρ2exp

−x2 − 2ρxy + y2

2 (1− ρ2)

dxdy

=∫ ∞

−∞x

1√2π

exp−x2

2

(∫ ∞

−∞y

1√2π (1− ρ2)

exp

− (y − ρx)2

2 (1− ρ2)

dy

)dx

=∫ ∞

−∞x

1√2π

exp−x2

2

ρxdx = ρ.

Vseobecne dvojrozmerne normalne rozdelenie

N2

((µ1, µ2)

T,

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

))je rozdelenie normalneho vektora (X, Y )T s hustotou

f (x, y) =1

2π√

σ21σ2

2 (1− ρ2)exp

− 12 (1− ρ2)

(x−µ1)

2

σ21

− 2ρ (x−µ1)(y−µ2)σ1σ2

+ (y−µ2)2

σ22

,

Page 42: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 39

kde (x, y)T ∈ R2, µi ∈ R1, σ2i > 0, i = 1, 2, ρ ∈ (−1, 1) su parametre. Vyraz v exponente mozeme pısat

ako

−12

(x− µ1

y − µ2

)T (σ2

1 ρσ1σ2

ρσ1σ2 σ22

)−1(x− µ1

y − µ2

),

marginalne rozdelenia su N(µ1, σ

21

), resp. N

(µ2, σ

22

)a ρ je koeficient korelacie.

Veta 64 Majme 2 nezavisle nahodne vybery s rozsahmi n1, n2 so zakladych suborov s rozdeleniamiN(µ1, σ2

1

), resp. N

(µ2, σ2

2

). Potom

1. X = X1 −X2 ∼ N(µ1 − µ2, σ

21/n1 + σ2

2/n2

)U = X−E[X]√

D[X]= X1−X2−(µ1−µ2)

σD∼ N (0, 1) ,kde σ2

D = σ21/n1 + σ2

2/n2, σ21 a σ2

2 su zname

2. specialne ak N(µ1, σ

2), resp. N

(µ2, σ

2), kde σ2 je znama, potom

X = X1 −X2 ∼ N(µ1 − µ2,

n1+n2n1n2

σ2)

U = X1−X2−(µ1−µ2)qn1+n2n1n2

σ∼ N (0, 1)

3. ak σ2 je neznama (teda predpokladame rovnost vyberovych disperziı), potom

T = X1−X2−(µ1−µ2)Sodh

∼ tn1+n2−2, kde S2 = (n1−1)S21+(n2−1)S2

2n1+n2−2 , Sodh = S

√1/n1 + 1/n2, S2

1 a S22 su

vyberove disperzie a

(n1 + n2 − 2) S2/σ2 ∼ χ2n1+n2−2

4. podiel vyberovych disperziı ku populacnym disperziam ma nasledovne rozdelenie

S21,n1

/σ21

S22,n2

/σ22

∼ Fn1,n2

5. σ21 a σ2

2 su nezname (teda predpokladame, ze vyberove disperzie su rozne) a casto n1, n2 su male anevelke - je nutne pouzit Aspin - Welchovu aproximaciu (Aspin a Welch, 1949, Wang, 1971;Bickel, Doksum, 2002)

c = S21,n1

/(n1S

2D

), S2

D = S21/n1 + S2

2/n2

potom mame Tk, kde k je pocet stupnov volnosti dany vztahom

k =[

c2

n1−1 + (1−c2)n2−1

]−1

(ak k nie je cele cıslo, pouzijeme linearnu interpolaciu v t-tabulkach).

Veta 65 Nech (X1, Y1) , (X2, Y2) , ..., (Xn, Yn) je nahodny vyber z

N2

((µ1, µ2)

T,

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

)),

µ1, µ2 ∈ R1, σ21 , σ2

2 > 0, −1 < ρ < 1, vsetky parametre nezname. Nech Dn =∑n

i=1 Di/n a S2d,n =∑n

i=1

(Di −Dn

)/ (n− 1) su vyberovy priemer a vyberovy rozptyl velicın Di = Xi − Yi, i = 1, 2, ..., n.

Potom (Dn − tn−1 (α/2)

Sd,n√n

,Dn + tn−1 (α/2)Sd,n√

n

)je intervalovy odhad parametrickej funkcie ∆ = µ1 − µ2 so spolahlivostou (1− α).

Page 43: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 40

Pozn.:

• Welchova aproximacia dobre pracuje aj za rovnosti rozptylov. Problemu nerovnosti rozptylovhovorıme aj Behrens - Fisherov problem (Behrens, 1929; Fisher, 1939)

• pre vypocet df sa uvadza aj nasledovny vztah (Welch , 1938)

k = df = (S21/n1+S2

2/n2)2

(S21/n1)2

/(n1−1)+(S22/n2)2

/(n2−1)(Zar, 1999), pouzijeme nasledujuce mensie cele cıslo.

Tab. 4

IS pre θ1 = µ1 − µ2, θ2 =(σ2

1 , σ22

)- zname(

X1 −X2 − u (α/2) σD ≤ µ1 − µ2 ≤ X1 −X2 + u (α/2) σD

)(X1 −X2 − u (α) σD ≤ µ1 − µ2

)(µ1 − µ2 ≤ X1 −X2 + u (α) σD

)Tab. 5

IS pre θ1 = µ1 − µ2, θ2 = σ2 - zname(X1 −X2 − u (α/2)

√n1+n2n1n2

σ ≤ µ1 − µ2 ≤ X1 −X2 + u (α/2)√

n1+n2n1n2

σ)(

X1 −X2 − u (α)√

n1+n2n1n2

σ ≤ µ1 − µ2

)(µ1 − µ2 ≤ X1 −X2 + u (α)

√n1+n2n1n2

σ)

Tab. 6

IS pre θ1 = µ1 − µ2, θ2 = σ2 - neznameX1 −X2 − tn1+n2−2 (α/2) Sodh ≤ µ1 − µ2 ≤ +tn1+n2−2 (α/2) Sodh(

X1 −X2 − tn1+n2−2 (α) Sodh ≤ µ1 − µ2

)(µ1 − µ2 ≤ X1 −X2 + tn1+n2−2 (α) Sodh

)Tab. 7

IS pre θ1 = µ1 − µ2, θ2 =(σ2

1 , σ22

)- nezname(

X1 −X2 − tk (α/2) SD ≤ µ1 − µ2 ≤ X1 −X2 + tk (α/2) SD

)(X1 −X2 − tk (α) SD ≤ µ1 − µ2

)(µ1 − µ2 ≤ X1 −X2 + tk (α) SD

)Tab. 8

IS pre θ1 = σ21/σ2

2 , θ2 = µ - nezname(S2

1,n1S2

2,n2

1Fn1−1,n2−1(α/2) ≤ σ2

1/σ22 ≤

S21,n1

S22,n2

1Fn1−1,n2−1(1−α/2)

)(

S21,n1

S22,n2

1Fn1−1,n2−1(1−α) ≤ σ2

1/σ22

)(

σ21/σ2

2 ≤S2

1,n1S2

2,n2

1Fn1−1,n2−1(α)

)9.1.2 Testovanie hypotez

Zakladne pojmy:Nulova hypoteza H0 : θ ∈ Θ0,Alternatıvna hypoteza H1 : θ ∈ Θ1,Θ0 + Θ1 = ΘMozne situacie:

A.) platı H0 a nase rozhodutie je nezamietnut H0 (SPRAVNE),

Page 44: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 41

B.) platı H0 a nase rozhodutie je zamietnut H0,

C.) platı H1 a nase rozhodutie je nezamietnut H0,

D.) platı H1 a nase rozhodutie je zamietnut H0 (SPRAVNE).

Teda

rozhodnutie/skutocnost H0 platı H0 neplatıH0 zamietnut chyba I. druhu spravne rozhodnutie

H0 nezamietnut spravne rozhodnutie chyba II. druhu

• V prıpade A, D je nase rozhodnutie spravne (Pr (A) ≥ 1− α).

• V prıpade B sa dopustame chyby prveho druhu (CHPD, Pr(CHPD) ≤ α).

• V prıpade C sa dopustame chyby druheho druhu (CHDD, Pr(CHDD) = β). Doplnok pravde-podobnosti CHDD 1 − β sa nazyva sila testu, co je pravdepodobnost, ze H0 zamietneme, kedtato hypoteza neplatı (D), teda pravdepodobnost, s akou neplatnost hypotezy odhalıme. Sila testuzavısi na zvolenej testovacej metode a hlavne na tom, ake je skutocne rozdelenie dat (a teda pouzitejstatistiky) alebo ake su skutocne hodnoty parametrov.

Kriticky obor W ∈ Rn. Ak X ∈ W, tak H0 zamietame. Jeho volba zavisı na poziadavke, abypravdepodobnosti chyb I. druhu boli mensie alebo rovne zvolenemu kladnemu cıslu α ∈ (0, 1/2) , tedaPrθ (X ∈ W ) ≤ α,∀θ ∈ Θ0. Platı supθ∈Θ0 Prθ (X ∈ W ) = α, α sa nazyva hladina vyznamnosti. Sucasnevolıme W tak, aby pravdepodobnosti chyb I. druhu boli co najmensie.

Pozn.:

• hladina vyznamnosti α - dana (urcena statistikom),

• testovacia statistika - vypocıta sa,

• kriticka hodnota - tabulky, PC,

• p-hodnota, p-value, significance level (probability), dosiahnuta hladina vyznamnosti

Zamietnutie (napr. H0:θ = θ0)

• dvojstranna alternatıva je napr. pre X ∼ N(0, 1) ak |U | ≥ u (α/2), kde

H1 : θ 6= θ0

• jednostranna alternatıva je napr. pre X ∼ N(0, 1) ak U ≥ u (α) , U ≤ −u (α), kde

pravostranna H1 : θ > θ0

lavostranna H1 : θ < θ0

Tab. 9

H0 H1 X ∈ W predpoklad

µ = µ0 µ 6= µ0 U = |X−µ0|σ

√n ≥ u (α/2) σ2 - zname

µ ≤ µ0 µ > µ0 U1 = X−µ0σ

√n ≥ u (α) σ2 - zname

µ ≥ µ0 µ < µ0 U2 = X−µ0σ

√n ≤ −u (α) σ2 - zname

Page 45: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 42

Tab. 10

H0 H1 X ∈ W predpoklad

µ = µ0 µ 6= µ0 T = |X−µ0|S

√n ≥ tn−1 (α/2) σ2 - nezname

µ ≤ µ0 µ > µ0 T1 = X−µ0S

√n ≥ tn−1 (α) σ2 - nezname

µ ≥ µ0 µ < µ0 T2 = X−µ0S

√n ≤ −tn−1 (α) σ2 - nezname

Tab. 11

H0 H1 X ∈ W predpokladσ2 = σ2

0 σ2 6= σ20

(n−1)S2

σ20

/∈(χ2

n−1 (1− α/2) , χ2n−1 (α/2)

)µ - nezname

σ2 ≤ σ20 σ2 > σ2

0(n−1)S2

σ20

≥ χ2n−1 (α) µ - nezname

σ2 ≥ σ20 σ2 < σ2

0(n−1)S2

σ20

≤ χ2n−1 (1− α) µ - nezname

Tab. 12

H0 H1 X, Y ∈ W predpoklad

µ1 = µ2 µ1 6= µ2 U = |X1−X2|σD

√n ≥ u (α/2)

(σ2

1 , σ22

)- zname

µ1 ≤ µ2 µ1 > µ2 U1 = X1−X2σD

≥ u (α)(σ2

1 , σ22

)- zname

µ1 ≥ µ2 µ1 < µ2 U2 = X1−X2σD

≤ −u (α)(σ2

1 , σ22

)- zname

Tab. 13

H0 H1 X, Y ∈ W predpoklad

µ1 = µ2 µ1 6= µ2 U = |X1−X2|qn1+n2n1n2

σ≥ u (α/2) σ2 - zname

µ1 ≤ µ2 µ1 > µ2 U1 = X1−X2qn1+n2n1n2

σ≥ u (α) σ2 - zname

µ1 ≥ µ2 µ1 < µ2 U2 = X1−X2qn1+n2n1n2

σ≤ −u (α) σ2 - zname

Tab. 14

H0 H1 X, Y ∈ W predpoklad

µ1 = µ2 µ1 6= µ2 T = |X1−X2|Sodh

≥ tn1+n2−2 (α/2) σ2 - neznameµ1 ≤ µ2 µ1 > µ2 T1 = X1−X2

Sodh≥ tn1+n2−2 (α) σ2 - nezname

µ1 ≥ µ2 µ1 < µ2 T2 = X1−X2Sodh

≤ tn1+n2−2 (α) σ2 - nezname

Tab. 15

H0 H1 X, Y ∈ W predpoklad

µ1 = µ2 µ1 6= µ2 T = |X1−X2|SD

≥ tk (α/2)(σ2

1 , σ22

)- nezname

µ1 ≤ µ2 µ1 > µ2 T1 = X1−X2SD

≥ tk (α)(σ2

1 , σ22

)- nezname

µ1 ≥ µ2 µ1 < µ2 T2 = X1−X2SD

≤ −tk (α)(σ2

1 , σ22

)- nezname

Tab. 16

H0 H1 X, Y ∈ W predpoklad

σ21 = σ2

2 σ21 6= σ2

2

S21,n1

S22,n2

/∈ (Fn1−1,n2−1 (1− α/2) , Fn1−1,n2−1 (α/2)) µ - nezname

σ21 ≤ σ2

2 σ21 > σ2

2

S21,n1

S22,n2

≥ Fn1−1,n2−1 (α) µ - nezname

σ21 ≥ σ2

2 σ21 < σ2

2

S21,n1

S22,n2

≤ Fn1−1,n2−1 (1− α) µ - nezname

Page 46: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 43

9.1.3 Zavisle pozorovania

IS a testovacia statistika pre parovy t-test:

• X1, X2, ..., Xn nezavisle, Y1, Y2, ..., Yn nezavisle ale Xi, Yi nemusia byt,

• Di = Xi − Yi nezavisle,

• X1, X2, ..., Xn a Y1, Y2, ..., Yn maju rovnake rozdelenie,

• Xi ∼ N(µ1, σ

21

), Yi ∼ N

(µ2, σ

22

),

• X, Y nie su nezavisle, (Xi, Yi) normalne rozdelene,

• Xi − Yi ∼ N(µ1 − µ2, σ

2),

• (xi, yi)− par pozorovanı (realizaciı) na i-tej statistickej jednotke, i = 1, 2, ..., n,

• di = xi − yi,

• d je aritmeticky priemer rozdielov di,

• Sd - standardna odchylka rozdielov di,

• H0 : µ1 − µ2 = µd = 0,H1 : µd 6= 0 alebo alternatıvy jednostranne

Tab. 17

IS pre θ1 = µ, θ2 = σ2 - nezname(D − tn−1 (α/2) Sd√

n≤ µ ≤ D + tn−1 (α/2) Sd√

n

)(D − tn−1 (α) Sd√

n≤ µ

)(µ ≤ D + tn−1 (α) Sd√

n

)Tab. 18

H0 H1 X ∈ W predpoklad

µd = 0 µd 6= 0 T = |D|Sd

√n ≥ tn−1 (α/2) σ2 - nezname

µd ≤ 0 µd > 0 T1 = DSd

√n ≥ tn−1 (α) σ2 - nezname

µd ≥ 0 µd < 0 T2 = DSd

√n ≤ −tn−1 (α) σ2 - nezname

9.1.4 Vztah IS a testovania hypotez

Nech X =(X1, ..., Xn)T je nahodny vyber z rozdelenia, ktore zavisı na parametri θ ∈ Θ, g (θ) je paramet-ricka funkcia. Testujme hypotezu H0 : g (θ) = γ0 oproti obojstrannej alternatıve H1 : g (θ) 6= γ0. Nech(DH (X) ,HH (X)) je intervalovy odhad parametrickej funkcie g (θ) so spolahlivostou 1− α. Potom

W = X ∈Rn; γ0 /∈ (DH (X) ,HH (X))

je kriticky obor testu H0 oproti H1 na hladine vyznamnosti α.Ak mame testovat H0 oproti jednostrannej alternatıve H1 : g (θ) > γ0 a ak je DH∗ (X) dolny odhad

pre g (θ) so spolahlivostou 1− α, potom

W = X ∈Rn;DH∗ (X) > γ0

je kriticky obor testu H0 oproti H1 na hladine vyznamnosti α. Obdobne pre alternatıvu H1 : g (θ) < γ0

a horny odhad HH∗ (X).

Page 47: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 44

9.1.5 Prıklady v S-PLUS a R

Prıklad 66 EDA graf

eda.shape function(x)# EDA - exploratorna analyza dat# grafy mozete vylepsit podla vedomostı o grafike z predchadtajucich prednasokpar(mfrow=c(2,2))hist(x)boxplot(x)IQD summary(x)[5]-summary(x)[2]plot(density(x,width=2*IQD),xlab=’’x’’, ylab=’’’’, type=’’l’’)qqnorm(x)qqline(x)

Prıklad 67 20 pozorovanı rychlosti svetla, ”mich” data (Michelson, 1879)

# zadavanie dat funkciou ”scan”mich scan()1: 850 740 900 1070 9306: 850 950 980 980 88011: 1000 980 930 650 76016: 810 1000 1000 960 960 21eda.shape(mich)summary(mich)

Prıklad 68 funkcia ’’t.test’’ a jej argumenty

# vstupy# ”mu” - stredna hodnota alebo rozdiel strednych hodnot chatakteriyovany nulovou hypotezou# spolahlivost conf.level=CISLO, default je conf.level=.95# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’,

’’less’’# jednovyberovy t test = zadame ”x” ako vektor dat, ”mu” ako strednu hodnotu za platnosti nulovej

hypotezy# dvojvyberovy t test = zadame ”x” a ”y” ako vektory dat, ”var.equal=T” rovnake rozptyly a

”var.equal=F” rozne rozptyly# parovy t test = zadame ”x” a ”y” ako vektory dat, stanovıme argument paired=T, defult je

paired=F# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”t”# pocet stupnov volnosti ”df”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# interval spolahlivosti ”conf.int”# bodove odhady (aritmeticke priemery) ”sample estimates”

Prıklad 69 jednovyberovy t test, ”mich” data

t.test(mich,mu=990)t.test(mich,conf.level=.90,mu=990)

Page 48: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 45

Prıklad 70 dvojvyberovy t test, ”vahovy prırastok u potkanov”

gain.high scan()134 146 104 119 124 161 107 83 113 129 97 123gain.low scan()70 118 101 85 107 132 94eda.shape(gain.high)eda.shape(gain.low)# var.test(gain.high,gain.low)t.test(gain.high,gain.low)t.test(gain.high,gain.low,alternative=’’g’’)

Prıklad 71 parovy t test - ”pary topanok”

wear.A scan()14.0 8.8 11.2 14.2 11.8 6.4 9.8 11.3 9.3 13.6wear.B scan()13.2 8.2 10.9 14.3 10.7 6.6 9.5 10.8 8.8 13.3eda.shape(whear.A-whear.B)plot(wear.A,wear.B)# indikuje vysoku korelaciu, ktora signalizuje vysoku vnutro-vyberovu variabilitu, vacsiu nez rozdiely

v priemeroch. Parovanie vedie k vacsej citlivosti testut.test(wear.A,wear.B,paired=T)

Prıklad 72 naprogramujte vyssie spomınane testy zo zakladnych funkciı, pomenujte ich”jednovyberovy.ttest”, ”dvojvyberovy.ttest” a ”parovy.ttest

# pomocky# jednovyberovy t test urobte len pre ”mu=0”Tstat mean(x) / ( sqrt(var(x)) / sqrt(length(x)) )# parovy t test# najprv naprogramujte rozdiel vektorov ”d” a potom pre ”mu=0”Tstat mean(d) / ( sqrt(var(d)) / sqrt(length(d)) )# dvojvyberovy t test, tiez pre ”mu=0”Tstat (mean(x) - mean(y)) / s1s1 sp * sqrt(1/nx + 1/ny)sp sqrt( ( (nx-1)*var(x) + (ny-1)*var(y) ) / (nx + ny - 2) )nx length(x)ny = length(y)# dvojvyberovy t test s Welchovou aproximaciou, tiez pre ”mu=0”Tstat (mean(x) - mean(y)) / s2s2 sqrt( var(x)/nx + var(y)/ny ),nx length(x)ny length(y).# pre ”df”1 / ( (c^2)/(nx-1) + ((1-c)^2)/(ny-1) )c var(x) / (nx * s2^2)

Prıklad 73 naprogramujte intervaly spolahlivosti pre vyssie spomınane testy zo zakladnych funkciı apomenujte ich”jednovyberovy.IS”, ”dvojvyberovy.IS” a ”parovy.IS”, pouzite podklady z predchadza-juceho prıkladu

Page 49: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 46

Prıklad 74 Monte Carlo (MC) simulacie

Poznamky ku metodike:Aproximacie na zaklade asymptotickych vysledkov mozu byt vytvorene MC simulaciami. Ukazeme

simulacie na t-teste generovanım dat z χ2k rozdelenia m - krat nezavisle. Vzdy spocıtame hodnotu

t−statistiky a potom spocıtame proporciu poctov z celkoveho poctu m (dalej n.sim), ktore prevysujukriticku hodnotu z t-rozdelenia. χ2

k rozdelenie sme pouzili preto, aby sme ukazali, ze pre male k mamevychylky od normalneho rozdelenia.

Poznamky ku vysledkom:Pre jednovyberovy t-test na α = 0.05 su asymptoticke vysledky s dobrou aproximaciou, ked n ≥

101.5 u 32, k ≥ 10. χ22 rozdelenie je extremne vychylene a pre tn−1 (0.95) je aproximacia dobra len s

n ≥ 102.5 u 316.Uloha:Urobte simulacie pre n.sim=10 000 t-testov s pouzitım χ2

k nagenerovanych dat, kde k = 2, 10, 20, 50.Simulacie opakujte pre rozne rozsahy vyberov a zobrazte pozorovane hladiny vyznamnosti vocilog10 (rozsah vyberu)

# ”kv” - kvantil t-rozdelenia# rozsah vyberu je ”n”kv < − qt(0.975, df=n)’’SIMULttest’’ < − function(n.sim, n, df, kv)# n.sim - pocet simulacii (# = 10000)# n - rozsah vyberu# df - pocet stupnov volnosti chi-kvadrat rozdelenia

T.stat < − rep(0,n.sim)Matsim < − matrix(0,n,n.sim)for (i in 1: n.sim)MATsim[,i] < − rchisq(n.sim, df)Tstat[i] mean(MATsim[,i]) / ( sqrt(var(MATsim[,i])) / sqrt(n))PROP < − length(Tstat[Tstat > kv])/n.simreturn(PROP)

9.2 Statisticka inferencia pre parametre binomickeho rozdelenia

Majme H0 : p = p0 oproti H0 : p 6= p0. Potom Waldova statistika pre H0 ma tvar

zW =p− p0√

p (1− p) /n∼ N(0, 1),

a Waldov priblizny (1− α)% IS

p0 ∈(p± uα/2

√p (1− p) /n

).

Pokial nie je n dost velke, pouzijeme modifikovanu zW statistiku v tvare

zWmod=|X − np0| − 1/2√

np (1− p)∼ N(0, 1),

kde p = x/n.

Page 50: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 47

Nech p1 je pravdepodobnost, ze v pokuse nastane jav A. Nech v n1 nezavislych pokusoch nastaljav A spolu X−krat. Potom, ak napr. opakujeme pokus A za inych podmienok, jav A nastava spravdepodobnostou p2. Nech v n2 tychto dalsıch nezavislych pokusoch nastal jav A spolu Y−krat. Nazaklade tychto udajov chceme testovat H0 : p1 = p2 oproti H1 : p1 6= p2. Tuto hypotezu nazyvameniekedy hypoteza homogenity dvoch binomickych rozdelenı, pretoze X ∼ Bin (n1, p1) a Y ∼ Bin (n2, p2).Oznacme p1 = x/n1, p2 = y/n2. Predpokladajme, ze p1 (1− p1) + p2 (1− p2) 6= 0.

Z CLV vyplyva, ze pri dostatocne velkych hodnotach n1 a n2 mozeme pouzit aproximaciu

p1 ∼ N

[p1,

p1 (1− p1)n1

], p2 ∼ N

[p2,

p2 (1− p2)n2

].

Kedze x a y su nezavisle veliciny, dostavame potom

p1 − p2 − (p1 − p2)√p1(1−p1)

n1+ p2(1−p2)

n2

∼ N (0, 1) .

Ak plati H0, dostaneme v citateli p1 = p2. V menovateli vsak nezname hodnoty p1 a p2 stale ostavaju.Preto sa za ne dosadzuju ich odhady (Waldov prıstup). Da sa dokazat, ze sa limitne rozdelenie ani potomnezmenı a ostane N (0, 1) .

Ako odhad p1 pouzijeme p1, ako odhad p2 zasa p2. Silny zakon velkych cısel zarucuje, ze p1 → p1 ap2 → p2 skoro vsade. Potom

Ua =p1 − p2√

p1(1−p1)n1

+ p2(1−p2)n2

,

kde ak |Ua| ≥ uα/2, zamietame H0. Podobne testujeme jednostranne hypotezy.

9.2.1 Prıklady v S-PLUS a R

Prıklad 75 Experiment - z 50 zubov vystavenym tepelnemu soku sa 21 zlomilo, vypocıtajte IS pre pop-ulacnu pravdepodobnost zlomenia zuba po tepelnom soku

# funkcia na vypocet dvojstranneho IS pre rozdiel pravdepodobnostı# DH - dolna hranica IS# HH - horna hranica ISProbIS < − function(k, n, alpha = 0.05)# k - pocet priaznivych vysledkov# n - pocet pozorovanip < − k/nstderr < − sqrt(p * (1 - p)/n1)DH < − rozd - qnorm(1 - alpha/2) * stderrHH < − rozd - qnorm(1 - alpha/2) * stderrreturn(cbind(DH,p, HH))

Prıklad 76 Experiment - z 50 zubov vystavenym tepelnemu soku sa 21 zlomilo. Z kontrolnych 50 zubovsa zlomilo len 11. Otestujte, ci rozdiel populacnych pravdepodobnostı zlomenia zuba po tepelnom soku au kontroly je rovnaka.

Riesenie:n1 = n2 = 50, X = 21, Y = 11, p1 = 0.42, p2 = 0.22, p = 0.32Ua = 2.195, Ub = 2.144, u0.05 = 1.645# funkcia na vypocet dvojstranneho IS pre rozdiel pravdepodobnostı# DH - dolna hranica IS

Page 51: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 48

# HH - horna hranica ISProbDiffIS < − function(k1, k2, n1, n2, alpha = 0.05)# k1, k2 - pocet priaznivych vysledkov# n1, n2 - pocty pozorovanip1 < − k1/n1p2 < − k2/n2rozd < − p1 - p2stderr < − sqrt(p1 * (1 - p1)/n1 + p2 * (1 - p2)/n2)DH < − rozd - qnorm(1 - alpha/2) * stderrHH < − rozd - qnorm(1 - alpha/2) * stderrreturn(cbind(DH,rozd, HH))

9.3 Neparametricke dvojvyberove testy

Predpokladajme, ze X1, ..., Xn1 je nahodny vyber z nejakeho spojiteho rozdelenia, Y1, ..., Yn2 je nahodnyvyber z rovnakeho spojiteho rozdelenia a je oproti prvemu rozdeleniu posunute o nejaku konstantu δ.Znamena to, ze veliciny X1, ..., Xn1 a Y1− δ, ..., Yn2 − δ maju rovnake rozdelenie. Predpoklada sa, ze obavybery su nezavisle. Potom

• H0 : δ = 0,

• H1 : δ 6= 0.

9.3.1 Wilcoxonov test

Nech n1 + n2 = n, kde n1 je pocet pozorovanı v prvom vybere, n2 je pocet pozorovanı v druhom vybere.Nech R1, R2, ..., Rn1 su poradia prveho vyberu v ramci usporiadaneho zdruzeneho vyberu. Potom preWilcoxonovu statistiku SW platı

WX = SW =n1∑i=1

Ri.

Pre strednu hodnotu a rozptyl SW za platnosti H0 platı

E0 [SW ] =n1 (n1 + n2 + 1)

2,

V ar0 [SW ] =n1n2 (n1 + n2 + 1)

12,

kde n1, n2 ≥ 10. Potom platı

Z =SW − E0 [SW ]√

V ar0 [SW ]∼ N (0, 1) .

Test prisluchajuci SW sa nazyva Wilcoxonov test.Pozn.: Nulovu hypotezu zamietame, ak priemery takto zıskanych poradı spocıtane pre kazdy povodny

vyber sa od seba prıliz lısia (data nie su dost premiesane). Prakticky je vsak vyhodnejsie pocıtat sucetporadı len v jednom z vyberov. Platı

WX + WY = (n1 + n2) (n1 + n2 + 1)/2,

co platı vzdy. Pri dostatocne velkom vybere pouzijeme statistiku z (n1 + n2 ≥ 12). Nulovu hypotezuzamietame, ak |z| ≥ uα/2.

Page 52: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 49

S ohladom na zhody sa pouzıva modifikovana z-statistika, blizsie pozri Hollander, Wolfe (1999). Vprıpade zhod sa urobı priemer poradı zhod (strednoporadie). V tomto prıpade musıme vypocet smero-dajnej odchylky citatela upravit a dostaneme

Zkor =SW − E0 [SW ]√

V ar0 [SW ]− n1n2P

j(t3j−tj)12(n1+n2)(n1+n2−1)

∼ N (0, 1) ,

kde tj su pocty zhodnych pozorovanı.

9.3.2 Mann-Whitney test

Tento test ekvivalentny s vyssie uvedenym Wilkoxonovym testom.Nech xin1

i=1 a yjn2j=1 su mnoziny pozorovanı v prvom vybere (napr. povodny typ liecby), resp. v

druhom vybere (napr. novy typ liecby). Nech (xi, yj) su mozne pary pozorovanı, medzi ktorymi mozunastat nasledovne dve situacie xi < yj a xi > yj . Potom platı

SMW = # (xi, yj) , kde xi > yj ,

SMW = SW − 12n1 (n1 + 1) ,

kde SMW nazyvame Mann-Whitney statistika (SMW ). Pre strednu hodnotu a rozptyl SMW za platnostinulovej hypotezy platı

E0 [SMW ] =n1n2

2,

V ar0 [SMW ] = V ar0 [SW ] =n1n2 (n1 + n2 + 1)

12,

Potom

Z =SMW − E0 [SMW ]√

V ar0 [SMW ]∼ N (0, 1) .

Pozn.: Test je zalozeny na velicinach

UX = n1n2 +n1 (n1 + 1)

2−WX , UY = n1n2 +

n2 (n2 + 1)2

−WY .

Velicina UX vyjadruje pocet dvojıc Xi, Yj , kde platı Xi < Yj , podobne UY vyjadruje pocet dvojıc Xi, Yj ,kde platı Xi > Yj . Pri zhode Xi = Yj sa pripocıta 1

2 k UX aj ku UY . Musı platit UX +UY = n1n2 (pocetvsetkych dvojıc Xi, Yj).

Pre male rozsahy vyberov by sme pri testovanı nulovej hypotezy o zhode oboch rozdelenı mali namiestonormovanej veliciny z pouzit specialne tabulky (napr. Likes a Laga, 1978). Kriticky obor je v nichpopısany pomocou statistiky U = min(UX , UY ). Nulovu hypotezu na hladine vyznamnosti najviac αzamietame, ak U ≤ vn1,n2 (α), kde vn1,n2 (α) je kriticka hodnota. Pretoze U ma diskretne rozdelenie,skutocna pravdepodobnost chyby I. druhu moze byt vyrazne nizsia ako pozadovana α.

Page 53: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 50

9.4 Neparametricke parove testy

Do skupiny neparametrickych parovych testov patria znamienkovy test a Wilcoxonov znamienkovanytest.

9.4.1 Znamienkovy test

Poziadavka na normalne rozdelenie rozdielu Xi − Yi je niekdy prıliz prısna. Hlavne pre maly rozsahvyberu jeho nesplnenie moze znehodnotit rozhodovanie pomocou paroveho t-testu. Oproti parovemut-testu ma znamienkovy test ovela slabsie predpoklady, kde postacuje, aby nahodna velicina D = X − Ymala nejake spojite rozdelenie, kde stacı vediet, ktora z nasledovnych udalostı nastala

Di : Xi < Yi, Xi = Yi, Xi > Yi.

Testujeme

• H0 : median rozdielu Di = Xi − Yi sa rovna nule oproti

• obojstrannej alternatıve H1 : median je nenulovy.

Pozorovania, kde nastalo Xi = Yi neberieme do uvahy a podla toho upravıme rozsah suboru n.Oznacme pocet kladnych Di ako D+. H0 zamietame priblizne na α, ak pre

Z =|D+ − n/2| − 1/2√

n/4

platı, ze |Z| ≥ uα/2. Existuju aj tabulky na presny vypocet (napr. Likes a Laga, 1978).Spomenuty test ma jednoduchu motivaciu. Ak platı H0, ma nahodny jav Xi > Yi pravdepodobnost

vyskytu 1/2, kde oba rozne vysledky maju rovnaku pravdepodobnost a zhoda Xi = Yi nastava prispojitom rozdelenı s nulovou pravdepodobnostou. Preto pre D+, za platnosti H0, platı D+ ∼ Bin (n, 0.5)s E [D+] = n/2 a V ar [D+] = n/4. Statistitiku Z dostaneme modifikaciou - odpocıtanım 1/2 v citateli -normovaneho protajsku veliciny D+.

9.4.2 Wilcoxonov znamienkovany test

Wilcoxonov znamienkovany test (Wilcoxon signed rank test, neparametricka alternativa paroveho t-testu).Rovnako ako pri znamienkovom teste, musia mat rozdiely Di = Xi − Yi spojite rozdelenie, kde sa

naviac predpoklada, ze rozdelenie je symetricke okolo medianu. Teda, krivka hustoty rozdielov Di musıbyt symetricka a ako stred symetrie nepripada do uvahy nic ine ako median.

• H0 : median ako stred symetrie je rovny nule,

• H1 : median je rozny od nuly.

Majme pozorovanie (xi, yi) pre i-tu statisticku jednotku (napr. pred a po liecbe), i = 1, ...n. Naj-prv vypocıtame rozdiel di − yi medzi kazdym parom pozorovanı. Ak su medzi rozdielmi di nuly,prıslusne pozorovania sa vylucia a n sa podla toho zmensı. Wilcoxonova znamienkovana statistika T+

W

sa vypocıta z absolutnych hodnot zi zoradenych podla velkosti. Oznacme znamienkom plus (+) kladneDi a znamienkom mınus (−) zaporne rozdiely Di. Potom T+

W =∑

(+poradia) a podla napr. Hollander,Wolf (1999) a CLV

E0

[T+

W

]=

n (n + 1)4

V ar0

[T+

W

]=

n (n + 1) (2n + 1)24

Page 54: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 51

Z =T+

W − E0

[T+

W

]√V ar0

[T+

W

] ∼ N (0, 1) .

Pozn.: Moze sa stat, ze s outliermi nie je rozdiel medzi porovnavanymi skupinami pri pouzitı t-testu.Po vylucenı outlierov sa uz rozdiely prejavia. Pre male pocty pozorovanı treba pouzit tabulky, napr. Likesa Laga (1978). Ak su medzi rozdielmi nulove hodnoty (teda zhody), vypocıtame aritmeticky priemer zpozorovanı asociovanych so zhodnymi rozdielmi (strednoporadia) a urobıme znova rozdiel priemerov a oprislusny pocet sa upravı n.

Teda podobne ako pri dvojvyberovom Wilcoxonovom teste (ak t1, t2, ... su pocty zhodnych pozorovanı)platı

Zkor =T+

W − E0

[T+

W

]√V ar0

[T+

W

]− 1

2124

∑j

(t3j − tj

) ∼ N (0, 1) .

9.4.3 Prıklady v S-PLUS a R

Prıklad 77 neparametricke testy, data z kapitoly ”t.testy”, funkcia ”wilcox.test”

wilcox.test(mich,mu=990)wilcox.test(gain.high,gain.low)wilcox.test(wear.A,wear.B,paired=T)# vstupy# ”mu” - parameter posunu polohy pre rozdelenie”x”# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’,

’’less’’# jednovyberovy test = zadame ”x” ako vektor dat,# dvojvyberovy test = zadame ”x” a ”y” ako vektory dat# parovy test = zadame ”x” a ”y” ako vektory dat, stanovıme argument paired=T, defult je paired=F# exaktne rozdelenie testovacej statistiky (tabulky) - correct=T je default# korekcia spojitosti pre normalnu aproximaciu p-hodnoty - correct=T je default# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”rank-sum statistic”# pocet pozorovanı ”n”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”

9.5 Korelacna analyza

Definıcia 78 Nech E(X2), E

(Y 2)

< ∞. Potom je

1. kovariancia cov (X, Y ) nahodnych velicın X a Y definovana ako

cov (X, Y ) = E [(X − E (X)) (Y − E (Y ))] = E (XY )− E (X) E (Y ) .

Ak X = Y , potom cov (X, X) = D (X) = E(X2)− [E (X)]2 .

2. koeficient korelacie ρX,Y nahodnych velicın X a Y definovany ako

ρX,Y = corr(X, Y ) = cov(X,Y )√V ar(X)

√V ar(Y )

, pre V ar (X) V ar (Y ) > 1.

Page 55: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 52

Definıcia 79 Nech X =(X1, X2, ..., Xn)′ je nahodny vektor, ktoreho zlozky maju konecny druhy moment.Potom

1. kovariancna (variancna) matica V ar (X)s rozmermi n×n tohoto nah. vyberu ma prvky definovaneako

cov (Xi, Xj) = E [(Xi − E (Xi)) (Xj − E (Xj))] ,

cov (Xi, Xi) = D (Xi) .

Tato matica je symetricka a pozitıvne definitna.

2. korelacna matica |Corr (X)| ≤ 1 je matica s prvkami

ρij = corr(Xi, Xj) = cov(Xi,Xj)√V ar(Xi)

√V ar(Xj)

, i, j ∈ 〈1, n〉 ,

ρii = corr (Xi, Xi) = 1, i ∈ 〈1, n〉 .

Definıcia 80 Matica sa nazyva pozitıvne definitna ak

1. V ar (X) = V ar (X)T ,

2. pre ∀a = (a1, ..., an)T ∈ Rn platı, ze aT V ar (X) a > 0.

9.5.1 Korelacny koeficient

Prvky vyberovej kovariancnej matice Sp×p (vieme, ze sij = sji,∀i, j)

sij =1n

n∑k=1

(xki − xi) (xkj − xj) , i, j = 1, 2..., p

Korelacny koeficient (product moment correlation coeficient, sample correlation coeficient).Majme nezavisle nahodne vektory (X1, Y1), (X2, Y2) , ..., (Xn, Yn), nezavisle medzi dvojicami,

vseobecne nie vnutri dvojice, potom mozeme ako odhad korelacneho koeficientu (KK) pouzit

RX,Y =∑n

i=1(Xi −X)(Yi − Y )√∑ni=1(Xi −X)2

√∑ni=1(Yi − Y )2

=SX,Y√SX

√SY

=∑n

i=1 XiYi − nXY√∑ni=1 Xi − nX

√∑ni=1 Yi − nY

,

- zapis pre (i, j)-ty clen vyberovej korelacnej matice R (r ∈ 〈−1, 1〉)

ri,j =sij√

sii√

sjj=

∑nk=1 xkixkj − nxixj√∑n

k=1 xki − nxi

√∑nk=1 xkj − nxj

, kde sii = s2i , sjj = s2

j ,

co nie je nevychyleny odhad. Jeho nevychylena podoba ma tvar

R∗ij ≈ Rij

[1 +

1−R2ij

2(n− 4)

].

Pozn.: Ak maju nahodne vektory (Xi, Yi) aspon ”priblizne” normalne rozdelenie, mozeme vyberovykorelacny koeficient r pouzit na testovanie nulovosti populacneho korelacneho koeficientu ρ. Ak zami-etame hypotezu o nulovosti ρ, zamietame sucasne ak hypotezu o nezavislosti nahodnych velicın.

Page 56: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 53

Testovanie hypotez a IS pre KK ρX,Y

Majme nahodny vyber (X, Y ) ∼ N2 (µ,Σ), corr(X, Y ) = 0, n ≥ 3, potom

T (R) =√

n− 2R√1−R2

∼ tn−2

Teda H0 : ρX,Y = 0,H1 : ρX,Y 6= 0. H0 zamietame, ak |T (r)| > tn−2 (α/2) (podobne jednostrannealternatıvy)

Ak ρX,Y = 0, potom za platnosti (X, Y ) ∼ N2 (µ, Σ) , corr(X, Y ) = 0, n ≥ 3 platı

f (r) =Γ [1/2 (n− 1)]

Γ [1/2 (n− 2)]√

π

(1− r2

)1/2(n−4),

kde Γ [p] =∫∞0

xp−1e−xdx, ak p ∈ Z potom Γ [p] = (n− 1)!. Teda (pre n →∞, casto n > 100)

R ∼ N

(ρX,Y ,

(1− ρ2

X,Y

)2n− 1

).

Fisherova Z premenna - transformacia stabilizujuca rozptyl (n ≥ 3, jej rozdelenie sa rychlo blızi knormalnemu)

Z =12

ln1 + R

1−R,Z ∼ N

(12

ln1 + ρX,Y

1− ρX,Y,

1n− 3

)Odporuca sa uvazovat o Z ako o normalnej premennej uz pre n ≥ 10, ak ρX,Y nie je blızko ±1.

H0 : ρX,Y = ρ0,H1 : ρX,Y 6= ρ0. H0 zamietam, ak U =√

n− 3 |z − ξ0| > u (α/2) , kde z =12 ln 1+r0

1−r0, ξ0 = 1

2 ln 1+ρ01−ρ0

1. 100× (1− α)%IS pre ρ odvodıme nasledovne (Potocky, 1998)

Pr(√

n− 3 |z − ξ| ≤ u (α/2))

= 1− α, ξ = 12 ln 1+ρ

1−ρ(Z − u (α/2)√

n− 3≤ ξ ≤ Z +

u (α/2)√n− 3

)Ak ρ = th (ξ) (monotonna fcia ξ), potom(

th

[Z − u (α/2)√

n− 3

]≤ ρ ≤ th

[Z +

u (α/2)√n− 3

])2. 100× (1− α)%IS pre ρ : (Andel, 1998)(

D − 1D + 1

,H − 1H + 1

),

kde D = exp[2Z − 2u(α/2)√

n−3

],H = exp

[2Z + 2u(α/2)√

n−3

]Pozn.: je zrejme, ze (1) je identicke s (2), kde D = th(Z − u(α/2)√

n−3) a H = th(Z + u(α/2)√

n−3)

Testovanie hypotez o ρ1, ρ2

Nech (X1, Y1) ∼ N2 (µ1,Σ1) s ρX1,Y1 a RX1,Y1 , rozsahom n1. Nech (X2, Y2) ∼ N2 (µ1,Σ1) s ρX2,Y2 aRX2,Y2 , rozsahom n2. Nech H0 : ρ1 = ρ2,H1 : ρ1 6= ρ2. Potom

Z1 − Z2 ∼ N(0, 1

n1−3 + 1n2−3

), Zi = 1

2 ln 1+Ri

1−Ri, i = 1, 2,

Z1,2 =Z1 − Z2√1

n1−3 + 1n2−3

∼ N (0, 1)

H0 zamietame, ak |z1,2| > u (α/2)

Page 57: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 54

9.5.2 Spearmanov korelacny koeficient

Spearmanov korelacny koeficient (rS)Predpokladajme, ze (X1, Y1)

T, ..., (Xn, Yn)T je vyber z dvojrozmerneho rozdelenia. Nech R1, ..., Rn

su poradia velicın X1, ..., Xn a Q1, ..., Qn su poradia velicın Y1, ..., Yn v spolocnom (zdruenom) vybere.Spearmanova statistika ma tvar

SN =n∑

i=1

RiQi

Spearmanov korelacny koeficient

RS =1n

∑ni=1

(Ri − n+1

2

) (Qi − n+1

2

)σRσQ

,

kde

σR = σQ =

√√√√ 1n

n∑i=1

(i− n + 1

2

)2

.

Potom

RS =12

n(n2 − 1)

n∑i=1

(Ri −

n + 12

)(Qi −

n + 12

)

=12

n(n2 − 1)

(SN − n (n + 1)2

4

)

= 1− 6n (n2 − 1)

n∑i=1

(Ri −Qi)2.

Vlastnosti:1) |RS | ≤ 1, pricom RS = 1 prave vtedy, ked Ri = Qi pre vsetky i, a rovnost RS = −1 nastava prave

vtedy, ked Ri = n + 1−Qi pre vsetky i.2) Ak R = (R1, ..., Rn) , Q = (Q1, ..., Qn) su nezavisle rovnomerne rozdelene nahodne vektory, tak

E [RS ] = 0, V ar [RS ] = 1n−1 .

3) RS je symetricky rozdeleny okolo nuly a za platnosti asymptotickej normality koeficientu RS

(n →∞, pre n > 30) platı pre kriticku hodnotu nasledovny vztah rS (α) = u (α/2) /√

(n− 1).

4) Platı E [SN ] = n(

n+12

)2, V ar [SN ] = 1

n−1

(n(n2−1)

12

)2

, potom

RS =1√

(n− 1) V ar [SN ](SN − E [SN ]) .

5) Spearmanova statistika je symetricky rozdelena okolo svojej strednej hodnoty a tuto vlastnost maaj RS .

6) Ak (X1, Y1)T

, ..., (Xn, Yn)T je vyber z dvojrozmerneho normalneho rozdelenia s korelacnym koef.ρ, potom plati

R = 2 sin(π

6

)RS

Testovanie hypotezH0 : premenne X, Y su nezavisleH1 :1) obojstranna alternatıva

zamietame hypotezu nezavislosti |rS | > r (α/2, n)nezamietame hypotezu nezavislosti |rS | ≤ r (α/2, n)

Page 58: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 55

2) alternatıva kladnej zavislosti

”prıjımame” alternatıvu kladnej zavislosti rS > r (α, n)nezamietame hypotezu nezavislosti rS ≤ r (α, n)

3) alternatıva zapornej zavislosti

”prıjımame” alternatıvu zapornej zavislosti rS < r (α, n)nezamietame hypotezu nezavislosti rS ≥ r (α, n)

Kriticke hodnoty r (α/2, n) su tabelovane a pouzıvaju sa priblizne do n = 30.Ak sa medzi X1, ..., Xn alebo Y1, ..., Yn vyskytuju zhody, tak Ri, Qi sa vytvaraju pomocou procesu

strednoporadı (ako pri inych neparametrickych testoch, pozri vyssie) a Spearmanov korelacny koeficientzalozeny na tychto strednoporadiach je urceny vztahom

RS =1n

∑ni=1

(Ri − n+1

2

) (Qi − n+1

2

)σRσQ

,

kde

σR =

√√√√ 1n

n∑i=1

(Ri −

n + 12

)2

, σQ =

√√√√ 1n

n∑i=1

(Qi −

n + 12

)2

,

teda

RS =1

nσRσQ

(SN − n (n + 1)2

4

)

=12

n(n2 − 1)

(SN − n (n + 1)2

4

)1

dRdQ,

kde

dR =

√√√√1− 1n(n2 − 1)

∑j

t(X)j

[(t(X)j

)2

− 1],

dQ =

√√√√1− 1n(n2 − 1)

∑j

t(Y )j

[(t(Y )j

)2

− 1],

kde tj predstavuju pocty zhod pri prıslusnej hodnote indexu j. Asymptoticky (pre n →∞) platı, ze√

n− 1RS ∼ N(0, 1)

a postupujeme rovnako ako predtym, teda (n → ∞, pre n > 30) pre kriticku hodnotu platı nasledovnyvztah rS (α) = u (α/2) /

√(n− 1).

9.5.3 Prıklady v S-PLUS a R

Prıklad 81 funkcia ”cor”

# vstupy# zadame ”x” a ”y” ako vektory dat# chybajuce pozorovania, na.method=’’fail’’ je default, pokial ich chceme vyradit na.method=

’’omit’’# vystupy# Pearsonov korelacny koeficient alebo korelacnu maticu (ak zadame ako vstup maticu premennych)

# korelacnu matica pre data ”longley.x”cor(longley.x)

Page 59: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 56

Prıklad 82 funkcia ”cor.test”, data ”state.x77”

# vstupy# zadame ”x” a ”y” ako vektory dat# metoda - method=’’pearson’’, je default, alternatıva je napr. method=’’spearman’’# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’ (vacsı

ako nula), ’’less’’ (mensı ako nula)# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”normal-z”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# odhad korelacneho koeficientu ”sample estimates”murder < − state.x77[,’’Murder’’]illit < − state.x77[,’’Illiteracy’’]cor.test(murder,illit)cor.test(murder,illit,method=’’s’’)

Prıklad 83 IS pre korelacny koeficient, data ”state.x77”

IScor function(x, y, conf.level = 0.95)z < − atanh(cor(x, y))a < − qnorm(1 - (1 - conf.level)/2)/(length(x) - 3)^0.5CI.Z < − c(z - a, z + a)conf.int < − tanh(CI.Z)

IScor(murder,illit)

9.6 Testovanie normality

9.6.1 Chi-kvadrat test dobrej zhody

Nech ξ1, ..., ξn je nahodny vyber. Chceme testovat nulovu hypotezu H0, ze ide o vyber z N(µ, σ2

), kde

parametre µ, σ2 nie su zname. Najprv vytvorıme triedy (podobne ako pri histograme)

(−∞, b1) , 〈b1, b2) , ..., 〈bk−2, bk−1) , 〈bk−1,∞) ,

kde k ≥ 4. Oznacme i-tu triedu ako Ji. Pravdepodobnost pi, ze dana velicina ξj (j = 1, ..., n) padne doJi, je rovna

pi = pi (µ, σ) =∫

Ji

f (x) dx, kde f (x) =1√2πσ

exp

[(x− µ)2

2σ2

].

Iteracne riesime sustavu

1n

k∑i=1

Xi

pi

∫Ji

xf (x) dx, σ2 =1n

k∑i=1

Xi

pi

∫Ji

(x− µ)2 f (x) dx.

Pozor: µ zavisia na pi a f (x) . Riesenia sustavy su µ a σ. Potom

χ2 =k∑

i=1

[Xi − npi (µ, σ)]2

npi (µ, σ)∼ χ2

k−3.

Page 60: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 57

9.6.2 Kolmogorov - Smirnovov test dobrej zhody

Zhodu rozdelenı veliciny v dvoch populaciach by sme mohli porovnavat, keby sme poznali ich distribucnefunkcie (CDF). Rozhodnutie o zhode distribucnych funkciı mozeme zalozit na porovnavanı ich odhadov,teda empirickych distribucnych funkciı. Empiricku distribucnu funkciu mozeme pısat ako kumulatıvnurelatıvnu pocetnost (pozri vyssie)

FX (x) =#xi < x

n,

kde n je pocet pozorovanı v nahodnom vybere.Tento test hodnotı maximalny rozdiel empirickych distribucnych funkciı

D = max∀x

∣∣∣FX (x)− FY (x)∣∣∣ .

Podobny vztah platı aj pre porovnanie empirickej a teoretickej distribucnej funkcie

D∗ = max∀x

∣∣∣FX (x)− FX (x)∣∣∣ .

Na rozhodovanie sluzia tabulky (e.g. Likes a Laga, 1978) alebo priblizna kriticka hodnota

Dn1,n2 (α) =√

n1 + n2

2n1n2log

,

kde nulovu hypotezu zamietame, ak D ≥ Dn1,n2 (α).

Nech F1 a F2 su dve CDF. V jednovyberovej situacii je F1 empiricka CDF a F2 je CDF nulovejhypotezy. V dvojvyberovej situacii su obe F1 a F2 empiricke CDF.

• dvojvyberova situacia

H0 : F1 (x) = F2 (x) , pre ∀xH1 : F1 (x) 6= F2 (x) , pre aspon jedno x

alternatıva T = supx |F1 (x)− F2 (x)|

• jednovyberova alternatıva (”less”)

H0 : F1 (x) ≥ F2 (x) , pre ∀xH1 : F1 (x) < F2 (x) , pre aspon jedno x

alternativa T− = supx |F2 (x)− F1 (x)|

• jednovyberova alternatıva (”greather”)

H0 : F1 (x) ≤ F2 (x) , pre ∀xH1 : F1 (x) > F2 (x) , pre aspon jedno x

alternativa T+ = supx |F2 (x)− F1 (x)|

Pozn.:- v porovnanı s chı-kvadrat testom dobrej zhody mozeme pracovat aj s vybermi s malym rozsahom,- zakladom testovacej statistiky su rozdiely v napr. teoretickych a empirickych kumulatıvnych pocet-

nostiach (ako pri chı-kvadrat teste dobrej zhody),- najpr utvorıme usporiadany vyber,- zistıme empiricke pocetnosti nei

,- ocakavane (teoreticke) pocetnosti noi

,- empiricke kumulovane pocetnosti Nei

,- ocakavane kumulovane pocetnosti Noi

,

Page 61: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 58

- vypocıtame

d =1n

max |Nei−Noi

|

a v tabulkach, alebo ak n > 100 asymtoticky, na zaklade asymetrickeho rozdelenia veliciny dn, ktoreodvodil Kolmogorov (1941)

dn(0.95) ≈ 1.358√n

, dn(0.99) ≈ 1.628√n

,

ak d > dn (α), zamietame hypotezu H0.

9.6.3 Prıklady v S-PLUS a R

Prıklad 84 funkcia ”chisq.gof”

POZN.: chisq.gof testuje len dvojstrannu alternatıvu# vstupy# zadame ”x” a zadefinujeme typ rozdelenia, napr. distribution=’’normal’’ (default) alebo

’’chisquare’’, ’’t’’, ’’f’’, ’’exponential’’ a pod.# pocet tried a zlomove body su explicitne nastavene a nebudeme ich menit# vystupy# nazov pouziteho rozdelenia ”method”# testovacia statistika ”Chi-square”# df suvisiace s testovacou statistikou ”parameters”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# pocty pozorovanı v jednotlivych intervaloch ”counts”# ocakavane pocty pozorovanı v jednotlivych intervaloch ”expected”

# nagenerujte pseudonahodne cısla z exponencialneho rozelenia (n=50) a porovnajte s normalnym aexponencialnym rozdelenım

x < − rexp(50, rate=1.0)chisq.gof(x)chisq.gof(x,dist=’’exponential’’,rate=1.0)# nagenerujte pseudonahodne cısla z poisonovho rozdelenia (n=50), rozdelte tento vektor v kvartiloch

ako zlomovych bodoch na 4 skupinyx < − rpois(50,lambda=3)breaks < − quantile(x)# vlozte minimalnu hodnotu do delenia# zlomove body - argument cut.pointsbreaks[1] < − cut.points[1] - 1z < − chisq.gof(x,cut.points=breaks,dist=’’poisson’’,lambda=3)z$countz$expected

Prıklad 85 funkcia ”ks.gof”

# vstupy# zadame ”x” a zadefinujeme typ rozdelenia, napr. distribution=’’normal’’ (default) alebo

’’chisquare’’, ’’t’’, ’’f’’, ’’exponential’’ a pod.# zadame ”x” a ”y” ako vektory dat# formulacia alternatıvy alternative=’’two.sided’’ je default (pre dvojvyberovy test je len tato

moznost), dalsie volby su ’’greater’’, ’’less’’# pocet tried a zlomove body su explicitne nastavene a nebudeme ich menit# vystupy

Page 62: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

9 STATISTICKA INFERENCIA 59

# nazov pouziteho rozdelenia ”method”# testovacia statistika ”ks”# df suvisiace s testovacou statistikou ”parameters”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”

# jednovyberovy prıpadz < − rnorm(100)ks.gof(z, distribution = ’’normal’’)ks.gof(z, distribution = ’’chisquare’’, df = 2)# dvojvyberovy prıpadx < − rnorm(90)y < − rnorm(8, mean = 2.0, sd = 1)ks.gof(x, y)

# data ”mich” a zobrazenie ich kumulatıvnej distribucnej funkciecdf.compare(mich,dist=’’normal’’,mean=mean(mich),sd=sqrt(var(mich)))ks.gof(mich,dist=’’normal’’)chisq.gof(mich, dist = ’’normal’’, n.param.est = 2, mean = mean(mich), sd =

sqrt(var(mich)))

Page 63: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 60

10 Linearne regresne modely

Vseobecna formulacia statistickeho modelu:

1.) Zakladny model pre data x : je model nahodneho vyberu - x je realizacia nahodneho vyberu Xz nejakeho rozdelenia Fθ, θ ∈ Θ,

X = [X1, X2, ..., Xn] je iid, E [X] = µ (1, 1, ..., 1)T, D [X] = σ2In

2.) Regresny model na Yi, i =, ..., n

yi = g (xi) + εi, kde g (xi) je lubovolna spojita funkcia na R.A) g (·) je neparametricka funkcia - neparametricky model,B) g (·) je parametricka funkcia - parametricky model, kde yi = gθ (xi)+εi, θ ∈ Θ, θ =(θ1, θ2, ..., θn)T ∈

Ek, do tejto mnoziny patria klasicke linearne a nelinearne modely (LM a NLM).

10.1 Jednoduchy linearny regresny model

Definujem nasledovne pojmy:

• Nech yi reprezentuje hodnotu odpovede (response variable) na i-ej statistickej jednotke (na grafev dvojdimenzionalnej pravouhlej suradnicovej sustave ju znazornuje- me na vertikalnej y-ovej osi),a xi je hodnota nezavislej premennej (explanatory variable, na grafe znazornenej na horizontalnejx-ovej osi).

• Jednoduchy linearny regresny model mozeme definovat ako

yi = β0 + β1xi + εi

kde β0 je intercept a β1 je sklon (slope) priamky linearneho vztahu εi su nahodne chyby .

• Pre nahodne chyby predpokladame ich nezavislost (nezavisle nahodne premenne) a ich normalnerozdelene, εi ∼ N

(µ, σ2

). Dalej, Y ∼ N

(Xβ, σ2I

). Naviac

β ∼ N(β, σ2

(XT X

)−1)

.

• Regresne koeficienty, β0 a β1, su odhadnute metodou najmensıch stvorcov (MNS) ako β0 a β1.Potom

yi = β0 + β1xi,

kde sme β0 a β1 dostali nasledovne pomocou normalnych rovnıc

S2y (θ) =

n∑i=1

(yi − β0 − β1xi)2

∂S

∂β0= (−2)

∑(yi − β0 − β1xi) = 0,

∂S

∂β1= (−2)

∑xi(yi − β0 − β1xi) = 0

β0 =∑

yi − β1

∑xi

n= y − β1x

β1 =∑

(yi − y) (xi − x)∑(xi − x)2

= rx,y

√∑(yi − y)2√∑(xi − x)2

V maticovej podobe

XT X =(

n∑

xi∑xi

∑x2

i

),XT y =

( ∑yi∑

xiyi

)

Page 64: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 61

Ak A−1 = 1det(A)A, potom

(XT X

)−1=

1∑x2

i − nx2

(1n

∑x2

i −x−x 1

).

Regresia prechadzajuca pociatkom (model yi = β1xi + εi, teda β0 = 0, β1 = β) bude matnormalne rovnice a odhad β

S2y (θ) =

n∑i=1

(yi − β1xi)2 =⇒ β =

∑xiyi∑x2

i

Testovanie hypotezH0 : β1 = 0.ANOVA tabulka regresneho modelu yi = β0 + β1xi + εi bude

Zdroj rozptylu suma stvorcov df priemerne stvorce (MS)SSR

∑ni=1 (yi − y)2 dfR = 1 MSR = SSR/dfR

SSe

∑ni=1 (yi − yi)

2dfe = n− 2 MSe = SSe/dfe

SST

∑ni=1 (yi − y)2 dfT = n− 1

Dalej

σ2 = s2 =SSe

n− 2=

1n− 2

n∑i=1

(yi − yi)2

Za platnosti H0 bude MSR = MSR/MSe mat rozdelenie F1,n−2.Nakoniec, testovacia statistika a ISs pre β0 a β1 bude mat tvar

Ti =

∣∣∣βi − βi

∣∣∣s√

(XT X)−1ii

∼ tn−2, i = 1, 2

Najcastejsie β(0)i = 0. Potom (1− α)× 100%IS pre βi, i = 1, 2, bude mat tvar

β0 ± tn−2 (α) σ

√ ∑x2

i

n∑

(xi − x)2,

β1 ± tn−2 (α) σ

√1∑

(xi − x)2

a na zaklade kontrastoveho vektora c =(1, x)T , kde x je nejake dane cıslo (rozsırenu definıciu c pozrinizsie), mozeme pısat (1− α) %IS pre regresnu priamku

β0 + β1xi ± tn−2 (α) σ

√1n

+(x− x)2∑(xi − x)2

.

Ak pocıtame IS pre vsetky x ∈ 〈min∀xixi,max∀xi

xi〉, dostaneme dve vetvy hyperboly, ktore tvoria passpolahlivosti okolo regresnej priamky (Scheffeho metoda). Ten ale zarucuje prekrytie jednej hodnoty x sospolahlivostou 1 − α, ale nie celej priamky. Je mozne odvodit aj taky pas, ktory pokryje celu regresnupriamku so spolahlivostou 1− α. Hovorıme mu pas spolahlivosti pre regresnu priamku a bude mat tvar

β0 + β1xi ±√

2F2,n−2σ

√1n

+(x− x)2∑(xi − x)2

.

Page 65: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 62

Pozn.1: Pre regresny model yi = β0 + β1xi + εi nas moze zaujımat nasledovna nulova hypotezaH∗

0 : β =(β0, β1)T = β(0)=(0, 1)T oproti H∗

1 : β =(β0, β1)T 6= (0, 1)T , kedy by za platnosti H∗

0 bolaodpoved yi rovna xi az na nahodnu chybu εi, teda yi = xi + εi, kedy pouzijeme testovaciu statistiku

Z =1

2s2

(β − β(0)

)XT X

(β − β(0)

)T

∼ F2,n−2.

Pozn.2: Pri kvadratickej zavisloti mame linearny model v tvare

yi = β0 + β1xi + β2x2i + εi,

potom nas bude zaujımat nulova hypoteza H∗∗0 : β2 = 0 oproti H∗∗

1 : β2 6= 0, kedy ide o test linearityregresie. Tento test je zalozeny na statistike

T3 =|β2|

s√

(XT X)−122

∼ tn−3

Inokedy nas moze zaujımat H∗∗∗0 : (β1, β2)

T = 0 oproti H∗∗∗1 : (β1, β2)

T 6= 0, co je v tomto prıpade testzavislosti yi na xi. Na to potrebujeme testovaciu statistiku

Z =1

2s2(β1, β2)

(XT

subXsub

)(β1, β2)

T ∼ F2,n−3,

kde Xsub je 2 × 2 subblok matice X prisluchajuci testovanym koeficientom. Vo vseobecnosti ma Z ∼Fq,n−k, kde k je celkovy pocet koeficientov a q je pocet porovnavanych koeficientov.

10.2 Mnohorozmerny linearny regresny model

LM: yi = xTi θ+εi, (xi)1×k , θk×1∈Ek, i = 1, ..., n,

∑ni=1 xiθi = xT θ (skalarny sucin), Eθ [Yi] = xT

i θ zavisına i

yn×1 = Xn×kθk×1+εn×1,

kde E [ε] = 0, Cov [ε] = σ2I a X = [x1,x2, ...,xn] je matica planu regresneho experimentu, dalej Eθ [Y ] =Xθ, Covθ [Y ] = Cov [ε] = σ2I.

Pozn.:- yn×1 = (y1, y2, ..., yn)T ,

- Xn×k =

1 x11 x12 · · · x1,k−1

1 x21 x22 · · · x2,k−1

......

.... . .

...1 xn1 xn2 · · · xn,k−1

,

- θ = (θ0, ..., θk−1)T ,

- ε =(ε1, ..., εn)T .Inak mozeme pısat regresny model aj nasledovne

yi = β0 + β1xi1 + ... + βk−1xi,k−1 + εi.

Linearita: je v θ ⇒ zavislost gθ (·) na θ je linearnaEc1θ1+c2θ2 [Y ] = c1Eθ1 [Y ] + c2Eθ2 [Y ] , θ1, θ2 ∈ Θ = Ek

napr. yi = θ1 + θ2xi + θ3x2i + εi, i = 1, ..., n; θ =(θ1, θ2, θ3)

T ∈ E3

Odhady MNS

θ (y) = arg minθ∈Θ

S2y (θ) ,

Page 66: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 63

kde

S2y (θ) =

n∑i=1

(yi − gθ (xi))2.

normalne rovnice - k -rovnıc o k -neznamych, θ (y) : ∂S2y(θ)

∂θ |bθ(y) = 0NR pre LRM, kde θ = βy = Xθ + ε,Eθ [Y] = Xθ,Cov [Y] = σ2In

• MNS odhad β je definovany akoβ (y) =

(XT X

)−1XT y,

• PlatıEβ

[β]

= β,∀β ∈Ek,

Covσ2

[β]

= σ2(XT X

)−1,

kde pre rezidualny rozptyl platı

s2 = σ2 =1

n− k

n∑i=1

(yi −

(Xβ)

i

)2

=1

n− k

n∑i=1

ε2i =

1n− k

‖ε‖2

=1

n− k

∥∥∥y −Xβ∥∥∥2

=1

n− k

(y −Xβ

)T (y −Xβ

),

kde ‖A‖2 = AT A, σ2 je nevychyleny konzistentny odhad pre σ2, co vyplyva z E[εT ε]

= σ2 (n− k) ,

kde (n− k) je pocet stupnov volnosti modelu (df ), σ2 ma najmensı rozptyl medzi vsetkymi kvadrat-ickymi nevychylenymi odhadmi,

SSe =∥∥∥y −Xβ

∥∥∥2

= yT y−βT XT Xβ

= yT y − yT X(XT X

)−1XT y

= yT Py,

kde P = I−X(XT X

)−1XT , nazyvame rezidualny sucet stvorcov.

• diagonalne elementy matice Cov[β], Cov [βi, βj ] = V ar [βi] = σ2

(XT X

)−1

ij, kde i = j, su rozptyly

parametrov βi, mimodiagonalne elementy su kovariancie medzi parmi βi, βk, kde i 6= j. Odmocninydiagonalnych elementov tejto matice su teda standardne chyby parametrov βi;

• potom je standardna chyba βi dana vztahom

se(βi) = σ

√(XT X)−1

ii ,

• platı ε ∼ N(0, σ2I

), z coho vyplyva, ze y ∼ N

(Xβ, σ2I

). Naviac

β ∼ N(β, σ2

(XT X

)−1)

;

• platı

Ti =βi − βi

s√

(XT X)−1ii

∼ tn−k,

Page 67: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 64

pretozeβi − βi

σ√

(XT X)−1ii

∼ N (0, 1)

a naviacSSe

σ2∼ χ2

n−k

a β a s2 su nezavisle. Preto(βi − βi

)/σ√

(XT X)−1ii√

SSe/σ2

√n− k = Ti ∼ tn−k.

Prave pomocou vyssie spomenuteho vzorca mozeme testovat nulovu hypotezu

H0 : βi = β(0)i ,

voci alternatıve H1 : βi 6= β(0)i , kedy H0 zamietame na hladine vyznamnosti α, ak platı

Ti =

∣∣∣βi − βi

∣∣∣sy

√(XT X)−1

ii

∼ tn−k.

Najcastejsie β(0)i = 0. Potom (1− α)× 100%IS pre βi bude mat tvar

βi ± tn−k (α/2) σ

√(XT X)−1

ii .

• (1− α)× 100%CS (elipsa spolahlivosti, konfidencna elipsa) ma tvar(β − β(0)

)T

XT X(β − β(0)

)kσ2

∼ Fk−1,n−k,

kde (β − β(0)

)T

XT X(β − β(0)

)σ2

∼ χ2k

a(n− k) σ2

σ2∼ χ2

n−k

su nezavisle.

• Kontrasty. Nech c = (c1, c2, ..., ck)T je vektor kontrastov. Potom E[cT β

]= cT β a

T =

∣∣∣cT β − cT β∣∣∣

s

√cT (XT X)−1 c

∼ tn−k,

co vedie ku (1− α)× 100%CS pre cT β v podobe

cT β ± tn−k (α) s

√cT (XT X)−1 c.

Ak vsak chceme najst (1− α)×100%ISs pre p linearnych kombinaciı cTj β sucasne, spolocna pravde-

podobnost ISs uz nebude 1− α. Uvedieme jednu z viacerych moznostı riesenia tohoto problemu.

Page 68: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 65

• Bonferroniho metoda. Nech E1, ..., Ep su nahodne udalosti. Potom

Pr(∩p

j=1Ej

)≥ 1−

p∑i=1

Pr (Ej) ,

teda

Pr(∩p

j=1

[cT

j β ∈ cTj β ± tn−k

( α

2k

)s

√cT

i (XT X)−1 ci

])≥ 1− k

α

k= 1− α.

• Regresna diagnostika. Vyssie sme definovali

SSe = ‖y − y‖2 .

Teraz nam ostava dodefinovat celkovu sumu stvorcov

SST = ‖y − y‖2

a regresnu sumu stvorcovSSR = ‖y − y‖2 .

Potom mozeme vytvorit ANOVA tabulku regresneho modelu y = Xβ + ε nasledovne

Zdroj rozptylu df Priemerne stvorce (Mean Squares (MS))SSR dfR = k − 1 MSR = SSR/dfR

SSe dfe = n− k MSe = SSe/dfe

SST dfT = n− 1

• Priemerna suma stvorcovMSR = MSR/MSe ∼ Fk−1,n−k

sluzi v F -teste na testovanie vseobecnej nulovej hypotezy

H0 : β1 = ... = βk−1 = 0.

Korelacia medzi pozorovanymi hodnotami yi a modelom predikovanymi hodnotami yi je znamaako mnohorozmerny koeficient korelacie (multiple correlation coeficient, R). Hodnota R2 poukazujena proporciu rozptylu odpovede (podiel vysvetlenej variability, koeficient determinacie, proportion ofvariance of the response variable)

R2 = 1− SSe

SST

korigovany (adjustovany) koeficient determinacie (ma tendenciu nechavat pıliz vela premennych vmodeli)

R2adj = 1− n− 1

n− k

SSe

SST= 1− n− 1

n− k

(1−R2

)Pozn.: Pri interpretacii R2 treba byt opatrny. Tento koeficient sıce hovorı o tom, kolko variability je

vysvetlene modelom pri danych hodnotach nezavislej premennej, ale pokial β1 pri jednoduchej linearnejregresii ako βy|x, a naopak βx|y pri opacnej zavislosti, dostali by sme

βy|xβx|y = R2xy.

Dalej, pokial zavislost yi na x1i adjustujeme modelovanu zavislost aj voci x2i. Potom ma zmysel hovoritaj o parcialnom korelacnom koeficiente

ρxy,z =ρxy − ρxzρyz√

(1− ρ2xz)(1− ρ2

yz

) ,kde je z nova premenna, ktorej zavislost na premennych x, y meriame. V skutocnosti ide o klasickykorelacny koeficient medzi dvoma novymi velicinami, ktore dostaneme ako rezidualy predpovede velicinyx, resp. y pomocou z. Pri odhade pouzijeme empiricky protajsok ρ v podobe r.

Page 69: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 66

• (1− α) × 100%CS pre predikciu. Nech xnove je p-vektor novych hodnot, na zaklade ktorych amodelu by sme chceli predikovat buduce ynove, teda

ynove = xTnoveβ.

PlatıV ar[xT

noveβ] = xTnove(X

T X)−1xnoveσ2.

My potrebujeme rozlisovat medzi

1) predikciou buducich pozorovanı - teda ak mame xnove, ake bude ynove, ynove = xTnoveβ + ε,E [ε] = 0,

predikujeme ynove = xTnoveβ, ale v odhade rozptylu tohoto odhadu musıme zahrnut rozptyl chyb ε, D [ε]

(prediction of future values)95%CI teda bude

ynove ± tn−k (α/2) σ√

1 + xnove(XT X)−1xTnove,

2) predikciou buducej priemernej odpovede - teda ak mame xnove, ake bude priemerne ynove, ynove =xT

noveβ + ε, kde znovu predikujeme ynove = xTnoveβ, ale v odhade rozptylu tohoto odhadu musıme zahrnut

rozptyl β, D[β]

(prediction of the mean response)

ynove ± tn−k (α/2) σ√

xnove(XT X)−1xTnove.

• Testovanie hypotez o submodeloch. Majme nadmodel Ω a submodel ω, ktory pozostava zpodmnoziny prediktorov β obsiahnutych v Ω. Teda zoberieme ω, ktory bude reprezentovat nulovuhypotezu a Ω, ktory bude predstavovat alternatıvnu hypotezu. Ak ωSSe −Ω SSe je male cıslo,potom je ω adekvatny model vo vztahu ku Ω. To vedie ku testovacej statistike typu

(ωSSe −Ω SSe) /ΩSSe,

kde je menovatel pouzity ako skala. Tento typ statistiky vznikol na zaklade pomeru vierohodnosti

maxβ,σ∈Ω L (β, σ|y)maxβ,σ∈ω L (β, σ|y)

.

Test zamieta nulovu hypotezu, ak je tento pomer dost velky. Vieme, ze L(β, σ|y

)≈ σ−n, co nam

dava test, ktory zamieta, ked

σω

σΩ> konst. ≈ ωSSe

ΩSSe> konst. ≈ ωSSe

ΩSSe− 1 > konst.− 1 ≈ ωSSe −Ω SSe

ΩSSe> konst.

Ak pocet parametrov (dimenzia) modelu Ω je k, a dimenzia modelu ω je q, potom podla Cochranovejvety, za platnosti nulovej hypotezy (ω) platı

ωSSe −Ω SSe

k − q∼ σ2χ2

k−q,ΩSSe

n− k∼ σ2χ2

n−k

a tieto podiely su nezavisle, potom platı

F =(ωSSe −Ω SSe) / (k − q)

ΩSSe/ (n− k)∼ Fk−q,n−k.

Nulovu hypotezu zamietame, ak F > Fk−q,n−k(α). Vzdy platı, ze

df = #pozorovanı −#parametrov,

potom

F =(ωSSe −Ω SSe) / (dfω − dfΩ)

ΩSSe/ (dfΩ)

Page 70: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 67

10.2.1 Regresna diagnostika

Grafy diagnostiky linearneho modelu: hlavnu ulohu zohravaju rezidualy v absolutnej hodnote

absri = |yi − yi| ,

nemusia mat konstantny (rovnaky) rozptyl (presnost yi zavisi na xi), obcas su standardizovane predpouzitım, pozri Cook and Weisberg (1982).

• rezidualy absri vs. fitovane hodnoty - ak nejde priblizne o horizontalny kompaktny oblak bodov,potom to indikuje, ze

- funkcionalna forma nasho modelu je nespravna alebo

- mame nekonstantny rozptyl

• rezidualy absri vs. realizacie (x, ”exploratory variables”) - systematicka struktura indikuje ne-dodrzanie konstantnosti rozptylu alebo nevhodnost typu modelu

• qq-plot rezidualov

• ’index plot’ Cookovych vydialenostı Dk pre kazde pozorovanie (y) - hodnoty Dk predstavuju vplyvk-teho pozorovania na odhadovane regresne koeficienty. Hodnoty Dk > 1 naznacuju, ze prıslusnepozorovania maju nadmerny vplyv na odhadovane regresne koeficienty. Cookove vzdialenosti defin-ujeme ako

Dk =1

(p + 1) s2

n∑i=1

[yi(k) − yi

]2,

kde yi(k) su fitovane hodnoty, ked je k-te pozorovanie odstranene z modelu.

10.3 Prıklady v S-PLUS a R

Prıklad 86 ANAEROB - zobrazte premennu ”oxygen uptake” oproti premennej ”expired ventilation” adopıste do grafu aj korelacny koeficient zaokruhleny na dve desatinne miesta. Vkreslite do grafu aj regresnupriamku, ktorej koeficienty dostaneme MNS.

ANAEROB data.frame(ANAEROB)attach(ANAEROB)plot(Oxygen,Ventilation,xlab=’’Oxygen uptake’’, ylab = ’’ Expired ventila- tion ’’)text(locator(1),paste(’’Correlation of oxygen uptakeand expired ventilation= ’’,round(cor(Oxygen,Ventilation),digits=2)))MODEL lm(Ventilation~Oxygen)abline(MODEL)

Prıklad 87 ANAEROB linearny model. Popıste vystup z modelu. Pouzite data ANAEROB a premenneOxygen a Ventilation.

summary(MODEL)

Prıklad 88 Ako otestovat nulovost vsetkych regresnych koeficientov okrem interceptu? Pouzite dataANAEROB a premenne Oxygen a Ventilation.

Navod: vypocıtajte SSe a SSR

k ... pocet parametrov v modelidf.model ... modelove dfdf.model summary(MODEL)$df[2]SSy sum((DATA$y-mean(DATA$y))^2)SSe sum(MODEL$res^2)

Page 71: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 68

F ((SSy-SSe)/(k-1))/(SSe/df.model)p-hodnota je potomPvalue 1-pf(F,k-1,df.model)

Prıklad 89 Pouzitie F - statistiky v simulaciach. Nagenerujte 1000 nahodnych permutaciı a vypocıtajtepomer F - statistı, ktore presuahnu F - statistik vypocıtanu z realizaciı. Pouzite data ANAEROB a premenneOxygen a Ventilation.

Navod:

• extrakcia F -statistiky je nasledovna

MODEL.Fstat summary(MODEL)$fstatjednotlive polozky vystupu su ... [1] value, [2] numdf, [3] dendf

• nahodne permutacie su generovane funkciou ... sample(VEKTOR) ... ide o tzv. neparametrickypermutacny test

attach(DATA)# DATA maju odpoved Y a maticu planu (realizaciı) XMODEL lm(y~X,data= DATA)Fstat summary(MODEL)$fstat[1]F.stat numeric(1000)for (i in 1:1000)MODELsimul lm(sample(y)~X,data= DATA)F.stat[i] summary(MODELsimul)$fstat[1]PROP length(F.stat[F.stat > Fstat])/1000# hodnota bude blızka p-hodnote vypocıtanej na zaklade teorie normality, pokial nie su silne porusene

predpoklady modeluPROP

Prıklad 90 Testovanie nulovosti regresnych koeficientov samostatne. Pouzite data ANAEROB a premenneOxygen a Ventilation.

Navod:# c ... hodnota regresneho koeficientu za platnosti nulovej hypotezy.# MODEL$coef ... extrahovanie odhadov hodnot jednotlivych regresnych koeficientovodhad.beta.i MODEL$coef[i]Ti (odhad.beta-c)/se(odhad.beta)# p-hodnota je potom2*pt(Ti,df.model)

Exercise 91 Zo stranky http://cran.r-project.org/ stiahnite kniznicu ”ellipse” a vlozte z nej pro-gramy ellipse, ellipse.default, ellipse.lm, ellipse.profile, pairs. profile do S-PLUS.Pouzite data ANAEROB a premenne Oxygen a Ventilation.

Navod:plot(ellipse(MODEL,c(1,2)),type=’’l’’)# nezabudnite na limitaciu osı !!!points(0,0)points(MODEL$coef[1],MODEL$coef[2])

Prıklad 92 IS pre modelom odhadnutu odpoved a pre modelom odhadnutu priemernu odpoved. Pouzitedata ANAEROB a premenne Oxygen a Ventilation.

Page 72: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 69

Navod:

• n ... pocet statistickych jednotiek v modeli

ak zadefinujeme nejaku hodnotu x0, potom odhad y0y0 MODEL$coef[1]+x0*MODEL$coef[2]t.cv qt(0.975,df.model)# ak X je matica planu, potom (XT X)−1 budeX as.matrix(X)XtXi solve(t(X)%*%X)# (1) ak 95%CI pre modelom odhadnutu priemernu odpoved je tvaru y0±BM, potomBM1 sqrt(x0%*%XtXi%*%x0)*t.cv*sqrt(sum(MODEL$res∧2)/(n-p))95CI c(y0-BM1,y0+BM1)# (2) ak 95%CI pre modelom odhadnutu odpoved je tvaru y0±BM, potomBM2 sqrt(1+x0%*%XtXi%*%x0)*t.cv*sqrt(sum(MODEL$res∧2)/(n-p)95CI c(y0-BM2,y0+BM2)

• pomocou preddefinovanych funkciı:

# dostaneme BM1 pre prıpad (1)predict(MODEL,x0,se=T)...[1] fit, [2] se.fit, [3] df

Prıklad 93 Nakreslite pas spolahlivosti pre modelom odhadnute priemerne odpovede.Pouzite data ANAEROB a premenne Oxygen a Ventilation.

Navod:attach(DATA)# X1 je stlpec v DATA# a=min(X1),b=max(X1)a min(Weight)b max(Weight)X1.seq seq(a,b,by=1)PRED predict(MODEL,data.frame(X1=X1.seq),se=T)cv qt(0.975,summary(MODEL)$df[2]matplot(X1.seq,cbind(PRED$fit,PRED$fit-cv*PRED$se,PRED$fit+cv*PRED$se),

lty=c(1,2,2), type=’’l’’, xlab=’’X1’’,ylab=’’Y’’)rug(DATA$X1)points(X1,y,pch=16)

Prıklad 94 Co tak kvadraticka regresia? Pouzite data ANAEROB a premenne Oxygen aVentilation. Nakreslite aj graf s pasom spolahlivosti pre modelom odhadnute odpovedea pre modelom odhadnute priemerne odpovede. Urobte taky isty graf aj pre priamku.

Navod:# linearna regresia - priamkaplot(X1,Y)n < − length(Y)X < − cbind(rep(1,n),X1)# BETA < − solve(X, Y)BETA < − MODEL$coefminX1 < − min(X1)maxX1 < − max(X1)minY < − min(Y)maxY < − max(Y)SIMUL.X < − seq(minX1, maxX1,by=0.01)

Page 73: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 70

SIMUL.X < − cbind(rep(1,length(SIMUL.X)), SIMUL.X)ODHAD.Y < − SIMUL.X%*%BETASIGMA.odh < − sqrt(sum(X%*%BETA-Y)∧2)/(n-2)CONF.INT < − qt(0.975,n-2)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))PRED.INT < − qt(0.975,n-2)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))plot(X1,Y,xlim=c(minX1, maxX1),ylim=c(minY, maxY))lines(SIMUL.X1, ODHAD.Y)lines(SIMUL.X1, ODHAD.Y-CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y+CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y-PRED.INT,lty=3)lines(SIMUL.X1, ODHAD.Y+PRED.INT,lty=3)rug(X1)# linearna regresia - parabolaMODELkvadr lm(Y ~X1 + I(X1^2), data=DATA)plot(X1,Y)n < − length(Y)X < − cbind(rep(1,n),X1,X1^2)# BETA < − solve(X, Y)BETA < − MODELkvadr$coefminX1 < − min(X1)maxX1 < − max(X1)minY < − min(Y)maxY < − max(Y)SIMUL.X < − seq(minX1, maxX1,by=0.01)SIMUL.X < − cbind(rep(1,length(SIMUL.X)), SIMUL.X, SIMUL.X^2)ODHAD.Y < − SIMUL.X%*%BETASIGMA.odh < − sqrt(sum((X%*%BETA-Y)∧2)/(n-3))CONF.INT < − qt(0.975,n-3)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))PRED.INT < − qt(0.975,n-3)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))plot(X1,Y,xlim=c(minX1, maxX1),ylim=c(minY, maxY))lines(SIMUL.X1, ODHAD.Y)lines(SIMUL.X1, ODHAD.Y-CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y+CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y-PRED.INT,lty=3)lines(SIMUL.X1, ODHAD.Y+PRED.INT,lty=3)rug(X1)

Prıklad 95 Testovanie submodelov. Pouzite vysledky modelov MODEL a MODELkvadr

uvedenych vyssie.

Navod:

• pre F-statistiku

F sum(nested.model$res^2-full.model$res^2)/full.model$res^2 *df.full/(df.nested-df.full)p-hodnota je potom 1-pf(F,df.nested-df.full,df.full)

Page 74: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

10 LINEARNE REGRESNE MODELY 71

• pre t-statistiku

T sqrt(F)p-hodnota je potom 2*(1-pt(T,df.full))

• Test H0 : modelω, H1 : modelΩ

anova(nested.model,full.model)

Prıklad 96 Regresna diagnostika

plot(MODEL)

Page 75: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 72

11 Prıklad analyzy dat v R

Data pochadzaju z autorovej databazy z gynekologickeho projektu ”Sledovanie niektorych parametrovoxidacneho stresu pocas porodu”vo Fakultnej Nemocnici s Poliklinikou Bratislava, pracovisko Ruzinov,ktoreho sa zucastnil v roku 2002.

Vyznam stlpcov je nasledovny:1. malondialdehyd (MDA) je latka, ktora sa meria v krvi novorodencov a rodiciek a jej zvysena

hladina indikuje stres, IMDA je meranie prve a IIMDA je meranie druhe, hypoteza je, ze IIMDA by malobyt mensie ako IMDA, teda stres casom klesa

2. lipofuscin detto, ILipo, IILipo3. vek = vek rodicky4. t.gr = pocet tyzdnov gravidity5. poc.deti = pocet detı rodicky6. hmotnost = hmotnost dietata v gramoch7. status.AS1min = do7, nad7 (nad7 - dieta je v dobrej kondıcii, pod7 - potrebuje dodatkovu specialnu

starostlivost)8. AS5minAPGAR skore (AS, z anglickeho Activity, Pulse, Grimace, Appearance and Respiration) v Apgar teste

na hodnotenie kondıcie novorodenca hned po porode, v 1. a 5.min, tu je nasledovnych 5 skorovanychpremennych (davaju sa body od 0b po 2b, spolu teda 10)

- pulzova frekvencia (2b - nad 100 uderov/min, 1b - pod 100 uderov/min, 0b - bez pulzu),- dychanie (rychlost a sila, 2b - normalne, 1b - pomale alebo nezvycajne, 0b absentujuce),- aktivita a svalovy tonus (2b - aktıvny, spontanny pohyb, 1b - ruky a nohy skrcene s malym pohybom,

0b - bez pohybu, tzv. ”floppy tonus”),- grimasova odpoved (znama ako ”reflex irritability”, 2b - odtahovanie na podnet, kychanie alebo

kaslanie, 1b- iba tvarove grimasy so stimulaciou, 0b - absencia, bez odpovede na stimulaciu),- farba a vzhlad pokozky (2b - normalna farba vsade, aj ruky a nohy su ruzove, 1b - normalna farba,

ale ruky a nohy su namodrale, 0b - modro-siva alebo bleda farba vsade).Ak bolo AS v 1min po porode pod7 a nezlepsilo sa do tejto 5min, sestricka musı pokracovat v

”podpore”dietata. AS je teda monitoring momentalneho stavu kondıcie a zdravia dietata a moze bytpouzite aj v domacej starostlivosti neskor.

9. status.pH = pH krvi mensie alebo vacsie ako 7.2, teda pod7.2, nad7.2 10. status.IDP = trvanieprvej doby porodnej, t.j. do4hod, nad4hod 11. status.IIDP = trvanie druhej doby porodnej, t.j. do10min,nad10min 12. status.porod = spontanny a cisarsky.rez

# ----------------------------------------------------------------# PRIKLAD: R-kod# ----------------------------------------------------------------

# desatinna bodka# "<-" priradovanie# pomocnik ... help(FUNKCIA)

# matematicke a zakladne operacie

# >, <, >=, <=, ==# odmocnina ... sqrt()# absolutna hodnota ... abs()# mocnina ... cislo^exponent# +,-,*,/ \# logaritmus ... log(ZAKLAD,BAZA)# exp(EXPONENT) ... "e"# zoradenie podla velkosti ... sort(VEKTOR)

Page 76: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 73

# vektor ... c(CISLO,...,CISLO)# matica ... matrix(CISLA,pocet.riadkov,pocet.stlpcov)

# ----------------------------------------------------------------

# nacitanie dat# nazov v uvodzovkach + cesta# header=T ... hlavickaNOVOROD<-read.table("D:/Dokumenty/SURNE/WEB/asnovorod.txt",header=T)RODICKY<-read.table("D:/Dokumenty/SURNE/WEB/asdatab.txt",header=T)

# nacitanie nazvov stlpcov

names(NOVOROD)# [1] "PC" "MDA" "lipofuscin" "vek"# [5] "t.gr" "poc.deti" "pH" "hmotnost"# [9] "AS5min" "status.pH" "status.IDP" "status.IIDP"# [13] "status.AS1min"

names(RODICKY)# [1] "pc" "IMDA" "IIMDA" "ILipo" "IILipo"# [6] "vek" "poc.deti" "t.gr" "status.porod" "status.pH"# [11] "status.IDP" "status.IIDP"

# priame citanie nazvov stlpcov pri analyze

attach(NOVOROD)attach(RODICKY)

# zobrazenie dat v tabulke

edit(NOVOROD)

# ----------------------------------------------------------------

# zakladne charakteristiky polohy

summary(NOVOROD)

# PC MDA lipofuscin vek# Min. : 1.00 Min. :0.1500 Min. : 6.130 Min. :20.00# 1st Qu.:13.75 1st Qu.:0.4850 1st Qu.: 8.623 1st Qu.:27.00# Median :26.50 Median :0.6300 Median : 9.800 Median :29.00# Mean :26.50 Mean :0.6033 Mean : 9.785 Mean :30.25# 3rd Qu.:39.25 3rd Qu.:0.7000 3rd Qu.:10.903 3rd Qu.:33.00# Max. :52.00 Max. :1.1700 Max. :12.620 Max. :40.00# t.gr poc.deti pH hmotnost# Min. :36.00 Min. :1.000 Min. :7.030 Min. :2610# 1st Qu.:39.00 1st Qu.:1.000 1st Qu.:7.190 1st Qu.:3113# Median :40.00 Median :1.500 Median :7.297 Median :3470# Mean :39.83 Mean :1.635 Mean :7.275 Mean :3460

Page 77: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 74

# 3rd Qu.:41.00 3rd Qu.:2.000 3rd Qu.:7.343 3rd Qu.:3713# Max. :41.00 Max. :4.000 Max. :7.457 Max. :4450# AS5min status.pH status.IDP status.IIDP status.AS1min# Min. : 7.000 nad7.2:37 do4hod :24 do10min :26 do7 : 8# 1st Qu.:10.000 pod7.2:15 nad4hod:28 nad10min:26 nad7:44# Median :10.000# Mean : 9.885# 3rd Qu.:10.000# Max. :10.000

# frekvencna tabulka

table(poc.deti,status.porod)# status.porod# poc.deti cisarsky.rez spontanny# 1 9 32# 2 7 13# 3 2 2# 7 0 1

# priemer, rozptyl, smerodajna odchylka, minimum, maximum, kvantily# (0,0.25,0.5,0.75,1) - v zatvorke je vektor pozorovani (realizacii)

mean(hmotnost)# [1] 3460

var(hmotnost)# [1] 178772.5

sqrt(var(hmotnost))# [1] 422.815

min(hmotnost)# [1] 2610

max(hmotnost)# [1] 4450

quantile(hmotnost,c(0,0.25,0.5,0.75,1))# 0% 25% 50% 75% 100%# 2610.0 3112.5 3470.0 3712.5 4450.0

# dlzka vektora, pocet riadkov matice - pocet pozorovani

length(hmotnost)# [1] 52

nrow(NOVOROD)# [1] 52

# pokial mame v datach chybajuce hodnoty, treba urobit upravu tak, aby boli# chybajuce hodnoty vyradene - nova funkcia (priklady mean a var)

Page 78: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 75

Mmean <- function(x) mean(x[!is.na(x)])Mvar <- function(x) var(x[!is.na(x)])

Mmean(hmotnost)Mvar(hmotnost)

# vypocet napr. priemeru vnutri kategorialnej premennej, napr. piemer IMDA pre# oba typy porodov

sapply(split(IMDA,status.porod),mean)

# cisarsky.rez spontanny# 0.755000 1.008333

# co tak priradenie nazvu vysledku

AP.IMDA <- sapply(split(IMDA,status.porod),mean)

# co tak zaokruhlenie na 3 desatinne miesta

round(AP.IMDA,3)

# cisarsky.rez spontanny# 0.755 1.008

# ----------------------------------------------------------------

# GRAFICKE ZNAZORNENIA

# histogram (absolutna a relativna skala) - nastavenie priblizneho poctu intervalov# "nclass", vypisanie stredov intervalov, poctu pozorovani v nich

hist(hmotnost)hist(hmotnost, probability=T)hist(hmotnost,probability=T, nclass=20)x <- hist(hmotnost,nclass=20)

# boxplot# "varwidth=T" ... sirka krabiciek == sqrt(ROZSAH)# "notch=T" ... IS okolo medianu# "outpch=16" ... typ bodiek

boxplot(split(IMDA,status.porod),varwidth=T,notch=T,outpch=16)

# vkreslenie aritmetickych priemerov do boxplotu

apIMDA<-sapply(split(IMDA,status.porod),mean)points(apIMDA,pch=16)

# kvantilovy graf (qq plot)

Page 79: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 76

qqnorm(IMDA)qqline(IMDA)

# obrazok typu "scatter plot" + popisy

plot(IMDA,IIMDA,pch=16, main="Vztah IMDA a IIMDA", xlab="IMDA",ylab="IIMDA")

plot(IMDA,IIMDA, main="Vztah IMDA a IIMDA", xlab="IMDA",ylab="IIMDA",type="n")points(IMDA[status.porod=="cisarsky.rez"],IIMDA[status.porod=="cisarsky.rez"],pch=2)points(IMDA[status.porod=="cisarsky.rez"],IIMDA[status.porod=="cisarsky.rez"],pch=16)legend(5,20,c("spontanny","cisarsky.rez"),pch=c(2,16,))

# CDF (kumulativna distribucna fukcia), empiricka a simulovana "rnorm" s aritmetickym# priemerom a sd ako data

plot.ecdf(hmotnost)plot.ecdf(rnorm(1000,mean=mean(hmotnost),sd=sqrt(var(hmotnost))))

# graf hustoty

plot(density(hmotnost))

# ----------------------------------------------------------------

# STATISTICKA INFERENCIA

# KS test normality

ks.test(hmotnost,"pnorm",mean(hmotnost),sqrt(var(hmotnost)))

# One-sample Kolmogorov-Smirnov test

# data: hmotnost# D = 0.0647, p-value = 0.9815# alternative hypothesis: two.sided

ks.test(IMDA,IIMDA)

# Two-sample Kolmogorov-Smirnov test

# data: IMDA and IIMDA# D = 0.1515, p-value = 0.4349# alternative hypothesis: two.sided

# F - test na porovnanie rozptylov

var.test(IMDA,IIMDA)

# F test to compare two variances

# data: IMDA and IIMDA# F = 1.5024, num df = 65, denom df = 65, p-value = 0.1033

Page 80: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 77

# alternative hypothesis: true ratio of variances is not equal to 1# 95 percent confidence interval:# 0.9199607 2.4536334# sample estimates:# ratio of variances# 1.502413

# t - test na porovnanie populacnych strednych hodnot

t.test(IMDA,IIMDA)

# Welch Two Sample t-test

# data: IMDA and IIMDA# t = 1.3711, df = 124.963, p-value = 0.1728# alternative hypothesis: true difference in means is not equal to 0# 95 percent confidence interval:# -0.03896776 0.21472534# sample estimates:# mean of x mean of y# 0.9392424 0.8513636

t.test(IMDA,IIMDA,paired=T)

# Paired t-test

# data: IMDA and IIMDA# t = 2.0637, df = 65, p-value = 0.04305# alternative hypothesis: true difference in means is not equal to 0# 95 percent confidence interval:# 0.002833598 0.172923977# sample estimates:# mean of the differences# 0.08787879

# VOLBY v t - teste# alternative = "two.sided", alternative = "less", alternative = "greater"# paired = F, paired = T# var.equal = F, var.equal = T# conf.level = 0.95# mu = 0 ... volba "strednej hodnoty za platnosti nulovej hypotezy"

# neparametricky pristup

wilcox.test(IMDA,IIMDA,paired=T)

# Wilcoxon signed rank test with continuity correction

# data: IMDA and IIMDA# V = 1418.5, p-value = 0.04589# alternative hypothesis: true mu is not equal to 0

Page 81: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 78

# ----------------------------------------------------------------

# KORELACNA ANALYZA

cor.test(IMDA,IIMDA)

# Pearson’s product-moment correlation

# data: IMDA and IIMDA# t = 5.5522, df = 64, p-value = 5.811e-07# alternative hypothesis: true correlation is not equal to 0# 95 percent confidence interval:# 0.3806653 0.7137084# sample estimates:# cor# 0.5701667

# VOLBY# alternative = "two.sided", alternative = "less", alternative = "greater"# method = "pearson", method = "spearman"# conf.level = 0.95

# ----------------------------------------------------------------

# LINEARNY REGRESNY MODEL

MDAlm01 <- lm(IMDA ~ IIMDA, data = RODICKY)summary(MDAlm01)

# Call:# lm(formula = IMDA ~ IIMDA, data = RODICKY)

# Residuals:# Min 1Q Median 3Q Max# -0.86898 -0.22835 -0.06587 0.16532 0.93290

# Coefficients:Estimate Std. Error t value Pr(>|t|)

# (Intercept) 0.3442 0.1148 2.999 0.00385 **# IIMDA 0.6989 0.1259 5.552 5.81e-07 ***# ---# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# Residual standard error: 0.334 on 64 degrees of freedom# Multiple R-Squared: 0.3251, Adjusted R-squared: 0.3145# F-statistic: 30.83 on 1 and 64 DF, p-value: 5.811e-07

hist(resid(MDAlm01))qqnorm(resid(MDAlm01))qqline(resid(MDAlm01))

# kvantilovy graf, tiez je tu nahlad na normalitu dat, ak su data

Page 82: Vybran´e kapitoly z poˇc´ıtaˇcovej ˇstatistiky I · Stanislav Katina katina@fmph.uniba.sk 18/01/2006 Podporen´e grantami VEGA 1/0272/03 a 2/3203/24 Recenzenti: Doc. RNDr. Frantiˇsek

11 PRIKLAD ANALYZY DAT V R 79

# okolo priamky rozptylene len malo, je to OK, konce casto "utekaju",# tu to nie je take kriticke - model je OK

plot(fitted(MDAlm01),resid(MDAlm01))

# obrazok fitovanych hodnot voci rezidualom - nesmie byt vidiet nijaku# zavislost, inak je model ZLY (tu je to OK)

# ISs a predikcne intervaly okolo regresnej priamky

plot(IIMDA,IMDA)n <- length(IMDA)X <- cbind(rep(1,n),IMDA)# BETA <- solve(X, IIMDA)BETA <- MDAlm01$coefminIMDA <- min(IMDA)maxIMDA <- max(IMDA)minIIMDA <- min(IIMDA)maxIIMDA <- max(IMDA)SIMUL.IMDA <- seq(minIMDA, maxIMDA,by=0.01)SIMUL.X <- cbind(rep(1,length(SIMUL.IMDA)), SIMUL.IMDA)SIMUL.IIMDA <- SIMUL.X%*%BETASIGMA.odh <- sqrt(sum(X%*%BETA-IIMDA)^2)/(n-2)CONF.INT <- qt(0.975,n-2)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X))%*%t(SIMUL.X)))PRED.INT <- qt(0.975,n-2)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X))%*%t(SIMUL.X)))plot(IIMDA,IMDA,xlim=c(minIMDA, maxIMDA),ylim=c(minIIMDA, maxIIMDA))lines(SIMUL.IMDA,SIMUL.IIMDA)lines(SIMUL.IMDA,SIMUL.IIMDA-CONF.INT,lty=2)lines(SIMUL.IMDA,SIMUL.IIMDA+CONF.INT,lty=2)lines(SIMUL.IMDA,SIMUL.IIMDA-PRED.INT,lty=3)lines(SIMUL.IMDA,SIMUL.IIMDA+PRED.INT,lty=3)rug(IMDA)# ----------------------------------------------------------------