Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Katedra aplikovanej matematiky a statistikyFakulta matematiky, fyziky a informatiky
Univerzita Komenskeho v Bratislave
Vybrane kapitoly z pocıtacovej statistiky I
Zaklady matematickej statistiky a jej aplikacie pouzitım programovacıchjazykov R a S
elektronicke studijne materialy
Stanislav Katina
18/01/2006
Podporene grantami VEGA 1/0272/03 a 2/3203/24Recenzenti: Doc. RNDr. Frantisek Stulajter, CSc., Mgr. Jan Somorcık
Obsah
1 Uvodne poznamky 11.1 Objekty a ich typy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Vektory 4
3 Zoradene a nezoradene premenne 73.1 Funkcie ”apply”, ”tapply”, ”sapply” a ”lapply” . . . . . . . . . . . . . . . . . . . . . . . . 7
4 Matice 94.1 Polia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.2 Objekt ”list” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.3 Datove ramce ’’data.frame’’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.4 Operacie - vektory, matice, polia, datove ramce . . . . . . . . . . . . . . . . . . . . . . . . 12
5 Zaklady statistickeho uvazovania 14
6 Poznamky ku rozdeleniam pravdepodobnosti nahodnych premennych 176.1 Normalne rozdelenie pravdepodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176.2 Rozdelenia odvodene od normalneho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186.3 Binomicke rozdelenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186.4 Kvantily a kriticke hodnoty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.5 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7 Zakladna (deskriptıvna) statistika 227.1 Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227.2 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8 Graficka interpretacia vyberoveho suboru 278.1 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9 Statisticka inferencia 379.1 Statisticka inferencia pre parametre normalneho rozdelenia . . . . . . . . . . . . . . . . . 37
9.1.1 Intervaly spolahlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379.1.2 Testovanie hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409.1.3 Zavisle pozorovania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439.1.4 Vztah IS a testovania hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439.1.5 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
9.2 Statisticka inferencia pre parametre binomickeho rozdelenia . . . . . . . . . . . . . . . . . 469.2.1 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9.3 Neparametricke dvojvyberove testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489.3.1 Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489.3.2 Mann-Whitney test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
9.4 Neparametricke parove testy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.1 Znamienkovy test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.2 Wilcoxonov znamienkovany test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509.4.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
9.5 Korelacna analyza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519.5.1 Korelacny koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529.5.2 Spearmanov korelacny koeficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549.5.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
9.6 Testovanie normality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.6.1 Chi-kvadrat test dobrej zhody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569.6.2 Kolmogorov - Smirnovov test dobrej zhody . . . . . . . . . . . . . . . . . . . . . . 579.6.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
10 Linearne regresne modely 6010.1 Jednoduchy linearny regresny model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6010.2 Mnohorozmerny linearny regresny model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
10.2.1 Regresna diagnostika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6710.3 Prıklady v S-PLUS a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
11 Prıklad analyzy dat v R 72
1 UVODNE POZNAMKY 1
1 Uvodne poznamky
Zakladne informacie o R-ku a S-PLUS:
• http://www.defm.fmph.uniba.sk/~katina/katina.htm (Teaching, Computer Statistics: texty adata)
• standardny balık : http://cran.r-project.org (cesta: Windows (95 and later) → base → R-2.2.1-win32.exe)
• Vanables, W.N., Smith, D.M., 2005: An Introduction to R. Notes on R: A Programing Environmentfor Data Analysis and Graphics. Version 2.2.1 (2005-12-20), zdroj: http://cran.r-project.org(cesta: Documentation → Manuals)
• R kniznice: http://cran.r-project.org (cesta: → Packages (podla potreby))
Zakladne prıkazy:
• default promt: " "
• ukoncenie v R: q()
• default promt ak nie je ukonceny prıkaz - ’’+’’
• nepouzıva sa diakritika !!!
• komentar: hashmark ’’#’’, vsetko do konca riadka je komentar
• historia prıkazov: sıpky hore ↑ a dole ↓
• separacia slov: bodka ’’.’’ (napr. pri priradovanı nazvov ku objektom)
• objekty: su ukladane podla mien - zobrazenie mien existujucich objektov objects() alebo ls();subor objektov sa nazyva workspace a R ho zapisuje do suboru ’’.RData’’, odstranenie objektovrm()
pozn.: treba priradovat mena podla nasledovnych pravidiel - vektory malymi pısmenami, maticevelkymi pısmenami, objektom davat kratke zrozumitelne mena, radsej zacat velkym pısmenom,aby sa neprepısal nazov nejakej funkcie
• separacia prıkazov: bodkociarka ’’;’’ alebo novy riadok (enter)
• odstranenie pısaneho textu: cely riadok - sıpky hore ↑ a dole ↓, cast textu - dell, backspace
• funkcia a jej argumenty: nazov.funkcie(’’character.string’’ ),args(’’nazov.funkcie’’ )
• prıklad a demo: example(topic ), demo(topic ) v R, example.topic(topic ) v S-PLUS
• help - help(name )
• zakladne funkcie a operacie:
- ’’+’’, ’’-’’, ’’*’’, ’’/’’
- ’’<’’, ’’>’’, ’’<=’’, ’’>=’’, ’’==’’... rovnost , ’’!=’’... nerovnost
- sqrt(x), ’’∧’’, abs(x)
Trigonometricke funkcie a ich inverzie:
1 UVODNE POZNAMKY 2
- sin(x), cos(x), tan(x), asin(x), acos(x), atan(x)
Hyperbolicke funkcie a ich inverzie
- sinh(x), cosh(x), tanh(x), asinh(x), acosh(x), atanh(x)
Exponencialne a logaritmicke funkcie
- exp(number )
- prirodzeny (natural) logaritmus (zaklad e, ln) log(number, base=number ), dekadicky (common)logaritmus log10(number)
- log(100, 10) == log10(100)
Gama funkcia a logaritmus gama funkcie gamma(), lgamma()...loge Γ (x)
- zaokruhlovanie round(number,digits = pocet.miest )
- sign(x)vracia znamienka cısel v podobe 1, 0 alebo −1, ak bocıslo kladne, nula alebo zaporne
- a sucasne (AND) ’’c1 & c2’’
- alebo (OR) ”c1 | c2’’- negacia (NOT) ”! c1’’
- union A ∪B, intersect A ∩B, setdiff A ∩B a is.element x ∈ A
• zakladne prıkazy pri cıtanı dat:
- nacıtanie vlozenych dat data(data.frame )
- priame cıtanie stlpcov attach(data.frame ) alebo nazov.dataframe$nazov.stlpca
- nazvy stlpcov names(data.frame )
- ukoncenie priameho cıtania stlpcov detach(data.frame )
- x < − scan()
# pokial mame malo dat, enter a vkladame cısla s medzerou medzi nimi
# dalsie sposoby cıtania dat - z kniznice v Rkudata(); data.frame()data(package=’’name ’’)data(name,package=’’name ’’)library(name); data(); data(name )# editovanie datxnew edit(xold)xnew edit(data.fram() )
• vlozenie dat: v S-PLUSe (pozri v helpe importData), v Rku read.table(’’cesta a nazovsuboru’’, header=T)
# nikdy nepouzıvame separator v ceste ”\”, ale ”\\” alebo ”/”# volitelne parametre# separaror sep=’’’’, napr. sep=’’/t’’ pre tabulku, sep=’’’’ pre volny priestor (default), alebo
sep = ’’,’’, sep = ’’;’’# hlavicka header=T, bez hlavicky header=F# desatinna bodka alebo ciarka dec = ’’.’’ alebo dec = ’’,’’# nazvy riadkov a stlpcov pouzitım row.names=..., col.names=...NAZOV< −read.table(’’D:/Dokumenty/nazov.txt’’,header=T)
1 UVODNE POZNAMKY 3
• export grafu a vysledkov v tabulke
# aktıvne okno (GSD2)
export.graph(’’D:\\graph.wmf’’, Name=’’GSD2’’, ExportType = ’’WMF’’)
exportData(meno, ’’D:\\data.xls’’, type=’’EXCEL’’
• desatinna bodka: ’’.’’
• priradovanie: ’’< −’’ alebo ’’ ’’
• instalacia kniznice v R
• volanie kniznice library(name ), library(help = section )
Prıklad 1 prıklady na zakladne funkcie a operacie
sqrt(-5)sqrt(-5+0i))
Prıklad 2 help(sin), example(sin), args(’’sin’’)
Prıklad 3 data(iris), attach(iris), names(iris), detach(iris)
Prıklad 4 data(geyser), attach(geyser), names(geyser)
Prıklad 5 nacıtanie dat do S-PLUS a R
1.1 Objekty a ich typy
Objekty:
• vektor vector
• matica matrix
• pole array
• faktor factor - pre kategorialne data
• mnozina objektov list
• datovy ramec data.frame
• funkcia function
Triedy objektov, class(object ):
• numeric - realne cısla
• integer - cele cısla
• complex - komplexne cısla
• logical - logicky, hodnoty TRUE alebo FALSE
• character, factor - text a premenna
2 VEKTORY 4
2 Vektory
• vektor: x c(cislo,...,cislo )
• dlzka vektora: length(x)
• sucet a nasobenie clenov vektora: sum(x), prod(x)
• zoradenie clenov vektora (vzostupne a zostupne): sort(x); rev(sort(x))
• priradenie poradia clenom vektora: order(x)
• operacie s vektormi
Prıklad 6 atributy vektora a ich zmeny
z 0:9charz as.character(z)intz as.integer(charz)
# vytvorte numericky vektor e s dlzkou 3 tak, aby prve dva komponenty boli NA a tretı cıslo 17# typ pridavanych komponentov suhlası s typom predhadzajucich komponentove[3] 17length(e)# zmena atributu ”dimenzia” = vytvorte z vektora z maticu s rozmermi 2× 10dim(z) c(2,10)
Prıklad 7 operacie s vektormi
x c(1,3,5)length(x)sum(x)prod(x)sort(x)rev(sort(x))order(x)z c(x,2,x)u 2*x + z + 1v x-1y 1/x
• jednoducha sekvencia vpred a vzad c(1:n), c(n:1)
• zlozitejsia sekvencia e seq(from=value, to=value, by=value, length=value )
• opakovane sekvencie g rep(x,times=value )
Prıklad 8 jednoducha sekvencia vpred a vzad, zlozitejsia sekvencia a opakovane sekvencie
n 5c(1:n)a c(1:n-1)b c(1:(n-1))c(n:1)d c(10:1)e2 seq(from=0, to=1, by=0.01 )e1 seq(from=0, to=1, length=10 )# zopakujte trojku 6x
2 VEKTORY 5
Logicke vektory:
• mozne hodnoty: TRUE (T,1), FALSE (F,0), NA
• su generovane pouzitım tzv. conditions (podmienky)
Chybajuce hodnoty, nekonecno, cısla a ’necısla’:
• ”not available”, (”missing values”, NA)
• is.na(x) oznacenie, ktore dava logicky vektor dlzky ako x s hodnotami TRUE ak prisluchajucahodnota na danom mieste je NA v x
• ±nekonecno: ”Inf”, resp. ”-Inf”
• ”number”
• ”not a number” NaN ’’0/0’’
• is.na(xx) je TRUE pre NA a aj NaN hodnoty
• is.nan(xx) je TRUE len pre NaN
Prıklad 9 logicke vektory, chybajuce hodnoty, nekonecno, cısla a ’necısla’
x < − 1:20x.do15 x > 15p c(1:5,NA)mv.p is.na(p)bezmv.p p[!is.na(p)]# nekonecno1/0x c(-1,0,1)/0xis.na(x)x > Infnek c(1:5,Inf,-Inf)
Vektory premennych:
• c(’’x1’’,’’x2’’)
• paste(vektor,sep=string )
Indexovane vektory: vector[index.vector ]
• odstranovanie zloziek: x[-CISLO], x[- RETAZEC]
• logicke indexovanie: x[!is.na(x)]
# vyradenie chybajucich hodnot vo vektore
2 VEKTORY 6
Prıklad 10 vektory premennych, indexovanie
fruit c(4,8,2,9)names(fruit) c(’’banana’’,’’orange’’,’’apple’’,’’peach’’)# vybratie len tych poloziek vo fruit, ktore zodpovedaju prvym dvom nazvom, teda ’’banana’’,
’’orange’’
# c(’’X’’,’’Y’’) su opakovane 5x v sekvencii za sebou a postupne su knim priradovane cısla 1:10,teda c(’’X1’’,’’Y2’’,...,’’X9’’,’’Y10’’)
# vytvorte sekvenciu X1 X2 ... X50
x[3]x[1:10]x1 x[-5]x2 x[-(1:3)]p1 p[!is.na(p)]
# nahradnie chybajucich hodnot v x nulami, teda x[is.na(x)] 0s c(-1,-5, 1:7,NA)# vytvorte objekt f, kde vyradte vo vektore x+1 chybajuce a kladne hodnoty# vytvorte vektor zz1 absolutnych hodnot nejakeho vektora zz zlozeny z nejakych celych cısel,
potom vyberte zo zz len zaporne cleny priradte ich do vektora zz2 a nakoniec vytvorte opacny vektorku vektoru zz a oznacte ho zz3
# co tak cosi zlozitejsie, sekvenciu ”XYYX” 4x
Prıklad 11 vektory
# vytvorte vektor x = (1, 2, 5, 6, 9)# vytvorte vektor y = (3, 1, 2, 5, 6, 9, 10, 1, 2, 5, 6, 9, 2)# vytvorte vektor z, ktory obsahuje len 3. az 7. prvok vektora y# vytvorte vektor z, ktory je odvodeny z vektora y tak, ze ho tvoria len cleny prisluchajuce poradiu
odvodenemu z clenov vektora x# vlozte na tretie, sieste a osme miesto vektora z cıslo 7# vlozte do vektora z na miesta zodpovedajuce druhemu az siestemu clenu vektora y cısla 11, 12, 13, 14,
15# vypıste vektor z
Prıklad 12 funkcia rep
# vytvorte vektor a = (1, 2, 3, 4)# vytvorte vektor b = (2, 2, 2, 2)# vytvorte vektor c = (1, 2, 3, 4, 1, 2, 3, 4)# vytvorte vektor d = (1, 1, 2, 2, 3, 3, 4, 4)# vytvorte vektor e = (1, 2, 2, 3, 3, 3, 4, 4, 4, 4)
Prıklad 13 rep - dalsie
# 8 x jedna, 8 x dva, 8 x tri# vytvorte 3x za sebou sekvenciu cısel 112233
3 ZORADENE A NEZORADENE PREMENNE 7
3 Zoradene a nezoradene premenne
Faktor je vektorovy objekt pouzıvany na specifikaciu diskretnej klasifikacie komponentov inych vek-torov rovnakej dlzky. Funkcia ordered() zoraduje faktory podla abecedy, casto je identicka ku funkciifactor(), ale nie vzdy.
Prıklad 14 staty
staty c(’’sl’’,’’cz’’,’’po’’,’’ru’’, ’’ukr’’, ’’bi’’,’’sl’’,’’cz’’,’’po’’,’’ru’’,’’ukr’’, ’’bi’’)
statyfak factor(staty)levels(statyfak)attr(statyfak,’’levels’’)attr(statyfak,’’class’’)# frekvencna tabulka pre premenne definovane ako factor (multy-way frequency array)table(statyfak)
Prıklad 15 prıjmy
prijmy ordered(c(’’Mid’’, ’’Hi’’, ’’Lo’’, ’’Mid’’, ’’Lo’’, ’’Hi’’, ’’Lo’’))# abecedne zoradenie, teda to, co nechcemeprijmy# Hi < Lo < Midas.numeric(prijmy)pri ordered(c(’’Mid’’, ’’Hi’’, ’’Lo’’, ’’Mid’’, ’’Lo’’, ’’Hi’’, ’’Lo’’),
levels = c( ’’Lo’’, ’’Mid’’, ’’Hi’’))# to, co skutocne chcemepri# Lo < Mid < Hi
Prıklad 16 geyser, pozri help(geyser)
attach(geyser)names(geyser)# waiting casovy interval medzi erupciami# duration trvanie prıslusnej erupcie# rozdelte duration na 6 skupın a potom priradte cısla 1 az 6 tymto skupinam, teda abz islo o
zoradene faktoryerupt cut(duration,breaks=0:6)erupt ordered(erupt, labels=levels(erupt))# erupt ... 0+ thru 1 < 1+ thru 2 < 2+ thru 3 < 3+ thru 4 < 4+ thru 5 < 5+ thru 6# intervaly su typu (i, i + 1〉, teda 4 minutova erupcia je dana do kategorie 3+ thru 4# co tak ine delenieeruptNEW1 cut(duration,4)eruptNEW2 cut(duration,quantile(duration, c(0,1/3,2/3,1)), include.lowest=T, labels
= c(’’low’’, ’’mid’’, ’’high’’))
3.1 Funkcie ”apply”, ”tapply”, ”sapply” a ”lapply”
• apply(), zvolena funkcia sa aplikuje na obe dimenzie matice (riadky alebo stlpce), alebo jednotlivedimenzie pola
• tapply(), tu ”t” znamena ”table” a pouzıva sa na vypocty v tzv. ”ragged arrays”, teda je kom-binacia numerickeho vektora a vektora premennych, podla ktorych delıme (klasifikujeme) do pod-skupın numericky vektor, vytvorı sa tzv. ”cross-classified table”, podla funkcie, ktoru pouzijeme.
3 ZORADENE A NEZORADENE PREMENNE 8
• lapply(), tu ”l” znamena ”list”, teda vytvorı sa list ako vysledok aplikovania nejakej funkcie
• sapply(), tu ”s” znamena ”simplify”, teda vytvorı sa vector ako vysledok aplikovania nejakejfunkcie
Prıklad 17 staty
prijem c(10 000, 13 000, 12 500, 9 400, 9 100, 9 300, 10 100, 13 100, 12 600, 9 500,9 200, 9 400)
prijemMean tapply(prijem, statyfak, mean)prijemMean
pozn.:# v Rkulibrary(MASS)library(help=MASS)data(quine)tapply(Days,Age,mean)tapply(Days,list(Sex,Age),mean)
Prıklad 18 staty opat
# rozdelenie prıjmu na pravidelne skupiny podla presne stanoveneho kriteriaprijemfak cut(prijem,breaks=9000+1000*(0:6))# frekvencna tabulkatable(prijemfak,statyfak)
Prıklad 19 iris (pole 50× 4× 3 )
# priemer podla stlpcovapply(iris, 2, mean)# priemer podla druhej a zaroven tretej dimenzie pola s odseknutymi okrajmi (10%)apply(iris, c(2,3), mean,trim=0.1)
Prıklad 20 ISwR kniznica pre Rko, instalovanie kniznice, praca s chybajucimi pozorovaniami, datathuesan
library(ISwR)library(help=ISwR)data(tuesan)help(tuesan)lapply(thuesen, mean, na.rm=T)sapply(thuesen, mean, na.rm=T)
4 MATICE 9
4 Matice
Prıkazy suvisiace s maticami:
• spajanie vektorov do matice: rbind(...) ... horizontalne, po riadkoch, cbind(...) ...vertikalne, po stlpcoch
• vytvorenie matice: matrix(name, nrow=...,ncol=...)
• vytvorenie matice inak: matrix(name, dim=c(...,...))
• priradenie nazvov riadkom: row.names(...) c(’’...’’,...,’’...’’)
• vypisovanie: meno[,...], meno[...,], meno[...,...], meno[,...:...],meno[...:...,]
• priradenie nazvov riadkom a stlpcom: dimnames(...) list(c(row ),c(column ))
• priradenie nazvov stlpcom: dimnames(...) list(NULL,c(column ))
Prıklad 21 matice
# vytvorte maticu pozostavajucu z prvkov 1 az 12 nasledovne# po stlpcoch bycol=T (default)# po riadkoch byrow=T# priradte mena riadkom a aj stlpcom# este inakmatrix(1:12,nrow=3)
Prıklad 22 staty znova, dim atribut, volby bycol a byrow
names(staty) statyfaknames(staty) NULLdim(staty) c(2,6)statydim(staty) NULL# bycol=T (default)S1 matrix(staty,2,6)S2 matrix(staty,2,6,byrow=T)
Prıklad 23 geyser opat, funkcia cbind
cbind(waiting,erupt)
Prıklad 24 dolna trojuholnıkova matica (lower.tri, upper.tri)
A matrix(1:16,dim=c(4,4))Aut A[col(A)>= row(A)]Alt A[col(A)<= row(A)]
4 MATICE 10
4.1 Polia
Prıklad 25 praca s dimenziami, parameter a funkcia dim()
# pole 2x2x5 z cısel 1 az 20# pole 4x5 z cısel 1 az 20# cosi naviacZ array(c(1:10,11:20), dim=c(2,10))I array(c(1:3,3:1), dim=c(3,2))X[5]X[5] 0
Prıklad 26 pole este raz
# pole 2x2x5 z cısel 1 az 20 inak# pole nul 2x2x5
4.2 Objekt ”list”
List - objekt pozostavajuci zo zoradeneneho zoznamu objektov, teda z komponentov
• pouzitie napr. pri programovanı funkciı a hladanı komponentov vysledkov nejakej funkcie
• List list(name=’’Fred’’, wife=’’Mary’’, no.children=’’3’’, child.age=c(4,7,9))
List list(name.1=object.1, ..., name.m=object.m)
• komponenty su ocıslovane: List[[1]], List[[2]],...,
• 4. komponent a jeho prva polozka: List[[4]][1]
• pocet hierarchicky najvyssıch komponentov: length(List)
• pomenovania - name$component.name (List$wife je ako List[[2]], List[[’’wife’’]] je’’Mary’’); x ’’wife’’; List[[x]]
• pozor na hierarchiu ’’[[]]’’ a potom ’’[]’’
• ak objekt pozostava z jednotlivych listov, tak aj celok je list List.ABC c(List.A, List.B,List.C)
4.3 Datove ramce ’’data.frame’’
• uz bolo: attach(name.dataframe), detach(name.dataframe)
• indexacia
name [1:3, c(1,5,7)]
• konverzia dvoch ramcov z a do matice
as.data.frame()
as.martix()
# pozri aj data.matrix() a column.levels
4 MATICE 11
Prıklad 27 podmnoziny, funkcia subset()
# v Rkulibrary(ISwR)library(help=ISwR)data(tuesan)help(tuesan)thuesanNEW < − subset(thuesan, blood.glucose < 7)# v S-PLUShelp(painters)attach(painters)painters[Colour >= 17, ]painters[Colour >= 15 & Composition > 10,]painters[Colour >= 17 & School != ’’D’’, ]painters[is.element(Shool, c(’’A’’,’’B’’,’’D’’)), ]# v R a S-PLUS 6.1 a 6.2painters[School %in% c(’’A’’,’’B’’,’’D’’)), ]
Prıklad 28 podmnoziny, funkcia transform(), scale()
# pokracujeme s datami tuesanthuesanNEW1 transform(thuesan, log.gluc = log(blood.glucose))
# pokracujeme s datami crabscrabsNEW crabs# centrovanie a preskalovaniecrabsNEW[, 4:8] lapply(crabsNEW[, 4:8], scale)# centrovaniecrabsNEW[, 4:8] lapply(crabsNEW[, 4:8], scale, scale=F)# ktore premenne su numericke?sapply(crabs,is.numeric)crabsNEW[ ] lapply(crabsNEW, function(x)if(is.numeric(x)) scale(x) else x)
Prıklad 29 chybajuce pozorovania, funkcia na.omit()
help(claims)names(claims)attach(claims)claimsNEW na.exclude(claims)claimsNEW na.omit(claims)
Prıklad 30 funkcia aggregate
• pouzitie aggregate je ekvivalentne tapply na kazdom stlpci datoveho ramca
attach(crabs)
aggregare(crabs[, 4:8], list(sp=crabs$sp, sex=crabs$sex), median)
Prıklad 31 funkcia by()
• funkcia by vyraba datovy ramec a delı ho (split) podla druheho argumentu funkcie, podobnefunkcii tapply
by(crabs[, 4:8], list(crabs$sp, crabs$sex),summary)
4 MATICE 12
Prıklad 32 funkcia merge()
• funkcia merge spaja dva datove ramce ako databazy - kombinuje napr. prıslusne riadky
help(merge)# vytvorte datovy ramec authors a potom books v S-PLUS 6.2 podla stlpcov 1 a 2, kde su mena a
priezviskamerge(authors, books, by=1:2)# v S-PLUS 4.5, podla stlpca ”row.names”merge(Animals, mamals, by=’’row.names’’)
Prıklad 33 sortovanie a nahodny vyber
library(car)library(help=car)data(Womenlf)help(Womenlf)attach(Womenlf)# 20 nahodne vybratych riadkovsample.20 < − sort(sample(nrow(Womenlf),20))# podla tohoto nahodneho vyberu vyberte prisluchajuce riadkyWomenlf[sample.20, ]
Prıklad 34 prekodovavanie recode()
# pokracujeme s datami Womenlfworking < − recode(partic,c(’partime’,’fulltime’)=’yes’; ’notwork’=’no’’’)working[sample.20]# alternatıvneworking.alt < − recode(partic,c(’partime’,’fulltime’)=’yes’; else=’no’’’)# ponechajte len pracujucich, ostatnı budu NAfulltime < − recode(partic,’fulltime’=’yes’;’partime’=’no’;’notwork’= NA’’)fulltime[sample.20]# prekodujte regionregion.4 < − recode(region,’’c(’Prairie’,’BC’)=’West’’’)region.4[sample.20]
4.4 Operacie - vektory, matice, polia, datove ramce
- operacie clen-po-clene su ’’+’’, ’’-’’, ’’*’’, ’’/’’.- rozsırene operacie pozri v - library(Matrix)
Prıklad 35 operacie - prıklady
# vytvorte maticu z cısel 1 az 9 po stlpcoch a pripocıtajte k nej vektor 1:3 po stlpcochA matrix(1:9,ncol=3) + 1:3# alternatıvnesweep(A ,1,1:3,’’+’’)# pripocıtaj k matici A vektor 1:3 po riadkochmatrix(1:9,ncol=3) + t(1:3)# alternatıvnesweep(matrix(1:9,ncol=3),2,1:3,’’+’’)# vynasobte maticu A s maticou AB A%*%A# vynasobte maticu A s maticou B a potom maticu B s maticou A, porovnajte
4 MATICE 13
C1 A%*%BC2 B%*%A# vynasobte maticu A s vektorom 1:3 z lava a potom vektorom 1:3 transponovanym, porovnajteD1 1:3%*%AD2 t(1:3)%*%A# jednotkova matica (identity matrix)diag(4)# matica s cıslami 1, 2, 3, 4 na diagonalediag(1:4) ... matica s cıslami 1, 2, 3, 4 na diagonale# vektor 3, 5, 7 na diagonalex c(3,5,7); diag(x)# A′ transpozıcia maticeAt t(A)# A−1 inverzia maticeAs solve(A)
Prıklad 36 Riesenie systemu linearnych rovnıc
solve(A, c(9,5,14))
Prıklad 37 stopa matice a jej determinant
# stopa (trace) stvorcovej matice tr(A); sum(diag(A)) # ak A je stvorcova matica a Ax = λx, kdeλ je skalar a x je vektor, potom λ je vlastne cıslo (eigenvalue) matice A a x je vlastny vektor (eigenvector)matice A
eigen() ... (...$values, ...$vectors)# determinant maticedetA function(x) prod(eigen(x)$values)
Prıklad 38 zoradovanie, poradia vo vektoroch, maticiach a datovych ramcoch
# zorad zostupne 10 statov USA (state.name) podla oblastıstate.name[rev(order(state.x77[,’’Area’’]))][1:10]# vytvorte maticu a potom ju uprav podla prveho stlpca a nasledne podla zoradenych prvych dvoch
stlcovMAT < − matrix(c(1, 3, 2, 2, 5, 4, 6, 5, 6, 9, 7, 8, 10, 11, 11, 12, 12, 16, 14,
14), 5, 4)MAT1 < − MAT[order(MAT[,1]),1:4]MAT1 < − MAT[order(MAT[,1],MAT[,2]),]# priradte clenom vektora ich poradiarank(c(20:1,1:5))
5 ZAKLADY STATISTICKEHO UVAZOVANIA 14
5 Zaklady statistickeho uvazovania
V nasledovnom texte budeme pracovat s pojmami, ktore treba dosledne rozlisovat, ako
• zakladny subor → vyberovy subor,
• parameter → odhad,
• populacny priemer → vyberovy priemer,
• populacna disperzia → vyberova disperzia,
• populacna smerodajna odchylka → vyberova smerodajna odchylka
• populacna standardna chyba → vyberova standardna chyba,
• pravdepodobnost → relatıvna pocetnost.
Statisticky (zakladny) subor je konecna mnozina prvkov (napr. osob), na ktorej sledujeme urciteznaky, veliciny, vlastnosti a pod. Ak uskutocnıme vyber zo statistickeho suboru (pozri nizsie), hovorımeo vyberovom subore, ktory reprezentuje statisticky subor vyberom urciteho poctu statistickych jednotiek.Statisticke jednotky tvoria napr. respondenti dotaznıka, pricom po uskutocnenı vyberu hovorıme ovyberovych jednotkach. Na statistickych jednotkach skumame statisticke znaky (premenne, faktory),ktore mozeme rozdelit do nasledovnych kategoriı:
1. kvantitatıvne (metricke, kardinalne) - diskretne, spojite a intervalove (jav, kt. nevieme presnepozorovat)
2. kvalitatıvne
- nominalne znaky (neusporiadana kategorizacia, natural ordering) - ide o prıslusnost sledovanehoobjektu k urcitej triede objektov, napr. vyucovacie predmety; nabozenstva - Katolıci, Protestanti,Zidia, Moslimovia; typ sıdla - dom, apartman, kondo
- ordinalne znaky (usporiadana kategorizacia, ordered categories) - ide o znak, ktoreho hodnotymozeme prirodzene usporiadat, napr. stupnica znamok; socialne skupiny - horna, stredna, nızka;politicka filozofia - liberalna, stredna, konzervatıvna
- alternatıvne (binarne) - typ ano/nie.
3. frekvencie vyskytu nejakej udalosti - budeme striktne rozlisovat nasledovne:
- frekvencie (frequencies) - ak sa udalosti vyskytuju nezavisle na roznych statistickych jednotkach(units) alebo jedincoch (individuals),
- pocetnosti (counts) - ak mame rozne udalosti na tej istej premennej na rovnakej statistickej jednotke- tu mozeme ocakavat urcity typ zavislostı medzi opakovanymi udalostami
Vyber moze byt
1. nahodny (pravdepodobnostny) - vyberanie satistickych jednotiek z populacie celkom nahodne anezavisle na nasom usudku -
· jednoduchy nahodny - priamy vyber statistickych jednotiek, pricom kazda ma rovnaku pravde-podobnost, ze bude vybrana (napr. losovanie, pricom je vyhodne, ked su statisticke jednotkyocıslovane a je mozne pouzit matematicku teoriu nahodnych cısel);
· mechanicky (systematicky) - je zalozeny na urcitom, dopredu stanovenom, usporiadanı prvkovpopulacie - do vyberoveho suboru zaradıme vsetky prvky, ktore su od seba vzdialene o zvolenyvyberovy krok, kedy prvy prvok vyberieme jednoduchym nahodnym vyberom; pri tomto vyberemusıme dat pozor, aby usporiadanie prvkov nesuviselo so sledovanym znakom;
5 ZAKLADY STATISTICKEHO UVAZOVANIA 15
Prıklad: z abecedne usporiadanej kartoteky (databazy) pacientov u praktickeho lekara, vyberames krokom 10 a prvu kartu vylosujeme (napr. to bude deviata karta) a potom bude vyber tvorenypacientami s poradiami kariet 9, 19, 29, 39, 39 atd.;
Prıklad: zistujeme znak zamestnanie u stomatologickeho pracoviska, pacienti prichadzaju v urci-tom casovom slede a ich zaznamy su potom takto aj usporiadane; urobıme vyber s krokom rovnymdennemu poctu pacientov, kedy predpokladame, ze kazdy den prıde do ambulancie rovnaky pocetpacientov; teto postup vedie potom k znacne selektıvnemu vyberu, kedy vyberame pacientov, ktorıprichadzaju v urcity cas dna, co moze suvisiet s typom ich zamestnania;
· oblastny (stratifikovany) - zakladny subor je rozdeleny na oblasti podla urciteho hladiska, suvytvorene tak, aby boli vnutri homogenne (v sledovanych znakoch sa prıliz neodlisuju) a medzi sebouheterogenne (v sledovanych znakoch sa znacne odlisuju); v jednotlivych oblastiach sa uskutocnıjednoduchy nahodny vyber alebo mechanicky vyber; percento vybranych jednotiek moze byt budvo vsetkych oblastiach rovnake, alebo sa medzi oblastami moze aj lısit (tu napr. mame ekonomickedovody na vyberanie mensieho poctu jednotiek alebo aj narocnost vyberu jednotiek); konecnyvyberovy subor vytvorıme spojenım vsetkych oblastı;
Prıklad: ak robıme vyber na obyvatelstve SR, oblastami su uzemne celky, vekove skupiny alebosocioekonomicky status;
· skupinovy - pokial je statisticky (zakladny) subor pomerne rozsiahly (stotisıce alebo miliony osob),mozeme uskutocnit jedoduchy NV velmi tazko; najprv sa nahodne vyberu skupiny jednotiek (niejednotlive jednotky), ktore tvoria bud prirodzene alebo umele agregaty; je ziaduce, aby boli jed-notlive agregaty, pokial je to mozne, rovnako velke a vnutri kazdej skupiny roznorode; variabilitamedzi skupinami musı byt co najmensia (obratena podoba, ako pri oblastnom vybere);
Prıklad: agregat moze byt maly - rodina, skola, podnik, zdravotny obvod, ale i vacsı - obec, okres;
tu nastupuju dve moznosti:
− vyber vsetkych jednotiek v agregate (skupine)
− viacstupnovy vyber (dvoj a viacstupnovy vyber) - je zalozeny na hierarchickom popise prvkovzakladneho suboru, ku ktorym sa dostavame postupne cez vyssie vyberove jednotky; kazda vyberovajednotka je skupinou vyberovych jednotiek nizsieho radu; rozlisujeme jednotky prveho stupna (pri-marne jednotky), potom jednotky druheho stupna (sekundarne jednotky), atd. az nakoniec mamezakladne jednotky statistickeho suboru; postupne vybery prebiehaju casto jednoduchym nahod-nym vyberom, alebo sa moze pouzit aj mechanicky alebo oblastny vyber; tento vyber ma hlavneekonomicke vyhody a naviac sa pouzıva aj vtedy, ked nie je v danej situacii (pred zaciatkomvyberoveho postupu) uplna opora vyberu;
Prıklad: vyssie vyberove jednotky → prvkov zakladneho suboru = mesta - bloky - domy -domacnosti, okresy - podniky - dielne - zamestnanci;
2. selektıvny - dava skresleny obraz o studovanej populacii;
Prıklad: vzorka 15 − 16 rocnych chlapcov, prvoligovych basketbalistov, z ktoreho by sme chcelirobit inferenciu o vyske celej slovenskej populacie 15− 16 rocnych chlapcov;
3. zamerny - o vybere jednotky rozhoduju okrem nahody castokrat nekontrolovatelne cinitele (sub-jektıvny nazor vyberajuceho, ochota, resp. neochota odpovedat na kladene otazky a pod.); vseobec-ne sa tvrdı, ze tento typ vyberu sa opiera o ”expertne” stanovisko a rozne ”odhady”, ako zıskatreprezentatıvny vyber - takto zıskane vyberove subory su casto ovplyvnene subjektıvnym pohladom”experta” ale aj dalsımi faktormi ovplyvnujucimi tvorbu vyberu a presnost zovseobecnujucichzaverov sa skor opiera o ”expertny” pohlad nez o metodologiu.
Nahodny vyber (NV) z daneho rozdelenia F je usporiadana n-tica X1, X2, ..., Xn rovnako rozdelenychnezavislych premennych, ktorych realizacie su x1, x2, ..., xn.
5 ZAKLADY STATISTICKEHO UVAZOVANIA 16
Typy statistickeho triedenia dat:
• sluzi na rozdelenie vyberovych jednotiek do skupın (tried) podla dopredu urcenych triediacichznakov;
• podla poctu triediacich znakov rozlisujeme
- jednostupnove - len jeden triediaci znak, napr. triedenie novorodencov podla pohlavia,
- viacstupnove (kombinacne) - dva a viac triediacich znakov, napr. triedenie zomretych osob podlaveku, pohlavia a zamestnania;
• triedy - pri triedenı podla kvantitatıvnych znakov su urcene pomocou triednych intervalov (TI),ktore musia pokryt vsetky hodnoty sledovaneho kvantitatıvneho znaku a musia byt vzajomne saneprekryvajuce (disjunktne); hranice TI su dane cıselne a ich rozdiel je dlzka TI ; stred TI - arit-meticky priemer hranıc TI; rovnako dlhe TI - ekvidistantne; pocet TI - najcastejsie od 5 do 20, jeurceny s ohladom na rozsah suboru a jeho rozpatie.
6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 17
6 Poznamky ku rozdeleniam pravdepodobnosti nahodnych pre-mennych
V nasledovnej kapitole sa budeme venovat vybranym rozdeleniam pravdepodobnosti bezprostredne suvi-siacich so statistickou inferenciou.
Zakladne pojmy:Diskretne rozdelenie pravdepodobnosti xi, pin(∞)
i=1 .Distribucna funkcia FX (x) = Pr (X < x)FX (x) =
∑i:xi<x P (X = xi) =
∑i:xi<x pi,
∑∞i=1 pi = 1
FX (x) =∫ x
−∞ f (t) dt, f (x) > 0,∫∞−∞ f (x) dx = 1
Vyjadrenie: vzorec, tabulka, grafStredna hodnota E (X) =
∑∞i=1 xipi, E (X) =
∫∞−∞ xf (x) dx
DisperziaD [X] = E
[(X − E [X])2
]= E
[X2]− E2 [X] =
∑∞i=1 [xi − E (X)]2 pi =
∑∞i=1 x2
i pi − [∑∞
i=1 xipi]2,
D (X) =∫∞−∞ [x− E (X)]2 f (x) dx,D (X) = E
[(X − E (X))2
]= E
(X2)− [E (X)]2
Vlastnosti:E [X + Y ] = E [X] + E [Y ]E [cX] = cE [X]E [∑n
k=1 ckXk] =∑n
k=1 ckE [Xk]v prıpade nezavislosti E [XY ] = E [X]E [Y ]D [cX] = c2D [X]v prıpade nezavislosti D [X + Y ] = D [X] + D [Y ]
6.1 Normalne rozdelenie pravdepodobnosti
Vseobecne normalne rozdelenie N(µ, σ2
)hustota f (x) = 1√
2πσe−
(x−µ)2
2σ2 , x ∈ R
Standardizovane normalne rozdelenie N (0, 1)hustota f (x) = 1√
2πe−
x22
distribucna funkcia FX (x) = P (X < x) =∫ x
−∞ f (t) dtVlastnosti:- f (x) - symtericka okolo osi y, t.j. priamky x = 0, f (−x) = f (x)- FX (−x) = 1− FX (x) ,- Pr(X > x) = 1− Pr(X < x)- f (x) 7→ 0 velmi rychlo pre x 7→ ±∞- f (±3) ≈ 0- µ =modus=median- inflexne body v x = ±1- Pr (a ≤ X ≤ b) = Pr (X ≤ b)− Pr (X < a) = FX (b)− FX (a)- Pr (|X − µ| > σ) = 0.3173,Pr (|X − µ| < σ) = 1− 0.3173 = 0.6827- Pr (|X − µ| > 2σ) = 0.0455,Pr (|X − µ| < 2σ) = 1− 0.0455 = 0.9545- Pr (|X − µ| > 3σ) = 0.0027,Pr (|X − µ| < 3σ) = 1− 0.0027 = 0.9973- pravidlo 68.27− 95.45− 99.73 (”miery normalneho rozdelenia”)
Standardizacna rovnica, standardizacia.
Veta 39 Ak X ∼ N(µ, σ2) a Z = X−µσ , potom Z ∼ N(0, 1).
6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 18
Definıcia 40 95% predikcny interval (a, b) nazyvame interval, pre kt. platı P (a ≤ X ≤ b) = 0.95.
Veta 41 Nech X1, ..., Xn je nahodny vyber z N(µ, σ2
), potom platı
1. X ∼ N(µ, σ2/n
)⇐⇒ X−µ
σ
√n ∼ N (0, 1) ,
2. (n−1)S2
σ2 ∼ χ2n−1,
3. X−µS
√n ∼ tn−1.
6.2 Rozdelenia odvodene od normalneho
Chı-kvadrat χ2n-rozdelenie s n stupnami volnosti
Ak su Z1, ..., Zn ∼ N (0, 1) nezavisle, potom platı
X2 =n∑
i=1
Z2i ∼ χ2
n.
Studentovo tn-rozdelenie s n stupnami volnostiAk Y ∼ χ2
n a Z ∼ N (0, 1) su nezavisle, potom
T =Z√Y/n
∼ tn.
Fisherovo Fn1,n2-rozdelenieNech X1 ∼ χ2
n1, X2 ∼ χ2
n2, X1a X2 su nezavisle, potom
F =X1/n1
X2/n2∼ Fn1,n2 .
Pozn.: Platı Z2 ∼ χ21, T 2 ∼ F1,n2 . Dalej Fn1,n2 (α) = 1
Fn1,n2 (1−α) (aproximacia pre tabulky).
Logaritmicko - normalne (lognormalne) rozdelenieNahodna premenna X ∼ LN
(µx, σ2
x
)ak velicina Y = lnX ∼ N
(µy, σ2
y
). Zo skusenostı vieme, ze
LN rozdelenie mava napr. telesna hmotnost, cas dozıvania po jednej davke oziarenia, minimalna smrtnadavka prıpravku v homogennej skupine pokusnych zvierat. Z dat sa da lahko usudit, ci je takyto modelvhodny. Velmi casto su zosikmene kladne alebo zaporne, napr. pri hematologickych, hormonalnych aleboinych biologickych velicinach.
Potom- aritmeticky priemer y = 1
n
∑ni=1 lnxi → x = exp (y)
- median y0.5 = ln x0.5 → x0.5 = exp (y0.5)
- vyberova smerodajna odchylka sy =√
1n−1
∑ni=1 (lnxi − y)2 → sx = exp (sy)
Pozn.: V prıpade potreby mozeme pouzit iny typ transformacie,√
x, kde x ∈ R+1/x, kde x 6= 0.Pokial nenajdeme vhodnu transformaciu, pouzijeme alternatıvne prıstupy (pozri dalej).
6.3 Binomicke rozdelenie
Nahodna premenna X ma binomicke rozdelenie pravdepodobnosti s parametrami n ∈ N, p ∈ (0, 1) , aknadobuda hodnoty 0, 1, 2, ..., n s pravdepodobnostami Pr (X = k) =
(nk
)pk (1− p)n−k
, k = 0, 1, 2, ..., n.Ozn.: X ∼ Bin (n, p) , distribucna funkcia FX (x) = Pr (X < x) =
∑k<x
(nk
)pk (1− p)n−k, E [X] = np,
D [X] = np (1− p), kde ide o postupnost n− nezavislych pokusov, k je pocet nastatı uspesnych pokusova p je pravdepodobnost nastatia uspesneho pokusu.
6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 19
Veta 42 Moivre - Laplace. Nech Xn je pocet uspechov pri n-nasobnom nezavislom opakovanı pokusu,pricom pravdepodobnost uspechu v jednom pokuse je p ∈ (0, 1) . Potom pre nahodnu premennu Zn plati
Zn =Xn − np√np(1− p)
∼ N(0, 1), limn→∞
P (Zn < x) = Φ (x) .
6.4 Kvantily a kriticke hodnoty
Definıcia 43 Nech F je spojita a monotonna funkcia, nech β ∈ (0, 1) . Potom cıslo xβ = F−1 (β)(F (xβ) = β) sa nazyva β-kvantil prıslusneho rozdelenia a platı:
• Pr(xα/2 < X < x1−α/2
)= F
(x1−α/2
)− F
(xα/2
)= 1− α, kde α ∈ (0, 1/2)
• Q1 = F−1 (1/4), 1. kvartil (dolny)
• Q2 = F−1 (1/2), 2. kvartil, median
• Q3 = F−1 (3/4), 3. kvartil (horny)
• F−1 (k/10), k-ty decil, F−1 (k/100), k-ty percentil
Definıcia 44 Kriticka hodnota prıslusneho rozdelenia je hodnota, ktoru nahodna premenna X prekrocıs pravdepodobnostou α.
• Pr (X > u(α)) = α pre X ∼ N (0, 1)
• Pr(X > χ2
n(α))
=∫∞
χ2(n,α)fn (x) dx = α pre X ∼ χ2
n
• Pr (X > tn (α)) = α pre X ∼ t (n)
• Pr (X > Fn1,n2(α)) = α pre X ∼ F (n1, n2)
Pozn.: pravidlo 90.00− 95.00− 99.00 (”upravene miery normalneho rozdelenia”)- 90.00% dat lezı v intervale µ± 1.64σ, kde u(0.1) = 1.64,- 95.00% dat lezı v intervale µ± 1.96σ, kde u(0.05) = 1.96,- 99.00% dat lezı v intervale µ± 2.57σ, kde u(0.01) = 2.57.
6.5 Prıklady v S-PLUS a R
Popis argumentov funkciıKoncova cast funkcie po d..., p..., q... hovorı o type rozdelenia. V prvom argumente funkcie je
vzdy hodnota, ktora vstupuje do vypoctu, teda q (pre kvantilovu funkciu), d pre hustotu a p pre CDFfunkciu. Dalsie argumenty specifikuju parametre s ”defaultom” pre standardnu verziu rozdelenia, naprpri normalnom rozdelenı ide o parametre rozdelenia N (0, 1). Prvym argumentom funkcie moze byt ajvektor.
6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 20
Niektore rozdelenia a ich parametre
rozdelenie nazov v S-PLUS a R parametrebinomicke binom size, probchi-kvadrat chisq df
exponencialne exp rateFisherovo F f df1, df2
gama gamma shape, rategeometricke geom prob
hypergeometricke hyper m, n, klognormalne lnorm meanlog, sdlognormalne norm mean, sd
Poissonovo pois lambdaStudentovo t t dfWilcoxonovo wilcox m, n
mnohorozmerne normalne mvnorm mean, cov, ...
Prıklad 45 normalne rozdelenie, t-rozdelenie, F-rozdelenie (R a S-PLUS)
• dvojstranny test al. dvojstranny interval spolahlivosti (IS)
qt(0.975, df=11)...2.200985, kde df je pocet stupnov volnosti, 97.5 percentil, 2.5% kriticka hod-nota
qf(0.995,2,7)...12.40396, kde n1 = 2, n2 = 7, 99.5 percentil pre F (2, 7) alebo 0.5% kritickahodnota
1-pnorm(1.96)...0.025, p-hodnota pre N(0, 1)1-pt(1.96,100000) ... 0.025, p-hodnota pre tn
• jednostranny test al. jednostranny IS
qt(0.95, df=11)...1.795885, kde df je pocet stupnov volnosti, 95 percentil, 5% kriticka hodnotaqf(0.99,2,7)...9.546578, kde n1 = 2, n2 = 7, 99 percentil pre F (2, 7), 1% kriticka hodnota1-pnorm(1.644854)...0.05, p-hodnota pre N(0, 1)1-pt(1.644869,100000) ... 0.05, p-hodnota pre tn
• ak predpokladame, ze pre systolicky krvny tlak existuje model N(132, 132
), potom aka cast
populacie bude mat hodnoty vacsie ako 160?
1-pnorm(160,mean=132,sd=13)# teda asi 1.6% ppopulacie z N
(132, 132
)• binomicke rozdelenie = predpokladajme, ze pocet ludı uprednostnujucich liecbu A pred liecbou B
sa sprava podla modelu Bin (n = 20, p = 0.5)., teda ludia preferuju oba typy liecby rovnako. Akaje pravdepodobnost, ze budem mat 16 a viac pacientov uprednostnujucich liecbu A pred liecbou B?
pbinom(16,size=20,prob=0.5)# potom1-pbinom(16,size=20,prob=0.5)# Pozor! To znamena, ze ide o pravdepodobnost ≤ 16, ale my potrebujeme1-pbinom(15,size=20,prob=0.5)# co ak hladam pravdepodonost, ze budem mat 16 a viac a zaroven 4 alebo menej pacientov upred-
nostnujucich liecbu A pred liecbou B?1-pbinom(15,size=20,prob=0.5) + pbinom(4,size=20,prob=0.5)
6 POZNAMKY KU ROZDELENIAM PRAVDEPODOBNOSTI NAHODNYCH PREMENNYCH 21
# to je v skutocnosti 2× predchadzajuca pravdepodobnost
Generovanie presudonahodnych cısel z daneho rozdelenia a permutacie- predpona funkcie je r, co znamena ”random”, napr. rnorm je funkcia na generovanie presudonahod-
nych cısel z normalneho rozdelenia
• prvy argument n je rozsah nahodneho vyberu a potom nasleduju parametre rozdelenia
Prıklad 46 generovanie presudonahodnych cısel z normalneho rozdelenia z rozsahom 100, so strednouhodnotou rovnou 0, smerodajnou odchylkou rovnou 1. Potom zamente parametre na strednu hodnoturovnu 50, smerodajnu odchylku rovnu 0.4.
rnorm(100)rnorm(100, mean=50, sd=0.4)
Prıklad 47 Vygenerujte 100 pseudonahodnych vyberov z kontaminovaneho normalneho rozdelenia, vktorom mame N(0, 1) s pravdepodobnostou 0.95 a inak N(0, 9)
rnorm(100,0,1+2*rbinom(100,1,0.05))
Prıklad 48 funkcia sample
Funkcia sample prevzorkuje (resamples) z vektora dat, s alebo bez nahradenia. Parameter n je celecıslo, x je vektor pozorovnı, p je rozdelenie pravdepodobnosti na 1, ..., length(x)
sample(n) vyber nahodnej permutacie z 1, ... nsample(x) nahodne permutovany vektor xsample(x, replace=T) bootstrapovy vybersample(x, n) vyber n jednotiek z x bez nahradeniasample(x, n, replace=T) vyber n jednotiek z x s nahradenım s rovnakou pravdep.sample(x, n, replace=T, prob=T) vyber n jednotiek z x s nahradenım s roznou pravdep.
# zoberie nahodne 10 statov zo suboru state.name (staty USA)sample(state.name, 10)# zoberie nahodne 75 cısel medzi jedna a jeden milionsample(1e6, 75)# zoberie nahodne permutacie cısel 1:50sample(50)# Bernuliho rozdelenie s p = 0.3 pre jednotky a p = 0.7 pre nuly s rozsahom 100sample(0:1,100,replace=T,prob=c(0.3,0.7))# 20 rovnomerne (s rovnakou pravdepodobnostou) rozdelenych cısel z vektora 1:10 s nahradenımsample(10, 20, T)# 24 nerovnomerne (s roznou pravdepodobnostou, tu c(.3,.4,.1,.1,.1)) rozdelenych cısel z vektora
1:5 s nahradenımsample(5, 24, replace=T, prob=c(.3,.4,.1,.1,.1))
7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 22
7 Zakladna (deskriptıvna) statistika
Hodnoty sledovanych znakov pre jednotlive premenne zapisujeme do tabuliek. Najprv zapıseme hodnotysledovanych znakov v poradı, v ktorom ich dostavame, t.j. do primarnej tabulky. Potom tuto tabulkukvoli prehladnosti prepıseme do sekundarnej tabulky (tabulka rozdelenia pocetnosti), ktora nam usporiadasledovane znaky podla velkosti.
7.1 Charakteristiky polohy
Majme nahodny vyber (NV) X1, X2, ..., Xn z nejakej populacie, kde n je jeho rozsah, realizacie tohoto NVbudeme oznacovat ako x1, x2, ..., xn, uporiadane realizacie budu x(1) ≤ x(2) ≤ ... ≤ x(n). Potom mozemedefinovat
• minimum xmin = x(1),
• maximum xmax = x(n),
• aritmeticky priemer x = 1n
∑ni=1 xi,
• median (prostredna hodnota, robustny odhad polohy)
x =
x(n+1
2 ) ak n je neparne12
(x(n
2 ) + x(n2 +1)
)ak n je parne
Kvantily su hodnoty skumanej veliciny, ktore delia subor na dve casti. Kvartily pozname tri
• prvy kvartil predstavuje hodnotu, od ktorej je 1/4 dat mensia a 3/4 dat je vacsia,
Q1 = P [−∞, x0.25] = Pr [X ≤ x0.25] =14, Q1 = Pr [x0.25,+∞] = Pr [X ≥ x0.25] =
34
• median (druhy kvartil) je hodnota, od ktorej je 1/2 dat mensia a 1/2 dat je vacsia,
Q2 = Pr [−∞, x0.5] = Pr [X ≤ x0.5] =12, Q2 = Pr [x0.5,+∞] = Pr [X ≥ x0.5] =
12
• tretı kvartil predstavuje hodnotu, od ktorej je 1/4 dat je vacsia a 3/4 dat je mensıch
Q3 = Pr [−∞, x0.75] = Pr [X ≤ x0.75] =34, Q3 = Pr [x0.75,+∞] = Pr [X ≥ x0.75] =
14
• decily - delia subor na desatiny
• percentily p ∈ (0, 1) - delia subor na stotiny a ich vseobecna definıcia je nasledovna - 100p-percentil
xp =
x(k+1) pre k 6= np12
(x(k) + x(k+1)
)pre k = np
,
kde k = [np], co je cela cast cısla np.
Prıklad 49 Majme vysky n = 12 nahodne vybranych 10 rocnych dievcat v cm usporiadanych podlavelkosti (ri poradia (ranks) pre x(i), pri rovnakych pozorovaniach hovorıme o strednoporadiach)
i 1 2 3 4 5 6 7 8 9 10 11 12x(i) 131 132 135 141 141 141 141 142 143 146 146 151ri 1 2 3 5.5 5.5 5.5 5.5 8 9 10.5 10.5 12
7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 23
x·= 140.83, x = 1
2
(x(6) + x(7)
)= 141, Q1 = x0.25 = 1
2
(x(3) + x(4)
)= 138, kde k = [12× 0.25] = 3,
Q3 = x0.75 = 12
(x(9) + x(10)
)= 144.5, kde k = [12× 0.75] = 9
Existuju aj ine moznosti vypoctu kvantilov (pozri Zvara 2003, str. 20).Co sa stane so spomınanymi charakteristikami polohy, pokial zmenıme merıtko (skalu)? Napr. gramy
na kilogramy, alebo namiesto hmotnosti, pouzijeme logaritmus hmotnosti.Nech a, b ∈ R su nejake dane konstanty. Potom yi = a + bxi a pre priemer
y =1n
n∑i=1
(a + bxi) =1n
(na + b
n∑i=1
xi
)= a + by = a + by.
Pokial b ∈ R+, sa usporiadanie hodnot xi pri prechode na yi = a + bxi nezmenı, teda
a + bx(1) ≤ a + bx(2) ≤ ... ≤ a + bx(n).
Teda pre median v tomto prıpade platı
y = a + bx = a + bx.
lahko sa da nahliadnut, ze usporiadanie zachova kazda rastuca fcia g (x), teda platı
g(x(1)
)≤ g
(x(2)
)≤ ... ≤ g
(x(n)
)a pre median bude platit g (x) ·= g (x). Pre neparne n platı predchadzajuci vztah presne, oznacenie”pribliznosti” potrebujeme pre parne n, kde x(n
2 ) < x(n2 +1). V tomto prıpade je vsak 1/2 hodnot g (xi)
mensia ako g (x). Teda specialne mozeme median logaritmu (napr. hmotnosti) spocıtat ako logaritmusmedianu (napr. hmotnosti).
Pozn.: Pokial teda dojde v pozorovaniach k posunutiu, dojde k rovnakemu posunutiu ak u charakter-itiky polohy. Ak zmenıme merıtko, potom stacı urobit rovnaku upravu aj u charakteristiky polohy.
7.2 Charakteristiky variability
Definujeme nasledovne zakladne pojmy
• vyberovy rozptyl
s2x =
1n− 1
n∑i=1
(xi − x)2 .
Pri linearnej transformacii sa rozptyl menı nasledovne
s2y = s2
a+bx = b2s2x,
preco?
s2y = s2
a+bx =1
n− 1
n∑i=1
(a + bxi − a + bx
)2=
1n− 1
n∑i=1
(a + bxi − (a + bx))2
=1
n− 1
n∑i=1
(b (xi − x))2 = b2s2x
7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 24
• smerodajna odchylkasx =
√s2
x.
Pri linearnej transformacii sa smerodajna odchylka menı nasledovne
sy = sa+bx = |b| s2x,
teda, ak pripocıtame ku vsetkym pozorovaniam rovnaku konstantu, miera variability sa nezmenı.Zmena merıtka (u pomeroveho merıtka zmena jednotiek) ma za nasledok rovnaku upravu jd-notlivych pozorovanı i miery variability (s vynimkou rozptylu).
• vypoctova podoba rozptylu
s2x =
1n− 1
(n∑
i=1
x2i − nx2
)=∑n
i=1 x2i fi∑n
i=1 fi− n
n− 1x2,
kde fi su frekvencie (pocty) prisluchajucich xi a n =∑n
i=1 fi.
• vyberovy koeficient variacie - podiel variability na priemere
Vk =sx
x.
Pouzıva sa pri porovnavanı variability suborov s nerovnakymi priemermi (napr. pri porovnanıvariability vysky detı urciteho veku s vyskou dospelych urciteho veku alebo pri porovnanı variabilitypremennych meranych v roznych jednotkach), je bezrozmerny a zvycajne sa vyjadruje v percentach,t.j. 100 (σ/µ) %.
• odhad rozptyl priemeru
s2x =
s2x
n,
• odhad strednej chyby priemeru (standardna chyba, standard error)
sx =sx√n
,
• vyberovy koeficient sikmosti (skewness)
b1 =n−1
∑ni=1 (xi − x)3[
n−1∑n
i=1 (xi − x)2]3/2
=√
n∑n
i=1 (xi − x)3[∑ni=1 (xi − x)2
]3/2,
kde rozdelenie je pozitıvne zosikmene (rozdelenie pravdepodobnosti na lavej strane stupa strmejsie,b1 > 0), negatıvne (b1 < 0),
• vyberovy koeficient spicatosti (kurtosis)
b2 =n−1
∑ni=1 (xi − x)4[
n−1∑n
i=1 (xi − x)2]2 − 3 =
n∑n
i=1 (xi − x)4[∑ni=1 (xi − x)2
]2 − 3,
kde rozdelenie je spicate (leptokurticke, b2 > 0), normalne (mezokurticke, b2 = 0) a ploche(platykurticke, b2 < 0),
• suma stvorcov (sum of squares)
SS =n∑
i=1
(xi − x)2
7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 25
– citatel rozptylu, pouzıva sa napr. v regresnej analyze, v modeli ANOVA.
• rozpatie (distance) D = xmax − xmin,
• medzikvartilove rozpatie DQ = Q3 −Q1,
• decilove rozpatie,
• percentilove rozpatie,
• 5 cıselne summary: xmin,Q1, Q2, Q3, xmax,
• symetria: Q3 −Q2 = Q2 −Q1
• pozitıvna sikmost: Q3 −Q2 > Q2 −Q1
• negatıvne sikmost: Q3 −Q2 < Q2 −Q1
• robustny vypocet minima a maxima (”vnutorne hradby”, prvky vybocujuce z hradieb sa povazujuza podozrive, potencionalne outliery - pozri dalej)
- x∗min = BD = Q1 − 1.5 (Q3 −Q1) = Q1 − 1.5DQ
- x∗max = BH = Q3 + 1.5 (Q3 −Q1) = Q3 + 1.5DQ
”Vonkajsie hradby” B∗D = Q1 − 3DQ, B∗
H = Q3 + 3DQ. Pokial su nejake xi < B∗D ∨ xi > B∗
H ,hovorıme, ze ide o vzdialene body, ak xi ∈ 〈B∗
D, BD)∨ (BH , B∗H〉, ide o body vonkajsie, ak xi ∈ 〈BD, BH〉,
ide o body vnutorne, alebo body prilahle medianu. Pre normalne rozdelenie platı BH−BD = Q3+1.5DQ−Q1 + 1.5DQ = 4DQ
·= 4.2. Pravdepodobnost, ze xi /∈ 〈BD, BH〉 je potom 0.04.Niekedy nas zaujımaju normovane protajsky realizaciı, a to z-skore (casto pouzıvane v antropologii)
zi =xi − x
sx,
ktore dostaneme ako specialny prıpad linearnej transformacie y = a + bx, kde volbou b = 1/sx a a =−x/sx. Potom dostaneme
z = − x
sx+
1sx
x = 0
a
s2z =
(1sx
)2
s2x = 1
a preto nazyvame z-skore aj normovane veliciny. Pomocou z-skore mozeme vyjadrit aj koeficient sikmostia spicatosti
b1 =1n
n∑i=1
(xi − x
sx
)3
=1n
n∑i=1
z3i ,
kde ak data pochadzaju z normalneho rozdelenia
E [b1] = 0, V ar [b1] =n− 2
(n + 1) (n + 3),
b2 =1n
n∑i=1
(xi − x
sx
)4
=1n
n∑i=1
z4i ,
kde ak data pochadzaju z normalneho rozdelenia
E [b2] = 3− 6n + 1
, V ar [b2] =24n (n− 2) (n− 3)
(n + 1)2 (n + 3) (n + 5).
Pokial data pochadzaju z normalneho rozdelenia, budu mat oba koeficienty hodnoty blızko nuly (prib2, ak od neho odcıtame konstantu 3).
7 ZAKLADNA (DESKRIPTIVNA) STATISTIKA 26
7.3 Prıklady v S-PLUS a R
Prıklad 50 charakteristiky polohy a variability
• x 1:100, funkcie:
minimum min(x)maximum max(x)rozsah suboru c(max(x),min(x)); range(x)median median(x)aritmeticky priemer mean(x); sum(x)/length(x)prvy kvartil q1 quantile(x,0.25)druhy kvartil q2 quantile(x,0.50)tretı kvartil q3 quantile(x,0.75)kvartily quantile(x,c(0.25,0.5,0.75))5 cıselne summary quantile(x,c(0,0.25,0.5,0.75,1))medzikvartilove rozpatie Dq quantile(x,0.75)-quantile(x,0.25)zistovanie symetrie c(q3 - q2, q2 - q1)robustny vypocet minima a maxima (”vnutorne hradby”)Bd q1-1.5Dq; Bh q3+1.5Dqrobustny rozsah suboru c(Bd,Bh)rozptyl var(x)sum((x-mean(x))^2)/(length(x)-1)standardna chybastderr function(x) sqrt(var(x) / length(x))stderr(x)prijemstderr tapply(prijem, statyfak,stderr)
• posun o konstatnu a < − 900:
x c(907,908,898,902,897)x1 x-900mean(x)var(x)
• vytvorte funkciu na vypocet sumy stvorcov
• vytvorte funkciu na vypocet vyberoveho koeficientu sikmosti a spicatosti
• vytvorte funkciu na vypocet 5 cıselneho summary, priemeru a smerodajnej odchylky tak
CHAR.SAMPLE< −function(x)RESULTS < − list( QUANTILE = 0, MEAN = 0, SD = 0)QUANTILE < − quantile(x, c(0, 0.25, 0.5, 0.75, 1))MEAN < − mean(x)SD < − sqrt(var(x))RESULTS < − rbind(QUANTILE, MEAN, SD)RESULTS$QUANTILE < − QUANTILERESULTS$MEAN < − MEANRESULTS$SD < − SDreturn(RESULTS)
• vytvorte funkciu na vypocet aritmetickeho priemeru tak, aby bol osetrena na chybajece pozorovaniapouzitım nejakej zakladnej funkcie
Mmean function(x) mean(x[!is.na (x)])
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 27
8 Graficka interpretacia vyberoveho suboru
V modernej pocıtacovej statistike hovorıme o exploratornej analyze dat (EDA).Graficka interpretacia vyberoveho suboru je mozna pomocou nasledovnych grafov.
• Stlpcovy diagram (barplot) - cıselne hodnoty su vyjadrene pomocou obdlzdnikovych stlpcov (obycaj-ne v zvislej polohe), casto skalovany (v relatıvnej skale, ak sledujeme viac suborov, ide potom olepsie porovnanie tychto suborov; neskalovany - absolutna skala) - jeho specialnymi prıpadmi suvekova pyramıda (strom zivota, znazornuje vekove zlozenie obyvatelstva) a histogram.
• Spojnicovy graf - znazornuje priebeh casoveho radu a jeho specalnymi prıpadmi su polygon pocet-nosti, frekvencna krivka, polygon kumulatıvnych pocetnostı.
• Bodovy graf (scatterplot) - zobrazuje namerane hodnoty v pravouhlej suradnicovej sustave (2D, 3D),na odlısenie roznych kategoriı pouzijeme rozne znaky, farby a pod.; casto pouzıvany na zobrazeniezavislosti dvoch znakov.
• Kruhovy diagram (vysecovy, kolacovy, piechard) - zachytava strukturu suboru, kde plocha kruhupredstavuje cely subor a jednotlive casti su znazornene kruhovymi vysecami, tu 360st. zodpoveda100% plochy kruhu, vysec 3.6 stupna je 1%.
• Histogram - stlpcovy diagram s k stlpcami, ktorych zakladna sa rovna sırke intervalu Ii = (xi, xi+1〉a vyska i−teho stlpca jeho pocetnosti (i = 1, 2, ..., k); vystihuje celkom presne pocet pozorovanı vjednotlivych intervaloch; mnozstvo intervalov volı prıslusny software alebo aj sam uzıvatel. His-togram (a mnohe dalsie zobrazovacie metody) mozeme pouzit aj v skale relatıvnych pocetnostı.Potrebujeme aspon 12 triednych intervalov (ich pocet nesmie klesnut pod 6). Sırka jedneho jeminimalne hmin = 0.08(xmax − xmin). Musı obsahovat minimalne 5 meranı. Frekvencna tabulka:znak, pocetnost, relatıvna pocetnost. Pocet tried je k = log2 n+1 ·= 2+3.3 log10 n (Sturgesova for-mula), intervaly su definovane ako 〈x0, x1〉 , (x1, x2〉 , ...; sırka intervalov je teda h = D/ (log2 n + 1)pre realizacie z normalneho rozdelenia (Scott, 1992). Teraz uz vlastne nepracujeme s realizaciami xi,ale so stredmi intervalov x∗i = (xi + xi+1) /2. Pocty hodnot ni, ktore sa v intervale Ii nachadzaju,sa nazyvaju triedne pocetnosti. Pokial realizacie nemaju normalne rozdelenie, treba pouzit robustnealgoritmy. Taktiez outliery mozu dramaticky nafuknut (inflate) rozpatie suboru, co moze sposobitnarast sırky intervalov. Preto sa vyuzıvaju dva algoritmy ako kompromis medzi vychylkou (biasom)a rozptylom realizaciı pochadzajucimi z normalneho rozdelenia. Potom sırky triednych intervalovbudu h1 = 3.49σn−1/3, σ = s (pre vybery z normalneho rozdelenia, Scottova formula, Scott, 1979),h2 = 2DQn−1/3 (robustnejsia, Freedman - Diaconisova formula, ktora je nezavisla od outlierov avybera mensie intervaly ako Scottova formula (Freedman, Diaconis, 1981). Pre symetricke rozdele-nia platı h3 = [2
√n] alebo h4 =
[2.46× (n− 1)0.4
], kde [x] je cela cast cısla x. Pokial sa neocakava
prıliz zosikmene rozdelenie, sırka triednych intervalov h je konstantna. Pre komplikovanejsie tvaryvyberovych rozdelenı treba zvacsit pocet triednych intervalov, alebo pouzit specialne postupy nahladanie nekonstantne dlhych triednych intervalov (pozri Meloun a Militky, 2004).
• Polygon pocetnosti - spojnicovy diagram, kde nad stredmi triednych intervalov Ii vztycime kolmice,ktorych vyska je umerna prıslusnym triednym pocetnostiam a koncove body kolmıc pospajame, ichsuradnice su [x∗i , ni]; ide o dost dobre podanie priebehu pocetnosti aj vnutri jedneho intervalu, aleplocha uzavreta spojnicou polygonu nie je umerna poctu pozorovanı v intervale.
• Frekvencna krivka - vznikne ak koncove body polygonu pospajame hladkou krivkou; vystihujecelkom presne priebeh rozdelenia pocetnosti a plocha v kazdom mieste ohranicena krivkou je priamoumerna poctu pozorovanı.
• Histogram kumulatıvnych pocetnostı (suctovy histogram) - namiesto pocetnosti bude- me nad jed-notlivymi intervalmi Ii zakreslovat obdlzniky s vyskou rovnajucou sa prıslusnym kumulatıvnym
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 28
pocetnostiam, Ni =∑i
j=1 nj . Kumulatıvne relatıvne pocetnosti definujeme ako Ni/n, comu zod-poveda empiricka distribucna funkcia, definovana pre zvolene cıslo x, ako relatıvna pocetnost vintervale (−∞, x〉, teda ako Ni-tina hodnot xi mensıch alebo rovnych ako x
FX (x) =#xi < x
n.
• Boxploty - ”krabicove diagramy” (dobre identifikuju symetriu rozdelenia medzi kvartilmi, symetriurozdelenia v koncoch rozdeleniaoutliery, znazornuju robustny odhad polohy - median - naviacsa pouzıvaju na graficke porovnanie dvoch suborov), ktorych sırka
√n predstavuje odmocninu
z rozsahu vyberoveho suboru a vidiet na nich po poradı xmin,Q1, Q2, Q3 a xmax a je mozne donich vkreslit aj aritmeticky priemer, co zvyrazenı prıpadne odchylky od normality. Ak Q2 < x, ideo pravostranne zosikmene rozdelenie, ak Q2 > x, ide o lavostranne zosikmene rozdelenie. Pokialhovorıme o ”krabicovych diagramoch so zarezom”, ide o zarez charakterizujuci robustny intervalspolahlivosti (pozri nizsie) medianu x ∈ (IDH , IHH), kde
IDH = x− 1.57DQ√
n, IHH = x + 1.57
DQ√n
,
naviac odhadom teoretickeho medianu je x (ako uz vieme) a odhadom jeho rozptylu je σ2ex =DQ/1.349, kde vo vseobecnosti platı (pre akekolvek rozdelenie pravdepodonosti)
σ2ex (f (x)) = 1/(4f2 (x)
),
kde f je hustota rozdelenia pravdepodobnosti. Pre normalne rozdelenie bude platit σ2ex = σ2x
π2n , kde
x ∼ N(µ, σ2
x
).
• Kvantilove diagramy (qq-diagramy, normal probability plot) - zobrazuju body so suradnicami[Φ−1 (i/ (n + 1)) , x(i)
], kde Φ−1 (p) je kvantilova funkcia normovaneho normalneho rozdelenia defi-
novana nasledovnePr(Z ≤ Φ−1 (p)
)= p.
Sikmost b1 > 0 sa prejavı v podobe konvexneho usporiadania hodnot, b1 < 0 sa prejavı v podobekonkavneho usporiadania hodnot. Taktiez je tu viditelna dlzka ”chvostov” rozdelenia, kratke”chvosty” su prejavom esoviteho usporiadania bodov, dlhe ”chvosty” naopak hovoria o inverzneesovitom usporiadanı bodov. Tiez je zretelna prıpadna bimodalita rozdelenia. Statisticky je moznetestovat normalitu rozdelenia pomocou simulaciı z N (0, 1) a vytvorenım Atkinsonovej obalky (e.g.Katina, 2003). Pre normalne rozdelenie bude platit σ2exp
= σ2x
π2
24 ln n , kde xp ∼ N(µp, σ
2exp
).
Pozn.: Ako jednoducho identifikovat hodnoty vybocujuce (pre normalne rozdelenie)? Ako mierurozptylu definujme kvantilovu odchylku DQ∗ = 2DQ. Pokial urobıme standardi- zaciu (pozri Melouna Militky, 2004, str. 86; Parsen, 1988), dostaneme DQ∗
st= 1 a standardizovany median bude xst = 0 a
standardizovana kvantilova funkcia indikujuca tvar bude
Qst (p) =xp − x0.5
DQ∗.
Hodnoty kvantilov, pre ktore platı |Qst (p)| ≥ 1, su povazovane za vybocujuce (pre normalne rozdelenie)a hovorıme potom o identifikatoroch dlhych chvostov (koncov). Hodnoty Qst (p) mozeme pouzit na
- identifikaciu miery sikmosti SQ = Qst (0.25) + Qst (0.75), kedy je rozdelenie pravdepodobnostisymetricke, ak SQ je rovne nule,
- identifikaciu dlzky koncov, kedyQst (0.95) < 0.5 hovorı o kratkych koncoch,Qst (0.95) > 1 hovorı o dlhych koncoch apre stredne dlhe konce bude platit Qst (0.95) ∈ 〈0.5, 1.0〉.
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 29
Co je homogenny NV ? vsetky prvky NV xi, i = 1, 2, ..., n, pochadzaju z rovnakeho rozdelenia pravde-podobnosti s konstantnym rozptylom σ2, ako sme uz spomınali. K nehomogenitam dat dochadza vsadetam, kde sa vyskytuju vyrazne nerovnomernosti na- meranych premennych, nahle sa menia podmienkyexperimentu a pod. Nehomogenita moze byt sposobena aj nevhodnou specifikaciou suboru. Pokial ideNV rozdelit podla nejakych logickych kriteriı do niekolkych podskupın, je mozne statisticky spracovatkazdu takuto podskupinu zvlast a potom ich porovnat napr. na zaklade testov strednych hodnot.
Specialnym prıpadom su odlahle pozorovania. Taketo pozorovanie skresluju odhady polohy a hlavnerozptylu σ2, takze mozu znehodnotit dalsiu statisticku analyzu. Problem takychto pozorovanı je znacnekomplikovany. Pri ich overovanı sa pouzıva mnoho ideali- zovanych predpokladov. Je nutne poznat ichpredpokladany pocet, ich rozdelenie a tiez rozdelenie ostatnych prvkov NV. Naviac je nutne zostrojitmodel, podla ktoreho sa odlahle pozorovania chovaju. Testovanie odlahlych pozorovanı bez doplnkovychinformaciı je teda malo spolahlive.
Jednoduchou technikou, kedy sa predpoklada, ze data maju normalne rozdelenie, je modifikaciavnutornych hradieb BD a BH na
BmodD = Q1 − kDQ, Bmod
H = Q3 + kDQ,
kde sa parameter k sa volı tak, aby pravdepodobnost Pr (n, k), ze z NV s rozsahom n pochadzajuceho znormalneho rozdelenia, nebude ziaden prvok mimo intervalu I =
⟨Bmod
D , BmodH
⟩, bola dostatocne vysoka,
napr. 0.95. Ak Pr (n, k) = 0.95 a n ∈ 〈8, 100〉 pouzijeme aproximaciu k ≈ 2.25 − 3.6/n. Teda, prvkymimo I sa povazuju za odlahle. Postup spomenuty vyssie je robustny.
8.1 Prıklady v S-PLUS a R
• histogram, hustota rozdelenia pravdepodobnosti a kumulatıvna distribucna funkcia
Prıklad 51 histogram hist(variable,probability = T, nclass = number, plot = T)
argumenty: probability = T je pravdepodobnostna skala, nclass = number pocet tried, plot = Fsluzi na vypısanie hranıc intervalov
default pre nclass je log2n+1 (Sturgesova formula), intervaly su definovane ako 〈x0, x1〉 , (x1, x2〉 , ...;specialne mozeme vylucit lavy koncovy bod x0 prostrednıctvom argumentu include.lowest=F (s de-faultom T); sırka intervalov je teda range(x)/ log2n + 1, pre normalne rozdelene data (Scott, 1992)
help(lottery.payoff)hist(lottery.payoff)hist(lottery.payoff, nclass=15)hist(lottery.payoff, nclass=15, probability=T)x < − hist(lottery.payoff, nclass=15, probability=T, plot = F)xattach(geyser)names(geyser)hist(waiting,probability=T)# ciernobiely styl s ”kobercom”hist(waiting,probability=T,nclass=20,style=’’old’’)rug(waiting)Pozn.: Outliery mozu dramaticky umelo nafuknut rozsah suboru, co moze sposobit narast sirky inter-
valov v centre rozdelenia. Preto sa najcastejsie vyuzıvaju dve pravidla ako kompromis medzi vychylkou arozptylom pre data z normalnho rozdelenia s outliermi , ktore vyuzıvaju nasledovne sırky intervalov defi-novane ako Scottova formula (Scott, 1979) h1 = 3.49σn−1/3 a Freedman-Diaconisova formula (Freedmana Diaconis, 1981) h2 = 2DQn−1/3, kde r = Q3 −Q1
# Scottova formulanclas.scott function(x)
h 3.5*(sqrt(var(x))*length(x)∧(-1/3)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 30
ceiling(diff(range(x))/h)hist.scott function(x, prob=T, xlab=deparse(substitute(x)), ...)
invisible(hist(x, nclass=nclass.scott(x), prob=prob,xlab=xlab,...))# Freedman-Diaconisova formulanclass.FD function(x)
r as.vector(quantile(x,c(0.25,0.75)))h 2*(r[2]-r[1])*length(x)∧(-1/3)ceiling(diff(range(x))/h)
hist.FD function(x, prob=T, xlab=deparse(substitute(x)), ...)
invisible(hist(x, nclass=nclass.FD(x), prob=prob,xlab=xlab,...))
Prıklad 52 hustota rozdelenia pravdepodobnosti, funkcia plot() a jej argumenty, tu zakreslenieciary type=’’l’’
x < − seq(-4,4,by=0.01)plot(x,dnorm(x),type=’’l’’)# type= ’’p’’ pre body (points), type=’’l’’ pre ciary (lines), type=’’b’’ pre oboje (both),
type=’’n’’ pre prazdny obrazok# V Rku inak, funkcia curve(), odkial, kam a kolko bodovcurve(dnorm(x),from=-4,to=4,n=10000)# vkreslenie hustoty do histogramux < − rnorm(10000)hist(x,prob=T)lines(density(x))# v Rkux < − rnorm(1000)hist(x,freq=F)curve(dnorm(x),from=-4,to=4,n=1000,add=T)# co tak v Rku hustotu binomickeho rozdelenia s parametrami n = 50, p = 0.33x < − 0 : 50plot(x,dbinom(x, size=50, prob=0.33),type=’’h’’)
Prıklad 53 kumulatıvna distribucna funkcia, funkcia cdf.compare()
- jednovyberovy problem: graficke porovnanie empirickej a hypotetickej (teoretickej) kumulatıvnejdistribucnej funkcie (ecdf a tcdf)
- dvojvyberovy problem: graficke porovnanie dvoch empirickych kumulatıvnych distribucnych funkciıpozn.: pouzitie pred Kolmogorov-Smirnov testom- argumenty funkcie:cdf.compare(x, y = NULL, distribution = ’’normal’’)x a y su numericke vektory (y len pri porovnavanı dvoch ecdf)typ rozdelenia pravdepodobnosti: distribution = ’’normal’’, ’’chisquare’’, ’’f’’,
’’gamma’’, ’’lognormal’’, ’’logistic’’, ’’t’’, ’’binomial’’, ’’geometric’’,’’hypergeometric’’, ’’poisson’’, ’’wilcoxon’’
# jednovyberovy problem# nasimulujte data z normalneho rozdelenia s rozsahom 100z < − rnorm(100)# porovnajte ich s tcdf normalneho a potom chi-kvadrat rozdeleniacdf.compare(z,dist=’’normal’’)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 31
cdf.compare(z,dist=’’chisquare’’,df=2)
# dvojvyberovy problem# nasimulujte data z normalneho rozdelenia s rozsahom 25 a normalneho rozdelenia s rozsahom 100x < − rnorm(25)y < − rexp(100)# porovnajte ichcdf.compare(x,y)# realne data waitingcdf.compare(waiting,dist=’’norm’’)cdf.compare(waiting,dist=’’norm’’,mean=mean(waiting),sd=sqrt(var(waiting)))
# v Rku# funkcia ecdf(), parameter do.points=F nekreslı body a verticals=T kreslı schodovitu funkciulibrary(ISwR)library(help=ISwR)data(vitcap2)attach(vitcap2)names(vitcap2)plot(ecdf(vital.capacity),do.points=F, verticals=T)x < − seq(min(vital.capacity), max(vital.capacity), by=0.01)lines(x,pnorm(x,mean=mean(vital.capacity),sd=sqrt(var(vital.capacity))))
• krabicovy diagram (boxplot)
# argumenty funkcie boxplot()varwidth je argument relatıvnej sırky jednotlivych krabiciek. Default je F, co znamena rovnaka sırka
pre vsetky krabicky; ak ho zmenıme na T, sırka krabiciek bude proporcionalna ku druhej odmocnine zpoctu pozorovanı
names je vektor pomenovanı pre jednotlive zobrazovane skupiny, ak ho vynechame, pouziju sa nazvyz atributu names z datoveho ramca
plot ak je T, krabicky sa zobrazia, ak je F, budu pocıtane charakeristiky krabiciek v cıselnej podobenotch ak je T, zobrazia sa zarezy krabiciek, ktore zodpovedaju 95% intervalom spolahlivosti pre
medianboxcol zodpoveda farbe vnutri krabiciek, uvedie sa cıslo farby; ak boxcol=-1, nepouzije sa ziadna
farbamedchar logicky argument indikukuci, ci zobrazit median ako bod alebo nie. Implicitne je nastavene
T, ak je pouzity argument medpch, inak default je F.medpch typ bodu na zobrazenie medianu (cıslo typu bodu), default je NA, lebo median je zobrazovany
ako useckamedline logicky argument indikujuci, ci zobrazit median ako usecku alebo nie. Default je T, ak je
pouzity argument medlwdmedlwd sırka usecky charakterizujucej median. Implicitne je nastavena ako T, ak medline parameter
je T, inak je hodnota medlwd rovna NA, default je rovny 5medcol farba medianu v podobe usecky alebo bodu; default je 0confint ak je rovn/’y (T, zobrazia sa intervaly spolahlivosti pre median. Ak sa intervaly dvoch
krabiciek neprekryvaju, indikuje to, ze neexistuje rozdiel medzi medianmi na 5% hladine vyznamnosticonfnotch ak je rovny T, zarezy intervalov spolahlivosti su zobrazene, default je F.confcol farba intervalov spolahlivosti, default je 2.outchar logicky argument na zobrazenie outlierov ako bodov; je implicitne nastaveny ako T, ak je
pouzity outpch argument, default je Foutpch typ bodu na zobrazenie outlierov; je implicitne nastaveny ako 1, ak je pouzity argument
outchar
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 32
outline logicky argument indikujuci, ci zobrazit outliery ako horizontalne usecky alebo nie; implicitneje nastaveny ako T, ak je pouzity argument outwex
outwex= sırka usecky predstavujucej oultiery, proporcna ku sırke krabiciek; default je 1
Prıklad 54 funkcie split(), boxplot(), datovy ramec market.frame
attach(market.frame)# priemerny prıjem podla vekusapply(split(income,age), mean)# alternatıvny vypocettapply(income,list(age), mean)# po dekadachsplit(income,age %/% 10)# nastavte argumenty funkcie boxplot() boxplot(split(income,age))boxplot(split(income, age), varwidth=TRUE, notch=TRUE)boxplot(split(age, employment), notch = TRUE)
Prıklad 55 funkcia split, datovy ramec ship
# komponent pre kazdy mesiacsplit(ship, cycle(ship))# nastavte argumenty funkcie boxplot()boxplot(split(ship, cycle(ship)))
Prıklad 56 datove ramce lottery.payoff, lottery2.payoff, lottery3.payoff.
boxplot(lottery.payoff, lottery2.payoff, lottery3.payoff)boxplot(split(lottery.payoff, lottery.number%/%100),main=’’NJ Pick-it Lottery (5/22/75-3/16/76)’’,sub=’’Leading Digit of Winning Numbers’’,ylab=’’Payoff’’)
Prıklad 57 vkreslenie aritmetickeho priemeru do krabicoveho diagramu
x <- boxplot(lottery.payoff, lottery2.payoff, lottery3.payoff)lp.mean <- mean(lottery.payoff)lp2.mean <- mean(lottery2.payoff)lp3.mean <- mean(lottery3.payoff)lp1.mean <- mean(lottery.payoff)lp.mean <- c(lp1.mean,lp2.mean,lp3.mean)points(x,lp.mean,pch=16)
• kvantilovy diagram (qq-plot)
Prıklad 58 funkcie qqnorm(), qqline(), qqplot()
# zobrazenie kvantilov nahodneho vyberu generovanych pseudonahodnych cısel oproti kvantilomnormalneho normovaneho rozdelenia
nc50 < − rnorm(50)qqnorm(nc50)qqnorm(nc50)nc1000 < − rnorm(1000)qqnorm(nc1000qqnorm(nc1000)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 33
# nagenerujte 1000 bodov z t10 rozdelenia a porovnajte ich s normalnym rozdelenımx rt(1000,10)# vidime ”dlhochvoste” rozdelenieqqnorm(x);qqline(x)# zobrazenie kvantilov nahodneho vyberu oproti kvantilom normalneho normovaneho rozdeleniaqqnorm(lottery.payoff);qqline(lottery.payoff)# zobrazenie kvantilov standardizovaneho nahodneho vyberu (z-skore) oproti kvantilom normalneho
normovaneho rozdeleniaLPscale < − scale(lottery.payoff)qqnorm(LPscale);qqline(LPscale)# zobrazenie kvantilov dvoch nahodnych vyberov a MNS priamky (podrobnosti neskor)qqplot(lottery.payoff, lottery3.payoff)zz < − qqplot(lottery.payoff, lottery3.payoff, plot = F)plot(zz)abline(lm(zz$y~zz$x))# znazornenie nahodneho vyberu oproti t-rozdeleniuplot(qt(ppoints(waiting),298),sort(waiting))# kde funkcia ppoints() zobrazuje prislusnu mnozinu pravdepodobnostı pre kvantilovy graf - tieto
hodnoty su (i− 1/2) /n pre n ≥ 11 a (i− 3/8) / (n + 1/4), pre n ≤ 10 a su generovane v rastucom poradı
Pozn.: Vizualizacia rozdelenia pravdepodobnosti nahodnej premennej kvantil-kvantil grafom (qq graf)nam elegantne ukaze, kde sa mozne odchylky od normality nachadzaju. Zobrazenie rozdelenia pravde-podobnosti q-q grafom nam ale dava len ciastocnu informaciu. Vieme povedat, kolko modusov manase rozdelenie, ci ma tazsie alebo lahsie ”chvosty” ako normalne rozdelenie. Nevieme vsak povedat,ci su vychylky statisticky ”zavazne” alebo nie. To nam povie napr. qq graf s Atkinsonovu obalkou(napr. Katina 2003). Tento graf zobrazuje teoreticke hodnoty kvantilov z N(0, 1) oproti kvantilom sorto-vanych hodnot nahodneho vyberu transformovanych na N(0, 1). Atkinsonova obalka sluzi na ohranicenieodchylok od normality, t.j. ide o porovnanie vyberovych qq-grafov zıskanych z mnozstva inych qq-grafov generovanych z nahodnych vyberov z normalneho rozdelenia. Toto horne a dolne ohraniceniezıskame napr. zo 100 simulaciı z N(0, 1) s rozsahom rovnym rozsahu hodnot sledovaneho parametratak, ze pocıtame minima a maxima pre kazdy kvantil nasledovne. Nech xi, i = 1, 2, ..., n, n = 100, supseudonahodne cısla, Xi ∼ N(0, 1). Oznacme j-te kvantily i-teho nahodneho vyberu qij , potom y-novesuradnice hranıc obalky budu take, ze dolna hranica= mini(qij) a horna hranica= maxi(qij), kde x-ovesuradnice zodpovedaju prıslusnym teoretickym kvantilom N(0, 1).
Prıklad 59 qq graf s Atkinsonovu obalkou, datovy ramec swiss
# klasicky qqplotswiss.df data.frame(Fertility=swiss.fertility,swiss.x)attach(swiss.df)swiss.df[1:5,]qqnorm(Infant.Mortality)qqline(Infant.Mortality)# Atkinsonovu obalkavyberN01 cbind(Infant.Mortality,matrix(rnorm(47*19),47,19))vyberN01 apply(scale(vyberN01),2,sort)IM vyberN01[,1]XIM qqnorm(IM,plot=F)$xOBALKA t(apply(vyberN01[,-1],1,range))# argumenty funkcie matplot(): type=’’pnn’’ - nakreslı sa prvy stlpec (IM) ako body, dalsie
stlpce (OBALKA) sa nekreslia, ale hranice osı sa pre ne vytvoria; pch=4 a mkh=0.06 su typ a velkostbodov
matplot(XIM,cbind(IM,OBALKA),pch=c(4,18,18),mkh=0.5)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 34
• kruhovy diagram (piechart)
# funkcia pie(x)# argumentyx vektor relatıvnych hodnot (pravdepodobnostı), ktore v sucte davaju 1, teda i-ta polozka bude
abs(x[i])/sum(abs(x)) kruhu (ale aj pocetnostı). Graf zacına horizontalnou ciarou doprava a pokracujeproti smeru hodinovych ruciciek
names vektor mien prisluchajucich jednotlivym polozkam grafuexplode logicky vektor specifikujuci polozky, ktore maju byt vysunutecol vektor farieb, ktorymi su jednotlive polozky vyfarbene
Prıklad 60 datovy ramec testscores
# vytvorte kruhovy diagram skore pre jedneho studentast18 < − testscores[18,]name < − attributes(st18)pie(st18, names = name, col = c(3:7))# vysun skore < 20%pie(st18, names = name, col = c(3:7), explode = st18 < 20)
Prıklad 61 datovy ramec telsam.response
SUManketa < − apply(telsam.response, 2, sum)pie(SUManketa, dimnames(telsam.response)[[2]], explode = c(T, F, F, F),col = c(3:6))
# pridajte do grafu nadpistitle(main =’’Kruhovy diagram’’)
• stlpcovy diagram (barplot)
# funkcia barplot()names vektor pomenovanı pre jednotlive stlpcelegend vektor pomenovanı pre jednotlive polozky vramci stlpcacol vektor farieb jednotlivych poloziek vramci stlpca
Prıklad 62 datovy ramec telsam.response
# pouzite prvych 5 riadkov datoveho ramca telsam.response, kde tieto budu predstavovat 5 ludı,ktorı zaradili do kategoriı poor, fair, good and excellent prisluchajuce pocty otatok v dotaznıku azobrazte ich prostrednıctvom stlpcoveho diagramu
barplot( t(telsam.response[1:5,]), ylim=c(0, 200))# ohranicte y-ovu os tak, aby na nej bolo dost miesta na legendubarplot( t(telsam.response[1:5,]), ylim=c(0, 200))# priradte do grafu mena (cısla) participujpcich ludı, popis x.ovej a y-ovej osi, nazov grafu# popisky x-ovej, y-ovej osi a nadpis# xlab=’’retazec’’, ylab=’’retazec’’, main=’’retazec’’barplot( t(telsam.response[1:5,]), ylim=c(0, 200),legend=dimnames(telsam.response)[[2]],names=as.character(dimnames(telsam.response)[[1]][1:5]),xlab=’’respondent’’, ylab=’’pocet odpovedi’’,main=’’Odpovede respondentov’’)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 35
• funkcia plot() a jej argumenty (mozno ich pouzit aj pri mnohych inych grafickych funkciach)
- plot(x,y) - ak su x a y vektory, ide o scatterplot vektora x oproti vektoru y, ak zadame lenplot(xy), potom je xy list obsahujuci dva argumenty alebo dvoj-stlpcova matica
- plot(x) - ak x je casovy rad, potom ide o ”time series plot”, ak x je numericky vektor, potomzobrazujeme hodnoty vektora oproti indexu vo vektore, ak x je komplexny vektor, zobrazuje sa imaginarnazlozka versus realna zlozka vektora
Pozn. ku Rku:plot(f) - kde f je vektor faktorov, v R -ku pojde o barplotplot(f,y) - zobrazı stlpcovy diagram vektora y pre vsetky hladiny faktora fpairs(X) - matica rozptylovych grafov pre jednotlive premenne (”pairwise scatterplot”)
• type= argument kontrolujuci typ grafu: type=’’p’’ - body (default), type=’’l’’ - ciary, type=’’b’’ - body pospajane ciarami, type=’’s’’ - skokova funkcia, type=’’n’’ - ziadne zobrazenie,len osi
• xlab=’’retazec’’, ylab=’’retazec’’, main=’’retazec’’, sub=’’sring’’ - podnadpis podx-ovou osou
• points(x,y), lines(x,y) - pridavanie bodov a ciar do obrazka
• text(x, y, labels) - pridanie textu v bodoch specifikovanych x, y; teda labels[i] sa zobrazujev bodoch (x[i], y[i]), default je 1:length(x)
plot(x,y, type=’’n’’); text(x, y, names)
• title(main, sub) - dodatocne pridanie nadpisu a podnadpisu
• legend(x, y, legend) - dodatocne pridanie legendy v specifickom umiestnenı
# argumentylegend( , fill=v) - farby vyplne krabicieklegend( , col=v) - farba nakreslenych bodov alebo ciarlegend( , lty=v) - typ ciarlegend( , lwd=v) - sırka ciarlegend( , pch=v) - typ bodov
• urcenie polohy specifikovaneho bodu na grafe pouzitım mysi locator(n, type)
# bodove (jedno kliknutie) urcenie outliera
• text(locator(1), ’’outlier’’)
# pozıcia legendy
legend(locator(1), legend=c(’’Janko’’, ’’Marienka’’), fill=2:3)
• identifikıcia bodov identify(x,y, labels)
Prıklad 63 priklady ku vyssie uvedenym funkciam a ich argumentom
# datovy ramec swiss.dfattach(swiss.df)plot(Ferility,Infant.Mortality)# datovy ramec cornhelp(corn)plot(corn.rain, corn.yield)
8 GRAFICKA INTERPRETACIA VYBEROVEHO SUBORU 36
# datovy ramec shiphelp(ship)plot(ship)
# identitikaciax < − c(1, 2, 3)y < − c(3, 4, 5)plot(x, y)# kliknutie vzdy raz na body (x[i],y[i])body < − locator()# oznacenie bodovidentify(x, y, pts = pts)# pouzitie argumentu type, typu ciary a bodovplot(1:10, type=’’b’’, lty=2, pty=7)
# vlozenie textu do grafu, funkcia paste znamena vloz, argument sep separaciu nazvov, argumentadj oznacuje vzdialenost od bodu,
population < − state.x77[,’’Population’’]area < − state.x77[,’’Area’’]plot(area, population, log=’’xy’’, xlab=’’Oblast v stvorcovzch milach’’,ylab=’’Populacia v tisicoch’’)staty.ozn < − c(’’Alaska’’, ’’California’’, ’’Florida’’, ’’Hawaii’’,’’New Jersey’’, ’’New York’’, ’’Rhode Island’’, ’’Texas’’, ’’Wyoming’’)text(area[staty.ozn], population[staty.ozn],paste(’’ ’’, staty.ozn, sep=’’’’), adj=0)
# legenda s pouzitım funkcie locatorplot(freeny.x[,1], ylim = c(1,10), pch = 15, col = 2)points(freeny.x[,2], pch = 15, col = 3)points(freeny.x[,3], pch = 15, col = 4)typ.names < − c(’’price index’’, ’’income level’’, ’’market potential’’)legend(locator(1), legend = typ.names, fill = 2:4)# legenda s umiestnenım, graf typu casovy rad tsplot()tsplot(bonds.yield[1:40,], lty = 1:6)legend(13, .086, legend = as.character(bonds.coupon),lty = 1:6, pch = ’’OXAC*I’’)
# legenda s roznymi typmi bodovplot(testscores[,1], pch = 8)points(testscores[,2], pch = 7)points(testscores[,3], pch = 5)legend(1,20,c(’’DG’’,’’C’’,’’A’’), marks = c(8,7,5))
# vlozenie priamky do grafu, funkcia abline()abline(a, b) - intercept-skoln typ ciaryabline(LRM$coef) - vyberanie regresnych koeficientov z vysledkov linearnej regresie (neskor)abline(LRM) - priame pouzitie zadania pre linearny regresny model (neskor)
x < − 1:100y < − rnorm(100)plot(x,y)abline(0,0)LRMxy < − lm(y~x)abline(LRMxy) alternatıvne abline(LRMxy$coef)
9 STATISTICKA INFERENCIA 37
9 Statisticka inferencia
9.1 Statisticka inferencia pre parametre normalneho rozdelenia
V nasledovnej kapitole sa budeme venovat vybranym rozdeleniam pravdepodobnosti bezprostredne suvi-siacich so statistickou inferenciou, itervalom spolahlivosti a testovaniu hypotez.
9.1.1 Intervaly spolahlivosti
Ciel: zostrojit na zaklade dat interval, o ktorom mozeme dost spolahlivo prehlasit, ze obsahuje skutocnu(neznamu) hodnotu parametra θ, teda tvrdıme to s primeranym stupnom dovery.
Uloha: najst na zaklade nahodneho vyberu X1, ..., Xn taky interval, kt. bude obsahovat neznamuhodnotu parametra θ s pravdepodobnostou 1−α. Taketo intervaly sa nazyvaju 100× (1− α)% intervalyspolahlivosti (IS ) s koeficientom spolahlivosti 1−α, α = 0.05, α = 0.01, α = 0.001 - a je volena statistikom.
Dlzka IS:
• ↑ spolahlivost - dlhsı IS,
• ↓ spolahlivost - kratsı IS.
IS rozlisujeme:
• dvojstranne (DIS )
pre DIS su koncove body DH (X1, ..., Xn) a HH (X1, ..., Xn) vytvorene tak, aby platilo
Pr (DH (X1, ..., Xn) ≤ θ ≤ HH (X1, ..., Xn)) = 1− α
• jednostranne (JIS )
pre JIS volıme konkretnu hranicu tak, aby mohlo dojst iba k podceneniu neznameho parametra(pravostranny) alebo k preceneniu neznameho parametra (lavostranny), tj. aby platilo
Pr (DH∗ (X1, ..., Xn) ≤ θ) = 1− α, pre ∀θ ∈ Θ (dolny)
Pr (θ ≤ HH∗ (X1, ..., Xn)) = 1− α, pre ∀θ ∈ Θ (horny)
IS dostaneme pouzitım kvantilov, resp. kritickych hodnot rozdelenia prıslusnej nahodnej premennej(v tabulkach 1-18 su pouzite kriticke hodnoty).
ISs pre parametre normalneho rozdelenia:Tab. 1
IS pre θ1 = µ, θ2 = σ2 - zname(X − u (α/2) σ√
n≤ µ ≤ X + u (α/2) σ√
n
)(X − u (α) σ√
n≤ µ
)(µ ≤ X + u (α) σ√
n
)Tab. 2
IS pre θ1 = µ, θ2 = σ2 - nezname(X − tn−1 (α/2) S√
n≤ µ ≤ X + tn−1 (α/2) S√
n
)(X − tn−1 (α) S√
n≤ µ
)(µ ≤ X + tn−1 (α) S√
n
)
9 STATISTICKA INFERENCIA 38
Tab. 3
IS pre θ1 = σ2, θ2 = µ- nezname((n−1)S2
χ2n−1(α/2)
≤ σ2 ≤ (n−1)S2
χ2n−1(1−α/2)
)((n−1)S2
χ2n−1(1−α)
≤ σ2)(
σ2 ≤ (n−1)S2
χ2n−1(α)
)Oznacenia:Normovane dvojrozmerne normalne rozdelenie
N2
((0, 0)T
,
(1 ρρ 1
))je rozdelenie normalneho vektora (X, Y )T s hustotou
f (x, y) =1
2π√
1− ρ2exp
−x2 − 2ρxy + y2
2 (1− ρ2)
, (x, y)T ∈ R2,
kde ρ ∈ (−1, 1) je parameter; distribucna funkcia je
F (x, y) =∫ x
−∞
∫ y
−∞
1
2π√
1− ρ2exp
−w2 − 2ρwz + z2
2 (1− ρ2)
dwdz, (x, y)T ∈ R2.
Marginalne rozdelenie X a Y je N (0, 1), kde E [X] = E [Y ] = 0, V ar [X] = V ar [Y ] = 1, Cov (X, Y ) = ρa
fX (x) =∫ ∞
−∞
1
2π√
1− ρ2exp
−x2 − 2ρxy + y2
2 (1− ρ2)
dy
=1√2π
exp−x2
2
∫ ∞
−∞
1√2π (1− ρ2)
exp
− (y − ρx)2
2 (1− ρ2)
,
kde 1
2π√
2π(1−ρ2)exp
− (y−ρx)2
2(1−ρ2)
, y ∈ R1 je hustota N
(ρx, 1− ρ2
). Stredne hodnoty a rozptyly plynu
zo skutocnosti, ze nahodne veliciny X a Y maju normovane normalne rozdelenie. Pre kovarianciu mame
Cov (X, Y ) =∫ ∞
−∞
∫ ∞
−∞xy
1
2π√
1− ρ2exp
−x2 − 2ρxy + y2
2 (1− ρ2)
dxdy
=∫ ∞
−∞x
1√2π
exp−x2
2
(∫ ∞
−∞y
1√2π (1− ρ2)
exp
− (y − ρx)2
2 (1− ρ2)
dy
)dx
=∫ ∞
−∞x
1√2π
exp−x2
2
ρxdx = ρ.
Vseobecne dvojrozmerne normalne rozdelenie
N2
((µ1, µ2)
T,
(σ2
1 ρσ1σ2
ρσ1σ2 σ22
))je rozdelenie normalneho vektora (X, Y )T s hustotou
f (x, y) =1
2π√
σ21σ2
2 (1− ρ2)exp
− 12 (1− ρ2)
(x−µ1)
2
σ21
− 2ρ (x−µ1)(y−µ2)σ1σ2
+ (y−µ2)2
σ22
,
9 STATISTICKA INFERENCIA 39
kde (x, y)T ∈ R2, µi ∈ R1, σ2i > 0, i = 1, 2, ρ ∈ (−1, 1) su parametre. Vyraz v exponente mozeme pısat
ako
−12
(x− µ1
y − µ2
)T (σ2
1 ρσ1σ2
ρσ1σ2 σ22
)−1(x− µ1
y − µ2
),
marginalne rozdelenia su N(µ1, σ
21
), resp. N
(µ2, σ
22
)a ρ je koeficient korelacie.
Veta 64 Majme 2 nezavisle nahodne vybery s rozsahmi n1, n2 so zakladych suborov s rozdeleniamiN(µ1, σ2
1
), resp. N
(µ2, σ2
2
). Potom
1. X = X1 −X2 ∼ N(µ1 − µ2, σ
21/n1 + σ2
2/n2
)U = X−E[X]√
D[X]= X1−X2−(µ1−µ2)
σD∼ N (0, 1) ,kde σ2
D = σ21/n1 + σ2
2/n2, σ21 a σ2
2 su zname
2. specialne ak N(µ1, σ
2), resp. N
(µ2, σ
2), kde σ2 je znama, potom
X = X1 −X2 ∼ N(µ1 − µ2,
n1+n2n1n2
σ2)
U = X1−X2−(µ1−µ2)qn1+n2n1n2
σ∼ N (0, 1)
3. ak σ2 je neznama (teda predpokladame rovnost vyberovych disperziı), potom
T = X1−X2−(µ1−µ2)Sodh
∼ tn1+n2−2, kde S2 = (n1−1)S21+(n2−1)S2
2n1+n2−2 , Sodh = S
√1/n1 + 1/n2, S2
1 a S22 su
vyberove disperzie a
(n1 + n2 − 2) S2/σ2 ∼ χ2n1+n2−2
4. podiel vyberovych disperziı ku populacnym disperziam ma nasledovne rozdelenie
S21,n1
/σ21
S22,n2
/σ22
∼ Fn1,n2
5. σ21 a σ2
2 su nezname (teda predpokladame, ze vyberove disperzie su rozne) a casto n1, n2 su male anevelke - je nutne pouzit Aspin - Welchovu aproximaciu (Aspin a Welch, 1949, Wang, 1971;Bickel, Doksum, 2002)
c = S21,n1
/(n1S
2D
), S2
D = S21/n1 + S2
2/n2
potom mame Tk, kde k je pocet stupnov volnosti dany vztahom
k =[
c2
n1−1 + (1−c2)n2−1
]−1
(ak k nie je cele cıslo, pouzijeme linearnu interpolaciu v t-tabulkach).
Veta 65 Nech (X1, Y1) , (X2, Y2) , ..., (Xn, Yn) je nahodny vyber z
N2
((µ1, µ2)
T,
(σ2
1 ρσ1σ2
ρσ1σ2 σ22
)),
µ1, µ2 ∈ R1, σ21 , σ2
2 > 0, −1 < ρ < 1, vsetky parametre nezname. Nech Dn =∑n
i=1 Di/n a S2d,n =∑n
i=1
(Di −Dn
)/ (n− 1) su vyberovy priemer a vyberovy rozptyl velicın Di = Xi − Yi, i = 1, 2, ..., n.
Potom (Dn − tn−1 (α/2)
Sd,n√n
,Dn + tn−1 (α/2)Sd,n√
n
)je intervalovy odhad parametrickej funkcie ∆ = µ1 − µ2 so spolahlivostou (1− α).
9 STATISTICKA INFERENCIA 40
Pozn.:
• Welchova aproximacia dobre pracuje aj za rovnosti rozptylov. Problemu nerovnosti rozptylovhovorıme aj Behrens - Fisherov problem (Behrens, 1929; Fisher, 1939)
• pre vypocet df sa uvadza aj nasledovny vztah (Welch , 1938)
k = df = (S21/n1+S2
2/n2)2
(S21/n1)2
/(n1−1)+(S22/n2)2
/(n2−1)(Zar, 1999), pouzijeme nasledujuce mensie cele cıslo.
Tab. 4
IS pre θ1 = µ1 − µ2, θ2 =(σ2
1 , σ22
)- zname(
X1 −X2 − u (α/2) σD ≤ µ1 − µ2 ≤ X1 −X2 + u (α/2) σD
)(X1 −X2 − u (α) σD ≤ µ1 − µ2
)(µ1 − µ2 ≤ X1 −X2 + u (α) σD
)Tab. 5
IS pre θ1 = µ1 − µ2, θ2 = σ2 - zname(X1 −X2 − u (α/2)
√n1+n2n1n2
σ ≤ µ1 − µ2 ≤ X1 −X2 + u (α/2)√
n1+n2n1n2
σ)(
X1 −X2 − u (α)√
n1+n2n1n2
σ ≤ µ1 − µ2
)(µ1 − µ2 ≤ X1 −X2 + u (α)
√n1+n2n1n2
σ)
Tab. 6
IS pre θ1 = µ1 − µ2, θ2 = σ2 - neznameX1 −X2 − tn1+n2−2 (α/2) Sodh ≤ µ1 − µ2 ≤ +tn1+n2−2 (α/2) Sodh(
X1 −X2 − tn1+n2−2 (α) Sodh ≤ µ1 − µ2
)(µ1 − µ2 ≤ X1 −X2 + tn1+n2−2 (α) Sodh
)Tab. 7
IS pre θ1 = µ1 − µ2, θ2 =(σ2
1 , σ22
)- nezname(
X1 −X2 − tk (α/2) SD ≤ µ1 − µ2 ≤ X1 −X2 + tk (α/2) SD
)(X1 −X2 − tk (α) SD ≤ µ1 − µ2
)(µ1 − µ2 ≤ X1 −X2 + tk (α) SD
)Tab. 8
IS pre θ1 = σ21/σ2
2 , θ2 = µ - nezname(S2
1,n1S2
2,n2
1Fn1−1,n2−1(α/2) ≤ σ2
1/σ22 ≤
S21,n1
S22,n2
1Fn1−1,n2−1(1−α/2)
)(
S21,n1
S22,n2
1Fn1−1,n2−1(1−α) ≤ σ2
1/σ22
)(
σ21/σ2
2 ≤S2
1,n1S2
2,n2
1Fn1−1,n2−1(α)
)9.1.2 Testovanie hypotez
Zakladne pojmy:Nulova hypoteza H0 : θ ∈ Θ0,Alternatıvna hypoteza H1 : θ ∈ Θ1,Θ0 + Θ1 = ΘMozne situacie:
A.) platı H0 a nase rozhodutie je nezamietnut H0 (SPRAVNE),
9 STATISTICKA INFERENCIA 41
B.) platı H0 a nase rozhodutie je zamietnut H0,
C.) platı H1 a nase rozhodutie je nezamietnut H0,
D.) platı H1 a nase rozhodutie je zamietnut H0 (SPRAVNE).
Teda
rozhodnutie/skutocnost H0 platı H0 neplatıH0 zamietnut chyba I. druhu spravne rozhodnutie
H0 nezamietnut spravne rozhodnutie chyba II. druhu
• V prıpade A, D je nase rozhodnutie spravne (Pr (A) ≥ 1− α).
• V prıpade B sa dopustame chyby prveho druhu (CHPD, Pr(CHPD) ≤ α).
• V prıpade C sa dopustame chyby druheho druhu (CHDD, Pr(CHDD) = β). Doplnok pravde-podobnosti CHDD 1 − β sa nazyva sila testu, co je pravdepodobnost, ze H0 zamietneme, kedtato hypoteza neplatı (D), teda pravdepodobnost, s akou neplatnost hypotezy odhalıme. Sila testuzavısi na zvolenej testovacej metode a hlavne na tom, ake je skutocne rozdelenie dat (a teda pouzitejstatistiky) alebo ake su skutocne hodnoty parametrov.
Kriticky obor W ∈ Rn. Ak X ∈ W, tak H0 zamietame. Jeho volba zavisı na poziadavke, abypravdepodobnosti chyb I. druhu boli mensie alebo rovne zvolenemu kladnemu cıslu α ∈ (0, 1/2) , tedaPrθ (X ∈ W ) ≤ α,∀θ ∈ Θ0. Platı supθ∈Θ0 Prθ (X ∈ W ) = α, α sa nazyva hladina vyznamnosti. Sucasnevolıme W tak, aby pravdepodobnosti chyb I. druhu boli co najmensie.
Pozn.:
• hladina vyznamnosti α - dana (urcena statistikom),
• testovacia statistika - vypocıta sa,
• kriticka hodnota - tabulky, PC,
• p-hodnota, p-value, significance level (probability), dosiahnuta hladina vyznamnosti
Zamietnutie (napr. H0:θ = θ0)
• dvojstranna alternatıva je napr. pre X ∼ N(0, 1) ak |U | ≥ u (α/2), kde
H1 : θ 6= θ0
• jednostranna alternatıva je napr. pre X ∼ N(0, 1) ak U ≥ u (α) , U ≤ −u (α), kde
pravostranna H1 : θ > θ0
lavostranna H1 : θ < θ0
Tab. 9
H0 H1 X ∈ W predpoklad
µ = µ0 µ 6= µ0 U = |X−µ0|σ
√n ≥ u (α/2) σ2 - zname
µ ≤ µ0 µ > µ0 U1 = X−µ0σ
√n ≥ u (α) σ2 - zname
µ ≥ µ0 µ < µ0 U2 = X−µ0σ
√n ≤ −u (α) σ2 - zname
9 STATISTICKA INFERENCIA 42
Tab. 10
H0 H1 X ∈ W predpoklad
µ = µ0 µ 6= µ0 T = |X−µ0|S
√n ≥ tn−1 (α/2) σ2 - nezname
µ ≤ µ0 µ > µ0 T1 = X−µ0S
√n ≥ tn−1 (α) σ2 - nezname
µ ≥ µ0 µ < µ0 T2 = X−µ0S
√n ≤ −tn−1 (α) σ2 - nezname
Tab. 11
H0 H1 X ∈ W predpokladσ2 = σ2
0 σ2 6= σ20
(n−1)S2
σ20
/∈(χ2
n−1 (1− α/2) , χ2n−1 (α/2)
)µ - nezname
σ2 ≤ σ20 σ2 > σ2
0(n−1)S2
σ20
≥ χ2n−1 (α) µ - nezname
σ2 ≥ σ20 σ2 < σ2
0(n−1)S2
σ20
≤ χ2n−1 (1− α) µ - nezname
Tab. 12
H0 H1 X, Y ∈ W predpoklad
µ1 = µ2 µ1 6= µ2 U = |X1−X2|σD
√n ≥ u (α/2)
(σ2
1 , σ22
)- zname
µ1 ≤ µ2 µ1 > µ2 U1 = X1−X2σD
≥ u (α)(σ2
1 , σ22
)- zname
µ1 ≥ µ2 µ1 < µ2 U2 = X1−X2σD
≤ −u (α)(σ2
1 , σ22
)- zname
Tab. 13
H0 H1 X, Y ∈ W predpoklad
µ1 = µ2 µ1 6= µ2 U = |X1−X2|qn1+n2n1n2
σ≥ u (α/2) σ2 - zname
µ1 ≤ µ2 µ1 > µ2 U1 = X1−X2qn1+n2n1n2
σ≥ u (α) σ2 - zname
µ1 ≥ µ2 µ1 < µ2 U2 = X1−X2qn1+n2n1n2
σ≤ −u (α) σ2 - zname
Tab. 14
H0 H1 X, Y ∈ W predpoklad
µ1 = µ2 µ1 6= µ2 T = |X1−X2|Sodh
≥ tn1+n2−2 (α/2) σ2 - neznameµ1 ≤ µ2 µ1 > µ2 T1 = X1−X2
Sodh≥ tn1+n2−2 (α) σ2 - nezname
µ1 ≥ µ2 µ1 < µ2 T2 = X1−X2Sodh
≤ tn1+n2−2 (α) σ2 - nezname
Tab. 15
H0 H1 X, Y ∈ W predpoklad
µ1 = µ2 µ1 6= µ2 T = |X1−X2|SD
≥ tk (α/2)(σ2
1 , σ22
)- nezname
µ1 ≤ µ2 µ1 > µ2 T1 = X1−X2SD
≥ tk (α)(σ2
1 , σ22
)- nezname
µ1 ≥ µ2 µ1 < µ2 T2 = X1−X2SD
≤ −tk (α)(σ2
1 , σ22
)- nezname
Tab. 16
H0 H1 X, Y ∈ W predpoklad
σ21 = σ2
2 σ21 6= σ2
2
S21,n1
S22,n2
/∈ (Fn1−1,n2−1 (1− α/2) , Fn1−1,n2−1 (α/2)) µ - nezname
σ21 ≤ σ2
2 σ21 > σ2
2
S21,n1
S22,n2
≥ Fn1−1,n2−1 (α) µ - nezname
σ21 ≥ σ2
2 σ21 < σ2
2
S21,n1
S22,n2
≤ Fn1−1,n2−1 (1− α) µ - nezname
9 STATISTICKA INFERENCIA 43
9.1.3 Zavisle pozorovania
IS a testovacia statistika pre parovy t-test:
• X1, X2, ..., Xn nezavisle, Y1, Y2, ..., Yn nezavisle ale Xi, Yi nemusia byt,
• Di = Xi − Yi nezavisle,
• X1, X2, ..., Xn a Y1, Y2, ..., Yn maju rovnake rozdelenie,
• Xi ∼ N(µ1, σ
21
), Yi ∼ N
(µ2, σ
22
),
• X, Y nie su nezavisle, (Xi, Yi) normalne rozdelene,
• Xi − Yi ∼ N(µ1 − µ2, σ
2),
• (xi, yi)− par pozorovanı (realizaciı) na i-tej statistickej jednotke, i = 1, 2, ..., n,
• di = xi − yi,
• d je aritmeticky priemer rozdielov di,
• Sd - standardna odchylka rozdielov di,
• H0 : µ1 − µ2 = µd = 0,H1 : µd 6= 0 alebo alternatıvy jednostranne
Tab. 17
IS pre θ1 = µ, θ2 = σ2 - nezname(D − tn−1 (α/2) Sd√
n≤ µ ≤ D + tn−1 (α/2) Sd√
n
)(D − tn−1 (α) Sd√
n≤ µ
)(µ ≤ D + tn−1 (α) Sd√
n
)Tab. 18
H0 H1 X ∈ W predpoklad
µd = 0 µd 6= 0 T = |D|Sd
√n ≥ tn−1 (α/2) σ2 - nezname
µd ≤ 0 µd > 0 T1 = DSd
√n ≥ tn−1 (α) σ2 - nezname
µd ≥ 0 µd < 0 T2 = DSd
√n ≤ −tn−1 (α) σ2 - nezname
9.1.4 Vztah IS a testovania hypotez
Nech X =(X1, ..., Xn)T je nahodny vyber z rozdelenia, ktore zavisı na parametri θ ∈ Θ, g (θ) je paramet-ricka funkcia. Testujme hypotezu H0 : g (θ) = γ0 oproti obojstrannej alternatıve H1 : g (θ) 6= γ0. Nech(DH (X) ,HH (X)) je intervalovy odhad parametrickej funkcie g (θ) so spolahlivostou 1− α. Potom
W = X ∈Rn; γ0 /∈ (DH (X) ,HH (X))
je kriticky obor testu H0 oproti H1 na hladine vyznamnosti α.Ak mame testovat H0 oproti jednostrannej alternatıve H1 : g (θ) > γ0 a ak je DH∗ (X) dolny odhad
pre g (θ) so spolahlivostou 1− α, potom
W = X ∈Rn;DH∗ (X) > γ0
je kriticky obor testu H0 oproti H1 na hladine vyznamnosti α. Obdobne pre alternatıvu H1 : g (θ) < γ0
a horny odhad HH∗ (X).
9 STATISTICKA INFERENCIA 44
9.1.5 Prıklady v S-PLUS a R
Prıklad 66 EDA graf
eda.shape function(x)# EDA - exploratorna analyza dat# grafy mozete vylepsit podla vedomostı o grafike z predchadtajucich prednasokpar(mfrow=c(2,2))hist(x)boxplot(x)IQD summary(x)[5]-summary(x)[2]plot(density(x,width=2*IQD),xlab=’’x’’, ylab=’’’’, type=’’l’’)qqnorm(x)qqline(x)
Prıklad 67 20 pozorovanı rychlosti svetla, ”mich” data (Michelson, 1879)
# zadavanie dat funkciou ”scan”mich scan()1: 850 740 900 1070 9306: 850 950 980 980 88011: 1000 980 930 650 76016: 810 1000 1000 960 960 21eda.shape(mich)summary(mich)
Prıklad 68 funkcia ’’t.test’’ a jej argumenty
# vstupy# ”mu” - stredna hodnota alebo rozdiel strednych hodnot chatakteriyovany nulovou hypotezou# spolahlivost conf.level=CISLO, default je conf.level=.95# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’,
’’less’’# jednovyberovy t test = zadame ”x” ako vektor dat, ”mu” ako strednu hodnotu za platnosti nulovej
hypotezy# dvojvyberovy t test = zadame ”x” a ”y” ako vektory dat, ”var.equal=T” rovnake rozptyly a
”var.equal=F” rozne rozptyly# parovy t test = zadame ”x” a ”y” ako vektory dat, stanovıme argument paired=T, defult je
paired=F# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”t”# pocet stupnov volnosti ”df”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# interval spolahlivosti ”conf.int”# bodove odhady (aritmeticke priemery) ”sample estimates”
Prıklad 69 jednovyberovy t test, ”mich” data
t.test(mich,mu=990)t.test(mich,conf.level=.90,mu=990)
9 STATISTICKA INFERENCIA 45
Prıklad 70 dvojvyberovy t test, ”vahovy prırastok u potkanov”
gain.high scan()134 146 104 119 124 161 107 83 113 129 97 123gain.low scan()70 118 101 85 107 132 94eda.shape(gain.high)eda.shape(gain.low)# var.test(gain.high,gain.low)t.test(gain.high,gain.low)t.test(gain.high,gain.low,alternative=’’g’’)
Prıklad 71 parovy t test - ”pary topanok”
wear.A scan()14.0 8.8 11.2 14.2 11.8 6.4 9.8 11.3 9.3 13.6wear.B scan()13.2 8.2 10.9 14.3 10.7 6.6 9.5 10.8 8.8 13.3eda.shape(whear.A-whear.B)plot(wear.A,wear.B)# indikuje vysoku korelaciu, ktora signalizuje vysoku vnutro-vyberovu variabilitu, vacsiu nez rozdiely
v priemeroch. Parovanie vedie k vacsej citlivosti testut.test(wear.A,wear.B,paired=T)
Prıklad 72 naprogramujte vyssie spomınane testy zo zakladnych funkciı, pomenujte ich”jednovyberovy.ttest”, ”dvojvyberovy.ttest” a ”parovy.ttest
# pomocky# jednovyberovy t test urobte len pre ”mu=0”Tstat mean(x) / ( sqrt(var(x)) / sqrt(length(x)) )# parovy t test# najprv naprogramujte rozdiel vektorov ”d” a potom pre ”mu=0”Tstat mean(d) / ( sqrt(var(d)) / sqrt(length(d)) )# dvojvyberovy t test, tiez pre ”mu=0”Tstat (mean(x) - mean(y)) / s1s1 sp * sqrt(1/nx + 1/ny)sp sqrt( ( (nx-1)*var(x) + (ny-1)*var(y) ) / (nx + ny - 2) )nx length(x)ny = length(y)# dvojvyberovy t test s Welchovou aproximaciou, tiez pre ”mu=0”Tstat (mean(x) - mean(y)) / s2s2 sqrt( var(x)/nx + var(y)/ny ),nx length(x)ny length(y).# pre ”df”1 / ( (c^2)/(nx-1) + ((1-c)^2)/(ny-1) )c var(x) / (nx * s2^2)
Prıklad 73 naprogramujte intervaly spolahlivosti pre vyssie spomınane testy zo zakladnych funkciı apomenujte ich”jednovyberovy.IS”, ”dvojvyberovy.IS” a ”parovy.IS”, pouzite podklady z predchadza-juceho prıkladu
9 STATISTICKA INFERENCIA 46
Prıklad 74 Monte Carlo (MC) simulacie
Poznamky ku metodike:Aproximacie na zaklade asymptotickych vysledkov mozu byt vytvorene MC simulaciami. Ukazeme
simulacie na t-teste generovanım dat z χ2k rozdelenia m - krat nezavisle. Vzdy spocıtame hodnotu
t−statistiky a potom spocıtame proporciu poctov z celkoveho poctu m (dalej n.sim), ktore prevysujukriticku hodnotu z t-rozdelenia. χ2
k rozdelenie sme pouzili preto, aby sme ukazali, ze pre male k mamevychylky od normalneho rozdelenia.
Poznamky ku vysledkom:Pre jednovyberovy t-test na α = 0.05 su asymptoticke vysledky s dobrou aproximaciou, ked n ≥
101.5 u 32, k ≥ 10. χ22 rozdelenie je extremne vychylene a pre tn−1 (0.95) je aproximacia dobra len s
n ≥ 102.5 u 316.Uloha:Urobte simulacie pre n.sim=10 000 t-testov s pouzitım χ2
k nagenerovanych dat, kde k = 2, 10, 20, 50.Simulacie opakujte pre rozne rozsahy vyberov a zobrazte pozorovane hladiny vyznamnosti vocilog10 (rozsah vyberu)
# ”kv” - kvantil t-rozdelenia# rozsah vyberu je ”n”kv < − qt(0.975, df=n)’’SIMULttest’’ < − function(n.sim, n, df, kv)# n.sim - pocet simulacii (# = 10000)# n - rozsah vyberu# df - pocet stupnov volnosti chi-kvadrat rozdelenia
T.stat < − rep(0,n.sim)Matsim < − matrix(0,n,n.sim)for (i in 1: n.sim)MATsim[,i] < − rchisq(n.sim, df)Tstat[i] mean(MATsim[,i]) / ( sqrt(var(MATsim[,i])) / sqrt(n))PROP < − length(Tstat[Tstat > kv])/n.simreturn(PROP)
9.2 Statisticka inferencia pre parametre binomickeho rozdelenia
Majme H0 : p = p0 oproti H0 : p 6= p0. Potom Waldova statistika pre H0 ma tvar
zW =p− p0√
p (1− p) /n∼ N(0, 1),
a Waldov priblizny (1− α)% IS
p0 ∈(p± uα/2
√p (1− p) /n
).
Pokial nie je n dost velke, pouzijeme modifikovanu zW statistiku v tvare
zWmod=|X − np0| − 1/2√
np (1− p)∼ N(0, 1),
kde p = x/n.
9 STATISTICKA INFERENCIA 47
Nech p1 je pravdepodobnost, ze v pokuse nastane jav A. Nech v n1 nezavislych pokusoch nastaljav A spolu X−krat. Potom, ak napr. opakujeme pokus A za inych podmienok, jav A nastava spravdepodobnostou p2. Nech v n2 tychto dalsıch nezavislych pokusoch nastal jav A spolu Y−krat. Nazaklade tychto udajov chceme testovat H0 : p1 = p2 oproti H1 : p1 6= p2. Tuto hypotezu nazyvameniekedy hypoteza homogenity dvoch binomickych rozdelenı, pretoze X ∼ Bin (n1, p1) a Y ∼ Bin (n2, p2).Oznacme p1 = x/n1, p2 = y/n2. Predpokladajme, ze p1 (1− p1) + p2 (1− p2) 6= 0.
Z CLV vyplyva, ze pri dostatocne velkych hodnotach n1 a n2 mozeme pouzit aproximaciu
p1 ∼ N
[p1,
p1 (1− p1)n1
], p2 ∼ N
[p2,
p2 (1− p2)n2
].
Kedze x a y su nezavisle veliciny, dostavame potom
p1 − p2 − (p1 − p2)√p1(1−p1)
n1+ p2(1−p2)
n2
∼ N (0, 1) .
Ak plati H0, dostaneme v citateli p1 = p2. V menovateli vsak nezname hodnoty p1 a p2 stale ostavaju.Preto sa za ne dosadzuju ich odhady (Waldov prıstup). Da sa dokazat, ze sa limitne rozdelenie ani potomnezmenı a ostane N (0, 1) .
Ako odhad p1 pouzijeme p1, ako odhad p2 zasa p2. Silny zakon velkych cısel zarucuje, ze p1 → p1 ap2 → p2 skoro vsade. Potom
Ua =p1 − p2√
p1(1−p1)n1
+ p2(1−p2)n2
,
kde ak |Ua| ≥ uα/2, zamietame H0. Podobne testujeme jednostranne hypotezy.
9.2.1 Prıklady v S-PLUS a R
Prıklad 75 Experiment - z 50 zubov vystavenym tepelnemu soku sa 21 zlomilo, vypocıtajte IS pre pop-ulacnu pravdepodobnost zlomenia zuba po tepelnom soku
# funkcia na vypocet dvojstranneho IS pre rozdiel pravdepodobnostı# DH - dolna hranica IS# HH - horna hranica ISProbIS < − function(k, n, alpha = 0.05)# k - pocet priaznivych vysledkov# n - pocet pozorovanip < − k/nstderr < − sqrt(p * (1 - p)/n1)DH < − rozd - qnorm(1 - alpha/2) * stderrHH < − rozd - qnorm(1 - alpha/2) * stderrreturn(cbind(DH,p, HH))
Prıklad 76 Experiment - z 50 zubov vystavenym tepelnemu soku sa 21 zlomilo. Z kontrolnych 50 zubovsa zlomilo len 11. Otestujte, ci rozdiel populacnych pravdepodobnostı zlomenia zuba po tepelnom soku au kontroly je rovnaka.
Riesenie:n1 = n2 = 50, X = 21, Y = 11, p1 = 0.42, p2 = 0.22, p = 0.32Ua = 2.195, Ub = 2.144, u0.05 = 1.645# funkcia na vypocet dvojstranneho IS pre rozdiel pravdepodobnostı# DH - dolna hranica IS
9 STATISTICKA INFERENCIA 48
# HH - horna hranica ISProbDiffIS < − function(k1, k2, n1, n2, alpha = 0.05)# k1, k2 - pocet priaznivych vysledkov# n1, n2 - pocty pozorovanip1 < − k1/n1p2 < − k2/n2rozd < − p1 - p2stderr < − sqrt(p1 * (1 - p1)/n1 + p2 * (1 - p2)/n2)DH < − rozd - qnorm(1 - alpha/2) * stderrHH < − rozd - qnorm(1 - alpha/2) * stderrreturn(cbind(DH,rozd, HH))
9.3 Neparametricke dvojvyberove testy
Predpokladajme, ze X1, ..., Xn1 je nahodny vyber z nejakeho spojiteho rozdelenia, Y1, ..., Yn2 je nahodnyvyber z rovnakeho spojiteho rozdelenia a je oproti prvemu rozdeleniu posunute o nejaku konstantu δ.Znamena to, ze veliciny X1, ..., Xn1 a Y1− δ, ..., Yn2 − δ maju rovnake rozdelenie. Predpoklada sa, ze obavybery su nezavisle. Potom
• H0 : δ = 0,
• H1 : δ 6= 0.
9.3.1 Wilcoxonov test
Nech n1 + n2 = n, kde n1 je pocet pozorovanı v prvom vybere, n2 je pocet pozorovanı v druhom vybere.Nech R1, R2, ..., Rn1 su poradia prveho vyberu v ramci usporiadaneho zdruzeneho vyberu. Potom preWilcoxonovu statistiku SW platı
WX = SW =n1∑i=1
Ri.
Pre strednu hodnotu a rozptyl SW za platnosti H0 platı
E0 [SW ] =n1 (n1 + n2 + 1)
2,
V ar0 [SW ] =n1n2 (n1 + n2 + 1)
12,
kde n1, n2 ≥ 10. Potom platı
Z =SW − E0 [SW ]√
V ar0 [SW ]∼ N (0, 1) .
Test prisluchajuci SW sa nazyva Wilcoxonov test.Pozn.: Nulovu hypotezu zamietame, ak priemery takto zıskanych poradı spocıtane pre kazdy povodny
vyber sa od seba prıliz lısia (data nie su dost premiesane). Prakticky je vsak vyhodnejsie pocıtat sucetporadı len v jednom z vyberov. Platı
WX + WY = (n1 + n2) (n1 + n2 + 1)/2,
co platı vzdy. Pri dostatocne velkom vybere pouzijeme statistiku z (n1 + n2 ≥ 12). Nulovu hypotezuzamietame, ak |z| ≥ uα/2.
9 STATISTICKA INFERENCIA 49
S ohladom na zhody sa pouzıva modifikovana z-statistika, blizsie pozri Hollander, Wolfe (1999). Vprıpade zhod sa urobı priemer poradı zhod (strednoporadie). V tomto prıpade musıme vypocet smero-dajnej odchylky citatela upravit a dostaneme
Zkor =SW − E0 [SW ]√
V ar0 [SW ]− n1n2P
j(t3j−tj)12(n1+n2)(n1+n2−1)
∼ N (0, 1) ,
kde tj su pocty zhodnych pozorovanı.
9.3.2 Mann-Whitney test
Tento test ekvivalentny s vyssie uvedenym Wilkoxonovym testom.Nech xin1
i=1 a yjn2j=1 su mnoziny pozorovanı v prvom vybere (napr. povodny typ liecby), resp. v
druhom vybere (napr. novy typ liecby). Nech (xi, yj) su mozne pary pozorovanı, medzi ktorymi mozunastat nasledovne dve situacie xi < yj a xi > yj . Potom platı
SMW = # (xi, yj) , kde xi > yj ,
SMW = SW − 12n1 (n1 + 1) ,
kde SMW nazyvame Mann-Whitney statistika (SMW ). Pre strednu hodnotu a rozptyl SMW za platnostinulovej hypotezy platı
E0 [SMW ] =n1n2
2,
V ar0 [SMW ] = V ar0 [SW ] =n1n2 (n1 + n2 + 1)
12,
Potom
Z =SMW − E0 [SMW ]√
V ar0 [SMW ]∼ N (0, 1) .
Pozn.: Test je zalozeny na velicinach
UX = n1n2 +n1 (n1 + 1)
2−WX , UY = n1n2 +
n2 (n2 + 1)2
−WY .
Velicina UX vyjadruje pocet dvojıc Xi, Yj , kde platı Xi < Yj , podobne UY vyjadruje pocet dvojıc Xi, Yj ,kde platı Xi > Yj . Pri zhode Xi = Yj sa pripocıta 1
2 k UX aj ku UY . Musı platit UX +UY = n1n2 (pocetvsetkych dvojıc Xi, Yj).
Pre male rozsahy vyberov by sme pri testovanı nulovej hypotezy o zhode oboch rozdelenı mali namiestonormovanej veliciny z pouzit specialne tabulky (napr. Likes a Laga, 1978). Kriticky obor je v nichpopısany pomocou statistiky U = min(UX , UY ). Nulovu hypotezu na hladine vyznamnosti najviac αzamietame, ak U ≤ vn1,n2 (α), kde vn1,n2 (α) je kriticka hodnota. Pretoze U ma diskretne rozdelenie,skutocna pravdepodobnost chyby I. druhu moze byt vyrazne nizsia ako pozadovana α.
9 STATISTICKA INFERENCIA 50
9.4 Neparametricke parove testy
Do skupiny neparametrickych parovych testov patria znamienkovy test a Wilcoxonov znamienkovanytest.
9.4.1 Znamienkovy test
Poziadavka na normalne rozdelenie rozdielu Xi − Yi je niekdy prıliz prısna. Hlavne pre maly rozsahvyberu jeho nesplnenie moze znehodnotit rozhodovanie pomocou paroveho t-testu. Oproti parovemut-testu ma znamienkovy test ovela slabsie predpoklady, kde postacuje, aby nahodna velicina D = X − Ymala nejake spojite rozdelenie, kde stacı vediet, ktora z nasledovnych udalostı nastala
Di : Xi < Yi, Xi = Yi, Xi > Yi.
Testujeme
• H0 : median rozdielu Di = Xi − Yi sa rovna nule oproti
• obojstrannej alternatıve H1 : median je nenulovy.
Pozorovania, kde nastalo Xi = Yi neberieme do uvahy a podla toho upravıme rozsah suboru n.Oznacme pocet kladnych Di ako D+. H0 zamietame priblizne na α, ak pre
Z =|D+ − n/2| − 1/2√
n/4
platı, ze |Z| ≥ uα/2. Existuju aj tabulky na presny vypocet (napr. Likes a Laga, 1978).Spomenuty test ma jednoduchu motivaciu. Ak platı H0, ma nahodny jav Xi > Yi pravdepodobnost
vyskytu 1/2, kde oba rozne vysledky maju rovnaku pravdepodobnost a zhoda Xi = Yi nastava prispojitom rozdelenı s nulovou pravdepodobnostou. Preto pre D+, za platnosti H0, platı D+ ∼ Bin (n, 0.5)s E [D+] = n/2 a V ar [D+] = n/4. Statistitiku Z dostaneme modifikaciou - odpocıtanım 1/2 v citateli -normovaneho protajsku veliciny D+.
9.4.2 Wilcoxonov znamienkovany test
Wilcoxonov znamienkovany test (Wilcoxon signed rank test, neparametricka alternativa paroveho t-testu).Rovnako ako pri znamienkovom teste, musia mat rozdiely Di = Xi − Yi spojite rozdelenie, kde sa
naviac predpoklada, ze rozdelenie je symetricke okolo medianu. Teda, krivka hustoty rozdielov Di musıbyt symetricka a ako stred symetrie nepripada do uvahy nic ine ako median.
• H0 : median ako stred symetrie je rovny nule,
• H1 : median je rozny od nuly.
Majme pozorovanie (xi, yi) pre i-tu statisticku jednotku (napr. pred a po liecbe), i = 1, ...n. Naj-prv vypocıtame rozdiel di − yi medzi kazdym parom pozorovanı. Ak su medzi rozdielmi di nuly,prıslusne pozorovania sa vylucia a n sa podla toho zmensı. Wilcoxonova znamienkovana statistika T+
W
sa vypocıta z absolutnych hodnot zi zoradenych podla velkosti. Oznacme znamienkom plus (+) kladneDi a znamienkom mınus (−) zaporne rozdiely Di. Potom T+
W =∑
(+poradia) a podla napr. Hollander,Wolf (1999) a CLV
E0
[T+
W
]=
n (n + 1)4
V ar0
[T+
W
]=
n (n + 1) (2n + 1)24
9 STATISTICKA INFERENCIA 51
Z =T+
W − E0
[T+
W
]√V ar0
[T+
W
] ∼ N (0, 1) .
Pozn.: Moze sa stat, ze s outliermi nie je rozdiel medzi porovnavanymi skupinami pri pouzitı t-testu.Po vylucenı outlierov sa uz rozdiely prejavia. Pre male pocty pozorovanı treba pouzit tabulky, napr. Likesa Laga (1978). Ak su medzi rozdielmi nulove hodnoty (teda zhody), vypocıtame aritmeticky priemer zpozorovanı asociovanych so zhodnymi rozdielmi (strednoporadia) a urobıme znova rozdiel priemerov a oprislusny pocet sa upravı n.
Teda podobne ako pri dvojvyberovom Wilcoxonovom teste (ak t1, t2, ... su pocty zhodnych pozorovanı)platı
Zkor =T+
W − E0
[T+
W
]√V ar0
[T+
W
]− 1
2124
∑j
(t3j − tj
) ∼ N (0, 1) .
9.4.3 Prıklady v S-PLUS a R
Prıklad 77 neparametricke testy, data z kapitoly ”t.testy”, funkcia ”wilcox.test”
wilcox.test(mich,mu=990)wilcox.test(gain.high,gain.low)wilcox.test(wear.A,wear.B,paired=T)# vstupy# ”mu” - parameter posunu polohy pre rozdelenie”x”# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’,
’’less’’# jednovyberovy test = zadame ”x” ako vektor dat,# dvojvyberovy test = zadame ”x” a ”y” ako vektory dat# parovy test = zadame ”x” a ”y” ako vektory dat, stanovıme argument paired=T, defult je paired=F# exaktne rozdelenie testovacej statistiky (tabulky) - correct=T je default# korekcia spojitosti pre normalnu aproximaciu p-hodnoty - correct=T je default# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”rank-sum statistic”# pocet pozorovanı ”n”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”
9.5 Korelacna analyza
Definıcia 78 Nech E(X2), E
(Y 2)
< ∞. Potom je
1. kovariancia cov (X, Y ) nahodnych velicın X a Y definovana ako
cov (X, Y ) = E [(X − E (X)) (Y − E (Y ))] = E (XY )− E (X) E (Y ) .
Ak X = Y , potom cov (X, X) = D (X) = E(X2)− [E (X)]2 .
2. koeficient korelacie ρX,Y nahodnych velicın X a Y definovany ako
ρX,Y = corr(X, Y ) = cov(X,Y )√V ar(X)
√V ar(Y )
, pre V ar (X) V ar (Y ) > 1.
9 STATISTICKA INFERENCIA 52
Definıcia 79 Nech X =(X1, X2, ..., Xn)′ je nahodny vektor, ktoreho zlozky maju konecny druhy moment.Potom
1. kovariancna (variancna) matica V ar (X)s rozmermi n×n tohoto nah. vyberu ma prvky definovaneako
cov (Xi, Xj) = E [(Xi − E (Xi)) (Xj − E (Xj))] ,
cov (Xi, Xi) = D (Xi) .
Tato matica je symetricka a pozitıvne definitna.
2. korelacna matica |Corr (X)| ≤ 1 je matica s prvkami
ρij = corr(Xi, Xj) = cov(Xi,Xj)√V ar(Xi)
√V ar(Xj)
, i, j ∈ 〈1, n〉 ,
ρii = corr (Xi, Xi) = 1, i ∈ 〈1, n〉 .
Definıcia 80 Matica sa nazyva pozitıvne definitna ak
1. V ar (X) = V ar (X)T ,
2. pre ∀a = (a1, ..., an)T ∈ Rn platı, ze aT V ar (X) a > 0.
9.5.1 Korelacny koeficient
Prvky vyberovej kovariancnej matice Sp×p (vieme, ze sij = sji,∀i, j)
sij =1n
n∑k=1
(xki − xi) (xkj − xj) , i, j = 1, 2..., p
Korelacny koeficient (product moment correlation coeficient, sample correlation coeficient).Majme nezavisle nahodne vektory (X1, Y1), (X2, Y2) , ..., (Xn, Yn), nezavisle medzi dvojicami,
vseobecne nie vnutri dvojice, potom mozeme ako odhad korelacneho koeficientu (KK) pouzit
RX,Y =∑n
i=1(Xi −X)(Yi − Y )√∑ni=1(Xi −X)2
√∑ni=1(Yi − Y )2
=SX,Y√SX
√SY
=∑n
i=1 XiYi − nXY√∑ni=1 Xi − nX
√∑ni=1 Yi − nY
,
- zapis pre (i, j)-ty clen vyberovej korelacnej matice R (r ∈ 〈−1, 1〉)
ri,j =sij√
sii√
sjj=
∑nk=1 xkixkj − nxixj√∑n
k=1 xki − nxi
√∑nk=1 xkj − nxj
, kde sii = s2i , sjj = s2
j ,
co nie je nevychyleny odhad. Jeho nevychylena podoba ma tvar
R∗ij ≈ Rij
[1 +
1−R2ij
2(n− 4)
].
Pozn.: Ak maju nahodne vektory (Xi, Yi) aspon ”priblizne” normalne rozdelenie, mozeme vyberovykorelacny koeficient r pouzit na testovanie nulovosti populacneho korelacneho koeficientu ρ. Ak zami-etame hypotezu o nulovosti ρ, zamietame sucasne ak hypotezu o nezavislosti nahodnych velicın.
9 STATISTICKA INFERENCIA 53
Testovanie hypotez a IS pre KK ρX,Y
Majme nahodny vyber (X, Y ) ∼ N2 (µ,Σ), corr(X, Y ) = 0, n ≥ 3, potom
T (R) =√
n− 2R√1−R2
∼ tn−2
Teda H0 : ρX,Y = 0,H1 : ρX,Y 6= 0. H0 zamietame, ak |T (r)| > tn−2 (α/2) (podobne jednostrannealternatıvy)
Ak ρX,Y = 0, potom za platnosti (X, Y ) ∼ N2 (µ, Σ) , corr(X, Y ) = 0, n ≥ 3 platı
f (r) =Γ [1/2 (n− 1)]
Γ [1/2 (n− 2)]√
π
(1− r2
)1/2(n−4),
kde Γ [p] =∫∞0
xp−1e−xdx, ak p ∈ Z potom Γ [p] = (n− 1)!. Teda (pre n →∞, casto n > 100)
R ∼ N
(ρX,Y ,
(1− ρ2
X,Y
)2n− 1
).
Fisherova Z premenna - transformacia stabilizujuca rozptyl (n ≥ 3, jej rozdelenie sa rychlo blızi knormalnemu)
Z =12
ln1 + R
1−R,Z ∼ N
(12
ln1 + ρX,Y
1− ρX,Y,
1n− 3
)Odporuca sa uvazovat o Z ako o normalnej premennej uz pre n ≥ 10, ak ρX,Y nie je blızko ±1.
H0 : ρX,Y = ρ0,H1 : ρX,Y 6= ρ0. H0 zamietam, ak U =√
n− 3 |z − ξ0| > u (α/2) , kde z =12 ln 1+r0
1−r0, ξ0 = 1
2 ln 1+ρ01−ρ0
1. 100× (1− α)%IS pre ρ odvodıme nasledovne (Potocky, 1998)
Pr(√
n− 3 |z − ξ| ≤ u (α/2))
= 1− α, ξ = 12 ln 1+ρ
1−ρ(Z − u (α/2)√
n− 3≤ ξ ≤ Z +
u (α/2)√n− 3
)Ak ρ = th (ξ) (monotonna fcia ξ), potom(
th
[Z − u (α/2)√
n− 3
]≤ ρ ≤ th
[Z +
u (α/2)√n− 3
])2. 100× (1− α)%IS pre ρ : (Andel, 1998)(
D − 1D + 1
,H − 1H + 1
),
kde D = exp[2Z − 2u(α/2)√
n−3
],H = exp
[2Z + 2u(α/2)√
n−3
]Pozn.: je zrejme, ze (1) je identicke s (2), kde D = th(Z − u(α/2)√
n−3) a H = th(Z + u(α/2)√
n−3)
Testovanie hypotez o ρ1, ρ2
Nech (X1, Y1) ∼ N2 (µ1,Σ1) s ρX1,Y1 a RX1,Y1 , rozsahom n1. Nech (X2, Y2) ∼ N2 (µ1,Σ1) s ρX2,Y2 aRX2,Y2 , rozsahom n2. Nech H0 : ρ1 = ρ2,H1 : ρ1 6= ρ2. Potom
Z1 − Z2 ∼ N(0, 1
n1−3 + 1n2−3
), Zi = 1
2 ln 1+Ri
1−Ri, i = 1, 2,
Z1,2 =Z1 − Z2√1
n1−3 + 1n2−3
∼ N (0, 1)
H0 zamietame, ak |z1,2| > u (α/2)
9 STATISTICKA INFERENCIA 54
9.5.2 Spearmanov korelacny koeficient
Spearmanov korelacny koeficient (rS)Predpokladajme, ze (X1, Y1)
T, ..., (Xn, Yn)T je vyber z dvojrozmerneho rozdelenia. Nech R1, ..., Rn
su poradia velicın X1, ..., Xn a Q1, ..., Qn su poradia velicın Y1, ..., Yn v spolocnom (zdruenom) vybere.Spearmanova statistika ma tvar
SN =n∑
i=1
RiQi
Spearmanov korelacny koeficient
RS =1n
∑ni=1
(Ri − n+1
2
) (Qi − n+1
2
)σRσQ
,
kde
σR = σQ =
√√√√ 1n
n∑i=1
(i− n + 1
2
)2
.
Potom
RS =12
n(n2 − 1)
n∑i=1
(Ri −
n + 12
)(Qi −
n + 12
)
=12
n(n2 − 1)
(SN − n (n + 1)2
4
)
= 1− 6n (n2 − 1)
n∑i=1
(Ri −Qi)2.
Vlastnosti:1) |RS | ≤ 1, pricom RS = 1 prave vtedy, ked Ri = Qi pre vsetky i, a rovnost RS = −1 nastava prave
vtedy, ked Ri = n + 1−Qi pre vsetky i.2) Ak R = (R1, ..., Rn) , Q = (Q1, ..., Qn) su nezavisle rovnomerne rozdelene nahodne vektory, tak
E [RS ] = 0, V ar [RS ] = 1n−1 .
3) RS je symetricky rozdeleny okolo nuly a za platnosti asymptotickej normality koeficientu RS
(n →∞, pre n > 30) platı pre kriticku hodnotu nasledovny vztah rS (α) = u (α/2) /√
(n− 1).
4) Platı E [SN ] = n(
n+12
)2, V ar [SN ] = 1
n−1
(n(n2−1)
12
)2
, potom
RS =1√
(n− 1) V ar [SN ](SN − E [SN ]) .
5) Spearmanova statistika je symetricky rozdelena okolo svojej strednej hodnoty a tuto vlastnost maaj RS .
6) Ak (X1, Y1)T
, ..., (Xn, Yn)T je vyber z dvojrozmerneho normalneho rozdelenia s korelacnym koef.ρ, potom plati
R = 2 sin(π
6
)RS
Testovanie hypotezH0 : premenne X, Y su nezavisleH1 :1) obojstranna alternatıva
zamietame hypotezu nezavislosti |rS | > r (α/2, n)nezamietame hypotezu nezavislosti |rS | ≤ r (α/2, n)
9 STATISTICKA INFERENCIA 55
2) alternatıva kladnej zavislosti
”prıjımame” alternatıvu kladnej zavislosti rS > r (α, n)nezamietame hypotezu nezavislosti rS ≤ r (α, n)
3) alternatıva zapornej zavislosti
”prıjımame” alternatıvu zapornej zavislosti rS < r (α, n)nezamietame hypotezu nezavislosti rS ≥ r (α, n)
Kriticke hodnoty r (α/2, n) su tabelovane a pouzıvaju sa priblizne do n = 30.Ak sa medzi X1, ..., Xn alebo Y1, ..., Yn vyskytuju zhody, tak Ri, Qi sa vytvaraju pomocou procesu
strednoporadı (ako pri inych neparametrickych testoch, pozri vyssie) a Spearmanov korelacny koeficientzalozeny na tychto strednoporadiach je urceny vztahom
RS =1n
∑ni=1
(Ri − n+1
2
) (Qi − n+1
2
)σRσQ
,
kde
σR =
√√√√ 1n
n∑i=1
(Ri −
n + 12
)2
, σQ =
√√√√ 1n
n∑i=1
(Qi −
n + 12
)2
,
teda
RS =1
nσRσQ
(SN − n (n + 1)2
4
)
=12
n(n2 − 1)
(SN − n (n + 1)2
4
)1
dRdQ,
kde
dR =
√√√√1− 1n(n2 − 1)
∑j
t(X)j
[(t(X)j
)2
− 1],
dQ =
√√√√1− 1n(n2 − 1)
∑j
t(Y )j
[(t(Y )j
)2
− 1],
kde tj predstavuju pocty zhod pri prıslusnej hodnote indexu j. Asymptoticky (pre n →∞) platı, ze√
n− 1RS ∼ N(0, 1)
a postupujeme rovnako ako predtym, teda (n → ∞, pre n > 30) pre kriticku hodnotu platı nasledovnyvztah rS (α) = u (α/2) /
√(n− 1).
9.5.3 Prıklady v S-PLUS a R
Prıklad 81 funkcia ”cor”
# vstupy# zadame ”x” a ”y” ako vektory dat# chybajuce pozorovania, na.method=’’fail’’ je default, pokial ich chceme vyradit na.method=
’’omit’’# vystupy# Pearsonov korelacny koeficient alebo korelacnu maticu (ak zadame ako vstup maticu premennych)
# korelacnu matica pre data ”longley.x”cor(longley.x)
9 STATISTICKA INFERENCIA 56
Prıklad 82 funkcia ”cor.test”, data ”state.x77”
# vstupy# zadame ”x” a ”y” ako vektory dat# metoda - method=’’pearson’’, je default, alternatıva je napr. method=’’spearman’’# formulacia alternatıvy alternative=’’two.sided’’ je default, dalsie volby su ’’greater’’ (vacsı
ako nula), ’’less’’ (mensı ako nula)# vystupy# nazov pouziteho testu ”method”# testovacia statistika ”normal-z”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# odhad korelacneho koeficientu ”sample estimates”murder < − state.x77[,’’Murder’’]illit < − state.x77[,’’Illiteracy’’]cor.test(murder,illit)cor.test(murder,illit,method=’’s’’)
Prıklad 83 IS pre korelacny koeficient, data ”state.x77”
IScor function(x, y, conf.level = 0.95)z < − atanh(cor(x, y))a < − qnorm(1 - (1 - conf.level)/2)/(length(x) - 3)^0.5CI.Z < − c(z - a, z + a)conf.int < − tanh(CI.Z)
IScor(murder,illit)
9.6 Testovanie normality
9.6.1 Chi-kvadrat test dobrej zhody
Nech ξ1, ..., ξn je nahodny vyber. Chceme testovat nulovu hypotezu H0, ze ide o vyber z N(µ, σ2
), kde
parametre µ, σ2 nie su zname. Najprv vytvorıme triedy (podobne ako pri histograme)
(−∞, b1) , 〈b1, b2) , ..., 〈bk−2, bk−1) , 〈bk−1,∞) ,
kde k ≥ 4. Oznacme i-tu triedu ako Ji. Pravdepodobnost pi, ze dana velicina ξj (j = 1, ..., n) padne doJi, je rovna
pi = pi (µ, σ) =∫
Ji
f (x) dx, kde f (x) =1√2πσ
exp
[(x− µ)2
2σ2
].
Iteracne riesime sustavu
1n
k∑i=1
Xi
pi
∫Ji
xf (x) dx, σ2 =1n
k∑i=1
Xi
pi
∫Ji
(x− µ)2 f (x) dx.
Pozor: µ zavisia na pi a f (x) . Riesenia sustavy su µ a σ. Potom
χ2 =k∑
i=1
[Xi − npi (µ, σ)]2
npi (µ, σ)∼ χ2
k−3.
9 STATISTICKA INFERENCIA 57
9.6.2 Kolmogorov - Smirnovov test dobrej zhody
Zhodu rozdelenı veliciny v dvoch populaciach by sme mohli porovnavat, keby sme poznali ich distribucnefunkcie (CDF). Rozhodnutie o zhode distribucnych funkciı mozeme zalozit na porovnavanı ich odhadov,teda empirickych distribucnych funkciı. Empiricku distribucnu funkciu mozeme pısat ako kumulatıvnurelatıvnu pocetnost (pozri vyssie)
FX (x) =#xi < x
n,
kde n je pocet pozorovanı v nahodnom vybere.Tento test hodnotı maximalny rozdiel empirickych distribucnych funkciı
D = max∀x
∣∣∣FX (x)− FY (x)∣∣∣ .
Podobny vztah platı aj pre porovnanie empirickej a teoretickej distribucnej funkcie
D∗ = max∀x
∣∣∣FX (x)− FX (x)∣∣∣ .
Na rozhodovanie sluzia tabulky (e.g. Likes a Laga, 1978) alebo priblizna kriticka hodnota
Dn1,n2 (α) =√
n1 + n2
2n1n2log
2α
,
kde nulovu hypotezu zamietame, ak D ≥ Dn1,n2 (α).
Nech F1 a F2 su dve CDF. V jednovyberovej situacii je F1 empiricka CDF a F2 je CDF nulovejhypotezy. V dvojvyberovej situacii su obe F1 a F2 empiricke CDF.
• dvojvyberova situacia
H0 : F1 (x) = F2 (x) , pre ∀xH1 : F1 (x) 6= F2 (x) , pre aspon jedno x
alternatıva T = supx |F1 (x)− F2 (x)|
• jednovyberova alternatıva (”less”)
H0 : F1 (x) ≥ F2 (x) , pre ∀xH1 : F1 (x) < F2 (x) , pre aspon jedno x
alternativa T− = supx |F2 (x)− F1 (x)|
• jednovyberova alternatıva (”greather”)
H0 : F1 (x) ≤ F2 (x) , pre ∀xH1 : F1 (x) > F2 (x) , pre aspon jedno x
alternativa T+ = supx |F2 (x)− F1 (x)|
Pozn.:- v porovnanı s chı-kvadrat testom dobrej zhody mozeme pracovat aj s vybermi s malym rozsahom,- zakladom testovacej statistiky su rozdiely v napr. teoretickych a empirickych kumulatıvnych pocet-
nostiach (ako pri chı-kvadrat teste dobrej zhody),- najpr utvorıme usporiadany vyber,- zistıme empiricke pocetnosti nei
,- ocakavane (teoreticke) pocetnosti noi
,- empiricke kumulovane pocetnosti Nei
,- ocakavane kumulovane pocetnosti Noi
,
9 STATISTICKA INFERENCIA 58
- vypocıtame
d =1n
max |Nei−Noi
|
a v tabulkach, alebo ak n > 100 asymtoticky, na zaklade asymetrickeho rozdelenia veliciny dn, ktoreodvodil Kolmogorov (1941)
dn(0.95) ≈ 1.358√n
, dn(0.99) ≈ 1.628√n
,
ak d > dn (α), zamietame hypotezu H0.
9.6.3 Prıklady v S-PLUS a R
Prıklad 84 funkcia ”chisq.gof”
POZN.: chisq.gof testuje len dvojstrannu alternatıvu# vstupy# zadame ”x” a zadefinujeme typ rozdelenia, napr. distribution=’’normal’’ (default) alebo
’’chisquare’’, ’’t’’, ’’f’’, ’’exponential’’ a pod.# pocet tried a zlomove body su explicitne nastavene a nebudeme ich menit# vystupy# nazov pouziteho rozdelenia ”method”# testovacia statistika ”Chi-square”# df suvisiace s testovacou statistikou ”parameters”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”# pocty pozorovanı v jednotlivych intervaloch ”counts”# ocakavane pocty pozorovanı v jednotlivych intervaloch ”expected”
# nagenerujte pseudonahodne cısla z exponencialneho rozelenia (n=50) a porovnajte s normalnym aexponencialnym rozdelenım
x < − rexp(50, rate=1.0)chisq.gof(x)chisq.gof(x,dist=’’exponential’’,rate=1.0)# nagenerujte pseudonahodne cısla z poisonovho rozdelenia (n=50), rozdelte tento vektor v kvartiloch
ako zlomovych bodoch na 4 skupinyx < − rpois(50,lambda=3)breaks < − quantile(x)# vlozte minimalnu hodnotu do delenia# zlomove body - argument cut.pointsbreaks[1] < − cut.points[1] - 1z < − chisq.gof(x,cut.points=breaks,dist=’’poisson’’,lambda=3)z$countz$expected
Prıklad 85 funkcia ”ks.gof”
# vstupy# zadame ”x” a zadefinujeme typ rozdelenia, napr. distribution=’’normal’’ (default) alebo
’’chisquare’’, ’’t’’, ’’f’’, ’’exponential’’ a pod.# zadame ”x” a ”y” ako vektory dat# formulacia alternatıvy alternative=’’two.sided’’ je default (pre dvojvyberovy test je len tato
moznost), dalsie volby su ’’greater’’, ’’less’’# pocet tried a zlomove body su explicitne nastavene a nebudeme ich menit# vystupy
9 STATISTICKA INFERENCIA 59
# nazov pouziteho rozdelenia ”method”# testovacia statistika ”ks”# df suvisiace s testovacou statistikou ”parameters”# p-hodnota ”p-value”# alternatıvna hypoteza ”alternative hypothesis”
# jednovyberovy prıpadz < − rnorm(100)ks.gof(z, distribution = ’’normal’’)ks.gof(z, distribution = ’’chisquare’’, df = 2)# dvojvyberovy prıpadx < − rnorm(90)y < − rnorm(8, mean = 2.0, sd = 1)ks.gof(x, y)
# data ”mich” a zobrazenie ich kumulatıvnej distribucnej funkciecdf.compare(mich,dist=’’normal’’,mean=mean(mich),sd=sqrt(var(mich)))ks.gof(mich,dist=’’normal’’)chisq.gof(mich, dist = ’’normal’’, n.param.est = 2, mean = mean(mich), sd =
sqrt(var(mich)))
10 LINEARNE REGRESNE MODELY 60
10 Linearne regresne modely
Vseobecna formulacia statistickeho modelu:
1.) Zakladny model pre data x : je model nahodneho vyberu - x je realizacia nahodneho vyberu Xz nejakeho rozdelenia Fθ, θ ∈ Θ,
X = [X1, X2, ..., Xn] je iid, E [X] = µ (1, 1, ..., 1)T, D [X] = σ2In
2.) Regresny model na Yi, i =, ..., n
yi = g (xi) + εi, kde g (xi) je lubovolna spojita funkcia na R.A) g (·) je neparametricka funkcia - neparametricky model,B) g (·) je parametricka funkcia - parametricky model, kde yi = gθ (xi)+εi, θ ∈ Θ, θ =(θ1, θ2, ..., θn)T ∈
Ek, do tejto mnoziny patria klasicke linearne a nelinearne modely (LM a NLM).
10.1 Jednoduchy linearny regresny model
Definujem nasledovne pojmy:
• Nech yi reprezentuje hodnotu odpovede (response variable) na i-ej statistickej jednotke (na grafev dvojdimenzionalnej pravouhlej suradnicovej sustave ju znazornuje- me na vertikalnej y-ovej osi),a xi je hodnota nezavislej premennej (explanatory variable, na grafe znazornenej na horizontalnejx-ovej osi).
• Jednoduchy linearny regresny model mozeme definovat ako
yi = β0 + β1xi + εi
kde β0 je intercept a β1 je sklon (slope) priamky linearneho vztahu εi su nahodne chyby .
• Pre nahodne chyby predpokladame ich nezavislost (nezavisle nahodne premenne) a ich normalnerozdelene, εi ∼ N
(µ, σ2
). Dalej, Y ∼ N
(Xβ, σ2I
). Naviac
β ∼ N(β, σ2
(XT X
)−1)
.
• Regresne koeficienty, β0 a β1, su odhadnute metodou najmensıch stvorcov (MNS) ako β0 a β1.Potom
yi = β0 + β1xi,
kde sme β0 a β1 dostali nasledovne pomocou normalnych rovnıc
S2y (θ) =
n∑i=1
(yi − β0 − β1xi)2
∂S
∂β0= (−2)
∑(yi − β0 − β1xi) = 0,
∂S
∂β1= (−2)
∑xi(yi − β0 − β1xi) = 0
β0 =∑
yi − β1
∑xi
n= y − β1x
β1 =∑
(yi − y) (xi − x)∑(xi − x)2
= rx,y
√∑(yi − y)2√∑(xi − x)2
V maticovej podobe
XT X =(
n∑
xi∑xi
∑x2
i
),XT y =
( ∑yi∑
xiyi
)
10 LINEARNE REGRESNE MODELY 61
Ak A−1 = 1det(A)A, potom
(XT X
)−1=
1∑x2
i − nx2
(1n
∑x2
i −x−x 1
).
Regresia prechadzajuca pociatkom (model yi = β1xi + εi, teda β0 = 0, β1 = β) bude matnormalne rovnice a odhad β
S2y (θ) =
n∑i=1
(yi − β1xi)2 =⇒ β =
∑xiyi∑x2
i
Testovanie hypotezH0 : β1 = 0.ANOVA tabulka regresneho modelu yi = β0 + β1xi + εi bude
Zdroj rozptylu suma stvorcov df priemerne stvorce (MS)SSR
∑ni=1 (yi − y)2 dfR = 1 MSR = SSR/dfR
SSe
∑ni=1 (yi − yi)
2dfe = n− 2 MSe = SSe/dfe
SST
∑ni=1 (yi − y)2 dfT = n− 1
Dalej
σ2 = s2 =SSe
n− 2=
1n− 2
n∑i=1
(yi − yi)2
Za platnosti H0 bude MSR = MSR/MSe mat rozdelenie F1,n−2.Nakoniec, testovacia statistika a ISs pre β0 a β1 bude mat tvar
Ti =
∣∣∣βi − βi
∣∣∣s√
(XT X)−1ii
∼ tn−2, i = 1, 2
Najcastejsie β(0)i = 0. Potom (1− α)× 100%IS pre βi, i = 1, 2, bude mat tvar
β0 ± tn−2 (α) σ
√ ∑x2
i
n∑
(xi − x)2,
β1 ± tn−2 (α) σ
√1∑
(xi − x)2
a na zaklade kontrastoveho vektora c =(1, x)T , kde x je nejake dane cıslo (rozsırenu definıciu c pozrinizsie), mozeme pısat (1− α) %IS pre regresnu priamku
β0 + β1xi ± tn−2 (α) σ
√1n
+(x− x)2∑(xi − x)2
.
Ak pocıtame IS pre vsetky x ∈ 〈min∀xixi,max∀xi
xi〉, dostaneme dve vetvy hyperboly, ktore tvoria passpolahlivosti okolo regresnej priamky (Scheffeho metoda). Ten ale zarucuje prekrytie jednej hodnoty x sospolahlivostou 1 − α, ale nie celej priamky. Je mozne odvodit aj taky pas, ktory pokryje celu regresnupriamku so spolahlivostou 1− α. Hovorıme mu pas spolahlivosti pre regresnu priamku a bude mat tvar
β0 + β1xi ±√
2F2,n−2σ
√1n
+(x− x)2∑(xi − x)2
.
10 LINEARNE REGRESNE MODELY 62
Pozn.1: Pre regresny model yi = β0 + β1xi + εi nas moze zaujımat nasledovna nulova hypotezaH∗
0 : β =(β0, β1)T = β(0)=(0, 1)T oproti H∗
1 : β =(β0, β1)T 6= (0, 1)T , kedy by za platnosti H∗
0 bolaodpoved yi rovna xi az na nahodnu chybu εi, teda yi = xi + εi, kedy pouzijeme testovaciu statistiku
Z =1
2s2
(β − β(0)
)XT X
(β − β(0)
)T
∼ F2,n−2.
Pozn.2: Pri kvadratickej zavisloti mame linearny model v tvare
yi = β0 + β1xi + β2x2i + εi,
potom nas bude zaujımat nulova hypoteza H∗∗0 : β2 = 0 oproti H∗∗
1 : β2 6= 0, kedy ide o test linearityregresie. Tento test je zalozeny na statistike
T3 =|β2|
s√
(XT X)−122
∼ tn−3
Inokedy nas moze zaujımat H∗∗∗0 : (β1, β2)
T = 0 oproti H∗∗∗1 : (β1, β2)
T 6= 0, co je v tomto prıpade testzavislosti yi na xi. Na to potrebujeme testovaciu statistiku
Z =1
2s2(β1, β2)
(XT
subXsub
)(β1, β2)
T ∼ F2,n−3,
kde Xsub je 2 × 2 subblok matice X prisluchajuci testovanym koeficientom. Vo vseobecnosti ma Z ∼Fq,n−k, kde k je celkovy pocet koeficientov a q je pocet porovnavanych koeficientov.
10.2 Mnohorozmerny linearny regresny model
LM: yi = xTi θ+εi, (xi)1×k , θk×1∈Ek, i = 1, ..., n,
∑ni=1 xiθi = xT θ (skalarny sucin), Eθ [Yi] = xT
i θ zavisına i
yn×1 = Xn×kθk×1+εn×1,
kde E [ε] = 0, Cov [ε] = σ2I a X = [x1,x2, ...,xn] je matica planu regresneho experimentu, dalej Eθ [Y ] =Xθ, Covθ [Y ] = Cov [ε] = σ2I.
Pozn.:- yn×1 = (y1, y2, ..., yn)T ,
- Xn×k =
1 x11 x12 · · · x1,k−1
1 x21 x22 · · · x2,k−1
......
.... . .
...1 xn1 xn2 · · · xn,k−1
,
- θ = (θ0, ..., θk−1)T ,
- ε =(ε1, ..., εn)T .Inak mozeme pısat regresny model aj nasledovne
yi = β0 + β1xi1 + ... + βk−1xi,k−1 + εi.
Linearita: je v θ ⇒ zavislost gθ (·) na θ je linearnaEc1θ1+c2θ2 [Y ] = c1Eθ1 [Y ] + c2Eθ2 [Y ] , θ1, θ2 ∈ Θ = Ek
napr. yi = θ1 + θ2xi + θ3x2i + εi, i = 1, ..., n; θ =(θ1, θ2, θ3)
T ∈ E3
Odhady MNS
θ (y) = arg minθ∈Θ
S2y (θ) ,
10 LINEARNE REGRESNE MODELY 63
kde
S2y (θ) =
n∑i=1
(yi − gθ (xi))2.
normalne rovnice - k -rovnıc o k -neznamych, θ (y) : ∂S2y(θ)
∂θ |bθ(y) = 0NR pre LRM, kde θ = βy = Xθ + ε,Eθ [Y] = Xθ,Cov [Y] = σ2In
• MNS odhad β je definovany akoβ (y) =
(XT X
)−1XT y,
• PlatıEβ
[β]
= β,∀β ∈Ek,
Covσ2
[β]
= σ2(XT X
)−1,
kde pre rezidualny rozptyl platı
s2 = σ2 =1
n− k
n∑i=1
(yi −
(Xβ)
i
)2
=1
n− k
n∑i=1
ε2i =
1n− k
‖ε‖2
=1
n− k
∥∥∥y −Xβ∥∥∥2
=1
n− k
(y −Xβ
)T (y −Xβ
),
kde ‖A‖2 = AT A, σ2 je nevychyleny konzistentny odhad pre σ2, co vyplyva z E[εT ε]
= σ2 (n− k) ,
kde (n− k) je pocet stupnov volnosti modelu (df ), σ2 ma najmensı rozptyl medzi vsetkymi kvadrat-ickymi nevychylenymi odhadmi,
SSe =∥∥∥y −Xβ
∥∥∥2
= yT y−βT XT Xβ
= yT y − yT X(XT X
)−1XT y
= yT Py,
kde P = I−X(XT X
)−1XT , nazyvame rezidualny sucet stvorcov.
• diagonalne elementy matice Cov[β], Cov [βi, βj ] = V ar [βi] = σ2
(XT X
)−1
ij, kde i = j, su rozptyly
parametrov βi, mimodiagonalne elementy su kovariancie medzi parmi βi, βk, kde i 6= j. Odmocninydiagonalnych elementov tejto matice su teda standardne chyby parametrov βi;
• potom je standardna chyba βi dana vztahom
se(βi) = σ
√(XT X)−1
ii ,
• platı ε ∼ N(0, σ2I
), z coho vyplyva, ze y ∼ N
(Xβ, σ2I
). Naviac
β ∼ N(β, σ2
(XT X
)−1)
;
• platı
Ti =βi − βi
s√
(XT X)−1ii
∼ tn−k,
10 LINEARNE REGRESNE MODELY 64
pretozeβi − βi
σ√
(XT X)−1ii
∼ N (0, 1)
a naviacSSe
σ2∼ χ2
n−k
a β a s2 su nezavisle. Preto(βi − βi
)/σ√
(XT X)−1ii√
SSe/σ2
√n− k = Ti ∼ tn−k.
Prave pomocou vyssie spomenuteho vzorca mozeme testovat nulovu hypotezu
H0 : βi = β(0)i ,
voci alternatıve H1 : βi 6= β(0)i , kedy H0 zamietame na hladine vyznamnosti α, ak platı
Ti =
∣∣∣βi − βi
∣∣∣sy
√(XT X)−1
ii
∼ tn−k.
Najcastejsie β(0)i = 0. Potom (1− α)× 100%IS pre βi bude mat tvar
βi ± tn−k (α/2) σ
√(XT X)−1
ii .
• (1− α)× 100%CS (elipsa spolahlivosti, konfidencna elipsa) ma tvar(β − β(0)
)T
XT X(β − β(0)
)kσ2
∼ Fk−1,n−k,
kde (β − β(0)
)T
XT X(β − β(0)
)σ2
∼ χ2k
a(n− k) σ2
σ2∼ χ2
n−k
su nezavisle.
• Kontrasty. Nech c = (c1, c2, ..., ck)T je vektor kontrastov. Potom E[cT β
]= cT β a
T =
∣∣∣cT β − cT β∣∣∣
s
√cT (XT X)−1 c
∼ tn−k,
co vedie ku (1− α)× 100%CS pre cT β v podobe
cT β ± tn−k (α) s
√cT (XT X)−1 c.
Ak vsak chceme najst (1− α)×100%ISs pre p linearnych kombinaciı cTj β sucasne, spolocna pravde-
podobnost ISs uz nebude 1− α. Uvedieme jednu z viacerych moznostı riesenia tohoto problemu.
10 LINEARNE REGRESNE MODELY 65
• Bonferroniho metoda. Nech E1, ..., Ep su nahodne udalosti. Potom
Pr(∩p
j=1Ej
)≥ 1−
p∑i=1
Pr (Ej) ,
teda
Pr(∩p
j=1
[cT
j β ∈ cTj β ± tn−k
( α
2k
)s
√cT
i (XT X)−1 ci
])≥ 1− k
α
k= 1− α.
• Regresna diagnostika. Vyssie sme definovali
SSe = ‖y − y‖2 .
Teraz nam ostava dodefinovat celkovu sumu stvorcov
SST = ‖y − y‖2
a regresnu sumu stvorcovSSR = ‖y − y‖2 .
Potom mozeme vytvorit ANOVA tabulku regresneho modelu y = Xβ + ε nasledovne
Zdroj rozptylu df Priemerne stvorce (Mean Squares (MS))SSR dfR = k − 1 MSR = SSR/dfR
SSe dfe = n− k MSe = SSe/dfe
SST dfT = n− 1
• Priemerna suma stvorcovMSR = MSR/MSe ∼ Fk−1,n−k
sluzi v F -teste na testovanie vseobecnej nulovej hypotezy
H0 : β1 = ... = βk−1 = 0.
Korelacia medzi pozorovanymi hodnotami yi a modelom predikovanymi hodnotami yi je znamaako mnohorozmerny koeficient korelacie (multiple correlation coeficient, R). Hodnota R2 poukazujena proporciu rozptylu odpovede (podiel vysvetlenej variability, koeficient determinacie, proportion ofvariance of the response variable)
R2 = 1− SSe
SST
korigovany (adjustovany) koeficient determinacie (ma tendenciu nechavat pıliz vela premennych vmodeli)
R2adj = 1− n− 1
n− k
SSe
SST= 1− n− 1
n− k
(1−R2
)Pozn.: Pri interpretacii R2 treba byt opatrny. Tento koeficient sıce hovorı o tom, kolko variability je
vysvetlene modelom pri danych hodnotach nezavislej premennej, ale pokial β1 pri jednoduchej linearnejregresii ako βy|x, a naopak βx|y pri opacnej zavislosti, dostali by sme
βy|xβx|y = R2xy.
Dalej, pokial zavislost yi na x1i adjustujeme modelovanu zavislost aj voci x2i. Potom ma zmysel hovoritaj o parcialnom korelacnom koeficiente
ρxy,z =ρxy − ρxzρyz√
(1− ρ2xz)(1− ρ2
yz
) ,kde je z nova premenna, ktorej zavislost na premennych x, y meriame. V skutocnosti ide o klasickykorelacny koeficient medzi dvoma novymi velicinami, ktore dostaneme ako rezidualy predpovede velicinyx, resp. y pomocou z. Pri odhade pouzijeme empiricky protajsok ρ v podobe r.
10 LINEARNE REGRESNE MODELY 66
• (1− α) × 100%CS pre predikciu. Nech xnove je p-vektor novych hodnot, na zaklade ktorych amodelu by sme chceli predikovat buduce ynove, teda
ynove = xTnoveβ.
PlatıV ar[xT
noveβ] = xTnove(X
T X)−1xnoveσ2.
My potrebujeme rozlisovat medzi
1) predikciou buducich pozorovanı - teda ak mame xnove, ake bude ynove, ynove = xTnoveβ + ε,E [ε] = 0,
predikujeme ynove = xTnoveβ, ale v odhade rozptylu tohoto odhadu musıme zahrnut rozptyl chyb ε, D [ε]
(prediction of future values)95%CI teda bude
ynove ± tn−k (α/2) σ√
1 + xnove(XT X)−1xTnove,
2) predikciou buducej priemernej odpovede - teda ak mame xnove, ake bude priemerne ynove, ynove =xT
noveβ + ε, kde znovu predikujeme ynove = xTnoveβ, ale v odhade rozptylu tohoto odhadu musıme zahrnut
rozptyl β, D[β]
(prediction of the mean response)
ynove ± tn−k (α/2) σ√
xnove(XT X)−1xTnove.
• Testovanie hypotez o submodeloch. Majme nadmodel Ω a submodel ω, ktory pozostava zpodmnoziny prediktorov β obsiahnutych v Ω. Teda zoberieme ω, ktory bude reprezentovat nulovuhypotezu a Ω, ktory bude predstavovat alternatıvnu hypotezu. Ak ωSSe −Ω SSe je male cıslo,potom je ω adekvatny model vo vztahu ku Ω. To vedie ku testovacej statistike typu
(ωSSe −Ω SSe) /ΩSSe,
kde je menovatel pouzity ako skala. Tento typ statistiky vznikol na zaklade pomeru vierohodnosti
maxβ,σ∈Ω L (β, σ|y)maxβ,σ∈ω L (β, σ|y)
.
Test zamieta nulovu hypotezu, ak je tento pomer dost velky. Vieme, ze L(β, σ|y
)≈ σ−n, co nam
dava test, ktory zamieta, ked
σω
σΩ> konst. ≈ ωSSe
ΩSSe> konst. ≈ ωSSe
ΩSSe− 1 > konst.− 1 ≈ ωSSe −Ω SSe
ΩSSe> konst.
Ak pocet parametrov (dimenzia) modelu Ω je k, a dimenzia modelu ω je q, potom podla Cochranovejvety, za platnosti nulovej hypotezy (ω) platı
ωSSe −Ω SSe
k − q∼ σ2χ2
k−q,ΩSSe
n− k∼ σ2χ2
n−k
a tieto podiely su nezavisle, potom platı
F =(ωSSe −Ω SSe) / (k − q)
ΩSSe/ (n− k)∼ Fk−q,n−k.
Nulovu hypotezu zamietame, ak F > Fk−q,n−k(α). Vzdy platı, ze
df = #pozorovanı −#parametrov,
potom
F =(ωSSe −Ω SSe) / (dfω − dfΩ)
ΩSSe/ (dfΩ)
10 LINEARNE REGRESNE MODELY 67
10.2.1 Regresna diagnostika
Grafy diagnostiky linearneho modelu: hlavnu ulohu zohravaju rezidualy v absolutnej hodnote
absri = |yi − yi| ,
nemusia mat konstantny (rovnaky) rozptyl (presnost yi zavisi na xi), obcas su standardizovane predpouzitım, pozri Cook and Weisberg (1982).
• rezidualy absri vs. fitovane hodnoty - ak nejde priblizne o horizontalny kompaktny oblak bodov,potom to indikuje, ze
- funkcionalna forma nasho modelu je nespravna alebo
- mame nekonstantny rozptyl
• rezidualy absri vs. realizacie (x, ”exploratory variables”) - systematicka struktura indikuje ne-dodrzanie konstantnosti rozptylu alebo nevhodnost typu modelu
• qq-plot rezidualov
• ’index plot’ Cookovych vydialenostı Dk pre kazde pozorovanie (y) - hodnoty Dk predstavuju vplyvk-teho pozorovania na odhadovane regresne koeficienty. Hodnoty Dk > 1 naznacuju, ze prıslusnepozorovania maju nadmerny vplyv na odhadovane regresne koeficienty. Cookove vzdialenosti defin-ujeme ako
Dk =1
(p + 1) s2
n∑i=1
[yi(k) − yi
]2,
kde yi(k) su fitovane hodnoty, ked je k-te pozorovanie odstranene z modelu.
10.3 Prıklady v S-PLUS a R
Prıklad 86 ANAEROB - zobrazte premennu ”oxygen uptake” oproti premennej ”expired ventilation” adopıste do grafu aj korelacny koeficient zaokruhleny na dve desatinne miesta. Vkreslite do grafu aj regresnupriamku, ktorej koeficienty dostaneme MNS.
ANAEROB data.frame(ANAEROB)attach(ANAEROB)plot(Oxygen,Ventilation,xlab=’’Oxygen uptake’’, ylab = ’’ Expired ventila- tion ’’)text(locator(1),paste(’’Correlation of oxygen uptakeand expired ventilation= ’’,round(cor(Oxygen,Ventilation),digits=2)))MODEL lm(Ventilation~Oxygen)abline(MODEL)
Prıklad 87 ANAEROB linearny model. Popıste vystup z modelu. Pouzite data ANAEROB a premenneOxygen a Ventilation.
summary(MODEL)
Prıklad 88 Ako otestovat nulovost vsetkych regresnych koeficientov okrem interceptu? Pouzite dataANAEROB a premenne Oxygen a Ventilation.
Navod: vypocıtajte SSe a SSR
k ... pocet parametrov v modelidf.model ... modelove dfdf.model summary(MODEL)$df[2]SSy sum((DATA$y-mean(DATA$y))^2)SSe sum(MODEL$res^2)
10 LINEARNE REGRESNE MODELY 68
F ((SSy-SSe)/(k-1))/(SSe/df.model)p-hodnota je potomPvalue 1-pf(F,k-1,df.model)
Prıklad 89 Pouzitie F - statistiky v simulaciach. Nagenerujte 1000 nahodnych permutaciı a vypocıtajtepomer F - statistı, ktore presuahnu F - statistik vypocıtanu z realizaciı. Pouzite data ANAEROB a premenneOxygen a Ventilation.
Navod:
• extrakcia F -statistiky je nasledovna
MODEL.Fstat summary(MODEL)$fstatjednotlive polozky vystupu su ... [1] value, [2] numdf, [3] dendf
• nahodne permutacie su generovane funkciou ... sample(VEKTOR) ... ide o tzv. neparametrickypermutacny test
attach(DATA)# DATA maju odpoved Y a maticu planu (realizaciı) XMODEL lm(y~X,data= DATA)Fstat summary(MODEL)$fstat[1]F.stat numeric(1000)for (i in 1:1000)MODELsimul lm(sample(y)~X,data= DATA)F.stat[i] summary(MODELsimul)$fstat[1]PROP length(F.stat[F.stat > Fstat])/1000# hodnota bude blızka p-hodnote vypocıtanej na zaklade teorie normality, pokial nie su silne porusene
predpoklady modeluPROP
Prıklad 90 Testovanie nulovosti regresnych koeficientov samostatne. Pouzite data ANAEROB a premenneOxygen a Ventilation.
Navod:# c ... hodnota regresneho koeficientu za platnosti nulovej hypotezy.# MODEL$coef ... extrahovanie odhadov hodnot jednotlivych regresnych koeficientovodhad.beta.i MODEL$coef[i]Ti (odhad.beta-c)/se(odhad.beta)# p-hodnota je potom2*pt(Ti,df.model)
Exercise 91 Zo stranky http://cran.r-project.org/ stiahnite kniznicu ”ellipse” a vlozte z nej pro-gramy ellipse, ellipse.default, ellipse.lm, ellipse.profile, pairs. profile do S-PLUS.Pouzite data ANAEROB a premenne Oxygen a Ventilation.
Navod:plot(ellipse(MODEL,c(1,2)),type=’’l’’)# nezabudnite na limitaciu osı !!!points(0,0)points(MODEL$coef[1],MODEL$coef[2])
Prıklad 92 IS pre modelom odhadnutu odpoved a pre modelom odhadnutu priemernu odpoved. Pouzitedata ANAEROB a premenne Oxygen a Ventilation.
10 LINEARNE REGRESNE MODELY 69
Navod:
• n ... pocet statistickych jednotiek v modeli
ak zadefinujeme nejaku hodnotu x0, potom odhad y0y0 MODEL$coef[1]+x0*MODEL$coef[2]t.cv qt(0.975,df.model)# ak X je matica planu, potom (XT X)−1 budeX as.matrix(X)XtXi solve(t(X)%*%X)# (1) ak 95%CI pre modelom odhadnutu priemernu odpoved je tvaru y0±BM, potomBM1 sqrt(x0%*%XtXi%*%x0)*t.cv*sqrt(sum(MODEL$res∧2)/(n-p))95CI c(y0-BM1,y0+BM1)# (2) ak 95%CI pre modelom odhadnutu odpoved je tvaru y0±BM, potomBM2 sqrt(1+x0%*%XtXi%*%x0)*t.cv*sqrt(sum(MODEL$res∧2)/(n-p)95CI c(y0-BM2,y0+BM2)
• pomocou preddefinovanych funkciı:
# dostaneme BM1 pre prıpad (1)predict(MODEL,x0,se=T)...[1] fit, [2] se.fit, [3] df
Prıklad 93 Nakreslite pas spolahlivosti pre modelom odhadnute priemerne odpovede.Pouzite data ANAEROB a premenne Oxygen a Ventilation.
Navod:attach(DATA)# X1 je stlpec v DATA# a=min(X1),b=max(X1)a min(Weight)b max(Weight)X1.seq seq(a,b,by=1)PRED predict(MODEL,data.frame(X1=X1.seq),se=T)cv qt(0.975,summary(MODEL)$df[2]matplot(X1.seq,cbind(PRED$fit,PRED$fit-cv*PRED$se,PRED$fit+cv*PRED$se),
lty=c(1,2,2), type=’’l’’, xlab=’’X1’’,ylab=’’Y’’)rug(DATA$X1)points(X1,y,pch=16)
Prıklad 94 Co tak kvadraticka regresia? Pouzite data ANAEROB a premenne Oxygen aVentilation. Nakreslite aj graf s pasom spolahlivosti pre modelom odhadnute odpovedea pre modelom odhadnute priemerne odpovede. Urobte taky isty graf aj pre priamku.
Navod:# linearna regresia - priamkaplot(X1,Y)n < − length(Y)X < − cbind(rep(1,n),X1)# BETA < − solve(X, Y)BETA < − MODEL$coefminX1 < − min(X1)maxX1 < − max(X1)minY < − min(Y)maxY < − max(Y)SIMUL.X < − seq(minX1, maxX1,by=0.01)
10 LINEARNE REGRESNE MODELY 70
SIMUL.X < − cbind(rep(1,length(SIMUL.X)), SIMUL.X)ODHAD.Y < − SIMUL.X%*%BETASIGMA.odh < − sqrt(sum(X%*%BETA-Y)∧2)/(n-2)CONF.INT < − qt(0.975,n-2)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))PRED.INT < − qt(0.975,n-2)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))plot(X1,Y,xlim=c(minX1, maxX1),ylim=c(minY, maxY))lines(SIMUL.X1, ODHAD.Y)lines(SIMUL.X1, ODHAD.Y-CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y+CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y-PRED.INT,lty=3)lines(SIMUL.X1, ODHAD.Y+PRED.INT,lty=3)rug(X1)# linearna regresia - parabolaMODELkvadr lm(Y ~X1 + I(X1^2), data=DATA)plot(X1,Y)n < − length(Y)X < − cbind(rep(1,n),X1,X1^2)# BETA < − solve(X, Y)BETA < − MODELkvadr$coefminX1 < − min(X1)maxX1 < − max(X1)minY < − min(Y)maxY < − max(Y)SIMUL.X < − seq(minX1, maxX1,by=0.01)SIMUL.X < − cbind(rep(1,length(SIMUL.X)), SIMUL.X, SIMUL.X^2)ODHAD.Y < − SIMUL.X%*%BETASIGMA.odh < − sqrt(sum((X%*%BETA-Y)∧2)/(n-3))CONF.INT < − qt(0.975,n-3)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))PRED.INT < − qt(0.975,n-3)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X)) %*% t(SIMUL.X)))plot(X1,Y,xlim=c(minX1, maxX1),ylim=c(minY, maxY))lines(SIMUL.X1, ODHAD.Y)lines(SIMUL.X1, ODHAD.Y-CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y+CONF.INT,lty=2)lines(SIMUL.X1, ODHAD.Y-PRED.INT,lty=3)lines(SIMUL.X1, ODHAD.Y+PRED.INT,lty=3)rug(X1)
Prıklad 95 Testovanie submodelov. Pouzite vysledky modelov MODEL a MODELkvadr
uvedenych vyssie.
Navod:
• pre F-statistiku
F sum(nested.model$res^2-full.model$res^2)/full.model$res^2 *df.full/(df.nested-df.full)p-hodnota je potom 1-pf(F,df.nested-df.full,df.full)
10 LINEARNE REGRESNE MODELY 71
• pre t-statistiku
T sqrt(F)p-hodnota je potom 2*(1-pt(T,df.full))
• Test H0 : modelω, H1 : modelΩ
anova(nested.model,full.model)
Prıklad 96 Regresna diagnostika
plot(MODEL)
11 PRIKLAD ANALYZY DAT V R 72
11 Prıklad analyzy dat v R
Data pochadzaju z autorovej databazy z gynekologickeho projektu ”Sledovanie niektorych parametrovoxidacneho stresu pocas porodu”vo Fakultnej Nemocnici s Poliklinikou Bratislava, pracovisko Ruzinov,ktoreho sa zucastnil v roku 2002.
Vyznam stlpcov je nasledovny:1. malondialdehyd (MDA) je latka, ktora sa meria v krvi novorodencov a rodiciek a jej zvysena
hladina indikuje stres, IMDA je meranie prve a IIMDA je meranie druhe, hypoteza je, ze IIMDA by malobyt mensie ako IMDA, teda stres casom klesa
2. lipofuscin detto, ILipo, IILipo3. vek = vek rodicky4. t.gr = pocet tyzdnov gravidity5. poc.deti = pocet detı rodicky6. hmotnost = hmotnost dietata v gramoch7. status.AS1min = do7, nad7 (nad7 - dieta je v dobrej kondıcii, pod7 - potrebuje dodatkovu specialnu
starostlivost)8. AS5minAPGAR skore (AS, z anglickeho Activity, Pulse, Grimace, Appearance and Respiration) v Apgar teste
na hodnotenie kondıcie novorodenca hned po porode, v 1. a 5.min, tu je nasledovnych 5 skorovanychpremennych (davaju sa body od 0b po 2b, spolu teda 10)
- pulzova frekvencia (2b - nad 100 uderov/min, 1b - pod 100 uderov/min, 0b - bez pulzu),- dychanie (rychlost a sila, 2b - normalne, 1b - pomale alebo nezvycajne, 0b absentujuce),- aktivita a svalovy tonus (2b - aktıvny, spontanny pohyb, 1b - ruky a nohy skrcene s malym pohybom,
0b - bez pohybu, tzv. ”floppy tonus”),- grimasova odpoved (znama ako ”reflex irritability”, 2b - odtahovanie na podnet, kychanie alebo
kaslanie, 1b- iba tvarove grimasy so stimulaciou, 0b - absencia, bez odpovede na stimulaciu),- farba a vzhlad pokozky (2b - normalna farba vsade, aj ruky a nohy su ruzove, 1b - normalna farba,
ale ruky a nohy su namodrale, 0b - modro-siva alebo bleda farba vsade).Ak bolo AS v 1min po porode pod7 a nezlepsilo sa do tejto 5min, sestricka musı pokracovat v
”podpore”dietata. AS je teda monitoring momentalneho stavu kondıcie a zdravia dietata a moze bytpouzite aj v domacej starostlivosti neskor.
9. status.pH = pH krvi mensie alebo vacsie ako 7.2, teda pod7.2, nad7.2 10. status.IDP = trvanieprvej doby porodnej, t.j. do4hod, nad4hod 11. status.IIDP = trvanie druhej doby porodnej, t.j. do10min,nad10min 12. status.porod = spontanny a cisarsky.rez
# ----------------------------------------------------------------# PRIKLAD: R-kod# ----------------------------------------------------------------
# desatinna bodka# "<-" priradovanie# pomocnik ... help(FUNKCIA)
# matematicke a zakladne operacie
# >, <, >=, <=, ==# odmocnina ... sqrt()# absolutna hodnota ... abs()# mocnina ... cislo^exponent# +,-,*,/ \# logaritmus ... log(ZAKLAD,BAZA)# exp(EXPONENT) ... "e"# zoradenie podla velkosti ... sort(VEKTOR)
11 PRIKLAD ANALYZY DAT V R 73
# vektor ... c(CISLO,...,CISLO)# matica ... matrix(CISLA,pocet.riadkov,pocet.stlpcov)
# ----------------------------------------------------------------
# nacitanie dat# nazov v uvodzovkach + cesta# header=T ... hlavickaNOVOROD<-read.table("D:/Dokumenty/SURNE/WEB/asnovorod.txt",header=T)RODICKY<-read.table("D:/Dokumenty/SURNE/WEB/asdatab.txt",header=T)
# nacitanie nazvov stlpcov
names(NOVOROD)# [1] "PC" "MDA" "lipofuscin" "vek"# [5] "t.gr" "poc.deti" "pH" "hmotnost"# [9] "AS5min" "status.pH" "status.IDP" "status.IIDP"# [13] "status.AS1min"
names(RODICKY)# [1] "pc" "IMDA" "IIMDA" "ILipo" "IILipo"# [6] "vek" "poc.deti" "t.gr" "status.porod" "status.pH"# [11] "status.IDP" "status.IIDP"
# priame citanie nazvov stlpcov pri analyze
attach(NOVOROD)attach(RODICKY)
# zobrazenie dat v tabulke
edit(NOVOROD)
# ----------------------------------------------------------------
# zakladne charakteristiky polohy
summary(NOVOROD)
# PC MDA lipofuscin vek# Min. : 1.00 Min. :0.1500 Min. : 6.130 Min. :20.00# 1st Qu.:13.75 1st Qu.:0.4850 1st Qu.: 8.623 1st Qu.:27.00# Median :26.50 Median :0.6300 Median : 9.800 Median :29.00# Mean :26.50 Mean :0.6033 Mean : 9.785 Mean :30.25# 3rd Qu.:39.25 3rd Qu.:0.7000 3rd Qu.:10.903 3rd Qu.:33.00# Max. :52.00 Max. :1.1700 Max. :12.620 Max. :40.00# t.gr poc.deti pH hmotnost# Min. :36.00 Min. :1.000 Min. :7.030 Min. :2610# 1st Qu.:39.00 1st Qu.:1.000 1st Qu.:7.190 1st Qu.:3113# Median :40.00 Median :1.500 Median :7.297 Median :3470# Mean :39.83 Mean :1.635 Mean :7.275 Mean :3460
11 PRIKLAD ANALYZY DAT V R 74
# 3rd Qu.:41.00 3rd Qu.:2.000 3rd Qu.:7.343 3rd Qu.:3713# Max. :41.00 Max. :4.000 Max. :7.457 Max. :4450# AS5min status.pH status.IDP status.IIDP status.AS1min# Min. : 7.000 nad7.2:37 do4hod :24 do10min :26 do7 : 8# 1st Qu.:10.000 pod7.2:15 nad4hod:28 nad10min:26 nad7:44# Median :10.000# Mean : 9.885# 3rd Qu.:10.000# Max. :10.000
# frekvencna tabulka
table(poc.deti,status.porod)# status.porod# poc.deti cisarsky.rez spontanny# 1 9 32# 2 7 13# 3 2 2# 7 0 1
# priemer, rozptyl, smerodajna odchylka, minimum, maximum, kvantily# (0,0.25,0.5,0.75,1) - v zatvorke je vektor pozorovani (realizacii)
mean(hmotnost)# [1] 3460
var(hmotnost)# [1] 178772.5
sqrt(var(hmotnost))# [1] 422.815
min(hmotnost)# [1] 2610
max(hmotnost)# [1] 4450
quantile(hmotnost,c(0,0.25,0.5,0.75,1))# 0% 25% 50% 75% 100%# 2610.0 3112.5 3470.0 3712.5 4450.0
# dlzka vektora, pocet riadkov matice - pocet pozorovani
length(hmotnost)# [1] 52
nrow(NOVOROD)# [1] 52
# pokial mame v datach chybajuce hodnoty, treba urobit upravu tak, aby boli# chybajuce hodnoty vyradene - nova funkcia (priklady mean a var)
11 PRIKLAD ANALYZY DAT V R 75
Mmean <- function(x) mean(x[!is.na(x)])Mvar <- function(x) var(x[!is.na(x)])
Mmean(hmotnost)Mvar(hmotnost)
# vypocet napr. priemeru vnutri kategorialnej premennej, napr. piemer IMDA pre# oba typy porodov
sapply(split(IMDA,status.porod),mean)
# cisarsky.rez spontanny# 0.755000 1.008333
# co tak priradenie nazvu vysledku
AP.IMDA <- sapply(split(IMDA,status.porod),mean)
# co tak zaokruhlenie na 3 desatinne miesta
round(AP.IMDA,3)
# cisarsky.rez spontanny# 0.755 1.008
# ----------------------------------------------------------------
# GRAFICKE ZNAZORNENIA
# histogram (absolutna a relativna skala) - nastavenie priblizneho poctu intervalov# "nclass", vypisanie stredov intervalov, poctu pozorovani v nich
hist(hmotnost)hist(hmotnost, probability=T)hist(hmotnost,probability=T, nclass=20)x <- hist(hmotnost,nclass=20)
# boxplot# "varwidth=T" ... sirka krabiciek == sqrt(ROZSAH)# "notch=T" ... IS okolo medianu# "outpch=16" ... typ bodiek
boxplot(split(IMDA,status.porod),varwidth=T,notch=T,outpch=16)
# vkreslenie aritmetickych priemerov do boxplotu
apIMDA<-sapply(split(IMDA,status.porod),mean)points(apIMDA,pch=16)
# kvantilovy graf (qq plot)
11 PRIKLAD ANALYZY DAT V R 76
qqnorm(IMDA)qqline(IMDA)
# obrazok typu "scatter plot" + popisy
plot(IMDA,IIMDA,pch=16, main="Vztah IMDA a IIMDA", xlab="IMDA",ylab="IIMDA")
plot(IMDA,IIMDA, main="Vztah IMDA a IIMDA", xlab="IMDA",ylab="IIMDA",type="n")points(IMDA[status.porod=="cisarsky.rez"],IIMDA[status.porod=="cisarsky.rez"],pch=2)points(IMDA[status.porod=="cisarsky.rez"],IIMDA[status.porod=="cisarsky.rez"],pch=16)legend(5,20,c("spontanny","cisarsky.rez"),pch=c(2,16,))
# CDF (kumulativna distribucna fukcia), empiricka a simulovana "rnorm" s aritmetickym# priemerom a sd ako data
plot.ecdf(hmotnost)plot.ecdf(rnorm(1000,mean=mean(hmotnost),sd=sqrt(var(hmotnost))))
# graf hustoty
plot(density(hmotnost))
# ----------------------------------------------------------------
# STATISTICKA INFERENCIA
# KS test normality
ks.test(hmotnost,"pnorm",mean(hmotnost),sqrt(var(hmotnost)))
# One-sample Kolmogorov-Smirnov test
# data: hmotnost# D = 0.0647, p-value = 0.9815# alternative hypothesis: two.sided
ks.test(IMDA,IIMDA)
# Two-sample Kolmogorov-Smirnov test
# data: IMDA and IIMDA# D = 0.1515, p-value = 0.4349# alternative hypothesis: two.sided
# F - test na porovnanie rozptylov
var.test(IMDA,IIMDA)
# F test to compare two variances
# data: IMDA and IIMDA# F = 1.5024, num df = 65, denom df = 65, p-value = 0.1033
11 PRIKLAD ANALYZY DAT V R 77
# alternative hypothesis: true ratio of variances is not equal to 1# 95 percent confidence interval:# 0.9199607 2.4536334# sample estimates:# ratio of variances# 1.502413
# t - test na porovnanie populacnych strednych hodnot
t.test(IMDA,IIMDA)
# Welch Two Sample t-test
# data: IMDA and IIMDA# t = 1.3711, df = 124.963, p-value = 0.1728# alternative hypothesis: true difference in means is not equal to 0# 95 percent confidence interval:# -0.03896776 0.21472534# sample estimates:# mean of x mean of y# 0.9392424 0.8513636
t.test(IMDA,IIMDA,paired=T)
# Paired t-test
# data: IMDA and IIMDA# t = 2.0637, df = 65, p-value = 0.04305# alternative hypothesis: true difference in means is not equal to 0# 95 percent confidence interval:# 0.002833598 0.172923977# sample estimates:# mean of the differences# 0.08787879
# VOLBY v t - teste# alternative = "two.sided", alternative = "less", alternative = "greater"# paired = F, paired = T# var.equal = F, var.equal = T# conf.level = 0.95# mu = 0 ... volba "strednej hodnoty za platnosti nulovej hypotezy"
# neparametricky pristup
wilcox.test(IMDA,IIMDA,paired=T)
# Wilcoxon signed rank test with continuity correction
# data: IMDA and IIMDA# V = 1418.5, p-value = 0.04589# alternative hypothesis: true mu is not equal to 0
11 PRIKLAD ANALYZY DAT V R 78
# ----------------------------------------------------------------
# KORELACNA ANALYZA
cor.test(IMDA,IIMDA)
# Pearson’s product-moment correlation
# data: IMDA and IIMDA# t = 5.5522, df = 64, p-value = 5.811e-07# alternative hypothesis: true correlation is not equal to 0# 95 percent confidence interval:# 0.3806653 0.7137084# sample estimates:# cor# 0.5701667
# VOLBY# alternative = "two.sided", alternative = "less", alternative = "greater"# method = "pearson", method = "spearman"# conf.level = 0.95
# ----------------------------------------------------------------
# LINEARNY REGRESNY MODEL
MDAlm01 <- lm(IMDA ~ IIMDA, data = RODICKY)summary(MDAlm01)
# Call:# lm(formula = IMDA ~ IIMDA, data = RODICKY)
# Residuals:# Min 1Q Median 3Q Max# -0.86898 -0.22835 -0.06587 0.16532 0.93290
# Coefficients:Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.3442 0.1148 2.999 0.00385 **# IIMDA 0.6989 0.1259 5.552 5.81e-07 ***# ---# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Residual standard error: 0.334 on 64 degrees of freedom# Multiple R-Squared: 0.3251, Adjusted R-squared: 0.3145# F-statistic: 30.83 on 1 and 64 DF, p-value: 5.811e-07
hist(resid(MDAlm01))qqnorm(resid(MDAlm01))qqline(resid(MDAlm01))
# kvantilovy graf, tiez je tu nahlad na normalitu dat, ak su data
11 PRIKLAD ANALYZY DAT V R 79
# okolo priamky rozptylene len malo, je to OK, konce casto "utekaju",# tu to nie je take kriticke - model je OK
plot(fitted(MDAlm01),resid(MDAlm01))
# obrazok fitovanych hodnot voci rezidualom - nesmie byt vidiet nijaku# zavislost, inak je model ZLY (tu je to OK)
# ISs a predikcne intervaly okolo regresnej priamky
plot(IIMDA,IMDA)n <- length(IMDA)X <- cbind(rep(1,n),IMDA)# BETA <- solve(X, IIMDA)BETA <- MDAlm01$coefminIMDA <- min(IMDA)maxIMDA <- max(IMDA)minIIMDA <- min(IIMDA)maxIIMDA <- max(IMDA)SIMUL.IMDA <- seq(minIMDA, maxIMDA,by=0.01)SIMUL.X <- cbind(rep(1,length(SIMUL.IMDA)), SIMUL.IMDA)SIMUL.IIMDA <- SIMUL.X%*%BETASIGMA.odh <- sqrt(sum(X%*%BETA-IIMDA)^2)/(n-2)CONF.INT <- qt(0.975,n-2)*SIGMA.odh * sqrt(diag(SIMUL.X%*%solve(crossprod(X))%*%t(SIMUL.X)))PRED.INT <- qt(0.975,n-2)*SIGMA.odh * sqrt(1+diag(SIMUL.X%*%solve(crossprod(X))%*%t(SIMUL.X)))plot(IIMDA,IMDA,xlim=c(minIMDA, maxIMDA),ylim=c(minIIMDA, maxIIMDA))lines(SIMUL.IMDA,SIMUL.IIMDA)lines(SIMUL.IMDA,SIMUL.IIMDA-CONF.INT,lty=2)lines(SIMUL.IMDA,SIMUL.IIMDA+CONF.INT,lty=2)lines(SIMUL.IMDA,SIMUL.IIMDA-PRED.INT,lty=3)lines(SIMUL.IMDA,SIMUL.IIMDA+PRED.INT,lty=3)rug(IMDA)# ----------------------------------------------------------------