Upload
bruno-strbac
View
12
Download
1
Embed Size (px)
Citation preview
1
1
Centralna tendencija i mjerenje varijabiliteta
Prof. dr. Mudim Pai
2
Tipovi varijabli
Varijable
Numerike
Kategorijalne
Diskretne
Kontinuirane
Ordinalne
Nominalne
3
Tipovi varijabli Razlika izmeu numerikih i kategorijalnih
varijabli je u mogunosti izvoenja aritmetikih operacija (koje imaju smisla). Telefonski brojevi Potanski broj grada JMB
Kategorijalna varijabla je ordinalna ako postoji prirodni redoslijed moguih vrijednosti varijable.
Ako ne postoji prirodni redoslijed moguih vrijednosti varijable onda je ta kategorijalna varijabla nominalna
Iako su ovo brojevi, to su ipak kategorijalne varijable
4
Tipovi varijabli
Odgovori DA i NE Ovo je nominalna kategorijalna varijabla
Dodajmo svakoj razliitoj kategoriji broj (kod) 1 (DA) 2 (NE)
Da li brojeve 1 i 2 tretiramo kao kategorijalne ili numerike varijable?
5
Tipovi varijabli
Kategorijalne varijable mogu biti numeriki kodirane ili biti nekodirane.
Ali treba shvatiti da kodiranje kategorijalne varijable ne pretvara u numerike ene (1) Mukarci (2)
6
Tipovi varijabli
Nominalne kategorijalne varijable Da li posjedujete raunar DA NE Da li ste vjenani DA NE Va spol Mukarac ena Boja dempera Bijela, Crvena, Crna
Ne postoji prirodni redoslijed moguih vrijednosti varijable
2
7
Tipovi varijabli Ordinalne kategorijalne varijable
Zadovoljstvo proizvodom Veoma nezadovoljan, Nezadovoljan, Neutralan, Zadovoljan, Veoma zadovoljan
Postoji pririodni redoslijed od najnie do najvie mogue vrijednosti varijable
Ali, razlika izmeu pojedinih kategorija nije dobro specificirana
Akcenat je na: koja kategorija je vea, bolja, itd, a ne koliko
8
Tipovi varijabli Numerike varijable se dijele u
diskretne i kontinuirane
Diskretne su posljedica brojanja (konaan cijeli broj) Na koliko si asopisa pretplaena? Koliko puta izlazi sedmino?
Kontinuirane su posljedica mjerenja Podaci su mjereni na beskonanoj skali gdje se moe
neto rei o razlici izmeu brojeva Visina Teina Temperatura
9
Centralna tendencija
Centralna tendencija varijable je tendencija podataka da se grupiraju ili centriraju oko neke numerike vrijednosti
Kod centralne tendencije mi emo se fokusirati na Aritmetiku sredinu Modus Medijanu
10
Da se podsjetimo
Sigma Sumiranje
=
n
iix
1
=
++++=n
ini xxxxxxx
154321 ...
11
Sigma
Za varijablu = {5, 7, 4, 3, 2, 5} n = 6 veliina uzorka ili broj promatranja
varijable Izraunati:
265234751
=+++++==
n
iix
x
x=
=n
iix
1
12
Pravila
Suma konstante
=
=n
ii cnc
1
c
3
13
Pravila
= konstanta
==
=n
ii
n
ii xcxc
11
)(
c
14
Pravila
Neka je = 5 i = {2, 4, 5, 2}
=
=+++=n
iix
1
65)25()55()45()25(5
x
=
=n
iix
1
5
=
==+++=n
iix
1
65135)2542(55
Izraunati:
c
=
=4
1
)(i
ixc
15
Pravila
Suma zbira dviju varijabli, i
===
+=+n
ii
n
ii
n
iii yxyx
111
)(
x y
16
Pravila Neka je: = {2, 4, 5, 2} = {5, 3, 2, 1}
=
=+++++++=+n
iii yx
1
24)12()25()34()52()(
=
++++=n
iix
1
)2542( )1235(1
+++==
n
iiy
13 + 11 = 24
xyIzraunati:
=
=+n
iii yx
1
)(
17
Pravila
Neka su i konstante
==
+=+n
ii
n
ii cnxacxa
11
)(
a c
18
Pravila
Suma kvadrata zbira dviju varijabli:
=
=+n
iii yx
1
2)( =++=
n
iiiii yyxx
1
22 )2(
= ==
++=n
i
n
iiii
n
ii yyxx
1 1
2
1
2 )(2
4
19
Pravila
Uoiti
== =
++n
ii
n
i
n
iiii yxyx
1
2
1 1
22)(
2
11
2
==
n
ii
n
ii xx
20
Alternativni simboli
Mnoenje * 5*3 = 15
Stepenovanje ^ 5^3 = 125
Kvadratni korijen SQRT or ^0,5 SQRT(25) = 5 or (25)^0,5 or (25)0,5
Sumiranje Sum = )( Sum xx
21
Aritmetika sredina
Aritmetika sredina je suma vrijednosti promatrane varijable podijeljene sa veliinom uzorka
Aritmetika sredina (AS) - za uzorak - za populaciju x
22
Aritmetika sredina
XiXnX
nXX
n
XX
nXXXX
i
n
i
i
n
ii
n
et varijabl vrijednosta-uzorka velicina
sredina aaritmetick :je gdje
ili
...
1
1
21
=
=
=
==
+++=
=
=
Koristi se informacija o svim vrijednostima varijable
23
Aritmetika sredina
Aritmetika sredina ima dvije vane matematike osobine: Suma devijacija oko aritmetike sredine
jednaka je nula Suma kvadrata devijacija oko aritmetike
sredine je minimalna
24
Aritmetika sredina
Suma devijacija oko aritmetike sredine je jednaka nuli
1.
2.
3.
0)(1
==
n
ii xx
==
=n
i
n
ii xx
110
011
= ==
n
ii
n
ii x
n
nx 011
= ==
n
ii
n
ii xx
Dokaz
xnxn
i=
=1
=
=n
icnc
1
5
25
Aritmetika sredina
Osobina najmanjih kvadrata: suma kvadrata devijacija oko aritmetike
sredine je minimalna
=
n
ii xx
1
2)( Ne postoji druga vrijednost ili konstanta koju moemo staviti u jednainu za aritmetiku sredinu koja e dati rezultat manji od sume kvadrata.
26
Aritmetika sredina
Moemo zakljuivati o populaciji na osnovu aritmetike sredine
Ali, aritmetika sredina je osjetljiva na outlier-e (ekstremne vrijednosti) u podacima.
Dakle AS nije otporna na outlier-e (ekstremne vrijednosti) kao neke druge mjere centralne tendencije
27
Stopa sklopljenih brakova za 50 drava u SAD 1996. godine*
n = 50 drava u SAD *broj brakova u godini na 1.000 stanovnika
5,8 6,1 6,5 6,6 6,7 6,9 7,0 7,1 7,1 7,1 7,1 7,4 7,6 7,6 7,7 7,8 7,9 7,9 8,0 8,0 8,1 8,2 8,2 8,3 8,4 8,4 8,4 8,4 8,5 8,6 8,8 9,0 9,0 9,0 9,1 9,4 9,4 9,8 10,1 10,2 10,4 10,9 11,0 11,1 11,5 12,6 14,5 15,5 16,4 88,2
Stem and Leaf Plot
Uraditi stem and leaf plot Za stem uzeti cijele brojeve Za leaf uzeti decimalna mjesta
28
29
Stem and Leaf Plot Stem Leaf
5 | 86 | 1 5 6 7 97 | 0 1 1 1 1 4 6 6 7 8 9 98 | 0 0 1 2 2 3 4 4 4 4 5 6 89 | 0 0 0 1 4 4 8
10 | 1 2 4 9 11 | 0 1 5 12 | 6 13 |14 | 515 | 516 | 4
|88 | 2Note: Stems are whole numbers, leafs are decimal places
30
Aritmetika sredina Stopa sklopljenih brakova u 1996
n = 50 (50 drava) Sum(x) = 523,36 Aritmetika sredina = 10,47
6
31
Aritmetika sredina Stopa sklopljenih brakova u 1996
Uoi, ako uklonimo Nevadu iz
podataka n = 49 Sum(x) = 435,12 AS = 8,88 AS=10,47 za svih 50 drava
32
Medijana
Medijana je srednja vrijednost varijable kada su podaci poredani od najmanje vrijednosti ka najveoj.
Medijana je poziciona mjera centralne tendencije jer je locirana u sredini
U cilju pronalaenja medijane prvo moramo sortirati podatke u rastuem (ili opadajuem) trendu
33
Medijana
Prvo sortiraj podatke Zatim identificiraj poziciju medijane
u podacima Ako je n neparan broj medijana je (n+1)/
2 Primjer: Ako je n=99, onda je medijana
vrijednost 50-te varijable u redu: (99+1)/2 = 50
34
Medijana Ako je n paran broj, vrijednost medijane
je izmeu n/2 i (n/2)+1 vrijednosti varijable Primjer: Ako je N = 100 Medijana je izmeu
50 i 51 vrijednosti varijable U ovom sluaju uzimamo srednju vrijednost ove
dvije vrijednosti kako bismo nali medijanu {Vrijednost (n/2) + Vrijednost [(n/2)+1]}/2
35
Osobine medijane
Ima limitirane osobine za mogunost zakljuivanja
Ali, nije osjetljiva na outlier-e i stoga se koristi u podacima sa ekstremnim vrijednostima
36
Izraunati medijanu n = 50 drava u SAD
*broj brakova u godini na 1.000 stanovnika 5,8 6,1 6,5 6,6 6,7 6,9 7,0 7,1 7,1 7,1 7,1 7,4 7,6 7,6 7,7 7,8 7,9 7,9 8,0 8,0 8,1 8,2 8,2 8,3 8,4 8,4 8,4 8,4 8,5 8,6 8,8 9,0 9,0 9,0 9,1 9,4 9,4 9,8 10,1 10,2 10,4 10,9 11,0 11,1 11,5 12,6 14,5 15,5 16,4 88,2
7
37
Medijana - Primjer
Stopa sklopljenih brakova 1996 n = 50 Medijana je izmedju 25-te vrijednosti i
(51+1)/2 = 26-te vrijednosti u sortiranim podacima
To je srednja vrijednost 25te vrijednosti (Iowa) i 26te vrijednosti (New Hampshire)
Obje vrijednosti su 8,4, pa je srednja vrijednost 8,4
38
Medijana - Primjer
Ako izbacimo Nevadu n = 49 Medijana = 25ta vrijednost Medijana = 8,4
Ovo je ista vrijednost kao i za n= 50
39
Medijana
Medijana se esto naziva i 50-ti percentil. Kvartili (Quartiles) - Qi
Q1 je 25-ti percentil Q2 je 50-ti percentil Medijana Q3 je 75-ti percentil
40
Modus (Mod)
Modus je najfrekventnija vrijednost u varijabli Moe da se desi da u kontinuiranom nivou
podataka ne postoji najfrekventnija varijabla Kaemo modus je nedefiran
Moe da se desi da ima vie modusa Bi-modalno ili Tri-Modalno grupiranje
41
Sklopljeni brakovi
Aritmetika sredina je10,47
Medijana je 8,4 Modus je nedefiniran
Stem Leaf
5 | 86 | 1 5 6 7 97 | 0 1 1 1 1 4 6 6 7 8 9 98 | 0 0 1 2 2 3 4 4 4 4 5 6 89 | 0 0 0 1 4 4 8
10 | 1 2 4 9 11 | 0 1 5 12 | 6 13 |14 | 515 | 516 | 4
|88 | 2Note: Stems are whole numbers, leafs are decimal places
Primjer Modus Podaci o prodaji dempera. Model je u tri
boje: bijelo (W), crna (B) i crvena (R). Evidencije u jednoj sedmici prodaje su:
W R B W B W R W B B W W R R R B W W R R Nominalna kategorijalna varijabla Prodano je 20 dempera, 8 bijelih, 7 crnih i 5
crnih. Modus = bijela boja - najvea frekvencija.
42
8
Uradi sam: Mutual
Odrediti (koristei formule raunom, koristei formule u excelu, koristei deskriptivnu statistiku u excelu) Aritmetiku sredinu Medijanu Mod
43
Uradi sam: Mutual
= 7.246,6/259 = 27,98 Mod = 15,7 Medijana = 25,00
44
x
45
Nakrivljenost (skew)
Kada koristimo termin nakrivljenost (skew), mislimo na rep u distribuciji prema ektremnim vrijednostima
Ako je nakrivljenost prema desno, postoje ekstremne vrijednosti udesno i veina ili mnogo vrijednosti je grupirana ulijevo
Ako je nakrivljenost ulijevo, postoje ekstremne vrijednosti ulijevo i veina ili mnogo vrijednosti je grupirana udesno.
46
Ako je funkcija nakrivljena udesno, aritmetika sredina je vea od medijane (povuena je ekstremno velikim vrijednostima udesno)
Ako je funkcija nakrivljena ulijevo onda je aritmetika sredina manja manja od medijane (povuena je ulijevo ekstremno malim vrijednostima)
Medijana i Artimetika sredina su iste
47
Centralna tendencija daje samo dio prie
Zamisli dva seta podataka Set podataka 1 ima AS, Medijanu i modus 5 Set podataka 2 ima AS, Medijanu i modus 5
48
Dva seta podataka
Prvi set podataka {2, 3, 4, 5, 5, 6, 7, 8} x = 40 n=8 AS = 5
Drugi set podataka {5, 5, 5, 5, 5, 5, 5, 5} x = 40 n=8 AS = 5
Potrebno nam je neto vie da opiemo varijablu - varijabilitet
9
49
Varijabilitet
Ponimo sa rasponom (range) Razlika izmeu najvee i najmanje
vrijednosti varijable Da izraunamo raspon potrebno je
Minimalna vrijednost varijable Maksimalna vrijednost varijable
50
Stopa sklopljenih brakova za 50 drava u SAD 1996. godine*
N = 50 drava u SAD *broj brakova u godini na 1.000 stanovnika
5,8 6,1 6,5 6,6 6,7 6,9 7,0 7,1 7,1 7,1 7,1 7,4 7,6 7,6 7,7 7,8 7,9 7,9 8,0 8,0 8,1 8,2 8,2 8,3 8,4 8,4 8,4 8,4 8,5 8,6 8,8 9,0 9,0 9,0 9,1 9,4 9,4 9,8 10,1 10,2 10,4 10,9 11,0 11,1 11,5 2,6 14,5 15,5 16,4 88,2
51
Raspon
Minimum je 5,8 Maximum je 88,2 Raspon je 88,2 5,8 = 82,4 Bez Nevade u podacima, raspon je
16,4 5,8 = 10,6
52
Kako koristimo AS da mjerimo varijabilitet?
Koncept devijacije oko aritmetike sredine Ako je aritmetika sredina dobra mjera
centralne tendencije, onda je rezonski da se upitamo kako daleko je vrijednost x od aritmetike sredine
Devijacija oko aritmetike sredine moe biti sumarna mjera
53
Srednja vrijednost devijacije
Meutim, devijacija oko aritmetike sredine ne moe funkcionirati jer je brojnik uvijek nula Zapamti: suma devijacija oko aritmetike
sredine je uvijek nula
n
xxn
ii
=
1
)(
54
Apsolutna devijacija oko aritmetike sredine
Jedan pristup bi bio da se nae suma apsolutnih devijacija oko aritmetike sredine podijeljenih sa n
n
xxn
ii
=
1
10
55
Varijansa
Drugi pristup bi bio da kvadriramo razlike od aritmetike sredine i podijelimo sa n Kvadrati uvijek daju pozitivnu vrijednost Ovo se zove varijansa
n
xxn
ii
=
= 1
2
2)(
56
Uoi: Populacija vs Uzorak
Populacija: 2 Uzorak: s2
U nazivniku je n-1 n-1 je zbog stepeni slobode n-1 je zbog zakljuivanja o populaciji na
osnovu uzorka Ako bismo koristili n u formuli za s2 tada
bismo podcijenili 2
57
Varijansa uzorka
)1(
)(1
2
2
==
n
xxs
n
ii
58
Formula za raunanje s2
1
2
1
1
2
2
=
==
nn
xx
s
n
iin
ii
59
Formula za raunanje s2
Ako imamo poznato n Sum(x) Sum(x2)
Moemo izraunati aritmetiku sredinu i varijansu!!
1
2
1
1
2
2
=
==
nn
xx
s
n
iin
ii
Uradi sam: Mutual
n = Sum(x) = Sum(x2) = Izraunati varijansu koristei formulu
60
1
2
1
1
2
2
=
==
nn
xx
s
n
iin
ii
11
61
Uradi sam: Mutual
n = 259 Sum(x) = 7.246,6 Sum(x2) = 247.392,40
Varijansa= 173,02
1
2
1
1
2
2
=
==
nn
xx
s
n
iin
ii
62
Uradi sam: Mutual
Izraunati varijansu koristei Excel formulu
63
Standardna devijacija
Problem sa varijansom je to je ona izraena preko kvadratnih jedinica i teko je interpretirati
Ako izraunamo kvadratni korijen varijanse vraamo tu vrijednost u originane jedinice
Ovo se zove standardna devijacija s za uzorak za populaciju
Standardna devijacija je (SD ili StDev) je srednja devijacija vrijednosti od aritmetike sredine.
Uradi sam: Mutual
Izraunati standardnu devijaciju Koristei ve izraunatu varijansu Koristei excel formulu
64
65
Izraunati StDev Mutual
s2 = [247.392,40 (7.246,6)2/259]/(259-1) s2 = [247.392,40 202.753,7126]/258 s2 = 44.638,6874/258 s2 = 173,018168 ili 173,02 s = 13,1536 ili 13,15
Uradi sam: Marriage rate
Izraunati koristei formule raunom i koristei excel formule Varijansu Standardnu devijaciju
66
12
67
Uradi sam: Marriage rate
n = 50 x = 523,36 x2 = 11.892,45
1
2
1
1
2
2
=
==
nn
xx
s
n
iin
ii
68
Marriage rate
n = 50 x = 523,36 x2 = 11.892,45
s2 = [11.892,45 (523,36)2/50]/(50-1)
69
Marriage rate
n = 50 x = 523,36 x2 = 11.892,45 s2 = [11.892,45 (523,36)2/50]/(50-1) = [11.892,45 5.478,11]/49 = 6.414,34/49 = 130,90 s = 11,44
70
VANO
Varijansa i standardna devijacija su veoma osjetljive na ekstremne vrijednosti
Kada kvadrira velike brojeve dobije mnogo vee brojeve
Pogledajmo ta e se desiti ako izbacimo Nevadu iz naeg seta podataka Izraunati
Varijansu Standardnu devijaciju
71
Marriage Rate bez Nevade
n = 49 x = 435,12 x2 = 4.104,66 s2 = [4.104,66 (435,12)2/49]/(49-1) = [4.104,66 3.863,87]/48 = 240,79/48 = 5,02 s = 2,24
72
Usporedba sa Nevadom i bez Nevade
Statistika Sa Nevadom Bez Nevade Sum x 523,36 435,12 Sum x2 11.892,45 4.104,66 Mean 10,47 8,88 Median 8,4 8,4 Mode NA NA Maximum 88,3 16,4 Minimum 5,8 5,8 Variance 130,90 5,02 Std Dev 11,44 2,24
13
73
Excel
Sum =SUM(B5:B104) 3.699,40Count =COUNT(B5:B104) 100,00Mean =AVERAGE(B5:b104) 36,99Minimum =MIN(B5:B104) 30,00Maximum =MAX(B5:B104) 44,90Median =MEDIAN(B5:B104) 37,00Mode =MODE(B5:B104) 37,00Range oduzeti max - min 14,90First Quartile =QUARTILE(B5:B104,1) 35,68Third Quartile =QUARTILE(B5:B104,3) 38,33Inter-Quartile Range oduzeti Q3 - Q1 2,65Variance =VAR(B5:B104) 5,85Std Deviation =STDEV(B5:B104) 2,42
Deskriptivna statistika Mutual
Data, Data Analysis, Descriptive Statistics
74
75
Deskriptivna statistika - Mutual
Data
Data Analysis
Descriptive Statistics
Best Quarter
Mean 27,98Standard Error 0,82Median 25,00Mode 15,70Standard Deviation 13,15Sample Variance 173,02Kurtosis 2,71Skewness 1,54Range 72,10Minimum 10,70Maximum 82,80Sum 7246,60Count 259 76
Standardna devijacija i raspon
Brza aproksimacija standardne devijacije je Raspon/4
Best Quarter Primjer (82,8 10,7)/4 = 18,03 Dok je s = 13,15
Ovo je samo aproksimacija. to se vie udaljavamo od normalne distribucije, loija aproksimacija
77
Koeficijent varijacije
Koeficijent varijacije je odnos standardne devijacije i apsolutne vrijednosti aritmetike sredine
Kada se pomnoi sa 100 dobije se u procentima
Ovim izraavamo std dev relativno prema aritmetikoj sredini
to je vei CV to je vea varijabilnost
100*xsCV =
Koeficijent varijacije
Izraunati koeficijent varijacije za Stopa sklopljenih brakova (Marriage Rate) Mutual Fund Data Best Quarter Performance
Uporediti dobijene koeficijente varijacije i diskutovati
78
14
79
Histogram
Data Data Analysis
Histogram
Empirijsko pravilo
Normalna distribucija, simetrina kriva u obliku zvona
80
Empirijsko pravilo
- 1 + 1 + 2 -2
81
~68%
~95%
~34% ~34% ~13,5% ~2,5% ~2,5% ~13,5%
82
Empirijsko pravilo
83
Empirijsko pravilo Aproksimativno 68% vrijednosti mjerenja e biti
1 standardne devijacije od aritmetike sredine
Aproksimativno 95% vrijednosti mjerenja e biti 2 standardne devijacije od aritmetike sredine
84
Primjer - Akumulatori
Akumulatori: srednji rok trajanja 60 mjeseci
Garancija je 36 mjeseci Standardna devijacija s = 10 mjeseci Vrijednosti trajanja akumulatora slijede
normalnu distribuciju (simetrina kriva u obliku zvona)
Koji procenat akumulatora e trajati vie od 50 mjeseci?
15
85
Primjer - Akumulatori
Koji procenat akumulatora e trajati vie od 50 mjeseci? Poni sa traenjem koliko standardnih devijacija je
50 mjeseci od aritmetike sredine Nacrtaj Odredi vjerovatnou na osnovu empirijskog pravila
86
Primjer - Akumulatori
50 mjeseci je jednu standardnu devijaciju lijevo od aritmetike sredine
Ovo predstavlja 34% sluajeva 1 std devijacija = 68%, slijedi da je 1St Dev =
34% Desno od aritmetike sredine (60 mjeseci ili
vie) predstavlja 50% sluajeva Odgovor: 34 + 50 = 84%
87
Primjer Akumulatori vie od 50 mjeseci
= 60 i s = 10
Ovaj dio je -1 St Dev lijevo od 34%
88
Primjer Akumulatori vie od 50 mjeseci
= 60 i s = 10
Ovaj je dio vei od 60 mjeseci
50%
Ovaj dio je -1 St Dev lijevo od 34%
89
Primjer Akumulatori manje od 40 mjeseci
Aproksimativno koji e procenat akumulatora trajati manje od 40 mjeseci? Poni tako da utvrdi koliko standardnih devijacija
je 40 mjeseci od Nacrtaj Odredi vjerovatnou
90
Primjer Akumulatori manje od 40 mjeseci
40 je dvije standardne devijacije lijevo od
2 standardne devijacije = 95% sluajeva Dakle, manje od 40 mjeseci je od
preostalih 5% 2,5% akumulatora e trajati manje od 40
mjeseci
16
91
Primjer Akumulatori manje od 40 mjeseci
= 60 and s = 10
92
Akumulatori - Primjer
Pretpostavimo da je va akumulator trajao 37 mjeseci.
ta moete zakljuiti o proizvoau koji je rekao da je garancija 36 mjeseci?
93
Akumulatori 37 mjeseci
37 mjeseci je vie od 2 lijevo od Manje od 2,5% akumulatora e biti u domenu
37 mjeseci
= 60 and s = 10
37