Upload
jo-
View
212
Download
0
Embed Size (px)
DESCRIPTION
Statistička obradapodataka umašinstvu
Citation preview
26.02.2013.
1
Statisti čka obrada podataka u mašinstvu
Na ovom času
�Uloga statistike u inženjerstvu i mašinstvu
�Pojam statistike, populacija, uzorak, slučajna promenljiva
�Načini prikaza podataka�Histogrami i njihovo konstruisanje�Opisna statistika, osnovni pojmovi i
primeri�Mere lokacije - sredina, medijana i moda�Mere rasipanja - rang, varijansa i koeficijent
varijacije
26.02.2013.
2
Inženjerski pristup
Inženjer je neko ko rešava probleme preko efikasneprimene nau čnih principa. Inženjeri posti žu to iliprojektovanjem novih proizvoda ili procesa ilipoboljšavanjem postoje ćih da bi zadovoljili željepotroša ča.
Najnoviji pristupi funkcionisanju bilo kog preduze-ća zasnivaju se na:�Sva preduze ća funkcionišu kao industrije�Odluke se donose na osnovu podataka
Pojam statistike
Statistika se bavi sakupljanjem, analizom,interpretacijom i donošenjem zaklju čaka na osnovupodataka.
Podaci mogu biti kvantitativni i kvalitativni. U slu čajukvalitativnih podataka oni se mogu kvantifikovati.
Statisti čke metode se koriste za opisivanjevarijabilnosti.
Varijabilnost je fenomen da u realnom svetu ni jedansistem ne daje stalno isti rezultat.
26.02.2013.
3
Osnovni pojmovi statistikePopulacija je skup svih jedinica ili elemenata
Populacija može biti kona čna i beskona čna. U slu čaju kona čnepopulacije, ako je dovoljno velika, može se smatrati beskon ačnom, u
slu čaju da nije, vrše se odre đene korekcije .
Uzorak je podskup populacije. Uzorak se dobija sakupljanje modređenog broja elemenata iz populacije. Elementi uzorka se
obeležavaju sa ( X1,X2,...Xn).
Realizacija uzorka je niz slu čajnih brojeva sa raspodelom slu čajneveli čine X i obeležava se nizom brojeva ( x1, x2, ... , xn) koja se odnosisamo na 1 uzorak iz populacije.
Uzorak služi za donošenje odluka o populaciji, odnosno odre đivanjenjenih karakteristika.
Verovatno ća
Verovatno ća je numeri čka vrednost izme đu 0 i 1 koja jevezana za uzorak i opisuje mogu ću grešku koja nastajekada se zaklju čci o populaciji donose na osnovu uzorka.
U sebi nosi pojam varijabilnosti koja postoji u realnomsvetu.
Uzorak mora biti reprezentativan - slu čajan (jednakaverovatno ća i slu čajan izbor bilo kog elementa izpopulacije) i dovoljno veliki.
Uzorak može biti�jednostavan - ako se slu čajno bira iz cele populacije�stratifikovan - populacija se deli na stratume i izsvakog stratuma se izvla či slu čajan uzorak�sistematski - dobijanje uzoraka iz populacije usistematski odre đenim intervalima�itd.
26.02.2013.
4
Slučajna promenljiva
Varijabilnost se opisuje funkcijom koja se naziva slučajna promenljiva.
je konstanta dok jee slučajno odstupanje od konstante µµµµ
µµµµ= += += += +X e
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
26.02.2013.
5
Grafi čki prikaz podataka
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 810
20
40
60
80
100
120
140
160
180
200
220
240
260
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 8160
80
100
120
140
160
180
200
220
240
260
26.02.2013.
6
(60;80](80;100]
(100;120]
(120;140]
(140;160]
(240;260](220;240]
(200;220]
(180;200]
(160;180]
(60;80](80;100]
(100;120]
(120;140]
(140;160]
(240;260](220;240]
(200;220]
(180;200]
(160;180]
76.00 94.78 113.56 132.33 151.11 169.89 188.67 207.44 226.22 245.000
2
4
6
8
10
12
14
16
18
20
br.m
eren
ja
26.02.2013.
7
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
Postupak odredjivanja intervala
= += += += + 1hn n
= + = + == + = + == + = + == + = + = 8 0 1 8 1 9hn
==== 8 0n
1. Određivanje broja intervala
za primer
26.02.2013.
8
====min 76x ====max 245x
= − = − == − = − == − = − == − = − =m a x m in 2 4 5 7 6 1 6 9R x x
= = == = == = == = =1 6 91 8 .7 7 7 7 8
9h
Rh
n
2. Određivanje širine intervala
3. Prilago đavanje širine intervala
==== 20h
= ⋅ = ⋅ == ⋅ = ⋅ == ⋅ = ⋅ == ⋅ = ⋅ =20 9 180hR h n
≤ ≤≤ ≤≤ ≤≤ ≤70 250x
prilago đavanje širine intervala
određivanje novog raspona podataka
novi rapson
4 Određivanje intervala za dalje koriš ćenje
interval 1 - + =+ =+ =+ = ⇒⇒⇒⇒ ≤ <≤ <≤ <≤ <70 20 90 70 90xinterval 2 - + =+ =+ =+ = ⇒⇒⇒⇒ ≤ <≤ <≤ <≤ <90 20 110 90 110x...
5. Određivanje frekvencija fi
Određivanje koliko se brojeva nalazi u određenom intervalu
6. Određivanje relativnih frekvencija
==== ii
fp
nnpr. = = == = == = == = =1
1
20 025
80f
p .n
26.02.2013.
9
7. Određivanje kumulativnih frekvencija fri
====
==== ∑∑∑∑1
i
ri jj
f f
====
= == == == =∑∑∑∑1
11
2r jj
f f====
= = + == = + == = + == = + =∑∑∑∑2
21
2 3 5r jj
f f
8. Određivanje kumulativnih relativnih frekvencija pri
====
==== ∑∑∑∑1
i
ri jj
p p
...
npr.
npr.====
= == == == =∑∑∑∑1
11
0.0250r jj
p p
====
= = + == = + == = + == = + =∑∑∑∑2
21
0.0250 0.0375 0.0625r jj
p p ...
1800.02502||
0.9750780.05004||||
0.9520740.125010||||||||||
0.800640.212517|||||||||||||||||
0.5875470.275022||||||||||||||||||||||
0.3125250.175014||||||||||||||
0.1375110.07506||||||
0.062550.03753|||
0.025020.02502||
pi=fi/nfi
≤ <≤ <≤ <≤ <70 90x
≤ <≤ <≤ <≤ <90 110x
≤ <≤ <≤ <≤ <110 130x
≤ <≤ <≤ <≤ <130 150x
≤ <≤ <≤ <≤ <150 170x
≤ <≤ <≤ <≤ <170 190x
≤ <≤ <≤ <≤ <190 210x
≤ <≤ <≤ <≤ <210 230x
≤ <≤ <≤ <≤ <230 250x
====
==== ∑∑∑∑1
i
ri jj
f f====
==== ∑∑∑∑1
i
ri jj
p p
26.02.2013.
10
40 60 80 100 120 140 160 180 200 220 240 260 280
promenljiva
0
2
4
6
8
10
12
14
16
18
20
22
24
br. m
eren
ja
HISTOGRAM
40 60 80 100 120 140 160 180 200 220 240 260 280
promenljiva
0
10
20
30
40
50
60
70
80
90
br.m
eren
ja
KUMULATIVNI HISTOGRAM
26.02.2013.
11
Vrste histograma
1. Histogram frekvencija
2. Histogram relativnih frekvencija
3. Histogram kumulativnih frekvencija
4. Histogram kumulativnih relativnih frekvencija
StatistikeNumeri čke mere koje opisuju karakteristike uzorka,odnosno populacije, nazivaju se statistike, i dele sena:�mere lokacije i�mere disperzije (varijacije)
Mere lokacije opisuju osobine grupisanjaposmatranih podataka. Neke od osnovnih su:�aritmeti čka sredina,�medijana,�moda,�kvartili itd.
Neke od mera varijacije su:�rang,�varijansa�koeficijent varijacije itd.
26.02.2013.
12
Mere lokacijeAritmeti čka sredinaOpšta definicija sredine uzorka je
(((( ))))====
+ + ++ + ++ + ++ + += = == = == = == = = ∑∑∑∑
⋯⋯⋯⋯1 2
1
1 nn
ii
X X XX E X X
n n
5,6,2,8,10
(((( ))))= ⋅ + + + + == ⋅ + + + + == ⋅ + + + + == ⋅ + + + + =15 6 2 8 10 6.2
5x
(((( ))))= + += + += + += + +⋯⋯⋯⋯1 1
1m mX x f x f
n
(((( ))))= ⋅ + + ⋅ == ⋅ + + ⋅ == ⋅ + + ⋅ == ⋅ + + ⋅ =⋯⋯⋯⋯
180 2 240 2 163.5
80x
Medijana predstavlja ta čku u kojoj se posmatrane vrednostidele na dva jednaka dela.
Za grupu podataka uzorka vrednosti se sortiraju u rastu ći niz,zavisno od njihove veli čine, a medijana se dobija na osnovuobrasca:
(((( ))))++++
++++
==== ++++
12
n1
2 2
, kada je n neparno,
x, kada je n parno
2
n
n
x
Me x
Medijana
1, 3, 2, 2, 7, 6, 9
1, 2, 2, 3, 6, 7, 9
++++= = == = == = == = =7 1 42
3Me x x
26.02.2013.
13
1, 3, 3, 2, 6, 7, 2458
1, 2, 3, 3, 6, 7, 2458
++++= = == = == = == = =7 1 42
3Me x x
Kada se medijana odre đuje preko raspodela frekvencija, tada važi formula
(((( ))))k
k
nf f
Me L hf ++++
− +− +− +− += += += += +
1
1
2⋯⋯⋯⋯
gde su: L - donja granica intervala u kome se nalazi medijana; h - širina intervala;
kf f+ ++ ++ ++ +1 ⋯⋯⋯⋯ - kumulativni zbir frekvencija do intervala u kome s e nalazi medijana;
kf ++++1 - frekvencija u intervalu u kome se nalazi medijana
Za posmatrani primer medijana se nalazi u intervalu :
n = == == == =8040
2 2
(((( )))) (((( ))))+ + + = < < + + + + =+ + + = < < + + + + =+ + + = < < + + + + =+ + + = < < + + + + =3 2 6 14 25 40 3 2 6 14 22 47
x≤ <≤ <≤ <≤ <150 170
Elementi za izra čunavanje medijane su:
L ==== 150
h ==== 20
f f+ = + + =+ = + + =+ = + + =+ = + + =1 4 2 3 14 25⋯⋯⋯⋯
f ====5 25
Me .−−−−
= + == + == + == + =
8025
2150 20 163 63622
26.02.2013.
14
Moda je broj koji se naj češće pojavljuje kod posmatranihmerenja
3, 6, 9, 5, 8, 10, 4, 1
nema mode
Moda
3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3, 13 3 3 3 4 puta se pojavljuje 3
Neke od mera varijacije su:�rang,�varijansa�koeficijent varijacije itd.
Mere varijacije
Neka su data dva skupa podataka
A: 130, 150, 145, 158, 165, 140
B: 90, 128, 205, 140, 165, 160
(((( ))))= + + + + + == + + + + + == + + + + + == + + + + + =1
1130 150 145 158 165 140 148
6x
(((( ))))= + + + + + == + + + + + == + + + + + == + + + + + =1
190 128 205 140 165 160 148
6x
⇒⇒⇒⇒ = == == == =1 2 148x x
26.02.2013.
15
Rang
Rang je najjednostavnija mera varijacije i on daje informac iju oširini u kome se podaci rasipaju, odnosno
(((( )))) (((( ))))= −= −= −= −max mini iR x x
sredina
B
A
80 100 120 140 160 180 200 220
(((( )))) (((( ))))= − = − = − == − = − = − == − = − = − == − = − = − =1 5 1max min 165 135 30i iR x x x x
= − == − == − == − =2 205 90 115R
uzorak mali veliki
Varijansa
<<<< 30n ≥≥≥≥ 30n
Veličina uzorka
(((( ))))====
−−−−====
−−−−
∑∑∑∑2
2 1
1
n
ii
X XS
n
<<<< 30n
(((( ))))====
−−−−====∑∑∑∑
2
2 1
n
ii
X XS
n≥≥≥≥ 30n
−−−−−−−−
iiii
1N nN
konačna populacija
26.02.2013.
16
(((( ))))====
= ⋅ −= ⋅ −= ⋅ −= ⋅ −∑∑∑∑22
1
1 m
i ii
S f X Xn
≥≥≥≥ 30n
(((( ))))====
= ⋅ −= ⋅ −= ⋅ −= ⋅ −−−−− ∑∑∑∑
22
1
11
m
i ii
S f X Xn
<<<< 30n −−−−−−−−
iiii
1N nN
konačnapopulacija
za frekvencije
standardna devijacija
==== 2S S
za primer :
(((( )))) (((( )))) = − + + − == − + + − == − + + − == − + + − = −−−−2 2 2 2 22
190 148 ... 160 148 1502
6 1s
(((( )))) (((( )))) = − + + − == − + + − == − + + − == − + + − = −−−−2 2 2 2 21
1130 148 ... 140 148 158
6 1s
= == == == =1 158 12.57s
= == == == =2 1502 38.76s
26.02.2013.
17
sredina varijansa st.devijacija
uzorak
populacija
Koeficijent varijacije
Koeficijent varijacije daje informaciju o homogenos ti podataka
====v
Sc
X<<<< 30%vc podaci su homogeni
====1 8.49%vc ====2 26.18%vc
Oznake
X
µµµµ2S
σσσσ 2
S
σσσσ
DOMAĆI 01
Za dobijene podatke potrebno je konstruisati histog rame1. Frekvencija2. Relativnih frekvencija3. Kumulativnih frekvencija4. Relativnih kumulativnih frekvencija5. Za date podatke izra čunati statistike
Broj poena do 3%