52
PRIMENA STATISTIKE U KONSTRUISANJU

PRIMENA STATISTIKE U KONSTRUISANJU · mogućnosti interpertacije empirijske raspodele pouzdanosti nekom teorijskom raspodelom. • Ukoliko se podaci o kumulativnim učestanostima

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

PRIMENA STATISTIKE

U KONSTRUISANJU

Osnovne statističke veličine u

konstruisanju

• Srednja vrednost

• Medijana

• Moda

• Mera rasipanja oko srednje vrednosti –

disperzija

• Granice poverenja

Osobine numeričkih podataka-

mere

3

aritmetička

srednja vrednost

medijana

modus

Numeričko opisivanje podataka

varijansa

standardna devijacija

koeficijent varijacije

raspon

interkvartilini raspon

geometrijska

srednja vrednost

zakrivljenost

Centralna

tendencija

Varijacija Asimetrija Kvartili

zašiljenost

Osobine numeričkih podataka

4

Centralna tendencija

(lokacija centra)

Varijacija (Rasipanje)

Asimetrija

5

Mere centralne tendencije

Centralna tendencija

Aritmetička

srednja vrednost

Medijana Modus Geometrijska

srednja vrednost

N

x

x

N

1i

i

n/1n21G )xxx(x

sredina rangiranih vrednosti

najfrekventnija vrednost

Srednja vrednost

• Slučajne veličine: diskretne (prekidne) i

kontinualne (neprekidne).

f(t)

f(t)

t

t

a

b

Funkcija raspodele slučajne

veličine: a) kontinualne; b) diskretne

Srednja vrednost

• Srednja vrednost populacije (m), odnosno

nezavisno promenljive t čija je gustina

raspodele data funkcijom f(t) određena je

izrazom:

ni

i

iii tptm1

)( Za diskretne veličine

dttftm )( Za kontinualne veličine

ti – srednja vrednost diskretne slučajne veličine

p(ti)– verovatnoća realizacije veličine ti

• Ako populacija ima ograničen broj uzoraka kao

dela cele populacije, srednju vrednost

posmatrane slučajne promenljive predstavlja

aritmetička sredina:

n– ukupan broj podataka

Ova srednja vrednost je utoliko bliža srednjoj

vrednosti cele populacije ukoliko je broj posmatranih

podataka veći.

n

t

m

ni

i

i

1

9

Aritmetička srednja vrednost

(average, mean)

• Najčešće korišćena mera

• Ponaša se kao ”ravnotežna tačka”

• Na njenu vrednost utiču ekstremne vrednosti (”outliers”)

• Izražava se u istim jedinicama kao i osnovni podaci

• Izraz za izračunavanje:

N

xxx

N

xx N21

broj podataka dobijena vrednost

10

Aritmetička srednja vrednost

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

srednja vrednost = 3

35

15

5

54321

4

5

20

5

104321

srednja vrednost = 4

Uticaj ekstremnih vrednosti

11

Prosta srednja vrednost vs.

ponderisana – težinska srednja vrednost

• Ponderisana aritmetička srednja vrednost izračunava se kada su podaci prikazani kao frekvence:

• Ako su podaci grupisani u klasne intervale, ponderisana srednja vrednost se izračunava:

i

i

f

xfx

i

is

f

)x(fx

12

Geometrijska srednja vrednost

• n-ti koren proizvoda svih članova skupa

• Primer: 1,2,3,10

• Gx = 4-ti koren iz 60 = 2.78

• II način izračunavanja Gx:

1. logaritmovanje svakog broja u skupu

2. računanje aritmetičke sredine tih logaritama

3.dizanje osnove logaritma (ln-2.718 ili log-10)

na izračunatu aritmetičku sredinu logaritama

(korak 2)

13

Medijana (Me)

• Medijana je centralna vrednost u nizu podataka

– 50% vrednosti je iznad, 50% ispod medijane

• Pre određivanje medijane podaci se urede po veličini

• Na Me ne utiču ekstremne vrednosti

0 1 2 3 4 5 6 7 8 9 10

medijana = 3

0 1 2 3 4 5 6 7 8 9 10

medijana = 3

14

Određivanje medijane

• Pozicija medijane (u uređenim podacima):

• Ako je broj podataka neparan, medijana je vrednost u sredini niza

• Ako je broj podataka paran, medijana je srednja vrednost dve vrednosti u sredini niza (između N/2 i (N+2)/2)

• Napomena:

– izraz nije vrednost medijane, već redni broj vrednosti koja predstavlja medijanu

2

1Nmedijanepozicija

2

1N

Medijana

• Označava vrednost nezavisno promenljive, čija je

kumulativna verovatnoća realizacije 0.5 (jednaka

verovatnoći da će bilo koji rezultat biti manji ili veći

od 0.5 – 50%).

Za kontinualne veličine

Medijana

50

)(5.0

t

dttf

f(t)

tt50

50% 50%

16

Moda - Modus (Mo)

• Vrednost koja se pojavljuje najčešće

• Na Mo ne utiču ekstremne vrednosti

• U skupu može biti jedan ili više modusa

• Skup može biti bez modusa

• Mo može da se odredi i za numeričke i kategoričke

podatke

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

modus = 9

0 1 2 3 4 5 6

nema modusa

17

Moda

• Vrednost slučajne veličine koja odgovara najvećoj

verovatnoći njene realizacije, bez obzira da li je

diskretna ili kontinualna.

Za kontinualne veličine

Moda

0)(

dt

tdf

f(t)

t

19

Skale merenja- mere centralne

tendencije

• intervalna/skala odnosa - x, Me, Mo

• ordinalna – Me, Mo

• nominalna – samo Mo!!!

20

Kvartili • Kvartili dele skup uređenih podataka na četiri

jednaka dela

• Pozicione veličine

25% 25% 25% 25%

Q1 Q2 Q3

25% 25% 25%

Prvi kvartil, Q1 – 25% vrednosti su manje od Q1 Drugi kvartil, Q2 = medijana Treći kvartil, Q3 = 25% vrednosti su veće od Q1 Q1 i Q3 nisu mere centralne tendencije

21

Određivanje kvartila

• Pozicija (redni broj vrednosti) prvog

kvartila:

Q1 = (N+1)/4

• Pozicija (redni broj vrednosti) drugog

kvartila:

Q2 = (N+1)/2

• Pozicija (redni broj vrednosti) trećeg

kvartila:

Q3 = 3(N+1)/4

gde je N ukupan broj podataka

22

Percentili

Pozicija percentila:

• Prvi percentil P1: odvaja 1% vrednosti

• Q1 = P25

• Q2 = Me = P50

• Q3 = P75

)1N(100

PNP

23

Mere varijacije

isti centar,

različita varijacija

Mere varijacije daju informaciju

o rasipanju ili varijabilnosti

podataka

varijacija

varijansa standardna

devijacija

koeficijent

varijacije

raspon interkvartilni

raspon

24

Raspon • Najjednostavnija mera varijacije

• Raspon – razlika između najveže i najmanje vrednosti

u skupu

raspon = xmax – xmin

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

raspon = 14 - 1 = 13

primer:

25

Nedostatak raspona • Ignoriše oblik raspodele podataka

• Osetljiv na ekstremne vrednosti

7 8 9 10 11 12

raspon = 12 - 7 = 5

7 8 9 10 11 12

raspon = 12 - 7 = 5

1, 1, 1, 1, 1, 1, 1, 1, 1,1,1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 5

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 120

raspon = 5 - 1 = 4

raspon = 120 - 1 = 119

26

Varijansa

• Prosečno (približno) kvadratno odstupanje vrednosti od srednje vrednosti

– Izraz za izračunavanje:

– N – 1 – broj stepena slobode

1-N

)x(x

V

n

1i

2i

Disperzija

• Mera rasipanja promenljive t oko ose srednje

vrednosti.

Za diskretne veličine

ni

i

ii tpmt1

22 )()(

Koristi se za informacije iz ograničenog

skupa podataka ako nije poznat zakon

raspodele.

dttfmt )()( 22

• Standardna devijacija:

2

Za kontinualne veličine

• Procenjena standardna devijacija:

Standardna devijacija normalnog zakona raspodele

1

)(1

2

n

mt

S

ni

i

i

• Najčešće korišćena mera varijacije

• Pokazuje varijaciju oko srednje

vrednosti

• Kvadratni koren iz varijanse

• Izražava se u istim jedinicama kao i

osnovni podaci

29

Broj stepena slobode - df, θ, φ

• φ = N - 1

• φ - broj nezavisnih poredjenja

• x1 i x2 nezavisne vrednosti, φ = 2

321

321

xxxx3

3

xxxx

30

Standardna devijacija - Sd

Podaci: 4,9 6,3 7,7 8,9 10,3 11,7

2,5236,3681N

)XN(XSd

22

31

Značenje standardne devijacije

mala standardna devijacija

velika standardna devijacija

32

Poređenje standardnih

devijacija

sr. vrednost = 15.5 SD = 3,338

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

grupa B

grupa A

sr. vrednost = 15.5

Sd = 0,926

11 12 13 14 15 16 17 18 19 20 21

sr. vrednost = 15.5

Sd = 4,567

grupa C

33

Asimetrija raspodele

• Pokazuju kako su podaci distribuirani

– zakrivljenost i zašiljenost

desnostrana levostrana simetrična

Me Mo Mo Me = Me = Mo x xx

34

Numeričke mere za populaciju

i uzorak

• Statistički parametri koji se izračunavaju iz populacije

opisuju osobine populacije

• Statistički parametri koji se izračunavaju iz uzorka

opisuju osobine uzorka

• Srednja vrednost populacije – μ

• Srednja vrednost uzorka –

• Standardna devijacija populacije – σ

• Standardna devijacija uzorka – Sd

x

35

Osobine varijanse i standardne

devijacije • Svaka vrednost se koristi u izračunavanju

– razlika u odnosu na raspon i interkvartilni

raspon

• Veliki uticaj ekstremnih vrednosti

– izračunava se kvadrat odstupanja od srednje

vrednosti

36

Koeficijent varijacije - Kv

• Mera relativne varijacije (u odnosu na srednju

vrednost)

• Uvek se izražava u %

• Omogućava poredjenje više grupa podataka, čak i

kada su izraženi u različitim jedinicama

100 x

Sd = Kv

Granice poverenja

• Interval poverenja predstavlja dijapazon u kome se

sa određenom zadatom verovanoćom nalazi

stvarna vrednost, koja odgovara svim mogućim

realizacijama posmatane slučajne veličine dobjene

kao rezultat merenja. Isti smisao imaju i granice

poverenja kod utvrđivanja zakona raspodele.

Cα/2 – granice poverenja –

odgovaraju verovatnoći

realizacije u %, odnosno

kumulativnoj verovatnoći α.

m - Cα/2 ≤ m ≤ m + Cα/2

Granice poverenja

Histogram i poligon

• Izračunavanje relativnih i

kumulativnih učestanosti,

prikazivanje u obliku

histograma i poligona.

Histogram

a - Stepenasti dijagram;

b - poligon

• Svi rezultati merenja treba da se grupišu u određene klase – intervale promene posmatrane veličine.

relativna učestanost

Grafički prikaz: stepenasti dijagram i poligon. Za objektivno

odlučivanje je neophodno tačnije procenjivanje stvarnih

zakona raspodele.

%100n

nf ir

%1001

n

i

iq

n

nf kumulativna vrednost

učestanosti

ni – broj rezultata merenja u svakoj pojedinačnoj klasi

n – ukupan broj rezultata merenja

Teorijske raspodele verovatnoće

• Pouzdanost je jednaka verovatnoći rada bez otkaza.

f(t) – gustina intervala vremena rada do pojave otkaza

t

dttftR )()(

• Nepouzdanost je:

t

dttftRtF0

)()(1)(

• Intenzitet otkaza:

)(

)()(

tR

tft

Koriste se: • Eksponencijalna • Normalna i • Vejbulova raspodela

Eksponencijalna raspodela

• Pripada grupi neprekidnih zakona raspodele.

• Funkcija gustine raspodele ima oblik:

0,)( tetf t -parametar raspodele

t

t

e

e

tR

tft

)(

)()(

tetR )(

Funkcija pouzdanosti

Intenzitet otkaza

Normalna raspodela

• Pripada grupi neprekidnih zakona raspodele.

• Funkcija gustine raspodele ima oblik:

– mera rasipanja oko srednje vrednosti

2

2

2

)(

2

1)(

t

etf –očekivana vrednost

Funkcija pouzdanosti

Intenzitet otkaza

t

t

dtetR2

2

2

)(

2

1)(

t

t

t

dte

e

tR

tft

2

2

2

2

2

)(

2

)(

)(

)()(

Vejbulova raspodela

• Pripada grupi neprekidnih zakona raspodele.

• Funkcija gustine raspodele ima oblik:

k –parametar oblika

– parametar razmere

ktk

etk

tf

1

)(

Funkcija pouzdanosti

Intenzitet otkaza

kt

etR

)(

1

1

)(

)()(

k

t

tk

tk

e

etk

tR

tft k

k

• Verovatnosni papiri se koriste za proveru mogućnosti interpertacije empirijske raspodele pouzdanosti nekom teorijskom raspodelom.

• Ukoliko se podaci o kumulativnim učestanostima otkaza, koji su uneti u verovatnosni papir nalaze približno na pravoj liniji, hipoteza o valjanosti teorijskog zakona se prihvata.

• Podaci uneti u verovatnosni papir daju mogućnost da se odrede i svi parametri teorijskog zakona za taj slučaj.

Verovatnosni papir

Statistički testovi

• Koriste se za proveru da li je prava provučena kroz tačke koje odgovaraju eksperimentu, tj. empirijskoj raspodeli u verovatnosnom papiru, zaista odgovara toj raspodeli.

Test Kolmogorov-Smirnov d-test – test Henrijeva prava ...

• Test Kolmogorov-Smirnov: stepen saglasnosti se ocenjuje na bazi odstupanja pojedinih tačaka od pretpostavljene teorijske raspodele (prave linije), tj. poređenjem ovih odstupanja sa tzv. kritičnim vrednostima d (tabela 5.2, udžbenik, str. 74).