28
Mintavételi hiba, hibaszámítás

Mintavételi hiba, hibaszámítás

Embed Size (px)

DESCRIPTION

Mintavételi hiba, hibaszámítás. MONITORING - VKI. A monitoring célja az, hogy megalapozza a vízstátus egységes és átfogó felülvizsgálatát minden egyes vízgyűjtőkerületben és elősegítse a felszíni víztestek besorolását a megfelelő osztályba. - PowerPoint PPT Presentation

Citation preview

Mintavételi hiba, hibaszámítás

A monitoring célja az, hogy megalapozza a vízstátus egységes és átfogó felülvizsgálatát minden egyes vízgyűjtőkerületben és elősegítse a felszíni víztestek besorolását a megfelelő osztályba.

Mérlegelni kell a monitoring költségét és a státus hibás besorolásának következményéből származó költségeket (többlet intézkedések).

A vízgyűjtő gazdálkodási tervekben a konfidencia szinteket közölni kell.

MONITORING - VKIMONITORING - VKI

70%70%10%10% 20% 20%

-

-

10 %

70 %

20 %

high

badpoormodgood

Facevalue

A víztest állapota hibás osztályozásának kockázata(osztályozás megbízhatósága)

KockázatA kedvezőtlen esemény bekövetkezésének esélye, VKI értelmezésében a hibás osztály besorolás valószínűsége. Az elfogadható kockázati szint befolyásolja a víztest állapotának meghatározásához szükséges monitoring időbeli és térbeli sűrűségét.

Megbízhatóság (konfidencia) Annak a valószínűsége ( %-ban kifejezve), hogy a statisztikai paraméter valós értéke a számított és a jegyzett értékek közé esik (statisztikai bizonytalanság).

Precizitás (pontosság)A valós állapot és a monitoring által talált állapot közti eltérés, adott konfidencia-tartomány szélességének felével megegyező statisztikai bizonytalanság mértéke.

Mérési adatsor:

osztályba sorolás hibáját befolyásoló tényezők

• Mérési gyakoriság• Vizsgálandó jellemzők időbeli

változékonysága• Eltérés mértéke a küszöbértékhez

(osztályhatárhoz) képest• Besoroláshoz figyelembe veendő jellemző (évi

vagy évszakos átlag, trendek, 90 %-os tartósságú érték, stb.)

tt

C

CChh

tt

C

CChh

tt

C

CChh

Hibatípusok

Véletlen hiba: A mérési eredmények a valóságos értéktől mindkét irányban azonos valószínűséggel, véletlenszerűen térnek el. Nagy számú mérés átlagát véve a véletlen hiba tetszőlegesen csökkenthető.

Rendszeres (szisztematikus) hiba: A mérési eredmények a valóságos értéktől eltérő érték körül ingadoznak.

Sokféle oka lehet, pl:• Nem megfelelő mintavétel,• Hibás vagy rosszul beállított műszer, • Analitikai (módszertani) probléma,• Figyelmen kívül hagyott, a mérést befolyásoló külső tényező (pl. hőmérséklet hatása).

Valószínűségi sűrűségfüggvény: f(x) Annak valószínűsége, hogy egy érték x1 és x2 közé essen:

2

1

)()( 21

x

x

dxxfxxxP

A valószínűségi sűrűségfüggvény integrálja a valószínűségi változó teljes értelmezési tartományára:

1)()( xPdxxf

Valószínűségi eloszlásfüggvény: a valószínűségi sűrűségfüggvény integrálfüggvénye: F(x)

x

dxxfxF )()(

Annak a valószínűsége, hogy a valószínűségi változó értéke nem nagyobb, mint egy adott xi érték:

Hibaszámítás elmélete (valószínűségelmélet)

Mintavétel, mérés valószínűségi változó valószínűségi sűrűségfüggvény

P (x xi ) = F(xi)

Az eloszlásfüggvénnyel megadhatjuk annak a valószínűségét, hogy a valószínűségi változó értéke x1 és x2 közé esik:

)()()()()()( 1221

122

1

xFxFdxxfdxxfdxxfxxxPxxx

x

Sokaság (véges, végtelen)

Az eloszlás paraméterei, a minta jellemzői

i

xii xPxxE )()(

Az eloszlás várható értéke diszkrét és folytonos eloszlás esetén:

xdxxfxxE

)()(

A eloszlás mediánja a valószínűségi változónak az az értéke, melynél kisebb és nagyobb érték is ugyanolyan valószínűségű, azaz ahol az eloszlásfüggvény értéke F(xme) = 0,5. Az eloszlás módusza a sűrűségfüggvény maximum helye.Szimmetrikus eloszlás várható értéke, mediánja és módusza azonos.

A variancia a sokaság elemeinek a várható értéktől való eltérését jellemzi:

Var [x] =

(x-x)2 f(x) dx = E [(x-x)

2]

A valószínűségi változó konstansszorosának várható értéke a várható érték konstansszorosa:

Változó konstansszorosának varianciája a variancia szorozva a konstans négyzetével:

E [cx] =

cx f(x) dx = c

x f(x) dx = c E [x]

Var [cx] = E [cx-cx]2 = c2 E [x-x] = c2 Var [x]

Var [x] = 2 (szórás)

A mintavétel és mérés célja, hogy információt kapjunk a sokaságon az adott tulajdonság eloszlásáról, azaz meg tudjuk becsülni az eloszlás paramétereket a sokaság elemszámánál sokkal kisebb minta alapján. Egy becslés torzítatlan, ha a becsült és valóságos várható értékek megegyeznek, azaz:

Torzítatlan és torzított becslés

A hiba várható értéke 0 (a becsült paramétereket hullámvonal jelöli).

E [~ ] = vagy E [

~ - ] = 0,

A várható érték becslése

A várható értéket úgy vezettük be véges elemű, diszkrét sokaságra, mint a sokaságra vett átlagát az adott tulajdonságnak. Ha most nem az egész sokaságot vesszük, csak egy mintát belőle, becsülhetjük úgy az egész sokaságra vonatkozó átlagot, hogy csak a mintára átlagolunk, azaz a várható értéket a következőképp becsüljük:

n/1~ x ii

n

1 ~ , a becslés torzítatlan

A középérték eloszlásának tulajdonságaiEgy n mérésből álló minta (egyes mérések eredményei) x1,...,xn valószínűségi változók. Az x1,...,xn valószínűségi változó számtani közepe:

x

x

n

ii

n

1

szintén valószínűségi változó, tehát tartozik hozzá egy f(x1,...,xn) valószínűségi sűrűségfüggvény. Az egyes mérési eredmények függetlenek egymástól, f(x1,...,xn) = f(x1)...f(xn).

Mivel ugyanazt a mérést ismételjük, az egyes mérési eredmények várható értéke E[xi] = és varianciája Var[xi] = 2 azonos minden egyes mérésre. Az összeg és konstansszoros várható értékére és varianciájára vonatkozó formulákat alkalmazva kapjuk, hogy:

E [ x] = 1/n i

n

1E [xi] =

Var [x] = 1/n2 i

n

1Var [xi] =

1

n 2

Azaz a középérték várható értéke megegyezik az egyes mérések várható értékével, varianciája viszont n-ed része az egyes mérésének.

Ha a sokaság véges elemű, azaz N független elemet tartalmazó halmazból 1 ≤ n ≤ N független mintát emelünk ki visszahelyezés nélkül véletlenszerűen kiválasztva és az eljárást sokszor ismételve,

az átlag várható értéke az torzítatlan becslését adja.

nxE nx

A becslés varianciája:

Az átlag szórása végtelen és ismert elemszámú sokaság esetén:

nx

N

n

nx 1

Var [x] = E [xN - xn] =

Nn

nN 2

ahol N → ∞ esetén nN

n

nNn

nN 11

1

(Cochran, 1962)

A mérési eredmények korrigált tapasztalati szórása és a középérték tapasztalati szórása („standard deviation”):

Torzítatlan becslés varianciáját becsülhetjük az egyes mérések hibanégyzetének átlagával :

2

1

2 )(1

xxn

Vn

ii

Torzított becslésnél a variancia n-szeresének becsült értéke a valóságos variancia (n-1)-szerese:

222 1~ n

nS

sx x

n

x x

n nxi

xi

( ) ( )

( )

2 2

1 1 és s =

Variancia és szórás meghatározása

Azaz a variancia becslése a mérési eredményekből: 1

)(~ 1

2

22

n

xxS

n

ii

x

Mivel a középérték varianciája az egyes mérések varianciájának n-ed része

ss

nxx

A centrális határeloszlás tétele szerint bármilyen eloszlású sokaság esetén az n elemű minta számtani középértékének eloszlása a minta elemszámának növekedésével egy olyan normális eloszláshoz tart, melynek várható értéke megegyezik az eredeti eloszlás várható értékével.

Ez azt jelenti, hogy ha már egyetlen mérési eredmény is átlagnak, pl. időátlagnak tekinthető, akkor várható, hogy az Gauss-eloszlású lesz. A mérési eredmények viszont nagyon gyakran ilyen átlagértékek. A gyakorlatban legtöbbször normális eloszlású mérési eredményekkel találkozunk.

A centrális határeloszlás tétele

Normális eloszlás: azok a valószínűségi változók, melyek értékét sok kismértékű véletlenszerű hatás befolyásolja.

2

2

1

2

1)(

s

mx

es

xf

Gauss-függvény: „m” az eloszlás várható értéke, „s” a szórás

normalizált Gauss-függvény: u = (x-m) / s 2

2

1

2

1)(

ueuf

A normalizált Gauss-eloszláshoz tartozó valószínűségi eloszlásfüggvény:

)(2

1)(

2

2

1

udteuFt

u

(hibaintegrál), F()=1.

A normalizált Gauss-függvény (hibafüggvény): u

t dteuerf0

22)(

))2/(1(5.0)( uerfu

x1 = m-Δx és x2 = m+ Δx

Alkalmazás:

Milyen valószínűséggel esik a valószínűségi változó értéke a várható érték körüli, adott sugarú intervallumba?

u1 = - Δx/s = -v és u2 = Δx/s = v

Transzformálás után (normalizált Gauss eloszláshoz) az intervallum:

P(u1 u u2) = F(u2) - F(u1) = (v) - (-v)

Szimmetria miatt: (-v) = 1 - (v) P(-vuv) = 2 (v) - 1

Annak a valószínűsége, hogy a változó értéke kiessen az adott szimmetrikus intervallumból, tehát egy adott tűrésnél jobban eltérjen a várható értéktől:

P(u -v U u v) = 1- (2(v)-1) = 2(1-(v)).

u = (x-m) / s

Gauss-eloszlás esetén: a mérési eredmények a várható érték körüli egyszeres szórás (s) sugarú intervallumba 68,3%, a 2 s sugarú intervallumba 95,4 % valószínűséggel esnek.

Adott P valószínűség (P konfidencia szint) : [m - k s , m + k s ]

Konfidencia intervallum, melybe a mérési eredmények az adott P valószínűséggel beleesnek.

P = 68,3% k = 1 P = 95,4% k = 2P = 90% k = 1.65P = 95% k = 1.96

Konfidencia intervallum, megbízhatósági szint megadása

u = S = 1(u) = 0.84134

P (-1 ≤ x ≤ 1) = (1) – (1 – (1))=2 (1) -1 = 0.683

Mérési eredményeknél: a szórást sem ismerjük, csak becsüljük a középérték korrigált tapasztalati szórásával.

Szórás is pontatlan → ugyanahhoz a valószínűséghez nagyobb számmal kell megszorozni a becsült szórást a konfidencia intervallum meghatározásánál, mint ezt egy ismert szórású Gauss-eloszlásnál tennénk.

Konfidencia kis mintaszámnál:A t paraméter meghatározása (Student-féle t-eloszlás)

A Student-féle t paraméter értékei P konfidenciaszintnél és N mérésszámnál

0,8 0,9 0,95 0,975 0,99 0,995

2 3,078 6,314 12,706 25,452 63,657 127,32

3 1,886 2,920 4,303 6,205 9,925 14,089

4 1,638 2,353 3,182 4,176 5,841 7,453

5 1,553 2,132 2,776 3,495 4,604 5,598

6 1,476 2,015 2,571 3,163 4,032 4,773

7 1,440 1,943 2,447 2,969 3,707 4,317

8 1,415 1,895 2,365 2,841 3,499 4,029

9 1,397 1,860 2,306 2,752 3,355 3,832

10 1,383 1,833 2,262 2,685 3,250 3,690

20 1,328 1,729 2,093 2,433 2,861 3,174

1,282 1,645 1,960 2,241 2,576 2,807

x sx

X (mért mennyiség) =

= t

A középérték várható értékének és hibájának számítása

Becsült paraméter Feltételek

Pontbecslés mintából

Standard hiba Xpx ;; Konfidencia intervallum

A mintabeli paraméter eloszlása

Átlag Norm. eloszlás Sokasági szórás ismert

n

;

N

n

n 1

xzx Normális

Átlag Norm.eloszlás Sokasági szórás nem ismert Kis minta n < 80

n

xx i

xtx ̂

Student t

Átlag Sokasági szórás nem ismert Nagy minta

n

s;

N

n

n

s 1

xtx ̂

xzx ̂

Student t

Közelítőleg normális

Értékösszeg xN xzxN

xtxN ̂

Normális Student (t)

Arány

Nagy minta n

kpP ˆ

n

pp )1( ;

N

n

n

pp

1

)1( pzp ̂ Normális

www.avf.hu/tanarok/lipecz/AVF-STATISZTIKA/STAT-kovetkezteto/Kepletgyujtemeny-Kovetkezteto

A mintanagyság meghatározása átlagbecsléshez egyszerű véletlen mintánál

Ha tudjuk, hogy az átlag becslésében nem akarunk egy megengedhető hibánál nagyobbat adott valószínűséggel megengedni, a szükséges mintaszám meghatározható a középérték hibájából.

A megengedhető hiba lényegében a P valószínűséghez tartozó konfidencia intervallum: xSt

xx

xSt

A hiba %-ban kifejezve: s

s

nxxahol

A mintaszám független mintavétel esetén, végtelen sokaságra:

2

xStn

Nem független mintavétel, véges sokaságra:

N

St

Stn

x

x22

2

22

MINTASZÁM CSÖKKENTÉSÉNEK HATÁSA

0.0

0.2

0.4

0.6

0.8

1.0

0 100 200 300 400

Nn

nN

minta / év

n

1

Heti / napi: Heti / napi: 2.72.7

Kétheti / napi: Kétheti / napi: 3.83.8

Havi / napi:Havi / napi: 5.55.5

Szezonális / napi: Szezonális / napi: 9.69.6

Mintaszámtól (n) függő tényező:

Havi / kétheti: Havi / kétheti: 1.51.5

Szezonális / kétheti:Szezonális / kétheti: 2.52.5

00.20.40.60.8

11.21.41.61.8

2

Víz

hoza

m pH

Vez

etők

ép.

Lug

ossá

g

Old

.Oxi

gén

BO

I

KO

Id Ca

Mg

Na K Cl

SO4

ÖO

A

ÖL

A

NH

4

NO

2

NO

3

ÖN

PO

4

ÖP

OL

AJ

Ana

Det

Chl

-a

Szór

ás/á

tlag

Duna (Medve, 1806 fkm)Sajó (Sajópüspöki, 123.5 fkm)

Vízminőség paraméterek változékonysága (szórás)

Függ: vízhozam, szezonális hatások (biológia), szennyezések

Relatív szórás

0.01

0.1

1

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

pH

Vezetőképesség

BOI

KOI

NH4-N

NO3-N

PO4-P

Összes P

LA

Ca

olaj

Coliform

Old. Oxigén

Összes keménység

A-klorofill

Vízminőségi jellemzők relatív szórása

Víztípusok

Kétheti mérés középértékének hibája

0%

1%

10%

100%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

pH

Vezetőképesség

BOI

KOI

NH4-N

NO3-N

PO4-P

Összes P

LA

Ca

olaj

Coliform

Old. Oxigén

Összes keménység

A-klorofill

Mintavétel hibája a szórás függvényében

Víztípusok

0

20

40

60

80

100

120

140

160

180

q

ph

l

vez

mlu

g

old

o

o_t

el

bo

i

koi_

p_e

koi_

d_e to

c

ca mg

na k

o_k

em

cl

so4

hid

c

o_o

a

o_l

a

co2

ofe

o_f

e

mn

nh

4_n

no

2_n

no

3_n

szn

o_n

po

4_p

o_p

< 10% < 15% < 30%

Heti

Kétheti

Szezonális

Kívánt pontosság eléréséhez szükséges éves mintaszám

0

50

100

150

200

250

300o

laj

fen

ana al as bo cn zn hg cd cr ni

pb cu

pah

hcc

l3

ccl4

tcle li

mlt

d24

d

mcp

a

atr

pcb

chl_

a

feo cf fcf

fs t37

t20

zn_o

hg

_o

cd_o

cr_o

ni_

o

pb

_o

cu_o

trcl

e

al_o

as_o

bo

_o

< 10% < 15% < 30%

Kívánt pontosság eléréséhez szükséges éves mintaszám

A Zala és a Tetves-patak éves átlagos összes P terhelésének becslésében elkövetett relatív hiba Monte Carlo szimulációból nyert empirikus eloszlása

(N=365, n=12)

Példa: adatsorok ritkítása → becslés hibájának eloszlása:

A vízhozamok általában erősen, a vízminőségi változók komponenstől függően különböző mértékben mutatnak pozitív ferdülést, leggyakrabban lognormál eloszlásúak.

Tesztelés: Monte Carlo szimulációval

MINTAVÉTELI HIBAAdott tartósságú érték meghatározásának hibája

Relatív hiba:

1-p 0 0.1 0.5 1 5 10 20

31.6 14.1 9.9 4.4 3.0 2.0

1-p 30 40 50 60 70 80 90

1.5 1.2 1.0 0.8 0.7 0.5 0.3

PQ

PQ

PQközépp

90%-os tartósságú koncentráció becslési hibája a középérték hibájának háromszorosa!

Forrásmunkák:

METROLÓGIA ÉS HIBASZÁMíTÁS (www.fke.bme.hu)Homolya András: Óravázlat a Geodézia II. tantárgy gyakorlataihoz (www.agt.bme.hu)Cochran (1962): Sampling technics