Biostatistica - UniBucfpce9.fizica.unibuc.ro/biostat/17-18/c04/curs04.pdf · 2018. 2. 2. · Title:...

Preview:

Citation preview

Biostatistica

Distribuția normală 1

Funcţia masă de probabilitate -3

Hipertensiune. Dintre pacientii unei clinici se iau la intamplare 4 pacienti.

Variabila X este numarul de pacienti care au nevoie de tratament pentru hipertensiune.

Spre exemplu probabilitatea ca 2 dintre cei patru sa aibe nevoie de tratament pentru hipertensiune este 0.265. Adica 26.5%.

Si aici trebuie ca 𝑷 𝑿 = 𝒓 = 𝟏, adica

.008 + .076 + .265 + .411 + .240 = 1

Funcţia masă de probabilitate

Pr(X=r) .008 .076 .265 .411 .240

r 0 1 2 3 4

2

Valoarea asteptata a unei v.a. discrete

𝑬𝒙𝒑 𝑿 = 𝒙𝒊𝑷𝒓 𝑿 = 𝒙𝒊

𝒏

𝒊=𝟏

Hipertensiune. 𝑬𝒙𝒑 𝑿

= 𝟎 ∗ . 𝟎𝟎𝟖 + 𝟏 ∗ . 𝟎𝟕𝟔 + 𝟐 ∗ . 𝟐𝟔𝟓 + 𝟑 ∗ . 𝟒𝟏𝟏 + 𝟒 ∗ (. 𝟐𝟒𝟎) = 𝟐. 𝟖𝟎

In R acest calcul se face: Dteor = c(.008,.076,.265,.411,.240)

i <- 0:4

Exp=i %*% Dteor# produs de doua matrici

Exp #similar sum(Dteor*i) rez. numar

[,1]

[1,] 2.799

# rezultatul este o matrice de 1*1 3

Valoarea asteptata a unei v.a. discrete • 𝑬𝒙𝒑 𝑿 = 𝒙𝒊𝑷𝒓 𝑿 = 𝒙𝒊

𝒏𝒊=𝟏

Hipertensiune. 𝑬𝒙𝒑 𝑿= 𝟎 ∗ . 𝟎𝟎𝟖 + 𝟏 ∗ . 𝟎𝟕𝟔 + 𝟐 ∗ . 𝟐𝟔𝟓 + 𝟑∗ . 𝟒𝟏𝟏 + 𝟒 ∗ (. 𝟐𝟒𝟎) = 𝟐. 𝟖𝟎

In R acest calcul se face:

Dteor = c(.008,.076,.265,.411,.240)

i <- 0:4

Exp=(i %*% Dteor)[1,1]

Exp

[1] 2.799

# rezultatul este un numar

4

Valoarea asteptata a unei v.a. discrete Otorinolaringologie ORL (Otolaryngology). Otita medie, o boala a urechii medii, este una dintre cele mai frecvente afectiuni ale unui copil în primii 2 ani de viață. Fie X variabila aleatoare care reprezintă numărul de episoade de otita medie în primii 2 ani de viață. Dteor = c(.129,.264,.271,.185,.095,.039,.017)

i <- 0:(length(Dteor)-1)

Exp=(i %*% Dteor)[1,1]

writeLines(sprintf("Exp = %g",Exp))

Exp = 2.038

Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață

𝒓 0 1 2 3 4 5 6

Pr (𝑿 = 𝒓) .129 .264 .271 .185 .095 .039 .017 5

Dispersia si abaterea standard pentru o v.a. discretă

Dispersia (variance) 𝝈𝟐

𝑽𝒂𝒓 𝑿 = 𝝈𝟐 = 𝒙𝒊 − 𝝁𝟐𝑷𝒓 𝑿 = 𝒙𝒊

𝒏

𝒊=𝟏

Abaterea standard (standard deviation) σ.

𝒔𝒅 𝑿 = 𝝈 = 𝑽𝒂𝒓 𝑿

Formula

𝝈𝟐 = 𝐄 𝒙𝒊 − 𝝁𝟐 = 𝒙𝒊

𝟐𝑷𝒓 𝑿 = 𝒙𝒊

𝒏

𝒊=𝟏

− 𝝁𝟐

unde 𝝁 = 𝐄 𝐗 = 𝑬𝒙𝒑 𝑿 = 𝒙𝒊𝑷𝒓 𝑿 = 𝒙𝒊𝒏𝒊=𝟏

6

Dispersia si abaterea standard pentru o v.a. discretă -2

𝝈𝟐 = 𝐄 𝑿 − 𝝁 𝟐 = 𝒙𝒊𝟐𝑷𝒓 𝑿 = 𝒙𝒊

𝒏

𝒊=𝟏

− 𝝁𝟐

Otorinolaringologie

𝒙𝒊𝟐𝑷𝒓 𝑿 = 𝒙𝒊

𝒏

𝒊=𝟏

= 𝟎𝟐 ∗. 𝟏𝟐𝟗 + 𝟏𝟐 ∗. 𝟐𝟔𝟒 +⋯+ 𝟔𝟐 ∗. 𝟎𝟏𝟕 = 𝟔. 𝟏𝟐

= 𝑬 𝑿𝟐

𝝈𝟐 = 𝟔. 𝟏𝟐 − 𝟐. 𝟎𝟑𝟖𝟐 = 𝟏. 𝟗𝟔𝟕

𝒔𝒅 𝑿 = 𝝈 = 𝟏. 𝟗𝟔𝟕 = 𝟏. 𝟒𝟎𝟐

Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață

𝒓 0 1 2 3 4 5 6

Pr (𝑿 = 𝒓) .129 .264 .271 .185 .095 .039 .017 7

Interval de incredere 95% al v.a. Interval de incredere IC (Confidence Interval) CI are la baza ideea de a scrie un interval in care, cu un anumit grad de incredere, 𝒑[%], se va afla o variabila: 𝑿∈

𝒑 𝝁 ±

𝑪𝑰 𝑿; 𝒑 = 𝝁 ± 𝒌 𝒑 ∗ 𝝈 unde 𝒌 este un numar care depinde de p. Intervalul de incredere se calculeaza pentru un procent dat 𝒑 care precizeaza cat la suta din toata masa de probabilitate se afla in acest interval. Regula 95% (pentru variabile distribuite normal ) : Aproximativ 95% din masa de probabilitate intră în două deviații

standard (2 σ) in jurul mediei variabilei aleatoare

𝑪𝑰 𝑿; 𝟗𝟓% = 𝝁 ± 𝟐 ∗ 𝝈 Otorinolaringologie 𝑪𝑰 𝒓; 𝟗𝟓% = 𝟐. 𝟎𝟑𝟖 ± 𝟐(𝟏. 𝟒𝟎𝟐) = 𝟐. 𝟎𝟑𝟖 ± 𝟐. 𝟖𝟎𝟓

8

Functia de repartiție

• Funcţia de repartiţie (Probability Distribution Function, or Cumulative distribution function CDF)

• Funcţia de repartiţie a probabilitaţii (numele complet) a unei variabile aleatoare continue este definită prin

𝑭𝑿(𝒙) = 𝑷( 𝑿 <= 𝒙)

oricare ar fi 𝒙 real.

• Funcţia de repartiţie precizează, pentru fiecare număr 𝒙, probabilitatea ca variabila aleatoare 𝑿 să fie mai mică sau egală cu 𝒙.

• Pe scurt, funcţia de repartiţie se noteaza 𝑭(𝑿). 9

Functia de repartiție -2 Otorinolaringologie

Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață

𝒓 0 1 2 3 4 5 6

Pr (𝑿 = 𝒓) .129 .264 .271 .185 .095 .039 .017

F(x) Interval

. 𝟏𝟐𝟗 𝒙 ≤ 𝟎

. 𝟑𝟗𝟑 𝒙 ≤ 𝟏

. 𝟔𝟔𝟒 𝒙 ≤ 𝟐

. 𝟖𝟒𝟗 𝒙 ≤ 𝟑

. 𝟗𝟒𝟒 𝒙 ≤ 𝟒

. 𝟗𝟖𝟑 𝒙 ≤ 𝟓

𝟏. 𝟎 𝒙 ≤ 𝟔

10

Functia de repartiție -3 Otorinolaringologie: codul R care simuleaza p=c(.129, .264, .271, .185,.095, .039,.017)

d=sample(0:6,1e5,replace=T,prob=p

cdf=ecdf(d)

plot(cdf, verticals=TRUE,

col.points='darkblue',

col.vert='red',col.hor='green',

ylab='F(x)',main='cdf(d)')

11

F(x) Interval

. 𝟏𝟐𝟗 𝒙 ≤ 𝟎

. 𝟑𝟗𝟑 𝒙 ≤ 𝟏

. 𝟔𝟔𝟒 𝒙 ≤ 𝟐

. 𝟖𝟒𝟗 𝒙 ≤ 𝟑

. 𝟗𝟒𝟒 𝒙 ≤ 𝟒

. 𝟗𝟖𝟑 𝒙 ≤ 𝟓

𝟏. 𝟎 𝒙 ≤ 𝟔

ecdf –empirical CDF

• 𝑒𝑐𝑑𝑓(𝑡) =𝑛𝑟. 𝑒𝑙𝑒𝑚. 𝑑𝑖𝑛 𝑒𝑠𝑎𝑛𝑡𝑖𝑜𝑛≤𝑡

𝑣𝑜𝑙𝑢𝑚 𝑒𝑠𝑎𝑛𝑡𝑖𝑜𝑛

e=sample(1:6,10000,replace=T,prob=c(1,3,7,5,3,1))

hist(e)

plot(ecdf(e))

tb=table(e);tb

x=as.integer(names(tb))

y=as.integer(tb)

plot(x,y/1e4)

plot(x,y/1e4*100/5)

round(y/1e4*100/5)

12

e 1 2 3 4 5 6 470 1478 3519 2479 1540 514

[1] 1 3 7 5 3 1

fisier= "ex ecdf zar masluit.R"

Permutari, Aranjamente, Combinari Permutari (Permutations) 𝑷𝒏: numarul de moduri in care pot fi aranjate n obiecte in n cutii (sau intr-o cutie cu n locuri)

𝑷𝒏 = 𝒏!

Aranjamente (i-permutations of n) 𝑷(𝒏, 𝒊): numarul de moduri in care pot fi aranjate 𝒊 obiecte din 𝒏, in 𝒊 cutii (sau intr-o cutie cu i locuri)

𝑷 𝒏, 𝒊 =𝒏!

𝒏 − 𝒊 != 𝒏 𝒏 − 𝟏 ⋯ 𝒏 − 𝒊 + 𝟏

Combinari (i-combinations of n) 𝑪 𝒏, 𝒊 = 𝑪𝒊𝒏=𝒏𝒊

: numarul

de submultimi de 𝒊 obiecte dintr-o multime de 𝒏 obiecte

𝑪 𝒏, 𝒊 =𝒏 𝒏 − 𝟏 ⋯ 𝒏 − 𝒊 + 𝟏

𝟏 ∙ 𝟐⋯ 𝒊=𝒏!

𝒊! 𝒏 − 𝒊 !

13

Permutari, Aranjamente, Combinari Pacienti : Din greseala 3 pacienti, A, B, si C, au fost programati la un control de rutina la aceeasi ora. Totusi intrarea la medic se va face in ordinea sosirii: {A,B,C},{A,C,B}... Cate secvente de intrare exista?

R. 𝑷𝟑 = 𝟑! = 𝟔 #factorial(3)

Sanatate Mintala. Să presupunem 3 femei schizofrenie de varsta 50-59 si 6 medici eligibili disponibil în aceeași comunitate. In cate moduri pot fi alesi trei medici?

R. 𝑃(6,3) = 6 ∗ 5 ∗ 4 = 120 #factorial(6)/factorial(3)

Locuri in spital. Intr-un spital trebuiesc internati 4 pacienti, iar la acea sectie mai sunt disponibile 7 paturi. In cate moduri pot fi alese paturile pentru cei 4 pacienti?

R. 𝑪 𝟕, 𝟒 =𝟕∗𝟔∗𝟓∗𝟒

𝟏∙𝟐∙𝟑∙𝟒= 𝟑𝟓 #choose(7,4)

14

Proces Bernoulli

În teoria probabilităților și statistică, un proces Bernoulli (sau proces binomial) este un experiment aleator cu exact două rezultate posibile, "succes" și "eșec", în care probabilitatea de succes este același de fiecare dată când experimentul este realizat.

Exemplu: Fie evenimentul de interes este aparitia unei fețe (Stema sau Banul) atunci cand dăm cu banul. Un astfel de proces este un proces Bernoulli.

15

Distributiei Binomiala, Binom(n,p) Toate exemplele in care trebuie folosita distribuția binomială au o structură comună: un eșantion de n încercări independente, fiecare dintre ele poate avea numai două rezultate posibile, care sunt notate ca "succes" și "eșec". Care este probabilitatea a 𝒌 succese (din 𝒏 încercări) daca probabilitatea unui succes este 𝒑.

𝑩 𝒌;𝒏, 𝒑 = 𝑷 𝑿 = 𝒌 = 𝑪𝒌𝒏𝒑𝒌 𝟏 − 𝒑 𝒏−𝒌

Pacienti la clinica. Un grup de 5 pacienti ai unei clinici sunt testati daca prezinta simptome de gripa. Dat fiind ca in perioada de test probabilitatea prezentei simptomelor de gripa la un pacient este 3/5, care este probabilitatea ca exact 2 din cei 5 pacienti sa prezinte simptome de gripa?

R. 𝐵 2; 5,3/5 = 𝐶25∗ (3/5)2∗ 2/5 3= 𝟏𝟎 ∗

𝟗∗𝟖

𝟓𝟓= 𝟎. 𝟐𝟑𝟎𝟒

Cod R pentru acest calcul: dbinom(2, 5, 3/5)

16

Distributiei Binomiala -2

𝑩 𝒌;𝒏, 𝒑 = 𝑷 𝑿 = 𝒌 = 𝑪𝒌𝒏𝒑𝒌 𝟏 − 𝒑 𝒏−𝒌

Pacienti la clinica. Un grup de 5 pacienti ai unei clinici sunt testati daca prezinta simptome de gripa. Dat fiind ca, in perioada de test, probabilitatea prezentei simptomelor de gripa la un pacient este 3/5,

care este probabilitatea 𝑷 ca cel putin doi din cei 5 pacienti sa prezinte simptome de gripa?

R. 𝑷 = 𝐵 2; 5,3/5 + 𝐵 3; 5,3/5 + 𝐵 4; 5,3/5 +𝐵 5; 5,3/5 = 𝟎. 𝟐𝟑𝟎𝟒 + 𝟎. 𝟑𝟒𝟓𝟔 + 𝟎. 𝟐𝟓𝟗𝟐 +𝟎. 𝟎𝟕𝟕𝟕𝟔 = 𝟎. 𝟗𝟏𝟐𝟗𝟔

Cod R pentru acest calcul:

sum(dbinom(2:5, 5, .6)) 17

Celulele sangelui uman Denumire Numărul pe μl (mm3) de sânge

Eritrocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați

Leucocite 6.000–8.000

Granulocite

Neutrofile 2.500–7.500

Eozinofile 40–400

Bazofile 10–100

Limfocite 1.500–3.500

Monocite 200–800

Trombocite 300.000

18

Celulele sangelui uman Denumire Numărul pe μl (mm3) de sânge

Eritrocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați

Leucocite 6.000–8.000

Granulocite

Neutrofile 2.500–7.500

Eozinofile 40–400

Bazofile 10–100

Limfocite 1.500–3.500

Monocite 200–800

Trombocite 300.000

19

Granulocite

Celulele sangelui uman Denumire Numărul pe μl (mm3) de sânge

Eritrocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați

Leucocite 6.000–8.000

Granulocite

Neutrofile 2.500–7.500

Eozinofile 40–400

Bazofile 10–100

Limfocite 1.500–3.500

Monocite 200–800

Trombocite 300.000

20

Celulele sangelui uman

Boli Infectioase. Evaluează probabilitatea ca din 10 globule albe 2 să fie limfocite dacă probabilitatea să fie o limfocită este 0.2 .

Raspuns. 𝑃 = 𝐵(2,10, . 2) ≅ 𝟎. 𝟑𝟎𝟐𝟎

21

Distributiei Binomiala -3 Boala pulmonara. Un anchetator observă că copiii dezvolta bronșită cronică, în primul an de viață, în cel putin 3 din 20 gospodării în care ambii părinți au bronșită cronică, comparativ cu incidenta națională de bronsită cronică, care este de 5% în primul an de viață. Este această diferență "reală", sau poate fi întâmplătoare? Concret, care este probabilitatea 𝑷 ca, în cel puțin 3 din 20 de case, copiii sa dezvolte bronsita cronica dacă probabilitatea de aparitie a bolii, în orice gospodărie, este 0.05? Raspuns. 𝑃 𝑋 ≥ 3 = 𝐵 𝑘, 20, . 0520

𝑘=3 = 1 − 𝐵 𝑘, 20, . 052𝑘=0 = 𝟎. 𝟎𝟕𝟓𝟒𝟖𝟑𝟔𝟕

Codul R este fie: sum(dbinom(3:20,20,.05)) fie 1-sum(dbinom(0:2,20,.05))

22

Distribuția Binomială -4 Boli Infectioase. Unul dintre testele de laborator comune vizeaza identificarea si numararea celulelor sanguine. Distingem doua tipuri de numarari: 1. Numararea celulelor albe (WBC White Blood cells) 2. Diferentierea celulelor albe in 5 categorii: Neutrofile,

Eozinofile, Bazofile, Limfocite, Monocite (numit differential WBC, pe scurt diferențial).

Atât WBC cat și diferențialul sunt utilizate pe scară largă în a face diagnosticul clinic. Ne concentram aici pe diferențial, în special pe distribuția numărului de neutrofile k din 100 globule albe (numărul tipic de numărare).

Vom vedea că numărul de neutrofile urmează o distribuție binomială.

23

Distribuția Binomială

Boli infecțioase. Numărul de limfocite într-un diferențial de 100 de celule albe din sânge (vezi slide-ul urmator pentru definirea unui diferențial) este distribuit binomial deoarece această variabilă aleatoare este o sumă de 100 de variabile aleatoare, fiecare reprezentând reprezentand o variabila binară: este (1) sau nu este (0) această celulă individuală o limfocită.

24

Distribuția Binomială Boli Infectioase. Unul dintre testele de laborator comune vizeaza identificarea si numararea celulelor sanguine. Distingem doua tipuri de numarari:

1. Numararea celulelor albe (WBC White Blood cells)

2. Diferentierea celulelor albe in 5 categorii: Neutrofile, Eozinofile, Bazofile, Limfocite, Monocite (numit differential WBC, pe scurt diferențial).

Atât WBC cat și diferențialul sunt utilizate pe scară largă în a face diagnosticul clinic. Ne concentram aici pe diferențial, în special pe distribuția numărului de neutrofile k din 100 globule albe (care este numărul tipic numărate).

Numărul de neutrofile urmează o distribuție binomială.

25

Valoarea asteptata si dispersia Distributiei Binomiale

Valoarea asteptată.

𝝁 = 𝑬 𝑿 = 𝑘 ∗ 𝐵𝑖𝑛𝑜𝑚 𝑘; 𝑛, 𝑝

𝑛

𝑘=0

= 𝑘 ∗ 𝐶𝑘𝑛𝑝𝑘 1 − 𝑝 𝑛−𝑘

𝑛

𝑘=0

= 𝒏 ∗ 𝒑 Dispersia

𝝈𝟐 = 𝐸 𝑋 − 𝜇 2 = 𝑘 − 𝑛𝑝 2 ∗ 𝐶𝑘𝑛𝑝𝑘 1 − 𝑝 𝑛−𝑘

𝑛

𝑘=0

= 𝒏𝒑 𝟏 − 𝒑

Valoarea așteptată și dispersia unei distribuții binomiale sunt 𝒏𝒑 și 𝒏𝒑𝒒, respectiv, unde 𝒒 = 𝟏 − 𝒑.

26

Graficul p*q=f(p)

27

𝒒 = 𝟏 − 𝒑

Distribuția Poisson

• Este o distributie discreta.

• A fost pentru prima data utilizata la studiul numarului de decese in urma loviturilor de copita ale cailor in armata prusaca.

• Are un singur parametru: media

Functia masa de probabilitate pentru distributia Poisson este:

𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑘; 𝜇 = 𝑃 𝑋 = 𝑘 =𝑘𝑒−

𝑘!

28

Distribuția Poisson

29

Functia masa de probabilitate :

𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑘; 𝜇 = 𝑃 𝑋 = 𝑘 =𝑘𝑒−

𝑘!

Distribuția Poisson

• Distribuția Poisson este, probabil, cea mai frecvent utilizata distribuție discretă, după distribuția binomială

• Această distribuție este asociată cu evenimente rare. Aceste evenimente au o rata medie de aparitie si sunt independente unul de celalalt.

• Ex. evenimente distribuite uniform in timp sau spatiu.

Distributia Poisson exprima probabilitatea de aparitie a un anumit număr de evenimente într-un interval fix de timp (sau de spațiu).

30

Distribuția Poisson -2 Distribuția Poisson poate fi derivată de luând în considerare un interval de timp (sau spațial), în care apar în medie evenimente.

• Intervalul este împărțit în 𝑛 subintervale 𝐼1, … , 𝐼𝑛 de dimensiuni egale.

• Probabilitatea ca un eveniment sa apara in subintervalul 𝐼𝑘 este, pentru orice 𝑘, egal cu /𝑛, iar aparitia unui eveniment in 𝐼𝑘 poate fi aproximativ considerat un proces Bernoulli.

• Numarul total de evenimente X, va fi distribuit aproximativ Binomial cu parametrii n si /𝑛.

• Distribuția 𝑩𝒊𝒏𝒐𝒎 𝒏, 𝝁/𝒏 , la limita 𝒏 → ∞, va tinde către distributia Poisson cu parametrul 𝝁.

• Această aproximație este cunoscută sub numele de legea de evenimentelor rare.

31

Distribuția Poisson -3

Legea de evenimentelor rare.

𝑩𝒊𝒏𝒐𝒎 𝒏, 𝝁/𝒏 , la limita 𝑛 → ∞, va tinde către distributia Poisson cu parametrul .

𝐵𝑖𝑛𝑜𝑚 𝑛, 𝜇/𝑛𝑛→∞𝑃𝑜𝑖𝑠𝑠𝑜𝑛

Functia masa de probabilitate pentru distributia Poisson este:

𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑘; 𝜇 = 𝑃 𝑋 = 𝑘 =𝑘𝑒−

𝑘!

Nota. De regula parametrul distributiei Poisson se noteaza cu lambda si nu cu 𝝁 (chiar si R foloseste aceasta notatie): Rosner foloseste 𝝁

32

Distribuția Poisson -4 Boli Infectioase. Să presupunem că numărul de decese cauzate de febra tifoida, pe o perioadă de 1 an este distribuită Poisson cu parametrul μ = 4.6. Care este distribuția de probabilitate a numărului de decese pe o perioada de 6 luni?

Raspuns. Deoarece nr mediu de decese pe un an este 4.6, atunci numarul mediu de decese pe 6 luni va fi 4.6/2. Adica =2.3.

Codul R care da aceste valori: dpois(0:5,2.3)

𝑘 0 1 2 3 4 5

𝑃(𝑋 = 𝑘) .1003 .2306 .2652 .2033 0.1169 .0538

!/3.2!/3.2; 3.2 kekekPoisson kk

33

Distribuția Poisson -5 Boli Infectioase. Să presupunem că numărul de decese cauzate de febra tifoida, pe o perioadă de 1 an este distribuită Poisson cu parametrul μ = 4.6. Care este probabilitate de a avea cel putin 4 decese pe o perioada de 3 luni? • Raspuns. Deoarece nr mediu de decese pe un an este 4.6,

atunci numarul mediu de decese pe 3 luni va fi 4.6/4. Adica =1.15.

Codul R care da acest rezultat: 1-sum(dpois(0:3,1.15))

𝑘 0 1 2 3

𝑃(𝑌 = 𝑘) 0.3166 0.3641 0.2094 0.0803

!/15.115.1; 15.1 kekPoisson k

296.00803020940364103166014 .+.+.+.YP

34

Valuarea asteptata si varianta Distribuției Poisson

Boli Infectioase. Numărul de decese care pot fi atribuite poliomielitei între anii 1968-1977 este prezentat în tabelul următor. Distribuția Poisson se va potrivi probabil bine aici deoarece varianța este aproximativ egala cu media.

Pentru o distribuție Poisson cu parametrul 𝝁, media și varianța sunt ambele egale cu 𝝁.

Numărul de decese care pot fi atribuite poliomielitei în anii 1968-1977

An 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977

Nr. decese 15 10 19 23 15 17 23 17 26 15

Cod R pentru calculul mediei si variantei d=c(15,10,19,23,15,17,23,17,26,15)

mean(d) # 18

var(d) # 23.11111 35

Verificarea legii de evenimentelor rare

Distribuția binomială cu 𝒏 mare și 𝒑 mic poate fi aproximată cu precizie de o distributie Poisson cu parametrul 𝝁 = 𝒏𝒑.

Exemplu: n=1000, p=.001 μ = 1.

Pentru ambele distributii vom calcula

Pr (X ≥ 4) = 1− Pr (X ≤ 3)

Binomiala(1000,0.001):

1-sum(dbinom(0:3,1000,.001)) 0.01892683

Poisson (1):

1-sum(dpois(0:3,1)) 0.01898816

36

Verificarea legii de evenimentelor rare

Distribuția binomială cu 𝒏 mare și 𝒑 mic poate fi aproximată cu precizie de o distributie Poisson cu parametrul 𝝁 = 𝒏𝒑.

Poisson (μ =1): 0.01898816

Binomiala(n=10^2,p=1/10^2): 0.01837404

Binomiala(n=10^3,p=1/10^3): 0.01892683

Binomiala(n=10^4,p=1/10^4): 0.01898203

Binomiala(n=10^5,p=1/10^5): 0.01898754

Binomiala(n=10^6,p=1/10^6): 0.01898810

Binomiala(n=10^7,p=1/10^7): 0.01898815

Binomiala(n=10^8,p=1/10^8): 0.01898816

37

Verificarea legii de evenimentelor rare

38

'blue'D. Poisson

Verificarea legii de evenimentelor rare

39

'blue'D.poisson

Verificarea legii de evenimentelor rare

40

'blue'D.poisson

Verificarea legii de evenimentelor rare

41

'blue'D.poisson

Verif. legii de evenimentelor rare Diferenta

42

Verif. legii de evenimentelor rare Diferenta

43

Verif. legii de evenimentelor rare Diferenta

44

Verif. legii de evenimentelor rare Diferenta

45

Verif. legii de evenimentelor rare Diferenta

46

Verif. legii de evenimentelor rare Diferenta

47

Tema pentru acasa

• Faceti in Rscript graficul distributiilor binomiale cu n=27 si p=0.1,0.2,...,0.9

48

Functia densitate de probabilitate FDP (Probability Density Function)

• Se defineste pentru o variabila aleatoare continua.

• Functia densitate de probabilitate a unei variabile aleatoare X este o functie cu proprietatea ca aria dintre oricare doua puncte a si b este egala cu probabilitatea ca variabila X sa ia valori intre a si b.

• Astfel aria totala de sub curba functiei densitate de probabilitate, calculata pentru toata multimea valorilor posibile ale variabile X, este 1.

49

Functia densitate de probabilitate

Hipertensiune O FDP pentru Presiunea Arterială Diastolică (PAD) pentru barbati intre 35 si 44 de ani este prezentata

in figura

alaturata.

50

Functia densitate de probabilitate

Hipertensiune. Ariile A si B dau probabilitatile de a fi moderat hipertensiv si sever hipertensiv.

51

Funcția de distributie cumulativă FDC

• Funcția de distributie cumulativă (FDC) pentru variabila aleatoare X evaluată în punctul a este definită ca probabilitatea ca X va lua valori ≤ a. Aceasta este reprezentată de aria de sub FDP din stânga lui a.

52

Funcția de distributie cumulativă

• Obstretică. .

53

μ, 2, • Valoarea așteptată (ExpectedValue) a unei variabile

aleatoare continuă X, notata cu E (X), sau μ, este valoarea medie a variabilei aleatoare.

𝝁 = 𝑬 𝑿 = 𝑿𝒅𝑷

= 𝑿𝒇 𝑿 𝒅𝑿

• Dispersia (variance) unei variabile aleatoare continue X, notata cu Var(X) sau 2, este media patratului distantei fata de valoarea asteptata a variabilei:

𝝈𝟐 = 𝑽𝒂𝒓 𝑿 = 𝑬(𝑿 − 𝝁)𝟐

𝝈𝟐 = 𝑬 𝑿𝟐 − 𝝁𝟐 (Tema)

• Abaterea standard (standard deviation) este

𝝈 = 𝑽𝒂𝒓 𝑿 54

Distribuția normală

• Distribuția normală este distribuția continuă cea mai des întâlnită.

• Este frecvent numită distribuție Gaussiană, după cunoscutul matematician Karl Friedrich Gauss.

55

Distribuția normală

• Distribuția normală este notată 𝑁(𝜇, 𝜎2).

• Are functia densitate de probabilitate:

𝒇 𝒙 =𝟏

𝟐𝝅𝒆−𝝁−𝒙 𝟐

𝟐𝝈𝟐

56

Distribuția normală standard

• Distribuția normală standard este notată 𝑁(0,1).

• Are functia densitate de probabilitate:

𝒇 𝒙 =𝟏

𝟐𝝅𝒆−𝒙𝟐

𝟐

57

𝟏

𝟐𝝅= 0.3989… ≅ 𝟎. 𝟒

Distribuția normală standard

O variabila aleatoare 𝑍 are distribuția normală standard dacă are funcția de densitate de probabilitate dată de:

𝒙 =𝟏

𝟐𝝅𝒆−𝒙𝟐

𝟐

unde

−∞ < 𝒙 < ∞

58

Distribuția generală normală 𝑁(μ, σ2)

• Distribuția generală normală este familia localizare-scală asociată cu distribuția normală standard.

• Concret, să presupunem că μ ∈ R și σ ∈ (0, ∞) și că variabila 𝑍 are distribuția normală standard.

• Atunci variabila 𝑿 = 𝝁 + 𝝈𝒁 are o distribuție normală cu parametrul de localizare 𝝁 și parametrul de scală 𝝈. Aceasta distributie este notată 𝑵(μ, σ).

𝒇 𝒙 =𝟏

𝟐𝝅𝒆−𝝁−𝒙 𝟐

𝟐𝝈𝟐 , −∞ < 𝒙 < ∞

59

Distribuția generală normală 𝑁(μ, σ2)

Distribuția normală cu parametrul de localizare 𝝁 și parametrul de scală 𝝈 are funcția de densitate de probabilitate f dată de

𝒇 𝒙 =𝟏

𝒙 − 𝝁

=𝟏

𝟐𝝅𝒆−𝝁−𝒙 𝟐

𝟐𝝈𝟐

unde

𝒙 =𝟏

𝟐𝝅𝒆−𝒙𝟐

𝟐

si −∞ < 𝒙 < ∞

60

Distribuția normală FDP pentru o distribuție normală cu media μ=50 și varianța σ2 =100, N(50,100)

61

Distribuția normală Trei funcții de repartiție Normale reprezentate în scală logaritmică. Ex. R: dnorm_log.R

62

Distribuția normală Codul: dnorm_log.R plot(function(x) dnorm(x,10), -60, 70,

main = "Repartitia Normala in scala logaritmica",

log='y',ylab='N(mu,sigma)', lwd = 2)

curve(dnorm(x), add = TRUE, col = "blue",

lwd = 2,xlim=c(-35,35))

curve(dnorm(x,0,2), add = TRUE, col = "red",

lwd = 2,xlim=c(-60,60))

legend("topleft",

legend=c('N(10,1)','N(0,1)','N(0,2)') ,bty='n',

text.col=c('black','blue','red'))

63

Distribuția normală Compararea a două distribuții normale cu aceeași varianță avand medii diferite

64

FDC a distribuției normale standard FDC a distribuției normale standard, notata cu 𝜱(𝒙)

65

FDC - distribuția normală standard Graficul FDC pentru distribuția normale standard, 𝜱(𝒙)

𝜱(𝒙)

66

Proprietăți de simetrie ale distribuției normale standard

𝚽 (−𝒙) = 𝑷𝒓 (𝑿 ≤ −𝒙) = 𝑷𝒓 (𝑿 ≥ 𝒙) = 𝟏 − 𝑷𝒓 (𝑿 ≤ 𝒙) = 𝟏 − 𝚽 (𝒙)

67

𝚽 −𝒙 = 𝟏 − 𝚽 (𝒙)

Capacitatea vitală forțată - CVF Afectiuni pulmonare. Capacitatea vitală forțată (FVC - Forced vital capacity) - un test standard de investigare a functiei pulmonare - este volumul de aer (exprimat in litrii) pe care o persoană il poate expulza în 6 secunde.

68

Capacitatea vitală forțată FVC FVC

69

Capacitatea vitală forțată CVF Afectiuni pulmonare. Cercetările actuale analizează factorii de risc potențiali, cum ar fi fumatul, poluarea aerului, alergii de interior, sau de tipul de aragaz utilizat in casa, care pot afecta CVF la elevi.

Una dintre probleme este ca varsta, sexul și înălțimea afecteaza funcția pulmonară. De aceea s-au facut studii la scara nationala in care au fost izolate grupurile de aceeasi varsta, sex si inaltime.

Este interesant ca variabila aleatoare CVF (pentru aceste grupuri), notata aici cu X, urmeaza o distributie normala cu media si varianta , 𝑁 𝜇, 𝜎 .

70

Capacitatea vitală forțată CVF Afectiuni pulmonare. Se defineste CVF standardizata variabila calculata cu 𝒁 = (𝑿 − 𝝁)/𝝈, unde 𝑿 este distributia CVF originala

Noua variabila Z urmează aproximativ o distributie normala standard 𝑁 0,1 .

Să presupunem că un copil este considerat are o deficienta pulmonară dacă CVF standardizat al sau este mai mic decat −𝟏. 𝟓.

Ne punem problema: care este probabilitatea ca sa intalnim un asfel de copil?

𝑃𝑟 𝑍 < −1.5 este egala cu valoarea functiei de distributie cumulativa pentru distributia 𝑁 0,1 .

Folosim pnorm(-1.5) care intoarce 0.0668072 71

Capacitatea vitală forțată CVF Afectiuni pulmonare. Am vazut ca pentru 𝑁 0,1

𝑃𝑟 𝑍 < −1.5 ≅0.0668, adica aproximativ 7% dintre copii sunt afectati.

La fel putem calcula 𝑃𝑟 𝑍 > 1.5 folosind

1-pnorm(1.5)care intoarce acelasi rezultat 0.0668072.

Am verificat astfel, numeric, ca pentru 𝑁 0,1 𝑃𝑟 𝑍 < −1.5 = 𝑃𝑟 𝑍 > 1.5

72

Capacitatea vitală forțată CVF

𝑃𝑟 𝑍 < −1.5 = 1 − 𝑃 1.5 ≅

1−0.93=0.07

73

Recommended