Cursuri Biostatistica

Embed Size (px)

Citation preview

  • 7/29/2019 Cursuri Biostatistica

    1/107

    Cuprins

    1 Analiza combinatoriala 31.1 Multimi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Functii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Analiza combinatorica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.3.1 Permutari, aranjamente si combinari . . . . . . . . . . . . . . . . . . . 7

    1.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2 Probabilitate 112.1 Evenimente. Spatiu de evenimente . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Probabilitate. Spat iu de probabil itate . . . . . . . . . . . . . . . . . . . . . . . 132.3 Scheme probabilistice clasice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.3.1 Schema bilei nerevenite . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.2 Schema lui Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.3 Schema bilei revenite (schema lui J. Bernoulli / schema binomiala) . . 17

    2.4 Probabilitate conditionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3 Variabile aleatoare si repartitii 253.1 Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.1.1 Variabile aleatoare discrete . . . . . . . . . . . . . . . . . . . . . . . . . 283.1.2 Variabile aleatoare continue . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.2 Repartitii multivariate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.3 Caracteristici numerice ale variabilelor aleatoare . . . . . . . . . . . . . . . . . 333.4 Repartiti i di screte cl asi ce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.4.1 Repartitia uniforma - X U(C+ L, C+ N L) . . . . . . . . . . . . . . 383.4.2 Repartitia Bernoulli - X B(p) . . . . . . . . . . . . . . . . . . . . . . 383.4.3 Repartitia binomiala - X B(n, p) . . . . . . . . . . . . . . . . . . . . 393.4.4 Repartitia geometrica - X GEO(p) . . . . . . . . . . . . . . . . . . . 403.4.5 Repartitia binomiala negativa (Pascal) - X N B(p, r) . . . . . . . . . 423.4.6 Repartitia Poisson - X P OI() . . . . . . . . . . . . . . . . . . . . . 433.4.7 Repartitia hipergeometrica - X HGEO(n,a,b) . . . . . . . . . . . . 46

    3.5 Repartitii continue clasice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.5.1 Repartitia uniforma - X U(a, b) . . . . . . . . . . . . . . . . . . . . . 473.5.2 Repartitia exponentiala - X EX P() . . . . . . . . . . . . . . . . . 483.5.3 Repartitia gamma - X GAM(, k) . . . . . . . . . . . . . . . . . . . 503.5.4 Repartitia Weibull - X W EI(, ) . . . . . . . . . . . . . . . . . . . 513.5.5 Repartitia normala (legea lui Gauss) - X N(, 2) . . . . . . . . . . 523.5.6 Repartitia lognormala - X

    LOGN(, 2) . . . . . . . . . . . . . . . . 55

    3.5.7 Repartitia beta - X BETA(, ) . . . . . . . . . . . . . . . . . . . . 553.5.8 Repartitia chi2 (HelmertPearson) - X 2(n) . . . . . . . . . . . . . 56

    1

  • 7/29/2019 Cursuri Biostatistica

    2/107

    3.5.9 Repartitia Student (W. Gosset, 1908) - X t(n) . . . . . . . . . . . . 563.5.10 Repartitia SnedecorFisher - X F . . . . . . . . . . . . . . . . . . . 57

    3.6 Legi limita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.6.1 Legea numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.6.2 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.6.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4 Introducere n statistica matematica 644.1 Despre statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2 Proiectarea analizei statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.3 Analiza si interpretarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4 Tipuri de date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    4.4.1 Date numerice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.4.2 Date categoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.4.3 Alte tipuri de date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.4.4 Date cenzurate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.4.5 Variabilitatea datelor. Modelul probabilist . . . . . . . . . . . . . . . . 694.4.6 Tabele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    5 Statistica descriptiva 725.1 Reprezentarea grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.2 Parametrii numerici ai unei serii cantitative . . . . . . . . . . . . . . . . . . . 745.3 Descrierea datelor pentru doua variabile statistice . . . . . . . . . . . . . . . . 785.4 Corelatie, covarianta si regresie liniara simpla . . . . . . . . . . . . . . . . . . 805.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.6 Regresia liniara multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    6 Inferenta statistica 926.1 Generalitati privind sondajele si esantioanele . . . . . . . . . . . . . . . . . . . 926.2 Formularea matematica privind esantioanele

    si estimatiile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.3 Repartitii de sonda j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 966.4 Tipuri de estimatii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 986.5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.6 Teste parametrice clasice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    2

  • 7/29/2019 Cursuri Biostatistica

    3/107

    Capitolul 1

    Analiza combinatoriala

    1.1 Multimi

    Definitia 1.1 (Cantor) Prin multime ntelegem o colectie de obiecte bine determinate sidistincte. Obiectele din care este constituita multimea se numesc elementele multimii.

    Doua multimi sunt egale daca ele sunt formate din exact aceleasi elemente.Daca x este un obiect si A este o multime, vom folosi urmatoarele notatii:

    x A daca x este element al lui A; x / A daca x nu este element al lui A.

    Observatia 1.1 Doua multimi sunt egale daca si numai daca are loc echivalenta x A x

    B.

    O multime poate fi definita astfel:

    sintetic, prin enumerarea elementelor multimii: A = {a, 3, b}; analitic, cu ajutorul unei proprietati ce caracterizeaza elementele multimii:

    A = {x| x are proprietatea P}De exemplu, A = {x| x N, x2 5x + 6 = 0}.

    Multimi importante

    Multimea numerelor naturale:N = {0, 1, 2, 3, . . . , n , n + 1, . . .}N = {1, 2, 3, . . . , n , n + 1, . . .}

    Multimea numerelor ntregi:Z = {. . . , n 1, n , . . . , 2, 1, 0, 1, 2, . . . , n , n + 1, . . .}

    Multimea numerelor rationale:Q = {a

    b| a, b Z, b = 0, a

    b=

    c

    d ad = bc}

    3

  • 7/29/2019 Cursuri Biostatistica

    4/107

    Multimea numerelor reale: R Multimea numerelor complexe:

    C = {a + ib| a, b R}

    Multimea vida: = {x| x = x}

    Incluziunea multimilor

    Definitia 1.2 Daca A si B sunt multimi, spunem ca A este submultime a multimii B dacatoate elementele lui A sunt si elemente ale lui B.

    Notam A B faptul ca multimea A este submultime a multimii B sau multimea A esteparte a multimii B.

    Daca orice element al unei multimi A apartine si altei multimi B ce are si alte elemente

    ce nu apartin lui A spunem ca multimea A este inclusa strict n multimea A: A B.Daca ntre doua multimi A si B exista relatia de incluziune stricta, spunem ca A este o

    submultime proprie a lui B.Oricare ar fi multimile A, B si C, urmatoarele afirmatii sunt adevarate:

    1. A B (x A x B);2. A = B A B si B A (antisimetrie);3. A B si B C A C;4. A

    A; (orice multime este inclusa n ea nsasi)

    5. A (multimea vida este considerata o submultime proprie a oricarei multimi nevide).

    Definitia 1.3 Multimea formata din toate partile unei multimi A se numeste multimeapartilor lui A si se noteaz a P(A).

    Exemplul 1.2 Pentru multimea A = {a,b,c}, avem multimea partilor lui A: P(A) ={, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a,b,c}}.

    Operatii cu multimi

    intersectia: A B = {x| x A si x B}Intersectia dintre multimea A si multimea B (A B) este multimea formata din ele-mentele x cu proprietatea ca x apartine multimii A si x apartine multimii B.

    Daca A B = se spune ca multimile A si B sunt disjuncte. reuniunea: A B = {x| x A sau x B} complementara: daca A E, atunci CE(A) = A = {x| x / A}; diferenta: A \ B = {x| x A si x / B}

    Altfel, A \ B = CA(B).Avem urmatoarele proprietati, A,B,C si E multimi:

    4

  • 7/29/2019 Cursuri Biostatistica

    5/107

    A A = A si A A = A; A (B C) = (A B) C si A (B C) = (A B) C; (asociativitatea operatiilor

    si )

    A

    B = B

    A si A

    B = B

    A; (comutativitatea operatiilor

    si

    )

    A (B C) = (A B) (A C) si A (B C) = (A B) (A C); (distributivitateaoperatiei fata de , respectiv a operatiei fata de )

    A = A si A E = E; A = si A E = A; A CE(A) = E si A CE(A) = ; CE(CE(A)) = A, CE(E) = , CE() = E;

    A (A B) = A, A (A B) = A; (absorbtia) CE(A B) = CE(A) CE(B), CE(A B) = CE(A) CE(B); (formulele lui de Morgan)

    Definitia 1.4 O partitie a unei multimi A este o secvent a finita de multimi (submultimi)A1, A2, . . . , Am disjuncte doua cate doua, cu proprietatea ca reuniunea acestora este chiarmultimea A (A =

    mi=1 Ai si Ai Aj = , i, j = 1, m , i = j).

    Produsul cartezian al doua multimi A si B se noteaza A B:

    A

    B =

    {(a, b)

    |a

    A, b

    B

    }Daca A = B, notam AA = A2. Daca A = B trebuie facuta precizarea ca AB = BA.

    Analog, pentru multimile A1, A2, . . . , An produsul cartezian A1 A2 . . . An se definesteastfel:

    A1 A2 . . . An = {(a1, . . . , an)| i = 1, n , ai Ai}

    Definitia 1.5 Principiul lui Dirichlet Daca n obiecte trebuie mpatite n mai putin de nmultimi, atunci exista cel putin o multime n care vor fi cel putin doua obiecte.

    Acest principiu a fost formulat prima data de Dirichlet (1805 1859).O varianta mai generala a principiului lui Dirichlet se poate enunta astfel:

    Definitia 1.6 Fiind date m obiecte, ce trebuie mpartite n n multimi, si un numar naturalk astfel nc at m > kn, atunci, n cazul oricarei mp artiri, va exista cel putin o multime cucel putin k + 1 obiecte.

    1.2 Functii

    Definitia 1.7 FieA siB doua multimi. Prin functie (aplicatie) de domeniuA si codomeniuB (functie definita pe multimea A cu valori n multimea B) ntelegem o coresponent a f ceasociaza fiecarui element a

    A un singur element din B, notat f(a), numit valoarea lui f

    n punctul (argumentul) a.

    5

  • 7/29/2019 Cursuri Biostatistica

    6/107

    Notam o functie de domeniu A si codomeniu B prin f : A B sau B sau A f B.Legea de corespondenta se mai noteaza a f(a).

    Notam BA = {f| f : A B} multimea functiilor f definite pe multimea A cu valori nmultimea B.

    Observatia 1.3 Fie f : A B si g : C D doua functii. Are locf = g A = C, B = D, si (a A, f(a) = g(a)).

    Definitia 1.8 Fie A o multime C A. functia 1A : A A, a A, 1A(a) = a se numeste functia identica. daca f : A B este o functie, atunci f|C : C B, f|C(c) = f(c), c C se numeste

    restrictia lui f la C.

    Definitia 1.9 Fie f : A B o functie.

    1. daca X A. multimeaf(X) = {f(x)| x X} = {y| x X a.i. f(x) = y}

    se numeste imaginea lui X prin f.

    2. Multimea lui Im(f)not= f(A) se numeste imaginea functiei f.

    3. Daca Y B, multimeaf1(Y) = {a A| f(a) Y}

    se numeste imaginea inversa (contraimaginea) lui Y prin f.

    Definitia 1.10 Fie f : A B o functie. Spunem ca functiaf este1. injectiva daca are loc implicatia

    a1, a2 A, a1 = a2 f(a1) = f(a2);

    2. surjectiva daca este adevarata propozitia

    b B, a A a.i. f(a) = b;

    3. bijectiva daca f este injectiva si surjectiva.

    Multimi finite, infinite, numarabile

    O multime este finita daca este multimea vida sau contine un numar finit de elemente. Incaz contrar, multimea este infinita.

    O multime infinita se numeste numarabila daca fiecarui element al mutimii i poate fi pusn corespondenta exact un singur numar natural.

    O multime A este echipotenta cu o multime B daca exista o aplicatie bijectiva f : A B.

    Spunem despre o multime A ca este finita daca ea este echipotenta cu o parte marginitaa multimii numerelor naturale.

    O multime A se numeste numarabila daca este echipotenta cu multimea numerelor nat-urale. Acest lucru se noteaza prin card(A) = 0 (alef zero desemneaza cardinalul numerelornaturale).

    6

  • 7/29/2019 Cursuri Biostatistica

    7/107

    1.3 Analiza combinatorica

    Analiza combinatorica se ocupa, schematic vorbind, de enumerarea (contorizarea sau numararea)unor anumite elemente apartinand unei multimi finite de obiecte si care au o caracteristicaaparte. De exemplu, ne intereseaza sa aflam n cate moduri diferite putem mparti 5 carti

    de joc sau cate meniuri diferite putem face combinand sapte feluri de mancare. Aceastatehnica a numararii a aparut nca din antichitate, putand mentiona ca, de exemplu, dacaformula pentru C2n era cunoscuta nca din sec. III e.n., formula generala a combinarilor C

    kn

    este mentionata prima data de catre matematicianul hindus Bhaskara de-abia n sec. XII.In fine, sa mai amintim ca B. Pascal a remarcat pentru prima data legatura dintre Ckn sicoeficientii din formula binomului lui Newton.

    1.3.1 Permutari, aranjamente si combinari

    Vom ncepe prin a defini notiunea de cardinal. Astfel, prin cardinalul unei multimi finiteA =

    {a1, a2, . . . , an

    }ntelegem numarul n al elementelor sale si vom nota:

    card(A) = n.

    Sa mentionam ca pentru multimea A avand card(A) = n, avem card(P(A)) = 2n (for-mula lui Cardan), unde multimea P(A) reprezinta multimea partilor sale. Pentru produsulcartezian a doua multimi finite A si B, avem relatia card(A B) = card(A) card(B).

    Definitia 1.11 Fie A o multime finita. O permutare a lui A este o bijectie de la A la A.Numarul permutarilor (aplicatiilor bijective) lui A este dat de:

    An

    n

    = n

    (n

    1)

    . . .

    2

    1 = n!, n

    1(n factorial);0! = 1. (1.1)

    Exemplul 1.4 De exemplu, daca A = {1, 2, 3}, atunci permutarile sale sunt 123, 132, 213,231, 312, 321.

    De multe ori este util sa consideram submultimi ordonate ale unei multimi date. Ajungemastfel la definirea aranjamentelor ordonate.

    Definitia 1.12 Fie A = {a1, a2, . . . , an}. Orice submultime ordonata de k elemente a lui A,data de{aj1 , aj2, . . . , ajk}, se numeste un aranjament de ordin k. Numarul aranjamentelorde ordin k ale unei multimi cu n elemente este dat de:

    Akn =n!

    (n k)! = n (n 1) . . . (n k + 1),

    reprezentand, de fapt, numarul aplicatiilor injective ale multimii {1, 2, . . . , k} n A. Dacak = n, atunci obtinem permutarile lui A.

    Sa consideram acum submultimile de cate k elemente ale lui A ce nu mai sunt ordonateca n cazul aranjamentelor, numite si combinari de ordin k. Numarul acestor combinari estedat de:

    Ckn =Akn

    k!

    =n!

    k!(n k)!(1.2)

    7

  • 7/29/2019 Cursuri Biostatistica

    8/107

    Observatia 1.5 n! apare deseori n multe formule, astfel ca apare nevoia unei estimari aei n situatia n care n este suficient de mare si nu este necesara valoarea exacta. Pentruaceasta se foloseste formula lui Stirling:

    n! nn en

    2n (1.3)

    pentru calculul acestei valori existand si programe.

    Principalele proprietati ale combinarilor sunt urmatoarele:

    1.n

    k=0 Ckn = 2

    n;

    2. Ckn = Cnkn ;

    3. Ckn = Ckn1 + C

    k1n1, 1 k n 1 (formula lui Pascal)

    4. (a + b)n =

    nk=0 C

    kna

    kbnk (binomul lui Newton).

    Vom mentiona aici si formula coeficientului multinomial:

    Cn1n2...nkn =n!

    n1! n2! . . . nk! , (1.4)

    ce are urmatoarea interpretare: sa presupunem ca multimea A contine n elemente si fien1, n2, . . . , nk k numere pozitive, astfel ncat n1 + n2 + . . . + nk = n. Atunci exista partitiiordonate diferite {A1, A2, . . . , Ak} ale lui A, fiecare Ai continand ni elemente, i = 1, 2, . . . , k.Cn1n2...nkn se numeste coeficient multinomial deoarece avem formula:

    (a + b + c)n =Cn1n2n3n an1 bn2 cn3 . (1.5)In ncheiere sa amintim principiul (regula) produsului: Daca o operatie O1 poate fi

    efectuata n n1 moduri diferite, operatia O2 n n2 moduri diferite etc., operatia Ok poatefi efectuata n nk moduri diferite, atunci cele k operatii pot fi efectuate una dupa alta nn1 n2 . . . nk moduri diferite. Altfel spus Daca un obiect O1 poate fi ales n n1 moduridiferite, obiectul O2 n n2 moduri diferite etc., obiectul Ok poate fi ales n nk moduri diferite,atunci cele k obiecte pot fi alese unul dupa altul n n1 n2 . . . nk moduri diferite, ce sepoate demonstra folosind cardinalul produsului cartezian.

    1.4 Exemple1. Problema zilei de nastere. Cate persoane trebuie sa se afle ntr-o sala, astfel ncat sa

    obtinem cu o anumita probabilitate data ca doua persoane din sala sa nu aiba aceeasizi de nastere?

    Sa presupunem ca n sala sunt k persoane si ca ziua de nastere a fiecarei persoane esteegal probabila cu a celorlalte. Presupunand ca anul calandaristic standard are 365 dezile, atunci vor exista 365k moduri posibile n care secventa de k persoane poate facealegerea zilei de nastere. Pentru a argumenta, sa observam ca pentru prima persoanaexista 365 de posibilitati diferite si, pentru fiecare astfel de alegere facuta, pentru a

    doua persoana vor exista tot 365 de posibilitati, s.a.m.d.Pe de alta parte exista Ak365 posibilitati ca secventa de k persoane sa aiba zile de nasterediferite, deoarece pentru prima persoana se pot alege 365 de zile diferite, pentru a doua

    8

  • 7/29/2019 Cursuri Biostatistica

    9/107

    mai raman 364 de posibilitati, s.a.m.d., iar pentru a k-a mai raman doar (365 k 1)posibilitati de alegere, adica, n total, 365 364 . . . (365 k 1) posibilitati.Plecand de la definitia empirica a probabilitatii, ce spune ca sansa de producere a unuifenomen este data de raportul dintre numarul cazurilor favorabile producerii si numarulcazurilor posibile, rezulta ca probabilitatea cautata ca cele k persoane sa aiba zile de

    nastere diferite este P = Ak365365k

    .

    De exemplu, pentru 15 persoane P = 0, 7471, pentru 20 de persoane P = 0, 5886si pentru 25 de persoane P = 0, 4313. Daca nsa numarul persoanelor creste la 50obtinem P = 0, 02962, iar pentru 100 de persoane avem o probabilitate insignifiantaP = 0, 0000003, deci exista o descrestere neliniara. Sa mentionam ca se pot faceprograme de calculator pentru a gasi aceste valori si a raspunde la ntrebarea de lanceput.

    2. Problema initialelor. Exista ntr-o facultate (cu peste 1000 studenti) cel putin douapersoane care sa aiba aceleasi doua initiale, presupunand ca fiecare persoana are doua

    initiale (alfabet cu 26 litere)?

    Pentru a raspunde la ntrebare sa observam ca exista 26 de posibilitati pentru alegereaprimei initiale si alte 26 de posibilittti pentru alegerea celei de-a doua initiale, n total676 seturi de initiale. Cum numarul studentilor depaseste 676, vor fi cel putin doistudenti cu aceleasi doua initiale.

    3. Graf arbore de numarare. Sa presupunem ca o persoana trebuie sa aleaga un meniula un restaurant. Se stie ca pentru felul ntai sunt doua posibilitati: supa sau ciorba;pentru felul doi exista trei posibilitati: friptura, peste sau vegetale (legume); pentrudesert exista doua posibilitati de alegere: prajitura sau nghetata. Cate meniuri posibile

    are de ales persoana respectiva? In figura de mai jos prezentam sub forma unui graf detip arbore modurile posibile de alegere.

    Fig. 1.1:

    Asa dupa cum se observa, exista 2 3 2 = 12 meniuri diferite posibile. Aceasta dia-grama-arbore poate fi completata daca se adauga pentru fiecare ramura a sa o anumitaprobabilitate de alegere (evident, pentru fiecare nivel suma acestora va fi egala cu 1).Plecand de la date statistice privind estimarea acestor probabilitati, se ajunge n final

    9

  • 7/29/2019 Cursuri Biostatistica

    10/107

    la construirea unui arbore ce ajuta la ntelegerea mai buna a modului cum se comportaclientii, obtinandu-se deci decizii optime de planificare a meniurilor.

    De exemplu, daca 60% dintre clienti aleg supa ca apoi 50% dintre acestia sa aleagafriptura, atunci tragem concluzia ca 6

    1012

    = 30% dintre clienti aleg ntai supa apoifriptura, s.a.m.d., creand astfel un anumit tip de profil de client.

    4. Problema ierarhizarii mainii norocoase la poker. Se stie ca n jocul de pokero mana ce cuprinde 4 carti cu aceiasi valoare (e.g. 4 valeti) bate un full, adica treicarti cu aceiasi valoare plus altele doua cu alta valoare (e.g. 3 dame si doua carti cuvaloarea 3). Intrebarea este: de ce este asa?

    Raspunsul se bazeaza pe a calcula sansa fiecarei maini si a considera mai valoroasamana mai rara, deci cu sansa mai mica de aparitie.

    Pentru aceasta sa reamintim ca sunt 13 carti cu valori diferite, fiecare de patru tipuridistincte, n total 52 de cart i. Pentru a obtine o mana cu patru carti de aceiasi valoaresa observam, mai ntai, ca pentru alegerea acestora avem 13 posibilitati. Pentru fiecaredintre cele 13 posibilitati, exista 12 4 = 48 de posibilitati de alegere a celei de-a 5-acarti. In total avem 13 48 = 624 de posibilitati de a obtine 4 carti cu aceiasi valoare.In total sunt C552 = 2.598.960 de maini posibile, deci probabilitatea de o obtine 4 carticu aceiasi valoare este egala cu 624/C552 = 0, 00024. In ceea ce priveste sansa de a obtineun full, exista 13 posibilitati de a alege numarul ce poate apare pe cele trei carti deacelasi fel; pentru fiecare dintre acestea, exista C34 = 4 alegeri diferite ale tipului decarte. Odata alese cele trei carti cu aceiasi valoare, avem 12 posibilitati pentru alegereavalorii ce va aparea de doua ori; pentru fiecare astfel de alegere avem C24 = 6 posibilitatide alegere a cartilor.

    Rezulta ca, n total, avem 13 4 12 6 = 3744 posibilitati de a obtine un full,deci probabilitatea corespunzatoare este egala cu 3744/C552 = 0, 0014. Comparand celedoua probabilitati ntelegem de ce 4 carti cu aceiasi valoare sunt mai valoroase decatun full, probabilitatea lor fiind de aproximativ 6 ori mai mica.

    10

  • 7/29/2019 Cursuri Biostatistica

    11/107

    Capitolul 2

    Probabilitate

    Teoria probabilitatilor, n forma sa clasica cunoscuta astazi, s-a nascut acum aproximativpatru secole. Ea are la baza notiunea de ntamplare, incertitudine, hazard, termenul az-zahr,ce provine din limba araba, nsemnand chiar joc de zaruri. Putem mentiona aici si termenulaleator, ce provine din latina alea, desemnand tot aruncarea zarului.

    Daca trecem pe scurt n revista istoria calculului probabilitatilor, trebuie neaparat sa-iamintim pe B. Pascal si P. de Fermat care au fost primii care au dat o argumentare matem-atica jocurilor de noroc ce cunosteau o mare amploare la acea data (sec. XVII). Chestiuneade la care au plecat cei doi (mentionam aici celebrele scrisori dintre ei) a fost problema luiMere din anul 1654 (dupa numele cavalerului de Mere, cunoscut de Pascal prin anul 1652),care se referea la repartitia mizei ntre doi jucatori care abandoneaza o partida nainte desfarsitul acesteia. Primele tratate asupra teoriei probabilitatilor au fost scrise de C. Huygens(1657) si J. Bernoulli (1713 Ars Conjectandi), mentionand apoi pe Th. Bayes (1763 for-mula lui Bayes), P. S. de Laplace (1812 Traite analytique des probabilites), D. Poisson

    (1837 legea numerelor mari) si K. F. Gauss (1809 teoria erorilor).Pana n sec. XX, lucrarile aparute au ncercat sa detaseze teoria probabilitatilor de

    problema concreta a jocurilor de noroc, cea care, de fapt, daduse nastere primelor dezbateriprivind cuantificarea hazardului. Sfarsitul secolului XIX si, mai ales, secolul trecut aucoincis cu o dezvoltare fara precedent a teoriei probabilitatilor, notand aici pe A. Markov,P. L. Cebasev, A. M. Liapunov, A. Hincin, A. Kolmogorov, E. Borel, M. Frechet, P. Levy,W. Feller etc. Sfarsitul secolului XX a dus, odata cu aparitia si dezvoltarea tehnologieiinformatiei, la o explozie a dezvoltarii calculului probabilitatilor, privit, mai ales, prin prismaaplicatiilor sale practice, amintind, n special, interfata sa cea mai cunoscuta cu lumea realadata de statistica.

    2.1 Evenimente. Spatiu de evenimente

    Definitia 2.1 Prin experient a sau experiment (aleator) n teoria probabilitatilor vomntelege orice experiment al carui rezultat nu are natura determinista, adica nu este cunoscuta priori, depinzand de hazard.

    Un exemplu clasic de experiment aleator este aruncarea unui zar, al carui rezultat nu estecunoscut dinainte, dar rezultatele posibile pot fi prezise. In urma realizarii experimentuluialeator se obtine un rezultat sau altul, depinzand de natura experimentului.

    Definitia 2.2 Vom desemna prin eveniment elementar rezultatul unui experiment. Vomnumi spatiul evenimentelor elementare, notat cu , multimea tuturor evenimentelor

    11

  • 7/29/2019 Cursuri Biostatistica

    12/107

    elementare posibile (i.e. a tuturor rezultatelor posibile ale unui experiment aleator), iar prineveniment vom ntelege o submultime oarecare a acestui spatiu.

    Observatia 2.1 Se observa similitudinea ntre vocabularul probabilistic referitor la eveni-mente si vocabularul matematic referitor la teoria multimilor. Astfel, un eveniment reprezinta,

    matematic vorbind, o submultime a unei anumite multimi.

    Folosind asadar simbolistica adecvata, vom nota cu evenimentul elementar (privit ca unelement al multimii de baza - spatiul evenimentelor elementare) si cu A , B , . . . evenimenteledin .

    Exemplul 2.2 1. La aruncarea unei monezi avem = {C, P}, i.e. cap si pajura.2. La aruncarea cu zarul avem = {1, 2, 3, 4, 5, 6}, adica fetele zarului ce pot sa apara,

    iar ca evenimente putem mentiona, de exemplu A = {1, 3, 5}, adica aparitia doar afetelor cu numere impare.

    3. Un exemplu mai complex este reprezentat de aruncarea unei monezi de doua ori. Aici = {(C, C), (C, P), (P, C), (P, P)}, iar ca evenimente, putem exemplifica prin A ={(C, C), (C, P)} sau B = {(P, C), (P, P)}.

    Definitia 2.3 Fie evenimentul sigur. Presupunem ca multimea este finita, si fie P()multimea partilor lui . Atunci (, P()) se numeste campul de evenimente asociatexperientei aleatoare n studiu.

    Mai mult, ntreg spatiul se numeste evenimentul sigur (total), iar se numeste eveni-mentul imposibil (nul).

    Notam cu multimea evenimentelor asociate unui experiment. Pe aceasta multime sepot introduce trei operatii corespunzatoare operatiilor logice sau, si, non. Fie A si B din .

    1. A sau B este evenimentul ce se realizeaza daca si numai daca se realizeaza cel putinunul dintre evenimentele A sau B. Acest eveniment se noteaza prin AB si se numestereuniunea sau disjunctia evenimentelor A si B.

    2. A si B este evenimentul ce se realizeaza daca si numai daca se realizeaza ambele eveni-mente A si B. Acest eveniment se noteaza prin A B si se numeste intersectia sauconjunctia evenimentelor A si B.

    3. non A este evenimentul ce se realizeaza daca si numai daca nu se realizeaza A. Acesteveniment se numeste contrarul sau complementul lui A si se noteaza A sau CA.

    Daca evenimentul A duce la realizarea evenimentului B, spunem ca A implica B, siscriem A B.

    Daca A B si B A spunem ca evenimentele A si B sunt echivalente (A = B).Daca A B = atunci evenimentele A si B nu se pot realiza simultan; vom spune ca

    evenimentele A si B sunt mutual exclusive sau incompatibile.

    Definitia 2.4 Un eveniment A din se numeste compus daca exista doua evenimente Bsi C din , astfel nc atA = B

    C, A

    = B si A

    = C. In caz contrar, evenimentul se numeste

    elementar.

    12

  • 7/29/2019 Cursuri Biostatistica

    13/107

    Observatia 2.3 Daca este o multime finita sau infinita numarabila atunci orice submultimea lui este un eveniment.

    Daca este o multime infinita nenumarabila atunci un eveniment este un interval sau ocombinatie de intervale.

    Fie o multime oarecare nevida , n general infinita, ale carei elemente reprezinta eveni-mente elementare. Vom considera o familie de submultimi ale sale, notata , cu urmatoareleproprietati:

    1. ;2. A1, A2, . . . , An, . . .

    Ak ;

    3. A CA .O astfel de multime se numeste algebra de parti ale lui . Sa notam ca, n cazul

    particular n care este finita, alegem =

    P(). Cuplul (, ) se numeste spatiu (camp)

    de evenimente.

    Definitia 2.5 Se spune ca multimea de evenimente {A1, A2, . . . , An} formeaza o familiecompleta (sistem complet de evenimente) daca ea este o partitie a spatiului cu pro-prietatile:

    Ai Aj = , i = j si A1 A2 . . . An = .

    Vom ncheia, reamintind traducerea principalilor termeni ntre limbajul probabilist silimbajul teoriei multimilor:

    1. A

    A este un eveniment;

    2. este multimea vida este evenimentul imposibil;3. este multimea totala este evenimentul sigur;4. CA este complementara lui A A este evenimentul contrar lui A;5. A B = A si B sunt evenimente incompatibile;6. A B este reuniunea lui A si B A B este evenimentul compus;7. A B evenimentul A implica evenimentul B.

    2.2 Probabilitate. Spatiu de probabilitate

    Plecand de la notiunea de spatiu de evenimente, introdusa n paragraful anterior, vom definiacum notiunea fundamentala de probabilitate. Intuitiv, putem spune ca probabilitatea unuieveniment A este procentajul realizarilor sale, aceasta exprimandu-se prin raportul:

    P(A) =numarul cazurilor favorabile lui A

    numarul cazurilor posibile(2.1)

    Definitia 2.6 (Kolmogorov) Numim probabilitate pe un camp de evenimente (, ), ofunctie P : [0, ) cu proprietatile:

    1. A P(A) 0;

    13

  • 7/29/2019 Cursuri Biostatistica

    14/107

    2. P() = 1;

    3. pentru orice multime numarabil a de evenimenteA1, A2, . . . , An, . . . din, incompatibiledoua cate doua, avem:

    P

    k=1 Ak =

    k=1 P(Ak), (2.2)Pentru orice eveniment A , probabilitatea P(A) a evenimentului A este un numar real.Altfel spus, probabilitatea este o functie (masura) definita pe algebra cu valori n

    [0, 1], iar tripletul (, , P) poarta numele de spatiu (camp) de probabilitate.

    Exemplul 2.4 1. In cazul aruncarii unei singure monede, probabilitatea aparitiei uneifete este 1/2.

    2. In cazul aruncarii unui zar, probabilitatea aparitiei oricarei fete este 1/6.

    3. In cazul aruncarii unui zar de doua ori, probabilitatea aparitiei perechii (6, 6) este1/36.

    Aplicand definitia probabilitatii, se obtine urmatoarea teorema ce descrie principaleleproprietati ale probabilitatii.

    Teorema 2.5 Pentru orice doua evenimente A si B sunt valabile urmatoarele afirmatii:

    1. P(A) = 1 P(A), n particular, P() = 0;2. P(A \ B) = P(A) P(A B);3. Daca A

    B, atunci P(A)

    P(B);

    4. P(A B) = P(A) + P(B) P(A B).

    Demonstratie:

    1. 1 = P() = P(A A) = P(A) + P(A) P(A) = 1 P(A)C = P() = 1 P() = 1 P() = 1 1 = 0;

    2. Evenimentele A \ B si A B sunt incompatibile, iar (A \ B) (A B) = A. Rezulta:

    P(A) = P((A

    \B)

    (A

    B)) = P(A

    \B) + P(A

    B).

    3. Din A B rezulta ca B = A (B \ A), de unde:

    P(B) = P(A (B \ A)) = P(A) + P(B \ A) P(A).

    4. Din A B = (A \ B) B, obtinem:

    P(A B) = P((A \ B) B) = P(A \ B) + P(B) = P(A) P(A B) + P(B).

    14

  • 7/29/2019 Cursuri Biostatistica

    15/107

    Corolarul 2.6 (egalitatea lui Poincare) Pentru orice trei evenimente A, B si C avem:

    P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C) + P(A B C)In general, pentru n evenimente oarecare A1, A2, . . . , An, avem:

    P ni=1

    Ai = nk=1

    (1)k1Bk, unde Bk = 1i1

  • 7/29/2019 Cursuri Biostatistica

    16/107

    Exemplul 2.8 Intro grupa de 26 studenti sunt 10 baieti si 16 fete. Care este probabilitateaca, formand la nt amplare un grup de 17 studenti, acesta sa fie format din 8 baieti si 9 fete?

    Aplicand formula 2.7 obtinem:

    Pn(x) =C810 C916

    C1726=

    10!8!2!

    16!9!7!

    26!

    17!9!

    2.3.2 Schema lui Poisson

    Se considera n urne, U1, U2, . . . , U n. Urna Ui contine ai bile albe si bi bile negre (i = 1, n).Se extrage cate o bila din fiecare urna. Se cere probabilitatea ca din cele n bile extrase, k safie albe si (n k) negre.

    Daca notam cu pi probabilitatea ca din urna Ui sa scoatem o bila alba si cu qi probabili-tatea ca din Ui sa scoatem o bila neagra, avem:

    pi =ai

    ai + bi, qi =

    biai + bi

    = 1 pi, i = 1, n

    Fie Ai evenimentul extragerii unei bile albe din urna Ui si Bk evenimentul extragerii a kbile albe (si implicit a n k bile negre). Atunci Bk poate fi descris astfel:

    Bk = (A1 A2 . . . Ak Ak+1 . . . An) (A1 A2 . . . Ak Ak+1 . . . An) . . . (A1 A2 . . . Ank Ank+1 . . . An)

    Exista Ckn posibilitati diferite de a obtine k bile albe din n urne (de exemplu o combinatieposibila este A1 A2 . . . Ak Ak+1 . . . An.

    Probabilitatea unui eveniment Ai1 Ai2 . . . Aik Aik+1 . . . Ain, tinand cont caevenimentele Aij sunt independente, se calculeaza astfel:

    P(Ai1 Ai2 . . . Aik Aik+1 . . . Ain) = pi1 . . . pik qik+1 . . . qin (2.9)unde i1, i2, . . . , in {1, 2, . . . , n}.Astfel o formula de calcul pentru probabilitatea evenimentului Bk este:

    P(Bk) =

    i1,i2,...,in{1,2,...,n}pi1 . . . pik qik+1 . . . qin (2.10)

    Formula anterioara (2.10) are aceeasi structura ca si coeficientul termenului xkynk dinprodusul:

    P(x, y) = (p1x + q1y) (p2x + q2y) . . . (pnx + qny) (2.11)

    Exemplul 2.9 La o specializare n anul I sunt 22 studente si 20 studenti, n anul II sunt16 studente si 10 studenti, iar n anul III sunt 20 de studente si 6 studenti. Care esteprobabilitatea ca, daca contabilizam numai primul student din fiecare an de studiu sosit lacursuri ntr-o zi, dintre cei trei studenti unul singur sa fie de sex feminin?

    Aplicand schema polinomiala, avem:

    p1 =22

    42, q1 =

    20

    42;p2 =

    16

    26, q2 =

    10

    26;p3 =

    20

    26, q3 =

    6

    26

    Probabilitatea ceruta este data de coeficientul lui xy2 din produsul:

    (p1x + q1y) (p2x + q2y) (p3x + q3y) = (2242

    x +20

    42y)(

    16

    26x +

    10

    26y)(

    20

    26x +

    6

    26y)

    Astfel:p =

    22

    42 10

    26 6

    26+

    20

    42 16

    26 6

    26+

    20

    42 20

    26 10

    26.

    16

  • 7/29/2019 Cursuri Biostatistica

    17/107

    2.3.3 Schema bilei revenite (schema lui J. Bernoulli / schema bi-nomiala)

    Sa consideram o urna ce contine bile avand doua culori (albe si negre). Presupunem ca secunoaste probabilitatea p a evenimentului A de a extrage o bila alba: P(A) = p. Extragem din

    urna cate o bila, de n ori, punand de fiecare data bila extrasa napoi. Care este probabilitateaPn(k) ca din cele n bile extrase, de k ori sa obtinem o bila alba si de (nk) ori o bila neagra?Sa consideram n cazul schemei lui Poisson ca avem n urne identice (U1 = U2 = . . . = Un).

    De aici rezulta ca:

    p1 = p2 = . . . = pn = p si q1 = q2 = . . . = qn = q.

    Conform formulei 2.11 probabilitatea Pn(k) ca din cele n bile extrase, de k ori sa obtinemo bila alba corespunde valorii coeficientului termenului xkynk din polinomul

    P(x, y) = (px + qy)n

    adicaPn(k) = C

    knp

    kqnk =n!

    k!(n k)! pk qnk (2.12)

    Deoarece bila revine n urna, fiecare extragere se face din acelasi continut, prin urmareexperienta se repeta n aceleasi conditii.

    Cunoasterea probabilitatii P(A) = p, la o extragere poate fi nlocuita cu situatia de acunoaste continutul urnei.

    Schema lui Bernoulli se concretizeaza n practica printro selectie repetata spre deosebirede schema bilei nerevenite, ce corespunde unei selectii nerepetate.

    Exemplul 2.10 Se arunca o moneda de 15 ori. Care este probabilitatea de a obtine de zece

    ori stema?Avem n = 15, x = 10, p = 1

    2, q = 1

    2.

    P15(10) = C1015 (

    1

    2)10 ( 1

    2)5

    Generalizarea problemei anterioare: dintr-o urna n care se afla bile de m culori se extragn bile cu revenirea acestora n urna.

    Schema multinomiala:

    Pn(k1, k2, . . . , km) =n!

    k1! . . . km!pk11 . . . pkmm (2.13)

    unde k1 bile sunt de culoarea 1, . . ., km bile sunt de culoarea m.

    2.4 Probabilitate conditionata

    Un concept deosebit de important n calculul probabilitatilor este cel de probabilitateconditionata: probabilitatea lui A conditionata de B desemneaza probabilitatea unui eveni-ment A n ipoteza ca un anumit eveniment B a avut loc.

    Definitia 2.7 Fie A si B doua evenimente din , cu P(B) = 0. Vom defini prin:

    PB(A) = P(A|B) =P(A

    B)

    P(B) ,

    probabilitatea lui A conditionata de B.

    17

  • 7/29/2019 Cursuri Biostatistica

    18/107

    Exemplul 2.11 Sa consideram experimentul aruncarii a doua zaruri. FieA = {evenimentulca cel putin una dintre cele doua valori ale zarurilor sa fie egala cu 2} si B = {evenimentulca suma valorilor celor doua zaruri sa fie 6}.

    A = {(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (1, 2), (3, 2), (4, 2), (5, 2), (6, 2)}B = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}

    A B = {(2, 4), (4, 2)}

    P(A) = 1136

    , P(B) = 536

    , P(A B) = 236

    , P(A|B) = 25

    = P(AB)P(B)

    .

    Daca P(A|B) = P(A), nseamna ca evenimentul A nu depinde de evenimentul B. Inacest caz, avem:

    P(A B) = P(A) P(B), (2.14)relatie ce defineste independenta lui A si B. Vom spune ca A este independent (mutual)de B.

    Definitia 2.8 Evenimentele A si B sunt independente (n probabilitate) daca probabilitateaca unul sa se realizeze nu depinde de faptul ca celalalt s-a realizat sau nu, altfel spus

    P(A B) = P(A) P(B).

    Exemplul 2.12 Daca probabilitatea ca un automobil sa porneasca ntro dimineat a frig-uroasa este de 0, 6 si dispunem de doua automobile similare, care este probabilitatea ca celputin unul din automobile sa plece n cursa ntro astfel de dimineat a?

    Sa notam cu A1 si A2 evenimentele ca primul respectiv, al doilea automobil sa porneascasi cu B evenimentul ca cel putin unul dintre automobile sa plece n cursa.Avem B = A1 A2 si P(B) = P(A1 A2) = P(A1) + P(A2) P(A1 A2) (evenimentele

    A1 si A2 sunt compatibile deoarece cele doua automobile pot sa plece n cursa simultan).Deoarece P(A1) = P(A2) = 0, 6 si evenimentele A1 si A2 sunt independente ntre ele

    (plecarea unui automobil nu depinde de plecarea sau neplecarea celuilalt), avem ca P(A1 A2) = P(A1) P(A2) = 0, 6 0, 6.

    Astfel se obtine: P(B) = 0, 6 + 0, 6 (0, 6)2 = 0, 84.

    In cazul a n evenimente, Ai , k = 1, n a. . P(A1 A2 . . . An1) > 0 avemurmatoarea relatie (formula lantului):

    P(A1 A2 . . . An) = P(A1) P(A2|A1) . . . P(An|A1 A2 . . . An1), (2.15)

    si, daca are loc relatia:

    P(Ai1 Ai2 . . . Aik) = P(Ai1) P(Ai2) . . . P(Aik),

    pentru orice 1 i1 < i2 < . . . < ik n, 2 k n, atunci evenimentele A1, A2, . . . , An suntindependente global (mutual, n totalitatea lor).

    Exemplul 2.13 Sa consideram cele 26 de litere ale alfabetului latin, scrise fiecare pe un

    cartonas si introduse ntro urn a. Se cere probabilitatea ca extragand la nt amplare de 5 oricate un cartonas si asez andu-le n ordinea extragerii sa obtinem cuvantul MARIN.

    18

  • 7/29/2019 Cursuri Biostatistica

    19/107

    Sa notam cu B evenimentul de a obtine prin extrageri succesive cuvantul MARIN. FieA1 = evenimentul ca la prima extragere sa obtinem litera M; A2 = evenimentul ca la a douaextragere sa obtinem litera A; A3 = evenimentul ca la a treia extragere sa obtinem literaR; A4 = evenimentul ca la a patra extragere sa obtinem litera I; A5 = evenimentul ca laa cincea extragere sa obtinem litera N.

    Atunci evenimentul B are loc daca avem: B = A1 A2 A3 A4 A5. Aplicand formulalantului obtinem:

    P(B) = P(A1) P(A2|A1) P(A3|A1 A2) P(A4|A1 A2 A3) P(A5|A1 A2 A3 A4)

    Adica

    P(B) =1

    26 1

    25 1

    24 1

    23 1

    22=

    1

    22 23 24 25 26 .

    Teorema 2.14 (formula probabilitatii totale) FieB un eveniment arbitrar si{A1, A2, . . . , An}o familie de evenimente, astfel ncat Ai Aj = , i = j si A1 A2 . . . An B. Atunci:

    P(B) =n

    i=1

    P(B|Ai) P(Ai), unde P(Ai) > 0. (2.16)

    Demonstratie: Pentru orice i = j avem:n

    i=1

    P(B|Ai) P(Ai) =n

    i=1

    P(B Ai)

    = P((B A1) . . . (B An)) = P(B (A1 . . . An)) = P(B).

    Se remarca faptul ca, daca {A1, A2, . . . , An} formeaza o partitie a lui , formula ramanevalabila. Cu a jutorul formulei de mai sus putem demonstra celebrul rezultat datorat rev-erendului Thomas Bayes(1763).

    Teorema 2.15 (formula lui Bayes) Fie B un eveniment arbitrar si {A1, A2, . . . , An} ofamilie de evenimente, astfel ncat Ai Aj = , i = j si A1 A2 . . . An B. Atunci:

    P(Ai|B) = P(B|Ai)P(Ai)

    nk=1 P(B|Ak)P(Ak)

    , P(B) > 0, P(Ai) > 0, i = 1, 2, . . . , n . (2.17)

    Demonstratie: Din formula probabilitatii conditionate obtinem:

    P(Ai|B) = P(Ai B)P(B)

    =P(B|Ai)P(Ai)

    P(B), (2.18)

    si folosind formula probabilitatii totale la numitor, obtinem rezultatul cautat.

    De obicei evenimentele Ai reprezinta ipoteze n care are loc evenimentul B sau cauze suba caror actiune are loc evenimentul B. Probabilitatile P(Ai) sunt numite probabilitati apriori, iar probabilitatile P(Ai|B) sunt numite probabilitati a posteriori.

    Exemplul 2.16 Plecand de la exemplul cu examenele la cele doua discipline, vom raspundela urmatoarele trei chestiuni:

    19

  • 7/29/2019 Cursuri Biostatistica

    20/107

    1. Care este probabilitatea conditionata ca studentii sa treaca cele doua discipline A si B,daca trec la A? Raspunsul este dat de:

    P(A B|A) = P(A B)P(A)

    =0.35

    0.7=

    35

    70=

    1

    2;

    2. Analog, cu conditia sa treaca la B:

    P(A B|B) = P(A B)P(B)

    =0.35

    0.4=

    35

    40=

    7

    8;

    3. Care este probabilitatea sa treaca atat la A cat si la B, conditionata de trecerea a celputin unei discipline?

    P(A B|A B) = P(A B)P(A B) =

    0.35

    0.75=

    35

    75=

    7

    15;

    Exemplul 2.17 Sa consideram experimentul aruncarii unui zar de doua ori. Fie A eveni-mentul aparitiei mai nt ai a unui numar impar, B evenimentul aparitiei a doua oara a unuinumar impar si C evenimentul ca suma numerelor obtinute n cele doua aruncari sa fieimpara.

    Mai nt ai sa observ am ca P(A) = P(B) = P(C) = 1/2. Sa studiem independenta acestortrei evenimente. Avem:

    P(A B) = 14

    = P(A) P(B),P(B C) = 1

    4= P(B) P(C),

    P(A C) = 14

    = P(A) P(C),P(A

    B

    C) = 0, P(A)

    P(B)

    P(C) = (1

    2)3.

    Rezulta ca, luate doua cate doua, evenimentele de mai sus sunt independente, dar nu suntn totalitate independente.

    Exemplul 2.18 Sa consideram doua urne, prima continand 3 bile albe si 2 bile negre, iara doua continand 2 bile albe si 3 bile negre. Se alege la ntamplare una din cele doua urne,dupa care se extrag (fara returnare) doua bile din urna aleasa. Care este probabilitatea ca saobtinem 2 bile albe?

    Pentru a raspunde la ntrebare vom folosi formula probabilitatii totale. Mai ntai, saconsideram evenimentele:

    A1 = [se alege prima urna], A2 = [se alege urna a doua].Avem P(A1) = P(A2) =

    12

    . Fie B evenimentul extragerii a doua bile albe. Avem:

    P(B|A1) = P(prima bila este alba)P(a doua bila este alba|prima bila este alba) = 3524

    =3

    10.

    Analog,

    P(B|A2) = 25

    14

    =1

    10.

    Aplicand acum formula probabilitatii totale, obtinem:

    P(B) = P(A1) P(B|A1) + P(A2) P(B|A2) = 15

    .

    20

  • 7/29/2019 Cursuri Biostatistica

    21/107

    Exemplul 2.19 Sa consideram ca ntro companie se produc aceleasi produse n trei unitatiB1, B2 siB3, avand capacitatile de productie de60%, 30% si10% (aceste procentaje reprezintapractic probabilitatile ca un produs oarecare sa provina de la una din cele trei unitati); fiecareunitate are rata de a produce obiecte cu defectiuni de 6%, 3% si 5%. Care este probabilitateaca un produs defect, ales la ntamplare, sa provina de la una din unitatile B1, B2 sau B3?

    Sa notam cu A evenimentul ca un produs, ales la ntamplare, sa fie defect. Rezulta,conform formulei probabilitatii totale, ca:

    P(A) =3

    i=1

    P(A|Bi)P(Bi) = 0.06 0.6 + 0.03 0.3 + 0.05 0.1 = 0.05 = 5%.

    Aplicand acum formula lui Bayes, obtinem:

    P(B1|A) = P(A|B1)P(B1)P(A) = 0.060.60.05 = 3650 ,P(B2|A) = 950 ,P(B3|A) =

    550 .

    Exemplul 2.20 Un student solicita o bursa de studii la 3 universitati. Dupa trimitereaactelor necesare, acesta poate obtine bursa de la universitatea i (Ui) sau nu (Ui), 1 i 3.

    Se cere sa se descrie evenimentele ce corespund urmatoarelor situatii:

    1. studentul primeste o bursa;

    2. primeste cel mult o bursa;

    3. primeste cel putin o bursa;

    4. primeste cel putin doua burse.

    1. Bursa primita poate fi de la prima universitate, iar celelalte nu i acorda bursa, sau dela a doua, iar prima si a treia nu i acorda bursa, sau de la a treia, iar primele douanu i acord a bursa. Avem astfel evenimentul

    A1 = (U1 U2 U3) (U1 U2 U3) (U1 U2 U3).

    2. Pentru evenimentul studentul primeste cel mult o bursa avem doua variante: studentulnu primeste nici o bursa sau studentul primeste o bursa.

    B = (U1 U2 U3) A1.

    3. Evenimentul poate fi scris ca reuniunea a trei evenimente: studentul primeste o bursa,doua burse, sau trei burse. Astfel C = A1 A2 A3, unde

    A2 = (U1 U2 U3) (U1 U2 U3) (U1 U2 U3),iar

    A3 = U1 U2 U3.4. Daca notam cuD = evenimentul ca studentul sa primeasca cel putin doua burse, avem

    D = A2 A3.Altfel spus, evenimentulD este contrar evenimentuluiB: D = B = (U1 U2 U3) A1.

    21

  • 7/29/2019 Cursuri Biostatistica

    22/107

    Exemplul 2.21 Sa consideram urmatoarele evenimente n legatura cu aplicarea unui testdiagnostic:

    A evenimentul ca o persoana luata la nt amplare dintr-o populatie sa aiba o anumitaafectiune A (TBC, HIV etc.)

    T evenimentul de obtinere a unui test pozitiv n cazul aplicarii unui test diagnostic Tpentru detectarea afectiunii A la o persoana.

    Prin non(A) = A (persoana fara afectiunea A) si non(T) = T (test negativ) notamevenimentele complementare evenimentelor A si respectiv T.

    In general, din cauza imperfectiunii testului, nu orice persoana avand afectiunea A estedetectata la aplicarea testului A ca pozitiva (fals negativ) si nu toate persoanele cu raspunspozitiv la testul T au neaparat afectiunea (fals pozitiv). Astfel, de regula, prin aplicarea unuitest diagnostic rezulta falsi pozitivi si falsi negativi.

    Ambele rezultate eronate ce rezulta prin aplicarea testului sunt de nedorit.Sa presupunem ca din populatia careia i s-a aplicat testul este selectat un esantion reprezen-

    tativ de n persoane si s-au obtinut rezultatele din tabelul 2.1.

    Testul/Afectiunea A non(A) TotalT pozitiv a (AP) b (FP) a + b

    non(T) Negativ c (FN) d (AN) c + dTotal a + c b + d n

    Table 2.1: Tabel de contingenta

    Extragand la ntamplare o persoana din populatie, cu ajutorul rezultatelor prezentate ntabelul precedent se pot determina probabilitatile diverselor evenimente ce pot avea loc.

    Astfel avem: P(A) = a+cn

    , P(A) = b+dn

    .P(A) se numeste prevalenta afectiunii A.Sa consideram urmatorul exemplu numeric: un numar de 64.810 de femei cu varste

    cuprinse ntre 40 si 64 de ani care faceau parte dintr-un proiect de screening al canceruluimamar din cadrul unei organizatii au fost monitorizate n urma mamografiei si examinariifizice.

    Din 1.115 femei care au fost testate, 132 au fost diagnosticate cu cancer mamar. De-alungul unei perioade de 5 ani de urmarire prin acest program, au fost detectate 45 de cazuride cancer dintre femeile care avusesera un rezultat negativ dupa screening (vezi tabelul 2.2).

    Cancer(+) Cancer() TotalScreening(+) 132 983 1115Screening() 45 63650 63.695

    Total 177 64.633 64.810

    Table 2.2: Tabel de contingenta - valori numerice

    Sa notam T = Screening(+) si A = Cancer(+).Care este probabilitatea ca o femeie care a facut cancer sa fi avut un test pozitiv n urma

    screening-ului?

    22

  • 7/29/2019 Cursuri Biostatistica

    23/107

    Formula probabilitatii conditionate este urmatoarea:

    P(A|T) = P(A T)P(T)

    . (2.19)

    Screening-ul unui test diagnostic se utilizeaza pentru identificarea bolilor si pentru ajutorulpe care l ofer a n cazul stabilirii unui diagnostic. Este important sa cunoastem probabilitateaca testul aplicat sa ne dea un diagnostic corect (pozitiv sau negativ).

    Valoarea predictiv pozitiva(V P P) este probabilitatea ca o persoana care are afectiuneasa obtina un rezultat pozitiv n urma aplicarii testului.

    V P P = P(A|T) = P(A T)P(T)

    (2.20)

    Valoarea predictiv negativa (V P N) este probabilitatea ca o persoana care nu areafectiunea sa obtina un rezultat negativ n urma aplicarii testului.

    V P N = P(A|T) = P(A T)P(T)

    (2.21)

    Senzitivitatea este probabilitatea ca testul sa fie pozitiv n timp ce afectiunea exista.

    Se = P(T|A) = P(T A)P(A)

    (2.22)

    Specificitateaeste probabilitatea ca testul sa fie negativ, n timp ce boala nu este prezenta.

    Sp = P(T|A) =P(T

    A)

    P(A) (2.23)

    Senzitivitatea este probabilitatea ca prezenta bolii sa fi fost corect identificata de test.Specificitatea este probabilitatea ca absenta bolii sa fi fost corect identificata de test.Valoarea pozitiv predictiva este probabilitatea ca un pacient care are un test pozitiv

    sa fie corect diagnosticat cu boala.Riscul bolii la expusi: p1 =

    aa+b

    ,Riscul bolii la neexpusi: p0 =

    cc+d

    .Riscul relativ (RR): de cate ori este mai mare proportia persoanelor bolnave n randul

    celor expusi la factorul de risc fat a de proportia bolnavilor n randul celor neexpusi la factorul

    de risc.RR =

    p1p0

    =P(B|A)P(B|A)

    B+ B TotalF+ AP FP AP + FPF FN AN FN + AN

    Total AP + FN AN+FP n = AP + F p + F N + AN

    Table 2.3: Tabel de contingenta

    23

  • 7/29/2019 Cursuri Biostatistica

    24/107

    Rata falsi pozitivi = FP(FP+AN)

    Rata falsi negativi = FN(FN+AP)

    Sensibilitate = AP(AP+FN)

    Specificitate = AN(AN+FP)

    Acuratete = (AP+AN)

    nValoarea predictiv pozitiva = AP(AP+FP)

    Valoarea predictiv negativa = AN(AN+FN)

    Riscul relativ =AP

    (FP+AN)FN

    (AP+FP)

    Rata sansei = (APAN)(FNFP)

    Riscul atribuabil = AP(AP+FP)

    FN(FN+AN)

    Un fals negativ este o persoana pentru care testul este negativ, dar care de fapt are boala.Un fals pozitiv este o persoana pentru care testul este pozitiv, dar care de fapt nu are

    boala.

    Este important ca atat senzitivitatea cat si specificitatea sa fie ridicate (cat mai aproapede valoarea 1 sau 100%) pentru ca simptomul sau testul sa fie predictiv pentru o boala.

    Valorile predictive au doar o validitate limitata deoarece n practica clinica valorile pre-dictive depind de prevalenta anomaliilor la pacientii care sunt testati. Astfel, acestea pot sadifere de prevalenta care apare n studii publicate care au fost facute pe testul respectiv.

    Exercitiu In farmacii au fost introduse sisteme automate de determinare a bolii hiperten-sive. Un astfel de sistem clasifica 84% din hipertensivi si 23% din normotensivi ca avandHT A.

    Daca 20% din populatia adulta are HT A care sunt V P P si V P N pentru acest sistemautomat?

    Sa observa ca sensibilitatea are valoarea 0, 84 (Se = 0, 84) iar specificitatea are valoareaSp = 10, 23 = 0, 77.

    Pentru a calcula V P P si V P N vom folosi urmatoarele formule: V P P = P(A|B), V P N =P(A|B), Se = P(B|A), Sp = P(B|A).

    P(A|B) = P(B|A)P(A)P(B|A)P(A) + P(B|A)P(A)

    24

  • 7/29/2019 Cursuri Biostatistica

    25/107

    Capitolul 3

    Variabile aleatoare si repartitii

    3.1 Variabile aleatoare

    In cadrul unei cercetari experimentale se constata ca ntre valorile numerice masurate existadiferente chiar daca conditiile de desfasurare ale experimentului raman neschimbate.

    Daca ne referim la o singura masuratoare, variabila aleatoare este acea marime care ncadrul unui experiment poate lua o valoare necunoscuta aprioric. Pentru un sir de masuratori,variabila aleatoare este o notiune ce l caracterizeaza din doua puncte de vedere:

    caracterizare din punct de vedere cantitativ - variabila ne ofera informatii privind val-oarea numerica a marimii masurate;

    caracterizare din punct de vedere calitativ - variabila aleatoare ne da informatii privindfrecventa de aparitie a unei valori numerice ntrun sir.

    La fel cum se defineste o functie reala f pe un spatiu arbitrar E, sa consideram acumcazul unei functii definite pe spatiul , al evenimentelor elementare, si avand valori reale.

    Definitia 3.1 O functie realaX definita pe (X : R) se numestevariabila aleatoare(reala) daca imaginea inversa prin X a oricarui interval dinR este un eveniment din ;X se mai zice variabila aleatoare pe spatiul (campul) de probabilitate (, , P).

    Prin urmare din punct de vedere intuitiv, o variabil a aleatoare este o expresie a careivaloare este rezultatul unui experiment aleator.

    Observatia 3.1 Evenimentul constituit din toate rezultateleale experimentului a.. X() =a se noteaza [X() = a] sau prescurtat X = a. Evenimentul constituit din toate rezultatele

    ale experimentului a.. a X() b se noteaza [a X() b] sau prescurtat a X b.Variabilele aleatoare se pot clasifica astfel:

    daca valorile functiei sunt numerice (variabile cantitative): Variabilele aleatoare discrete: o variabila aleatoare pentru care multimea valorilor

    este cel mult numarabila este o variabila discreta. Un astfel de exemplu poate finumarul rebuturilor produse de o anumita masina.

    Variabilele aleatoare continue: daca valorile unei variabile aleatoare reprezinta uninterval (sau reuniune de intervale) marginit sau nu din R, vom spune ca variabilarespectiva este continua. Un exemplu de astfel de variabila l constituie variabila

    definita de valorile pe care le poate lua naltimea persoanelor dintr-o anumitacomunitate suficient de mare pentru a le considera ca apartinand unui anumitinterval real.

    25

  • 7/29/2019 Cursuri Biostatistica

    26/107

    daca valorile functiei nu sunt numerice (variabile calitative): Variabilele aleatoare ordinale: valorile sunt ordonate.

    Variabilele aleatoare nominale.

    Exemplul 3.2 Sa presupunem ca se arunca simultan doua zaruri si se noteaza cu X sumapunctelor obtinute. Daca consideram = { = (i, j), 1 i, j 6}, atunci putem definivariabila aleatoareX : R, data de:

    X() = i +j,

    ale carei valori reprezinta suma punctelor obtinute la aruncarea celor doua zaruri.

    Exemplul 3.3 Sa presupunem ca n fata unui ghiseu se creeaza un rand de clienti astept andsa fie serviti. Se noteaza timpii ntre sosirile a doi clienti consecutivi, timpi ce iau niste valorialeatoare (nt amplatoare). Aceste valori definesc o variabila aleatoare ce descrie timpii inter

    sosire ai clientilor.

    Exemplul 3.4 O persoana arunca un zar o data, si c astig a 1 RON daca apare o fat a cuun numar par de puncte, pierzand 1 RON daca apare un numar impar de puncte. Atuncifunctia g definita astfel

    g : R, g() =

    1 , {2, 4, 6}1 , {1, 3, 5}

    reprezinta o variabila aleatoare discreta.

    Exemplul 3.5 Sa consideram experimentul n care o persoana arunca un zar o data. Aceastacastig a 1 RON daca apare fata cu un punct si pierde 1 RON daca apare o alta fat a. Functiah definita prin

    h : R, h() =

    1 , = 1

    1 , {2, 3, 4, 5, 6}reprezinta o variabila aleatoare discreta.

    Daca X si Y sunt doua v.a. (X, Y : R), R o constanta, atunci functiileurmatoare sunt tot v.a.:

    (X+ Y)() = X() + Y(); (X+ )() = X() + ; (X)() = X(); (XY)() = X() Y().Daca specificam un interval oarecare [a, b) din R, putem calcula probabilitatea ca variabila

    aleatoare X sa ia valori n intervalul respectiv, adica:

    P(a X < b) = P({ ; X() [a, b)}). (3.1)Plecand de la probabilitatea de mai sus, putem introduce urmatoarea definitie.

    26

  • 7/29/2019 Cursuri Biostatistica

    27/107

    Definitia 3.2 Vom spune ca functia FX : R [0, 1], data de:FX(x) = P(X < x) = P({ ; X() (, x)}), (3.2)

    se numeste functia de repartitie (repartitia de probabilitate) a variabilei X.

    Daca avem de-a face cu o singura variabila aleatoare, nefiind pericolul unei confuzii, vomnota functia de repartitie, mai simplu, prin F(x). Proprietatile functiei de repartitie suntcuprinse n teorema urmatoare.

    Teorema 3.6 Functia de repartitie F(x) are urmatoarele proprietati:

    1. F(x) este monoton crescatoare si 0 F(x) 1;2. F(x) este continua la stanga, i.e. limh0

    h>0F(x h) = F(x) ;

    3. limx F(x) = 0, limx F(x) = 1.

    Invers, orice functie F cu proprietatile de mai sus este functia de repartitie a unei variabilealeatoare definita pe un anumit spatiu de probabilitate.

    Demonstratie: (1), (2) si (3) rezulta direct din definitia lui F.Pentru a demonstra afirmatia inversa, vom aminti aici de teorema de corespondenta din

    cadrul Teoriei masurii, care afirma ca unei masuri finite P (n cazul de fata, probabilitateaP) i corespunde biunivoc o functie de interval F[a, b), astfel ncat F[a, b) = P(a X < b).

    Mai departe, functiei de interval F i corespunde, tot biunivoc, functia de repartitie F (ampastrat aceiasi notat ie, fara pericolul vreunei confuzii), astfel ncat F[a, b) = F(b) F(a).

    In concluzie, considerand spatiul de probabilitate (R, B , P ), unde B este familia multimilorBorel pe R iar P este definita ca mai sus, n funct ie de F, rezulta ca F reprezinta functia de

    repartitie a variabilei aleatoare X, definita pe acest spatiu prin X(x) = x, x R. Corolarul 3.7 Din cele de mai sus rezulta ca P(a X < b) = F(b) F(a).

    Prezentam alte cateva proprietati ale functiei de repartitie a unei v.a.:

    i) P(X x) = 1 FX(x);ii) P(X x) = FX(x + 0);

    iii) P(X = x) = FX(x + 0) FX(x).

    Relatia prin care se defineste functia de repartitie mai are si varianta:FX(x) = P(X x), (3.3)

    caz n care se poate arata ca F este, de aceasta data, continua la dreapta, restul asertiunilorramanand neschimbate.

    Exemplul 3.8 Functia data de:

    F(x) =

    0 , x 2(x 2)2 , 2 < x 31 , x > 3

    (3.4)

    defineste o functie de repartitie. Probabilitatea ca variabila aleatoare corespunzatoare X saia valori n intervalul [1, 2.5) este data de F(2, 5) F(1) = 1

    4.

    27

  • 7/29/2019 Cursuri Biostatistica

    28/107

    Exemplul 3.9 Sa consideram o urna ce contine 5 bile albe si 25 bile negre si din care seextrage o bila. Daca desemnam prinX variabila aleatoare ale carei valori reprezinta numarulde bile albe extrase, atunci functia ei de repartitie este:

    F(x) = 0 , x 056 , 0 < x 11 , x > 1

    (3.5)

    Definitia 3.3 Doua variabile aleatoare se numesc independente daca probabilitatea ca unadin variabile sa ia o valoare nu depinde de valoarea luata de cea de a doua variabila aleatoare.

    3.1.1 Variabile aleatoare discrete

    Am vazut ca n functie de valorile pe care le pot lua, variabilele aleatoare se pot mparti ndoua tipuri: discrete si continue. Variabilele aleatoare discrete se pot mparti n:

    v.a. discreta simpla daca are un numar finit de valori; v.a. discreta numarabila daca are o infinitate numarabila de valori.Fie X o variabila aleatoare discreta si sa consideram probabilitatea:

    P(X = xi) = pX(xi) = P( ; X() = xi),

    numita probabilitate elementara. Functia pX astfel construita se numeste repartitia variabileiX, ea putand fi reprezentata prin intermediul unui tablou de repartitie:

    X :

    x1 x2 x3 . . . xnp1 p2 p3 . . . pn

    , X =

    xipi

    i=1,n

    ,

    daca X este v.a. discreta simpla, respectiv

    X :

    x1 x2 x3 . . . xn . . .p1 p2 p3 . . . pn . . .

    , X =

    xipi

    iN

    ,

    daca X este v.a. discreta numarabila. Daca notam Ai = { |X() = xi}, atunciP(Ai) = pi.

    Repartitia pX are proprietatea ca este nenegativa (pX(xi) = pi 0), ni=1pX(xi) = 1(

    i=1pX(xi) = 1), legatura sa cu functia de repartitie corespunzatoare fiind data de relatia:

    P(X < x) = FX(x) =y

  • 7/29/2019 Cursuri Biostatistica

    29/107

    Exemplul 3.11 O urna contine 4 bile numerotate de la 1 la 4. Se extrag 2 bile si se de-semneaza prin X variabila ce reprezinta suma cifrelor de pe cele doua bile extrase. Atuncirepartitia ei este data de tabelul:

    xi 3 4 5 6 7

    pi1

    6

    1

    6

    1

    3

    1

    6

    1

    6

    .

    Fie X si Y doua v.a. discrete simple, specificate prin urmatoarele tabele de repartitie:

    X :

    x1 x2 . . . xnp1 p2 . . . pn

    , Y :

    y1 y2 . . . ymq1 q2 . . . q m

    .

    A1, . . . , An este un sistem complet de evenimente generat de v.a. X iar B1, . . . , Bm esteun sistem complet de evenimente generat de v.a. Y:

    P(Ai) = pi, i = 1, n , P (Bj) = qj, j = 1, m.

    Definitia 3.4 Doua variabile aleatoare discrete simpleX siY sunt independente daca eveni-

    mentele Ai, Bj, i = 1, n, j = 1, n, sunt independente n totalitatea lor.

    X+ Y este o v.a. discreta simpla definita astfel: X+ Y ia valoarea xi + yj pe multimeaAi Bj.

    Tabelul de repartitie al v.a. X+ Y va fi:

    X+ Y :

    x1 + y1 x1 + y2 . . . x1 + ym . . . xn + ym

    p11 p12 . . . p1m . . . pnm

    ,

    unde pij = P(Ai Bj).V.a. X + k, unde k R este o constanta, poate fi considerata ca un caz particular de

    v.a. X+ Y unde Y() = k:

    pij = P(Ai Bj) = P(Ai ) = P(Ai) = P(X = xi) = pi.Astfel tabelul de repartitie pentru v.a. X+ k va fi:

    k + X :

    k + x1 k + x2 . . . k + xn

    p1 p2 . . . pn

    .

    Tabelul de repartitie pentru v.a. XY unde X si Y sunt doua v.a. discrete simple, va fi:

    XY :

    x1y1 x1y2 . . . x1ym . . . xnymp11 p12 . . . p1m . . . pnm

    .

    si asemanator ca n cazul sumei, tabelul de repartitie pentru kX se obtine din cel al v.a. XYpentru Y = k:

    kX :

    kx1 kx2 . . . kxnp1 p2 . . . pn

    .

    Functia de repartitie asociata unei v.a. discrete simple X este:

    F(X) =

    0 , x x1p1 , x1 < x x2p1 +p2 , x2 < x x3. . .

    p1 + . . . +pn1 , xn1 < x xn1 , x < xn

    29

  • 7/29/2019 Cursuri Biostatistica

    30/107

    Exemplul 3.12 Fie doua variabile independente X si Y date prin repartitiile lor:

    X :

    0 1 2

    0, 2 0, 4 0, 4

    si Y :

    1 2

    0, 6 0, 4

    Sa se calculeze repartitiile variabilelor X+ Y, XY, 3 + X, X2 si 2Y.Fie A0, A1, A2 si B1, B2 sisteme complete de evenimente (Ai = {X = i} respectiv Bj =

    {Y = j}).

    P(X+ Y = 1) = P(A0 B1) = P(A0) P(B1)P(X+ Y = 2) = P((A0 B2) (A1 B1)) = P(A0 B2) + P(A1 B1)

    = P(A0) P(B2) + P(A1) P(B1)P(X+ Y = 3) = P((A1 B2) (A2 B1)) = P(A1 B2) + P(A2 B1)

    = P(A1) P(B2) + P(A2) P(B1)P(X+ Y = 4) = P(A2

    B2) = P(A2)

    P(B2)

    In urma calculelor rezulta urmatorul tabel de repartitie:

    X+ Y :

    1 2 3 4

    0, 12 0, 32, 0, 4 0, 16

    Variabilele 3 + X, 2Y si X2 au repartitiile:

    3 + X :

    3 4 5

    0, 2 0, 4 0, 4, 2Y :

    2 4

    0, 6 0, 4, X2 :

    0 1 4

    0, 2 0, 4 0, 4.

    Pentru determinarea repartitiei v.a. XY este necesar sa calculam probabilitatile:

    P(XY = 0) = ((A0 B1) (A0 B2)) = P(A0 B1) + P(A0 B2)= P(A0) P(B1) + P(A0) P(B2)

    P(XY = 1) = P(A1 B1) = P(A1) P(B1)P(XY = 2) = P((A1 B2) (A2 B1)) = P(A1 B2) + P(A2 B1)

    = P(A1) P(B2) + P(A2) P(B1)P(XY = 4) = P(A2 B2) = P(A2) P(B2)

    Obtinem:

    XY :

    0 1 2 4

    0, 2 0, 24 0, 4 0, 16

    .

    3.1.2 Variabile aleatoare continue

    In cazul variabilelor continue, notiunea de repartitie este nlocuita cu cea de densitate derepartitie. Astfel, daca X este o variabila aleatoare continua, atunci exista o functie (inte-grabila) nenegativa fX, definita pe R, numita densitate (de repartitie), cu proprietatea

    ca:FX(x) = P(X < x) =

    x

    fX(y) dy.

    30

  • 7/29/2019 Cursuri Biostatistica

    31/107

    Uneori se defineste variabila aleatoare continua ca fiind variabila X, astfel ncat exista ofunctie fX cu proprietatea de mai sus.

    Este clar ca daca fX este continua rezulta ca FX este derivabila si avem:

    fX =dFX

    dx

    .

    Teorema 3.13 Daca f este densitatea variabilei aleatoare X, atunci:

    P(a < X < b) = ba

    fX(x) dx, a, b R,

    ba

    fX(x) dx = 1.

    Exemplul 3.14 Functia:

    F(x) = 0 , x 02

    9(3x

    x2) , 0 < x

    3

    0 , x > 3

    (3.7)

    reprezinta o densitate de probabilitate.

    3.2 Repartitii multivariate

    In paragraful anterior am introdus notiunea de variabila aleatoare unidimensionala. Totusi,n realitate ne ntalnim cel mai des cu situatii n care este nevoie sa consideram mai multecaracteristici numerice n acelasi timp. De exemplu, daca consideram caracteristicile uneipersoane dintr-o comunitate, suntem interesati de mai multe valori numerice, ca: naltime,greutate, varsta, numarul copiilor, contul bancar etc., ce vor fi reprezentate de o variabilaaleatoare multidimensionala.

    Daca n cazul unei variabile aleatoare unidimensionale era vorba de o functie care faceasa-i corespunda fiecarui eveniment un singur numar real, de aceasta data extindem notiuneala doua sau mai multe dimensiuni. Pentru simplitate, vom considera aici doar cazul bidi-mensional. Fie X si Y doua variabile aleatoare (unidimensionale) si sa consideram cuplul devariabile aleatoare (X, Y) pe acelasi spatiu de probabilitate. Functia data de:

    FXY(x, y) = P(X < x, Y < y), (3.8)

    reprezinta functia de repartitie (bidimensionala) comuna asociata cuplului (X, Y).Prin repartitia marginala a variabilei X, ntelegem functia:

    FX(x) = P(X < x) = FXY(x, ). (3.9)

    Similar se defineste si repartitia marginala a variabilei Y, adica:

    FX(x) = FXY(, y). (3.10)

    Vom defini conceptul de variabile aleatoare independente n termeni de repartit ie asociatacuplului de variabile aleatoare. Variabilele X si Y se numesc independente daca:

    FXY(x, y) = FX(x)FY(y), x,y. (3.11)

    31

  • 7/29/2019 Cursuri Biostatistica

    32/107

    Sa consideram, mai ntai, X si Y doua variabile discrete. Atunci repartitia comuna acelor doua variabile este definita de:

    pX,Y(x, y) = P(X = x, Y = y), (3.12)

    iar functia de repartitie comuna va fi data de:

    FXY(x, y) =a

  • 7/29/2019 Cursuri Biostatistica

    33/107

    3.3 Caracteristici numerice ale variabilelor aleatoare

    Din punct de vedere matematic, cel mai simplu mod de a analiza o variabila aleatoare esteacela de a i studia functia de repartitie. In practica nsa, amintim aici analizele statisticeale datelor reale, obtinute din sondaje sau recensaminte, nu avem la dispozitie decat valorile

    luate de o variabila.In aceste cazuri, ca si n alte tipuri de analize statistice, vom recurge laanumite caracteristici numerice tipice pentru o variabila aleatoare, precum: medie, dispersie,

    abatere medie patratica (deviatie standard), momente de ordin superior, mediana, moda etc.,care ne dau informatii importante privind variabila respectiva.

    Deoarece exista doua tipuri de variabile aleatoare, discrete si continue, vom introduce maintai aceste notiuni diferentiat. Fie X o variabila aleatoare discreta. Vom desemna prin:

    E[X] =k

    xkpX(xk) =k

    xkpk

    media sa, atunci cand aceasta suma exista. Daca X este o variabila aleatoare continua,expresia mediei ei este data de:

    E[X] =

    xfX(x) dx,

    atunci cand aceasta integrala exista.

    Definitia 3.5 Se numeste valoare medie (sau speranta matematica) a unei v.a. Xnumarul

    E[X] =

    x dF(x) =

    k=1xkpX(xk) , X v.a. discreta

    xfX(x) dx , X v.a. continua(3.19)

    unde

    x dF(x) este integrala Stieltjes.

    Geometric vorbind, media unei variabile aleatoare este egala cu abscisa centrului de greu-tate al suprafetei marginita de poligonul (curba) repartitiei si axa Ox. Sa mentionam aicica, daca g : R R este o functie arbitrara, atunci g(X) reprezinta o variabila aleatoare cumedia:

    E[g(X)] =

    g(x) dFX(x). (3.20)Operatorul de medie se mai noteaza cu E[X] = M(X) sau E[X] = X.

    Definitia 3.6 Se numeste moment de ordin k (k R) al unei v.a. X valoarea

    Ek[X] =i=1

    xkipX(xi),

    daca v.a. X este discreta, si

    Ek[X] =

    xk

    fX(x) dx,

    daca v.a. X este continua.

    33

  • 7/29/2019 Cursuri Biostatistica

    34/107

    Se observa ca Ek[X] = E[Xk].

    Definitia 3.7 Se numeste moment centrat de ordin k al v.a. X momentul de ordin kal abaterii fat a de medie:

    Eck[X] =

    i=1 (xi E[X])kpi,daca v.a. X este discreta, si

    Eck[X] =

    (x E[X])kfX(x) dx,

    daca v.a. X este continua.

    Definitia 3.8 Dispersia v.a. X, notata cu D2(X) sau 2, este moment centrat de ordin 2al v.a. X:

    D2

    (X) = 2

    = E[(X E[X])2

    ] = (x E[X])2fX(x) dxsau

    D2(X) = E[(X E[X])2] =i=1

    (xi E[X])2pi.

    Se observa ca:D2[X] = E[(X E[X])2] = E[X2] E2[X].

    Prin abaterea medie patratica sau deviatia standard ntelegem radacina patrata a dis-persiei

    D2(X), notata si D(X). Sa amintim ca deviatia standard are un rol important n

    analizele statistice ale diferitelor date, avantajul ei fata de dispersie, atunci cand este vorbade analize statistice, consta n faptul ca ea se masoara n aceleasi unitati ca si datele desondaj, deci putem lucra cu expresii liniare n raport cu media si cu deviatia standard.

    Exemplul 3.15 Probabilitatea extragerii unei bile albe dintr-o urna este p. Se fac douaextrageri din aceasta urna, de fiecare data bila extrasa revenind napoi n urna. Fie variabilelealeatoare X1 si X2, undeX1 reprezinta numarul de bile albe obtinute la prima extragere si X2numarul de bile albe de la a doua extragere. Tablourile de repartitie ale variabilelor aleatoarediscrete simple X1, X2, X1 + X2, X1X2 sunt:

    X1

    : 0 1q p , X2 : 0 1q p .X1 + X2 :

    0 1 2q2 2pq p2

    , X1X2 :

    0 1

    q2 + 2pq p2

    .

    Atunci E[Xi] = 0 q+ 1 p = p, i = 1, 2, E[X1 + X2] = 2pq+ 2p2, E[X1X2] = p2.D2[Xi] =?, D

    2[X1 + X2] =?.

    Prin variabila aleatoare standardizata, corespunzatoare variabilei X, ntelegem variabila:

    Y =X E[X]D2[X] ,

    pentru care se poate arata ca E[Y] = 0 si D2[Y] = 1.

    34

  • 7/29/2019 Cursuri Biostatistica

    35/107

    In cazul variabilelor conditionate, media va capata urmatoarele formulari. Astfel, n cazulvariabilelor discrete,

    E[X|Y = y] =x

    xpXY(x, y)

    pY(y), pY(y) > 0, (3.21)

    se numeste media conditionata a lui X dat fiind Y = y si avem:

    E[X] =x

    xpX(x) =x

    y

    xpX|Y(x|y)pY(y) = E[E[X|Y]]. (3.22)

    In cazul variabilelor continue, media conditionata a lui X dat fiind Y = y este data deformula:

    E[X|Y = y] =

    xfXY(x, y)

    fY(y)dx (3.23)

    si:

    E[X] =

    xfX(x)dx =

    xfX|Y(x|y)fY(y) dx dy = E[E[X|Y]]. (3.24)

    Teorema 3.16 Proprietatile mediei sunt:

    1. E[a] = a, a R constanta;2. E[aX] = aE[X], E[a + X] = a + E[X], a R constanta;3. E[X+ Y] = E[X] + E[Y];

    4. E[XY] = E[X]E[Y], daca X si Y sunt v.a. independente;

    5. |E[X]|

    E[X2];

    6. fie X si Y doua v.a. dicrete simple a.. exista E[X2] si E[Y2]. Atunci

    |E[XY]|

    E[X2]E[Y2].

    Teorema 3.17 Proprietatile dispersiei sunt:

    1. D2[a] = 0, a R constanta;2. X v.a., a, b R, D2[aX] = a2D2[X] si D2[X+ a] = D2[X];3. D2[X + Y] = D2[X] + D2[Y] + 2E[(X E[X])(Y E[Y])]. Daca X si Y sunt inde-

    pendente, atunci D

    2

    [X+ Y] = D

    2

    [X] + D

    2

    [Y].Demonstratie:

    1. D2[a] = E[a E[a]]2 = E[a a]2 = 0;2. D2[aX] = E[aXE[aX]]2 = E[aXaE[X]]2 = E[a(XE[X])]2 = a2E[XE[X]]2 =

    a2D2[X].

    3. D2[X + Y] = E[X + Y E[X + Y]]2 = E[(X E[X]) + (Y E[Y])]2 = D2[X] +D2[Y] + 2E[(X E[X])(Y E[Y])].Daca variabilele X si Y sunt independente, atunci si variabilele X

    E[X] si Y

    E[Y]

    vor fi independente:

    E[(X E[X])(Y E[Y])] = E[X E[X]]E[Y E[Y]] = 0.

    35

  • 7/29/2019 Cursuri Biostatistica

    36/107

    Exemplul 3.18 Fie X si Y doua v.a. discrete date prin tabelul de repartitie:

    X :

    0 2 3 . . . n1

    2n1

    12

    14

    . . . 12n1

    ,

    Y :

    112

    123 . . .

    1n(n+1)

    1n

    1n

    . . . 1n

    ,

    Sa se calculeze E[X] si E[Y].

    Am definit anterior momentele n cazul unei variabile unidimensionale. Se pot extindeaceste definitii n cazul repartitiilor multivariate. In continuare vom defini media si dispersian cazul cuplurilor de variabile aleatoare. Fie, mai ntai, (X, Y) un cuplu de variabile discrete.Atunci putem defini mediile variabilelor X si Y astfel:

    mX = E[X] =ij

    xipij , mY = E[Y] =ij

    yjpij (3.25)

    unde pij = P(X = xi, Y = yj). In cazul continuu, avem formulele:

    mX = E[X] =

    xfXY(x, y) dxdy, mY = E[Y] =

    yfXY(x, y) dxdy. (3.26)

    Pentru dispersie, avem formulele:

    D2[X] =

    i j(xi mX)2pij, D2[Y] =

    i j(yj mY)2pij, (3.27)

    respectiv,

    D2[X] =

    (x mX)2fXY(x, y) dxdy, D2[Y] =

    (y mY)2fXY(x, y) dxdy. (3.28)

    In cazul unui cuplu (X, Y) de variabile aleatoare suntem interesati de modul cum putemidentifica o eventuala legatura ntre componentele cuplului prin intermediul mediei si disper-siei. Astfel, covarianta variabilelor X si Y este data de:

    cov(X, Y) = E[(X E[X])(Y E[Y])] = E[XY] E[X]E[Y], (3.29)

    iar raportul:

    (X, Y) =cov(X, Y)D2[X]D2[Y]

    , (3.30)

    se numeste coeficient de corelatie. Asa cum arata si numele sau, coeficientul decorelatie ne da o masura a legaturii (corelatiei) dintre cele doua variabile, el putand ficonsiderat ca o intensitate a relatiei (liniare) dintre ele. Teorema urmatoare stabilesteaceasta caracteristica.

    Teorema 3.19 Coeficientul de corelatie a doua variabile aleatoare X si Y ia valori n inter-valul [

    1, 1], este nul daca variabilele sunt independente si este egal cu 1 daca si numai daca

    variabilele X si Y verifica ecuatia:

    aX+ bY = c Y = AX+ B, a, b, c, A, B R. (3.31)

    36

  • 7/29/2019 Cursuri Biostatistica

    37/107

    Demonstratie: Pentru prima asertiune sa observam ca:

    D2

    X

    D2[X]

    Y

    D2[Y]

    = 2(1 (X, Y)) 0,

    de unde rezulta ca (X, Y) [1, 1]. Egalitatea (X, Y) = 1 este posibila daca si numaidaca

    D2

    X

    D2[X] Y

    D2[Y]

    = 0.

    Dar, dispersia este egala cu zero daca variabila este o constanta, deci:

    XD2[X]

    YD2[Y]

    = c.

    de unde rezulta ca X =D2[X]

    D

    2

    [Y]

    +cD2[X]. Analog se poate arata ca daca (X, Y) = 1,atunci X = D2[X]

    D2[Y] Y + cD2[X].

    In ceea ce priveste afirmatia reciproca, anume ca o relatie liniara ntre cele doua variabileimplica egalitatea coeficientului de corelatie cu 1, aceasta se poate dovedi prin calcul direct.In final, coeficientul de corelatie nul rezulta direct din independenta variabilelor.

    Observatia 3.20 Reciproca nu este ntotdeauna adevarata, adica exista variabile dependenteavand coeficientul de corelatie zero.

    Vom prezenta nca doua caracteristici numerice importante ale unei variabile aleatoare.

    Prin modul sau moda unei variabile discrete X, notat M, ntelegem valoarea sa cea maiprobabila; n cazul unei variabile continue X, modul M este dat de valoarea sa pentru caredensitatea si atinge maximul (relativ sau absolut). Geometric, modul este abscisa maximuluicurbei de repartitie. O variabila poate avea mai multe moduri, caz n care repartitia sa senumeste plurimodala.

    Prin mediana unei variabile aleatoare X, notata , ntelegem numarul pentru care avemegalitatea:

    P(X < ) = P(X > ) =1

    2,

    sau, n termeni de functie de repartitie F() = 12

    , cu alte cuvinte, mediana este numarul

    real cu proprietatea ca valorile luate de variabila X au aceiasi sansa sa fie mai mari saumai mici ca aceasta. Geometric vorbind, mediana este abscisa x = prin care, daca ducem oparalela la axa ordonatelor, dreapta respectiva va mparti n doua parti echivalente suprafataaflata sub graficul densitatii f(x). Notiunea de mediana poate fi extinsa nlocuind valoarea1/2 cu orice alta valoare (0, 1). Astfel, vom defini cuantila de ordin a variabileialeatoare X ca fiind numarul q astfel ncat F(q) = .

    In practica nu se lucreaza cu orice valoare a parametrului , ci se considera doar anumitevalori standard. Astfel, se considera cuantilele de ordin 0.25, 0.5 si 0.75, notate si Q1, Q2,Q3, care se mai numesc si cuartile. Se observa ca mediana este a doua cuartila, Q2.

    37

  • 7/29/2019 Cursuri Biostatistica

    38/107

    3.4 Repartitii discrete clasice

    In acest paragraf vom prezenta cateva dintre cele mai cunoscute repartitii discrete ce aparfrecvent n probabilitati si statistica.

    3.4.1 Repartitia uniforma - X U(C+ L, C+ N L)Sa consideram un zar si fie X variabila aleatoare ce desemneaza numarul de puncte i (i =1, 2, . . . , 6), ce poate sa apara la aruncarea zarului. Atunci P(X = i) = 1

    6, i = 1, 2, . . . , 6,

    toate cele sase fete ale zarului avand aceeasi probabilitate de aparitie. Spunem ca avem orepartitie uniforma.

    In general, vom spune ca variabila discreta X, de constante C si L (L > 0), are o repartitieuniforma, daca:

    pX(C+ xL) = P(X = C+ xL) =1

    N, x = 1, 2, . . . , N .

    Tabelul de repartitie are forma din 3.2.

    xi x1 x2 . . . xnP(X = xi) = pi

    1N

    1N

    . . . 1N

    Table 3.2: Tabelul de repartitie pentru repartitia uniforma

    Vom nota X U(C+ L, C+ N L), unde C,L > 0 si N sunt parametrii repartitiei. Mediasi dispersia acestei variabile sunt:

    E[X] =N

    j=1

    (C+jL)pX(C+jL) = C+ (N + 1)L2

    , (3.32)

    D2[X] = C2 + (N + 1)LC+(N + 1)(2N + 1)L2

    6 [C+ (N + 1)L

    2]2 (3.33)

    =(N2 1)L2

    12. (3.34)

    Exemplul 3.21 Numerele aleatoare discrete (random digits), i.e. cifrele alese aleator decomputer, sunt uniform repartizate pe multimea {0, 1, 2, . . . , 9}. Aici C = 1, L = 1, N =10. Rezulta ca E[X] = 4, 5, D2[X] = 33/4.

    3.4.2 Repartitia Bernoulli - X B(p)Sa presupunem ca rezultatul unui experiment aleator poate fi considerat fie ca succes, fie caesec, cu probabilitatile p, respectiv q = 1 p, unde p (0, 1). Definim variabila aleatoare Xca fiind o variabila Bernoulli, daca: X ia valoarea 1 daca evenimentul A (i.e. succes) are locsi 0 daca evenimentul A nu are loc (i.e. esec). Repartitia variabilei X poate fi ilustrata printabelul 3.3:

    A 1 CA 0p 1

    p

    Table 3.3: Tabelul de repartitie pentru repartitia Bernoulli

    38

  • 7/29/2019 Cursuri Biostatistica

    39/107

    In ceea ce priveste media si dispersia variabilei Bernoulli, avem:

    E[X] = 1 p + 0 (1 p) = p,D2[X] = p p2 = p (1 p) = p q.

    Exemplul 3.22 Sa presupunem ca avem o urna n care se gasesc a bile albe si b bile negre sisa consider am ca se efectueaza o singura extragere: daca iese o bila alba spunem ca este unsucces, daca iese una neagra, spunem ca este un esec. Rezulta ca probabilitatea unui succeseste p = a

    a+biar probabilitatea unui esec este q = b

    a+b.

    Observatia 3.23 Un experiment aleator echivalent cu experimentul de mai sus, n care exis-ta doar doua rezultate posibile, avand probabilitatilep siq = 1p, se mai numeste experimentBernoulli.

    3.4.3 Repartitia binomiala - X B(n, p)Sa consideram un numar fixat n (n > 0) de experimente Bernoulli, independente si identice(i.e. aceleasi probabilitati p si q). Atunci probabilitatea ca n cele n experimente sa obtinemk succese este data de:

    pX(k) = Cknp

    kqnk, k = 0, 1, 2, . . . , n ,

    aceasta fiind repartitia unei variabile aleatoare binomiale de parametri n si p:

    X :

    0 1 2 . . . n

    C0np0qn C1npq

    n1 C2np2qn2 . . . C nnp

    nq0

    .

    Se observa ca aceasta formula a coeficientului binomial a inspirat si denumirea repartitiei.

    Sa remarcam ca o variabila binomiala poate fi privita ca suma a n variabile Bernoulli B(p),independente si identic repartizate. Obtinem:

    E[X] =n

    k=1

    kCknpkqnk = n p,

    D2[X] = n p q.

    Exemplul 3.24 Prezentam mai jos o secventa de valori pe care le poate lua o variabilabinomiala B(10, 0.3):

    {4, 3, 2, 2, 2, 0, 3, 1, 5, 4, 3, 4, 6, 3, 4, 2, 2, 4, 4, 8, 2, 4, 6, 4, 4

    },

    valori ce simuleaza numarul de succese ce pot fi obtinute n 10 ncerc ari atunci cand sansade castig este de 0.3 (de exemplu, numarul de bile albe ce pot sa apara facand 10 extractii cureturnarea bilei dintr-o urna cu 3 bile albe si 7 bile negre).

    Histograma repartitiei Binomiale B(10, 0.3)Legenda tabel:

    frecventa observata (frecv. obs.) este numarul de observatii ale fiecarei valori;

    frecventa cumulata (frecv. cum.) reprezinta numarul cumulat de observatii pana la

    (inclusiv) valoarea considerata (notata margine superioara - marg. sup.);

    probabilitatea observata reprezinta transformarea frecventei observate n procente;

    39

  • 7/29/2019 Cursuri Biostatistica

    40/107

    probabilitatea cumulata reprezinta transformarea frecventei cumulate n procente.

    Marg. sup. Frecv. obs. Frecv. cum. Prob. obs. (%) Prob. cum. (%)xi 1 2 2 8 8

    2 6 8 24 32

    3 4 12 16 484 9 21 36 845 1 22 4 886 2 24 8 967 0 24 0 96 1 25 4 100

    Table 3.4: Tabelul de valori pentru repartitia Binomiala B(10, 0.3)

    Histogramele repartitiei de probabilitate respectiv a functiei de repartitie empirica core-spunzatoare secventei de valori observate la o variabila aleatoare de repartitie binomialaB(10, 0.3) sunt prezentate n figurile 3.1 si 3.2.

    Fig. 3.1: Repartitia de probabilitate empirica

    Observatia 3.25 In concluzie, repartitia binomiala caracterizeaza un experiment cu numai

    doua r aspunsuri posibile ce se repeta de n ori.Un caz particular l prezinta experimentele ce se repeta de un numar foarte mare de ori, iar

    evenimentul de a carui aparitie suntem interesati are o probabilitate foarte mica (evenimentrar). La limita, cand n , p 0, dar produsul n p ramane constant (n p = ) seobtine distributia Poisson.

    3.4.4 Repartitia geometrica - X GEO(p)Sa consideram un experiment Bernoulli, repetat de un numar indefinit de ori. Repartitiageometrica este repartitia variabilei X, definita de rangul primului succes, adica al ranguluik la care am obtinut primul succes, considerand ca pana la rangul k am obtinut doar esecuri.Avem:

    P(X = k) = pX(k) = P(X1 = 0, X2 = 0, X3 = 0, . . . , X k1 = 0, Xk = 1) = pqk1,

    40

  • 7/29/2019 Cursuri Biostatistica

    41/107

    Fig. 3.2: Functia de repartitie empirica

    unde k = 1, 2, . . . iar Xj reprezinta variabilele Bernoulli corespunzatoare:

    X :

    1 1 3 . . . n . . .

    pq0 pq1 pq2 . . . pq n1 . . .

    .

    Obtinem:

    E[X] =k=1

    kpqk1 =1

    p,

    D2[X] =q

    p2.

    Exemplul 3.26 La fel ca mai nainte, sa presupunem ca avem o urna cu 3 bile albe si 7bile negre si efectuam extrageri cu returnarea bilei. Simuland numarul de extrageri necesarepana la obtinerea unei bile albe, rezulta urmatoarea serie:

    {3, 3, 1, 1, 12, 8, 1, 2, 1, 2, 3, 4, 4, 4, 4, 5, 10, 4, 4, 1, 7, 1, 8, 4, 3}

    Marg. sup. Frecv. obs. Frecv. cum. Prob. obs. (%) Prob. cum. (%)xi 1 6 6 24 24

    2 2 8 8 323 4 12 16 484 7 19 28 765 1 20 4 806 0 20 0 807 1 21 4 848 2 23 8 929 0 23 0 92

    10 1 24 4 9611 0 24 0 96 1 25 4 100

    Table 3.5: Tabelul de valori pentru repartitia geometrica G(0.3)

    41

  • 7/29/2019 Cursuri Biostatistica

    42/107

    Fig. 3.3: Repartitia de probabilitate empirica

    Fig. 3.4: Functia de repartitie empirica

    3.4.5 Repartitia binomiala negativa (Pascal) - X N B(p, r)La fel ca mai nainte, sa consideram un numar indefinit de experimente Bernoulli indepen-dente si identice si sa consideram variabila X care ne da numarul necesar de ncercari kpentru obtinerea primelor r (r

    1) succese. Repartitia respectiva este data de:

    pX(k) = Ckrk1p

    rqkr = Cr1k1prqkr.

    Sa observam ca pentru a obtine r succese n k ncercari este nevoie ca n k 1 ncercari saobtinem r1 succese si la ncercarea a k-a sa mai obtinem un succes, adica Cr1k1pr1qkrp.Numele repartitiei vine de la dezvoltarea binomului ( 1

    p q

    p)r, cu exponent negativ.

    Pentru variabila binomiala negativa avem:

    E[X] =r

    p,

    D2[X] =r qp2

    .

    Sa remarcam faptul ca repartitia lui Pascal NB(p, r) poate fi privita ca suma a r repartitiigeometrice, independente si identice de parametru p. In particular, pentru r = 1, din

    42

  • 7/29/2019 Cursuri Biostatistica

    43/107

    repartitia Pascal obtinem repartitia geometrica care furnizeaza numarul necesar de ncercaripentru obtinerea primului succes.

    3.4.6 Repartitia Poisson - X P OI()Din n p = rezulta p =

    n . Trecand la limita dupa n (n ) n formula probabilitatii de

    la repartitia binomiala avem:

    limn

    Cknpkqnk = lim

    nn(n 1) . . . (n k + 1)

    k!

    k

    nk (1

    n)nk

    =1

    k!limn

    n(n 1) . . . (n k + 1)k!

    k limn

    (1 n

    )nk

    Avem

    limn

    n(n 1) . . . (n k + 1)k!

    = 1, (3.35)

    iar

    limn

    (1 n

    )nk = limn

    1

    n

    nk

    nkn

    ()

    = e. (3.36)

    Din relatiile 3.35 si 3.36 rezulta:

    limn

    Cknpkqnk =

    k

    k! e. (3.37)

    Repartitia unei variabile X, ce se supune legii Poisson de parametru > 0, este data de:

    pX(k) = P(X = k) = e

    k

    k! , k = 0, 1, 2, . . .

    Media si dispersia vor fi date de:

    E[X] = k=0

    kek1

    k!= ,

    D2[X] = .

    Vom remarca faptul ca repartitia Poisson poate fi privita ca o repartitie binomiala limitapentru n mare si p mic, n sensul ca, fixand np = si punand n

    , obtinem:

    limn

    P(X = k) =ek

    k!. (3.38)

    Din aceasta cauza (i.e. evenimente cu probabilitati foarte mici) aceasta r