70
“ Viaţa trebuie măsurată după gândire şi acţiune, iar nu după timp” J.L. Avenbury 321

CARTE BIOSTATISTICA

  • Upload
    histomg

  • View
    1.733

  • Download
    3

Embed Size (px)

Citation preview

Page 1: CARTE BIOSTATISTICA

“ Viaţa trebuie măsurată după gândire şi acţiune, iar nu după timp”

J.L. Avenbury

321

Page 2: CARTE BIOSTATISTICA

322

Page 3: CARTE BIOSTATISTICA

ELEMENTE DE BIOSTATISTICĂ. INDICATORI STATISTICI

1. OBIECTIVELE STATISTICII

Statistica este un domeniu ştiinţific care permite studiul fenomenelor a căror proprietate fundamentală este variabilitatea.

Aplicaţiile statisticii sunt foarte extinse cuprinzând domenii variate cum sunt: economia, marketingul, industria, agricultura, învăţământul, psihologia, sociologia, biologia, medicina.

Biostatistica este ramură a statisticii specializată pentru studiul fenomenelor biologice şi medicale, înglobând tehnicile şi metodele utilizate în domeniul biomedical pentru investigaţie în ştiinţele biologice şi medicale.

În biologie, nu există două fiinţe riguros identice, nici chiar o fiinţă identică cu ea însăşi în două momente diferite din existenţa sa. În baza acestei variabilităţi, un parametru biologic pentru a fi cunoscut cu o precizie suficientă, trebuie evaluat pe baza unei mulţimi de măsurători sau observaţii. Apare deci necesitatea de a prezenta şi studia această mulţime de măsurători într-o manieră cât mai simplă, relevantă şi sintetică.

În cercetările biomedicale domeniile importante ale statisticii sunt statistica descriptivă şi statistica inferenţială.

Statistica descriptivă este ramură a statisticii care se ocupă cu culegerea datelor, înregistrarea, prezentarea şi determinarea unor caracteristici numerice sintetice ale lor. O limită a statisticii descriptive este aceea că ea descrie sau analizează o mulţime de date, de obiecte sau indivizi, fără a trage concluzii asupra unei mulţimi mai mari care o conţin.

Statistica inferenţială permite generalizarea unor concluzii obţinute pentru o parte din populaţie la toată populaţia respectivă. De exemplu, testarea unui vaccin pe un lot de voluntari, permite formularea unor concluzii care să fie valabile pentru întreaga populaţie vizată să utilizeze vaccinul.

Statistica inferenţială grupează acele metode şi tehnici de estimare a caracteristicilor unei populaţii statistice din observaţii efectuate asupra unei submulţimi de componenţi ai populaţiei. Submulţimea utilizată se numeşte eşantion. Dacă eşantionul este corect selectat şi sunt utilizate proceduri adecvate de derivare a rezultatelor, vom obţine o descriere suficient de exactă a întregii populaţii statistice.

Se impune totuşi menţinerea unei diferenţieri între caracteristicile unui eşantion şi cele ale întregii populaţii statistice. Dacă în cadrul populaţiei vorbim de parametrii, în cadrul eşantionului vorbim de estimaţii (sau statistici).

323

Page 4: CARTE BIOSTATISTICA

2. NOŢIUNI DE STATISTICĂ

Principalele noţiuni utilizate în studiile statistice sunt:-colectivitate statistică (populaţie statistică)-unitate statistică-variabilă statistică-serie statistică

2.1. Colectivitatea statistică (populaţia statistică) formează obiectul analizei statistice şi este reprezentată de totalitatea elementelor care au anumite caracteristici (însuşiri sau atribute) comune. Numărul elementelor populaţiei se numeşte volumul sau talia populaţiei.

O populaţie statistică poate fi:-în medicină, mulţimea bolnavilor internaţi, mulţimea hematiilor din

sângele unei persoane, mulţimea microbilor dintr-o cultură etc.-într-un studiu demografic, populaţia unei ţări-un grup de indivizi (populaţia şcolară dintr-un oraş la un moment dat,

populaţia vârstnică dintr-o anumită regiune la un moment dat)-un grup de evenimente sau fenomene-o mulţime de obiecte.Colectivitatea statistică generală sau populaţia este reprezentată de

totalitatea elementelor de un anumit tip existente teoretic sau practic.În definirea populaţiilor statistice, care intervin în populaţiile medicale

trebuie stabilite cu claritate:-criterii de includere, respectiv condiţiile în care o entitate este un element

al populaţiei,-criteriile de excludere, adică condiţiile în care o entitate nu aparţine

populaţiei.Elementele unei populaţii statistice se numesc unităţi statistice (unităţi

de observare) sau indivizi ai populaţiei statistice.

2.2. Unitatea statistică este reprezentată de fiecare element component al colectivităţii statistice. Ea este supusă observării, i se determină şi i se înregistrează valoarea caracteristicii sau caracteristicilor studiate. Unităţi statistice pot fi: persoana, familia, căsătoria, născutul viu, gravida, cabinetul medicului de familie etc.

Trăsătura comună a tuturor unităţilor unei populaţii care poate să prezinte interes în cadrul unei analize statistice se numeşte caracteristică variabilă.

324

Page 5: CARTE BIOSTATISTICA

2.3. Caracteristica (variabila) este una din însuşirile prin care se manifestă unitatea de observare, este acea însuşire comună unităţilor unei populaţii investigate.

Analiza studiului unei populaţii se poate face după una sau mai multe variabile.

Exemple:1. Să presupunem că interesează studiul numărului de eozinofile la

bolnavii internaţi într-un spital de boli infecţioase - Populaţia statistică este formată din mulţimea bolnavilor

internaţi într-o anumită perioadă (un an),- O unitatea statistică este constituită din fiecare bolnav,- Caracteristica studiată este numărul de eozinofile ale bolnavului

la internare,- Un eşantion din această populaţie statistică poate fi, de exemplu

mulţimea alcătuită din 100 de bolnavi internaţi luaţi din doi în doi în ordinea internării.

2. Să presupunem că într-un studiu prezintă interes numărul de pacienţi consultaţi zilnic în cabinetele medicilor de familie dintr-o anumită zonă. Atunci:

- Populaţia statistică este reprezentată de mulţimea cabinetelor,- O unitate statistică este reprezentată de oricare cabinet,- Numărul de pacienţi consultaţi zilnic reprezintă o caracteristică.

Pentru studiile medicale este foarte importantă stabilirea exactă a condiţiilor de incluziune şi excluziune pentru precizarea exactă a populaţiei statistice.

2.4. Mulţimea de valori pe care o caracteristică le poate lua pentru fiecare unitate sau individ al unei populaţii statistice (sau eşantion) se numeşte variabilă definită pe populaţia statistică (eşantion).

În realitate, variabila este o funcţie X: M C, unde M este populaţia statistică iar C este o mulţime în care caracteristica ia valori.

Variabilele statistice pot fi de două tipuri: De natură cantitativă, asociate unor caracteristici ce pot fi

măsurate, De natură calitativă, asociate unor caracteristici care nu pot fi

măsurate.Pentru variabilele statistice de natură cantitativă mulţimea C este o

mulţime de numere reale sau întregi, iar pentru cele de natură calitativă, C poate fi de regulă o mulţime finită conţinând nivele calitative posibile ale caracteristicii.

325

Page 6: CARTE BIOSTATISTICA

a. Variabilele cantitative sunt asociate unor caracteristici măsurabile. Sunt însuşiri măsurabile ale unităţilor de observare şi care pot fi exprimate printr-o unitate de măsură (cm, g, ore etc.). Ele pot fi: Variabile continue asociate unor caracteristici măsurabile care pot lua

orice formă numerică (inclusiv o fracţiune zecimală sau ordinală). De exemplu: înălţimea, greutatea, vârsta, glicemia, numărul globulelor roşii etc. Calculul mediei are întotdeauna semnificaţie.

Variabile discontinue sau discrete asociate unor caracteristici măsurabile care nu iau valori decât numere întregi (scorul Apgar, numărul copiilor într-o familie etc.). Valoarea mediei nu are întotdeauna semnificaţie. Analiza rezultatelor poate fi delicată.

Variabilele cantitative pot fi metamorfozate în variabile calitative, dar întotdeauna cu pierdere de informaţie. De exemplu: transformarea variabilei cantitative continue “vârstă”, în variabilă calitativă “clase de vârstă”. Nu este posibilă transformarea variabilelor calitative în variabile cantitative, chiar dacă codificarea lor este numerică.

Variabilele discrete conferă avantajul că de cele mai multe ori este mai simplu de lucrat cu ele decât cu variabilele continue.

Procedeul de transformare a unei variabile continue într-o variabilă discretă se numeşte discretizare sau grupare în clase. Această discretizare este cauzată şi de precizia aparatului de măsurat folosit, care transformă o variabilă continuă într-o variabilă discretă.

Variabilele de supravieţuire, corespund timpului scurs între includerea unui subiect într-un studiu şi apariţia unui eveniment predefinit al studiului (exemplu: deces, matastază, complicaţie, semn, simptom). Aceste variabile intervin în anumite studii medicale şi sunt tot variabile de tip cantitativ.

b. Variabilele calitative sunt asociate unor caracteristici care nu se exprimă în unităţi de măsură. Sunt nemăsurabile, finite, iar calculul mediei valorilor ei nu are sens.

De exemplu, dacă unitatea de observare este bolnavul, lui i se pot constata unele însuşiri nemăsurabile, ca starea prezentă din punct de vedere al gravităţii afecţiunii medicale, culoarea tegumentelor, sexul etc.

Este importantă definirea numărului şi tipurilor de clase pentru aceste variabile adică a numărului de valori pe care le poate lua.

Variabilele calitative pot fi: Nominale – grupează subiecţii în categorii ce nu pot fi ordonate (exemplu:

culoarea ochilor) Nominale ordonate – subiecţii sunt grupabili în categorii ce pot fi ordonate

(exemplu starea de sănătate= precară, bună, foarte bună) Dichotomiale – subiecţii sunt întotdeauna grupaţi doar în două categorii

(exemplu: vii / morţi, masculin / feminin)

326

Page 7: CARTE BIOSTATISTICA

2.5 Varianta este valoarea concretă sub care se înregistrează o variabilă. De exmplu, variabila glicemie s-a înregistrat sub valoarea de 120 mg, într-un caz studiat. Aceasta una dintre variantele sub care se poate înregistra caracteristica respectivă (glicemia).

2.6. Frecvenţa este numărul de repetiţii sub care se înregistrează aceeaşi variantă. De exemplu, varianta 120 mg a fost înregistrată la zece pacienţi dintr-o colectivitate, atunci frecvenţa este zece pentru varianta respectivă a variabilei glicemie.

2.7. Seria statistică (sau repartiţia statistică) este şirul de valori numerice ale unei variabile, ordonate după un anumit criteriu, în funcţie de şirul valorilor altei caracteristici, reprezentând corespondenţa dintre două şiruri de date. Repartiţia statistică este caracterizată de legea de repartiţie.

După numărul de variabile luate în considerare simultan seriile statistice pot fi:

Univariate, dacă se referă la o singură variabilă, Bivariate, dacă de referă la două variabile, Multivariate, dacă se referă la mai mult de două variabile.Dacă seriile se referă doar la variabile cantitative continue, atunci ele se

mai numesc unidimensionale, bidimensionale sau multidimensionale în funcţie de numărul de variabile implicate.

2.8. Parametrul statistic este valoarea reprezentativă, dedusă dintr-un calcul numeric aplicat unei repartiţii statistice (adică din legea de repartiţie). De exemplu, media, dispersia, frecvenţa unui caracter etc.

2.9. Indicatorul statistic este mărimea statistică, cu ajutorul căruia se poate caracteriza un fenomen- în cazul nostru, un fenomen bio sau socio-medical – sub raportul structurilor interdependenţelor ori modificărilor în timp sau spaţiu.

2.10. Indicele statistic este valoarea numerică relativă ce rezultă din compararea valorilor unui indicator statistic, fie la diferite momente de timp fie în spaţii diferite, fie pentru categorii diferite constituite în raport cu o caracteristică oarecare.

327

Page 8: CARTE BIOSTATISTICA

3. CULEGEREA DATELOR

Biostatistica de ocupă de culegerea, clasificarea, descrierea, analiza, interpretarea şi prezentarea datelor observate sau calculate în prealabil.

Culegerea datelor presupune că în prealabil au fost parcurse succesiv următoarele etape:

- Stabilirea scopului cercetării,- Determinarea ipotezei de lucru,- Documentarea bibliografică şi în teren,- Delimitarea colectivităţii de studiat şi a volumului ei,- Alegerea locului şi perioadei desfăşurării acţiunii,- Stabilirea caracteristicilor principale care vor fi înregistrate,- Fixarea tehnicilor de lucru,- Proiectarea documentelor (formularelor) purtătoare de informaţie,- Testarea documentelor (formularelor) de lucru.(după D. Enăchescu - Medicină socială, Elemente de biostatistică).

Datele care rezultă din observarea fenomenelor sunt înscrise în anumite documente purtătoare de informaţii (de exemplu, foile de observaţie, buletine de analiză, fişe speciale de cercetare etc.) şi apoi sunt centralizate.

În cazul caracteristicilor calitative, datele sunt centralizate în tabele centralizatoare, iar în cazul celor cantitative se formează serii de variaţie.

3.1. Seria de variaţie sau distribuţia de frecvenţă

Centralizarea caracteristicilor cantitative este însoţită, de obicei, şi de ordonarea datelor. Variantele sub care se înregistrează caracteristica sunt dispuse în sens crescător, alăturat se notează frecvenţa lor de apariţie. Se alcătuieşte astfel o serie de variaţie simplă sau o distribuţie de frecvenţă.

O distribuţie de frecvenţă se obţine prin observarea frecvenţei de apariţie a unui eveniment.

Seriile de variaţie pot fi:

Serii de variaţie simple Serii de variaţie cu clase

328

Page 9: CARTE BIOSTATISTICA

Serii de variaţie simple

Exemplu:

Tabel I. Vârsta persoanelor dintr-un lot supus cercetării

Variabila*Xi

Frecvenţafi

012345..

9596979899

81211131421..20001

fi =1.000

* Vârsta se exprimă în ani împliniţi:- o persoană de 11 luni şi 28 zile va fi considerată de 0 ani- o persoană de 9 ani, 11 luni şi 29 zile va fi considerată de 9 ani,

etc.

Serii de variaţie cu clase

Pentru seriile de variaţie foarte lungi care pentru unele valori au frecvenţa nulă, se preferă alcătuirea unei grupări în subdiviziuni ale domeniului de variaţie al caracteristicii observate (clasă, grupă, categorie). În această situaţie prezentarea informaţiilor se face printr-o serie de variaţie cu clase. Se recomandă crearea unor clase egale ca mărime, cu intervalele externe închise. Limitele de clasă, inferioară şi superioară, nu trebuie să se suprapună.

De exemplu 0-4 ani, 5-9 ani, 10-14 ani etc.….. şi nu 0-5 ani, 5-10 ani, 10-15 ani etc.

329

Page 10: CARTE BIOSTATISTICA

Exemplu:

Tabel II. Vârsta persoanelor dintr-un lot supus cercetării

Clasa Centrul clasei xi' Frecvenţa fi

0-4 2,5 585-9 7,5 3210-14 12,5 4815-19 17,5 3620-24 22,5 4025-29 27,5 5830-34 32,5 6735-39 37,5 7340-44 42,5 8045-49 47,5 8450-54 52,5 8555-59 57,5 8360-64 62,5 7565-69 67,5 6770-74 72,5 6475-79 77,5 3280-84 82,5 685-89 87,5 790-94 92,5 595-99 97,5 3- - fi =1.000

Mărimea clasei (a intervalului de grupare) se poate aproxima, pentru seriile de variaţie cu clase egale, cu ajutorul formulei lui H.A.Sturges:

x max - x min

i = 1 + 3.322 log n

unde: I – mărimea intervaluluix max - x min – valoarea maximă – valoarea minimă

kn – numărul cazurilor ( fi )

i=1În cazul seriilor de variaţie cu clase (toate clasele sunt considerate egale),

pentru efectuarea prelucrărilor statistice este necesar a se calcula centrul clasei (valoarea centrală a intervalului) care se notează cu Xi

' .

330

Page 11: CARTE BIOSTATISTICA

Centrul clasei se determină diferit, în funcţie de caracterul variabilei.Pentru variabilele cantitative continue, centrul clasei este egal cu

semisuma valorii minime a clasei respective şi a valorii minime a clasei următoare.

Pentru variabilele cantitative discontinue, centrul clasei este egal cu semisuma valorilor extreme ale clasei. Nu este obligatoriu ca centrul clasei să fie o valoare întreagă.

Pentru variabilele cantitative continue, cu mai multe valori (peste 10) se observă că o mare parte dintre observaţii se concentrează în jurul unei valori centrale.

Această concentrare este denumită tendinţa centrală a distribuţiei de frecvenţă.

331

Page 12: CARTE BIOSTATISTICA

4.INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE, PENTRU CARACTERISTICI CANTITATIVE

4.1. INDICATORI AI TENDINŢEI CENTRALE PENTRU CARACTERISTICI CANTITATIVE

Indicatorii de tendinţă centrală ai unei serii de variaţie aduc informaţii considerate tipice pentru acestea, prin faptul că valorile variabilei (variantele) se distribuie în jurul lor.

Principalii indicatori de tendinţă centrală sunt: media, mediana, modul.

4.1.1. Media _

4.1.1.1. Media aritmetică ( x )Media aritmetică este o măsură a valorii centrale a setului de date în jurul

căreia fluctuează datele setului. Media nu dă nici o indicaţie asupra gradului de fluctuaţie (de abatere) de la medie, adică asupra a ceea ce se numeşte frecvent dispersia datelor.

Media aritmetică a seriei de date asociate unui eşantion x1 , x2 , ….., xn, este raportul dintre suma acestora şi numărul lor:

n xi

i=1 x1 + x2 + …..+ xn

x = = n n

unde:x – media aritmetică, n xi suma valorilor seriei de date (a variabilei),i=1n – numărul valorilor (seriei de date),i = 1, 2,…, n

Pentru valori ordonate într-o serie de variaţie (de valori xi şi frecvenţe fi ), media aritmetică se poate calcula cu ajutorul formulei:

332

Page 13: CARTE BIOSTATISTICA

xifi x1 f1 + x2 f2 + + xk fk

x = = fi f1 + f2 + …..+ fk

unde:x – media aritmetică ponderată,k xifi - suma produsului dintre valorile variabilei şi frecvenţa lor în i=1 serie,k fi - numărul valorilor, exprimat ca sumă a frecvenţelor.i=1

Exemplu:Durata unei boli exprimată în zile, pentru zece determinări poate fi:

4,5,3,5,6,6,10,4,5,5. Durata medie (media aritmetică) a bolii va fi de 5,3 zile:

4+5+3+5+6+6+10+4+5+5 53x = = = 5,3 zile

10 10Calculând durata medie cu ajutorul celei de a doua formule vom avea:_ 3+4+4+5+5+5+5+6+6+10x =

10

_ 31+42+54+62+101 53 x = = = 5,3 zile

10 10

Media aritmetică poate fi definită şi ca valoarea faţă de care suma abaterilor variantelor din seria de variaţie este nulă. Această proprietate a mediei se poate folosi şi ca metodă de verificare a corectitudinii calculelor.

Deci, trebuie îndeplinită condiţia:

k ( xi - x ) fi = 0i=1

unde: xi - valorile variabilei,x – media aritmetică, fi – frecvenţa; i= 1, 2,……, k.

333

Page 14: CARTE BIOSTATISTICA

Calculul mediei pentru seriile de variaţie cu clase se face în acelaşi mod, folosindu-se valorile centrului claselor intervalului:

k xi fi i=1 unde: xi = centrul clasei

x = fi

Proprietăţi ale mediei aritmetice:

1. Orice valoare a seriei este luată în considerare în calculul mediei. Această proprietate nu este adevărată pentru toate măsurile de centralitate (de exemplu valoarea centrală).

2. Valorile centrale pot influenţa media distrugându-i reprezentativitatea.3. Media aritmetică se situează printre valorile seriei de date.4. Suma diferenţelor dintre valorile individuale din serie şi medie este

zero: n (xi -x) = 0

i=15. Schimbarea originii scalei de măsurare a variabilei x din care provine

seria de date are influenţă asupra mediei. Fie x=x + c, unde c este o constantă. Atunci, xi=xi + c, iar media devine:

x=x + cTransformarea scalei de măsură a variabilei x influenţează media aritmetică. Astfel, dacă x= h x, h fiind o constantă reală, xi= h xi, şi rezultă uşor că:

x= hx

Includerea valorilor extreme în calculul mediei denaturează valoarea acesteia. În cazul în care pentru medie se doreşte o valoare reprezentativă, se poate calcula o medie aritmetică modificată prin excluderea valorilor extreme.

Pentru calculul mediei aritmetice modificate, prin decizia analistului, se elimină un număr egal de valori de la capetele distribuţiei, media calculându-se cu valorile rămase.

Astfel, se practică în mod obişnuit determinarea unei medii modificate prin eliminarea a 5% dintre valorile extreme (cum este cazul în programul statistic SPSS).

4.1.1.2. Media aritmetică ponderată (μx)

334

Page 15: CARTE BIOSTATISTICA

Media aritmetică ponderată se calculează după formula următoare în care fiecare valoare xi este înmulţită cu o pondere wi nenegativă, care indică importanţa valorii respective în raport cu celelalte valori.

wi xi

μx =

wi

4.1.2. Mediana (Me)

Mediana este alt indicator de tendinţă centrală.Ea se defineşte ca fiind valoarea care împarte şirul ordonat de valori în

două părţi egale, situându-se la mijlocul seriei de variaţie, astfel încât jumătate dintre valori îi sunt inferioare (sau egale) şi cealaltă jumătate îi sunt superioare (sau egale). Se disting două situaţii:

1. Pentru serii cu număr impar de valori (2k +1), mediana este valoarea de rang k+1.

2. Pentru serii cu număr par de valori (2k), mediana se află între valorile de rang k şi k+1, convenindu-se a fi reprezentată de media aritmetică a celor două valori.

Exemplu:Caracteristicile lungimii la naştere sunt: 48, 49, 50, 52, 54 cm. Se observă

că valoarea 50 este mediana. Ea a împărţit şirul de valori astfel încât numărul valorilor mai mici decât ea însăşi să fie egal cu numărul valorilor mai mari, în exemplu existând valorile inferioare 48, 49 şi valorile superioare 52, 54.

În cazul seriilor cu număr impar de valori mediana este o valoare observată (ca în exemplu dat). În cazul seriilor cu număr par mediana este o valoare calculată. Exemplu:

Fie seria 48, 49, 50, 51. În acest caz mediana trebuie plasată între valorile 49 şi 50, atribuindu-i-se

valoarea 49,5, rezultat al semisumei celor două valori delimitatoare 49 + 50( = 49,5 ) 2

Referitor la aceste exemple se poate spune că mediana a avut poziţia sau rangul 3 pentru primul exemplu şi respectiv, rangul 2,5 în cazul celui de-al doilea exemplu. Apare evident că determinarea medianei este legată de ordinea variantelor, motiv pentru care ea poate fi numită şi medie de poziţie.

Rangul medianei se poate calcula cu formula:

335

Page 16: CARTE BIOSTATISTICA

fi + 1Rg =

2În cazul în care observaţiile sunt grupate în clase de frecvenţă, clasa

mediană este cea care conţine mediana. Ca şi la medie, în cazul seriilor de variaţie cu clase, se introduce o eroare în determinarea medianei.

Proprietăţi ale medianei:1. Mediana nu este afectată de valorile extreme ale seriei de date, chiar dacă ele

sunt mult diferite de celelalte, având un caracter “aberant”.2. Valoarea obţinută pentru mediană poate să fie nereprezentativă pentru

distribuţia seriei de valori dacă acestea nu se grupează înspre valoarea centrală.Comparativ cu media, mediana ca indicator are o capacitate mai mică în

estimarea populaţiei de origine printr-un eşantion. Din acest motiv în analiza statistică va fi folosită mai mult media decât mediana.

4.1.3. Modul (Mo)Modul (sau valoarea modală) este definit ca fiind valoarea cu numărul cel

mai mare de apariţii, deci cu frecvenţa cea mai mare. Modul este o valoare observată şi nu una calculată, ca în cazul mediei şi a

medianei.Stabilirea modului este simplă: se caută frecvenţa cea mai mare şi se

citeşte valoarea corespunzătoare variabilei (varianta) acestei frecvenţe.Dacă seria de variaţie este sub formă de clase, modul corespunde

centrului clasei de frecvenţă maximă.Se vorbeşte de: distribuţie de frecvenţe unimodală dacă tabela de frecvenţe are un

singur maxim distribuţie de frecvenţe multimodală dacă are mai multe maxime (ex.

bimodale dacă are două valori maxime ale frecvenţelor corespunzând a două valori diferite ale variabilei).

Pentru seriile unimodale, K.Pearson a stabilit că valoarea apropiată a modului, poate avea expresia:

Mo = x + 3 (Me - x )

Din punct de vedere grafic modul reprezintă abscisa căreia îi corespunde ordonata maximă.

Modul poate oferi indicaţii asupra omogenităţii seriei de variaţie.

336

Page 17: CARTE BIOSTATISTICA

Exemplu: Determinări ale uricemiei la 100 de pacienţi

xi fi xi fi

33 1 3338 5 19043 10 43048 27 129653 25 132558 11 63863 8 50468 7 47673 3 21978 1 7883 1 8388 1 88- 100 5360

xifi 5360x = = = 53,60 Media

fi 100 aritmetică este 53,60.

fi + 1 101Rg Me = = = 50,5 Rangul

2 2 medianei este 50,5.

x50 = 53, x51 = 53

x50 + x51 53 + 53Me = = = 53 Mediana este

2 2 53.

Mo = 48 (corespunde frecvenţei cea mai mare 27) Modul este 48.

4.2. INDICATORI DE DISPERSIE PENTRU CARACTERISTICI CANTITATIVE

337

Page 18: CARTE BIOSTATISTICA

“Variabilitatea” este proprietatea caracteristică a tuturor fenomenelor biologice şi medicale. Ea determină împrăştierea, sau dispersia indicatorilor de tendinţă centrală în caracterizarea seriei de variaţie şi se bazează pe noţiunea de abatere. În condiţiile unei dispersii mari, indicatorii de tendinţă centrală nu sunt suficienţi pentru a caracteriza seria de variaţie.

Indicatorii de dispersie oferă oferă informaţii asupra extinderii împrăştierii datelor, sau a gradului de aglomerare (îngrămădire sau apropiere).

Indicatorii de dispersie sunt utili în stabilirea reprezentativităţii indicatorilor centrali. Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.

Indicatorii de dispersie joacă un rol important în estimarea parametrilor statistici şi în inferenţa statistică.

Principalii indicatori de dispersie sunt: amplitudinea absolută şi relativă, varianţa, abaterea (deviaţia) standard, coeficientul de variaţie.

4.2.1.AmplitudineaAmplitudinea absolută (A) reprezintă diferenţa dintre valoarea maximă şi

valoarea minimă din serie.

A = x maxim – x minim

Unde: A – amplitudinea absolută,x maxim - valoarea maximă,x minim - valoarea minimă.

Pentru seriile de variaţie cu clase, amplitudinea se calculează ca diferenţa dintre limita superioară a clasei cu valorile cele mai mari şi limita inferioară a clasei cu valorile cele mai mici. În acest caz se produce o oarecare supradimensionare a amplitudinei.

Amplitudinea absolută păstrează unitatea de măsură a variabilei. Dezavantajul major al amplitudinii ca măsură de dispersie este că se

bazează doar pe valorile extreme ale seriei. Ea nu oferă nici o informaţie despre aglomerarea datelor distribuite între extreme, nu ţine seama de valorile intermediare ale seriei şi nici de frecvenţa lor de apariţie.

Exemplu:Fie seriile de variaţie pentru dimensiunile unor celule ():

338

Page 19: CARTE BIOSTATISTICA

Seria 1 Seria 2 Seria 37 113 235 120 258 121 313 116 339 119 2913 123 276 114 3011 118 32

A1 = 13-3=10 A2= 123 – 113 = 10 A3 = 33 – 23 = 10

Se observă că deşi ordinul de mărime al caracteristicii este diferit, amplitudinea celor 3 serii este egală.

Pentru a elimina influenţa ordinului de mărime, se calculează amplitudinea relativă (A%) după formula:

AA% = 100

x

unde:A% - amplitudinea relativăA – amplitudinea absolută

x – media aritmetică a seriei

Amplitudinea relativă este utilă la compararea dispersiei a două caracteristici exprimate în unităţi de măsură diferite.

Indicatorii de amplitudine relativă sunt comparabili, ei fiind abstracţi.

4.2.2. Varianţa (dispersia)Varianţa reprezintă cel mai utilizat mod de exprimare al dispersiei datelor

în jurul mediei aritmetice.Varianţa (sx

2) este un indicator de împrăştiere care ţine cont de frecvenţa de apariţie a valorilor din serie. Varianţa este media aritmetică a pătratului abaterilor dintre valorile observate şi media lor.

Formula varianţei este: k

339

Page 20: CARTE BIOSTATISTICA

( xi - x )2 fi i=1 (x1 - x)2 f1 +…+ (xk - x)2 fk

sx2 = =

k f1 + f2+ …+ fk

fi i=1

unde:sx

2 – variaţia variabilei xxi - valorile din şir (variabile x)

x – media aritmetică a şiruluifi - frecvenţa

În cazul seriilor de valori cu frecvenţe egale, varianţa se calculează mai simplu, cu formula:

n n ( xi - x )2 ( xi - x )2

i=1 i=1sx

2 = = n n fi i=1

În cazul eşantioanelor mici, adică pentru un număr mic de observaţii (n 30), se utilizează formula următoare, care reduce eroarea de calcul:

n ( xi - x )2

i=1sx

2 = n – 1

Avantajul excepţional pe care îl prezintă varianţa faţă de ceilalţi indicatori de dispersie îl reprezintă faptul că varianţa unui eşantion permite o bună estimare a varianţei populaţiei.

Limitele interpretative ale varianţei provin din faptul că valorile extreme ale seriei intervin puternic asupra mărimii indicatorului datorită abaterilor lor mari faţă de medie. Aceste abateri devin şi mai mari prin ridicarea la pătrat, impusă de formula de calcul.

Varianţa se exprimă prin pătratul unităţii de măsură a variabilei (cm2, grame2, zile2, etc.).

Varianţa nu permite compararea dispersiilor fenomenelor măsurate prin unităţi diferite sau de alt ordin de măsură, ca şi în cazul amplitudinii.

Pentru depăşirea acestor limite, se pot folosi ca indicatori abaterea standard şi mai ales coeficientul de variaţie.

340

Page 21: CARTE BIOSTATISTICA

4.2.3. Abaterea standardAbaterea standard (deviaţia standard sau ecartul tip S) reprezintă rădăcina

pătrată a varianţei:

sx = ± √ sx2

Abaterea standard prezintă avantajul de a permite exprimarea dispersiei în aceeaşi unitate de măsură ca şi a caracteristicii. Acest fapt este şi un inconvenient pentru că indicatorul nu poate fi folosit la compararea dispersiei, pentru două fenomene exprimate prin caracteristici cu unităţi de măsură diferite.

Existenţa atât a valorilor pozitive cât şi a valorilor negative este justificată, deoarece indicatorul exprimă media abaterilor varianţelor faţă de media aritmetică a şirului, aceste abateri fiind atât pozitive cât şi negative.

Din punct de vedere geometric abaterea standard sau ecartul tip poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică.

4.2.4.Coeficientul de variaţie (CV %)Coeficientul de variaţie este o măsură relativă a dispersiei datelor.Coeficientul de variaţie se calculează ca un raport procentual între

abaterea standard şi valoarea medie a şirului. sx

CV% = 100 x

Valoarea coeficientului de variaţie nu are unitate de măsură. Aceasta a dispărut prin raportarea abaterii la medie. Datorită acestui fapt indicatorul poate fi folosit la compararea a două sau mai multe serii de variaţie, indiferent de ordinul de mărime al variabilelor şi de unităţile de măsură folosite.

În utilizarea coeficientului de variaţie la studiul omogenităţii unor populaţii se pot utiliza următoarele reguli empirice (Dragomirescu L.):

dacă CV este sub 10 % atunci populaţia poate fi considerată omogenă, dacă CV este între 10 % – 20 % atunci populaţia poate fi considerată

relativ omogenă, dacă CV este între 20 % - 30 % atunci populaţia poate fi considerată

relativ eterogenă, dacă CV este peste 30 % atunci populaţia poate fi considerată

eterogenă.

4.2.5. Eroarea standard (ES)

341

Page 22: CARTE BIOSTATISTICA

Eroarea standard (ES) este indicatorul de dispersie a datelor utilizat în inferenţa statistică. Se calculează după formula:

sx

ES = √n

unde:sx – abaterea standardn – numărul valorilor seriei date.

Eroarea standard intervine în estimarea statistică în determinarea intervalelor de încredere pentru medie.

342

Page 23: CARTE BIOSTATISTICA

5. INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE PENTRU CARACTERISTICI CALITATIVE

5.1. INDICATORI DE TENDINŢĂ CENTRALĂ PENTRU CARACTERISTICI CALITATIVE

5.1.1. Proporţia

Proporţia este indicatorul de tendinţă centrală pentru caracteristici calitative şi se notează de cele mai multe ori cu simbolurile p şi q.

Proporţia este definită ca raportul dintre numărul cazurilor în care o variantă a caracteristicei a fost constantă şi numărul total de evenimente.

mp =

n

unde: p = proporţia caracteristicii,m = numărul de cazuri în care a fost constatată caracteristica,n = numărul de evenimente observate

Pentru caracteristicile calitative nealternative, însuşirea studiată poate îmbrăca mai mult decât două forme.

Formula generală de calcul a proporţiei pentru caracteristicile calitative nealternative este:

mi

p i = n

cu condiţia ca: pi = 1; i = 1, …, k.unde: pi = proporţia pentru o proprietate (stare) posibilă a caracteristicii

mi = numărul cazurilor cu o proprietate (stare) prezentăn = numărul total de cazuri observate.

343

Page 24: CARTE BIOSTATISTICA

5.2. INDICATORI DE ÎMPRĂŞTIERE PENTRU CARACTERISTICI CALITATIVE

5.2.1. Varianţa (dispersia)Varianţa pentru caracteristicile calitative se poate calcula în analogie cu

cea pentru caracterisiticile cantitative după formula:sp

2 = p (1 - p) = p qunde:

sp2 = varianţa

q = 1 – pp = proporţia unei stări posibile a caracteristicii calitative

Pentru caracteristici calitative nealternative se pot calcula tot atâţia indicatori de varianţă câte stări sunt posibile. Atfel:

sk2 = pk (1 – pk)

5.2.2. Abaterea standard (s)Este rezultatul extragerii rădăcinii pătrate din varianţă, ca şi la

caracteristicile cantitative:

sp = ± √ p (1 - p)

344

Page 25: CARTE BIOSTATISTICA

6. INDICATORI DE LOCALIZARE SAU DE AMPLASARE

Ca indicatori de localizare sau de amplasare se utilizează cuantilele. Cuantilele sunt valori ale variabilei care împart seria statistică ordonată în n părţi, cuprinzând acelaşi efectiv, egal cu 1/n din efectivul total.

Dacă n ia următoarele valori, cuantilele pot fi:- pentru n = 4, cvartile;- pentru n = 10, decile;- pentru n = 100, centile.

Cvartilele împart seria de valori observate în patru părţi de frecvenţe egale cu ¼. Se notează Q1, Q2, Q3.

Astfel prima cvartilă sau cvartila de 25 % este o valoare cu proprietatea ca 25 % dintre datele seriei sunt mai mici sau egale cu ea iar 75 % mai mari sau egale cu prima cvartilă.

A doua cvartilă sau cvartila de 50 % este reprezentată de mediană.A treia cvartilă sau cvartila de 75 % este o valoare având proprietatea ca 75

% dintre datele seriei sunt mai mici sau egale cu ea iar 25 % mai mari sau egale cu a treia cvartilă.

Decilele, în număr de nouă, împart seria de valori în intervale conţinând fiecare 10 % din observaţii. A cincea dintre ele se confundă cu mediana. Se notează D1,….., D9.

Centilele, în număr de 99, separă seria de variaţie în o sută de intervale egale, conţinând fiecare 1 % din observaţii. A cincizecea dintre ele se confundă cu mediana.

6.1. MomenteMomentele sunt indici utilizaţi în evaluarea unor caracteristici ale unei

repartiţii de frecvenţă.Momentul de ordin 1 se calculează după formula:

x fi

M1 = n

unde: x = xi - x = deviaţia de la mediefi = frecvenţa valorilor variabilein = numărul valorilor seriei

(x)2 fi

M2 = n

345

Page 26: CARTE BIOSTATISTICA

unde: x = xi - x = deviaţia de la mediefi = frecvenţa valorilor variabilein = numărul valorilor seriei

Mai frecvent utilizate în practică sunt momentele de ordinul 1 până la ordinul 4, clasate în două categorii:

-momente simple (notate cu “M”) ce se calculează faţă de origine (x = 0):

xi fi (xi)3 fi

M1 = M3 = fi

fi

(xi)2 fi (xi)4 fi

M2 = M4 = fi fi

-momente centrate (notate cu “”) ce se calculează faţă de media aritmetică:

fi (xi - x) fi (xi - x)3

1 = = 0 3= fi fi

fi (xi - x)2 fi (xi- x)4 2 = 4=

fi fi

unde: xi - x = deviaţia de la mediex = media aritmetică fi = frecvenţa valorilor variabilei fi = n = numărul valorilor seriei

Aşa cum se observă din formulă, momentul simplu de ordinul 1 (M1) corespunde mediei aritmetice, iar momentul centrat de ordinul 1 (1) este egal cu zero, pentru că suma deviaţiilor de la media aritmetică este egală cu zero.

Momentul centrat de ordinul 2 (2) corespunde variaţiei şi intră în calculul abaterii standard.

6.2. Asimetria (skewness)Repartiţiile de frecvenţă a valorilor pe care le poate lua în timp şi spaţiu

pot fi simetrice, în cazul în care aceste valori sunt egal dispersate de o parte sau

346

Page 27: CARTE BIOSTATISTICA

alta a mediei aritmetice. Asimetria se măreşte concomitent cu diferenţa dintre medie şi modul.

Măsura de asimetrie (sau skewness) indică pentru o repartiţie de frecvenţă (serie sau distribuţie de date) abaterea de la aspectul simetric şi direcţia asimetriei (pozitivă sau negativă).

Pentru măsura asimetriei este folosit momentul de ordinul trei al abaterii de la medie:

fi (xi - x)3 fi (xi - x)3

3 = = fi n

Momentul de ordinul 3 prezintă dezavantaje:-Compararea cu dificultate a ordinelor de mărime a asimetriei

pentru două distribuţii deoarece acest moment se exprimă cu ajutorul unităţilor de măsură ale datelor;

-Ordinul de mărime al momentului trei creşte odată cu variaţia ceea ce creează probleme în legătură cu variaţia unei distribuţii date pentru două distribuţii având aceeaşi formă.

Aceste dezavantaje au fost eliminate prin standardizarea momentului de ordin trei, realizată prin împărţirea la cubul abaterii standard:

3

3 = sx

3

6.3. Boltirea (kurtosis)Excesul sau boltirea (kurtosis) este o măsură a unei forme sau distribuţii

de date, care măsoară înălţimea aplatizării/ boltirii unei distribuţii în comparaţie cu o distribuţie normală. Se calculează prin formula:

1/n fi (xi - x)4

4 = 3sx

4

Excesul 4 este zero pentru o serie de date având o distribuţie normală, este pozitiv pentru o serie de date având trena mai înaltă decât cea a unei distribuţii normale şi este negativ pentru o serie de date a cărei trenă este mai coborâtă decât cea a unei distribuţii normale (respectiv trena se apropie mai încet (4 0) sau mai rapid (4 0) de zero decât cea a distribuţiei normale).

347

Page 28: CARTE BIOSTATISTICA

348

Page 29: CARTE BIOSTATISTICA

“Pământul are loc pentru toţi”Schiller

349

Page 30: CARTE BIOSTATISTICA

350

Page 31: CARTE BIOSTATISTICA

ELEMENTE DE TEORIA PROBABILITĂŢILOR

1. DefiniţieProbabilitatea unui eveniment este proporţia (fracţiunea) din toate

evenimentele posibile ale evenimentului specificat într-o succesiune aproape nelimitată a probelor în condiţii similare. Aceasta înseamnă că fiecărui eveniment A legat de un anumit “experiment probabilist”, “aleator” (orice acţiune care în împrejurări identice poate fi repetată, dar a căror rezultate nu pot fi prevăzute cu exactitate) i se poate asocia un număr P(A) numit probabilitatea de producere a evenimentului, iar P se numeşte funcţie de probabilitate.

numărul cazurilor favorabile mPr (A) = =

numărul total de cazuri posibile n

În orice experiment aleator, ca o măsură a “şansei”, sau probabilităţii cu care ne putem aştepta la producerea unui eveniment oarecare, acesta poate lua valoarea zero (eveniment imposibil) sau valoarea unu (eveniment cert, sigur).

La un număr mai mare de experimente media evenimentelor poate lua orice valoare între zero şi unu.

Tipuri de evenimente:1. Evenimentul sigur se produce cu certitudine la efectuarea

experimentului probabilist şi se notează cu litera S. De exemplu la extragerea bilelor dintr-o urnă se poate extrage sau o bilă albă sau o bilă neagră. În ambele cazuri vorbim de evenimente sigure, noţiunea fiind similară cu cea de “spaţiu de evenimente elementare” al experimentului probabilist (mulţime de elemente structurate atfel încât orice eveniment rezultat în urma experienţei corespunde unui singur element).

2. Evenimentul imposibil nu se poate produce la nici o efectuare a evenimentului şi se notează cu egal cu zero (P = 0). În cazul exemplului anterior nu se poate extrage din urnă o bilă de o altă culoare în afară de cea albă sau neagră, un alt eveniment fiind deci imposibil.

3. Evenimente contrare (complementare). Prin contrarul unui eveniment A se înţelege un eveniment care se realizează ori de câte ori nu se realizează A. Evenimentul contrar se notează non A, A sau CA.

4. Evenimente compatibile sunt acele evenimente care se pot produce simultan. Dacă notăm cu A feţele paralele ale unui zar (2, 4, 6) şi cu B doar faţa 2, în cazul în care se obţine evenimentul (faţa 2) în acelaţi timp s-a produs şi evenimentul A (faţa cu număr par).

351

Page 32: CARTE BIOSTATISTICA

5. Evenimente incompatibile (disjuncte sau mutual exclusive) sunt cele care nu se pot produce simultan. Dacă notăm cu A feţele pare ale unui zar şi cu B feţele impare, evenimentele A şi B sunt incompatibile, ele nu se pot obţine concomitent.Pr (A sau B) = Pr (A) + Pr (B) sau Pr (A) = 1 – Pr (B)

6. Eveniment implicat de alt eveniment se numeşte în cazul în care un eveniment, de exemplu B are loc ori de câte ori apare evenimentul A.

Reuniunea a două evenimente A şi B, notată cu A B este evenimentul a cărui producere constă în apariţia a cel puţin unul din cele două evenimente A sau B.

Intersecţia evenimentelor A şi B, notată A B constă în producerea concomitentă a celor două evenimente A şi B.

Evenimentele A, B sunt independente dacă: Pr (A şi B) = Pr (A) Pr (B). Prin independenţă se înţelege că realizarea sau nerealizarea evenimentului A sau B nu modifică probabilitatea de realizare sau nerealizare a celuilalt eveniment.

2. Distribuţii de probabilitateTipurile clasice de distribuţii de probabilitate sunt:

Distribuţia normală descrisă de Laplace şi Gauss Distribuţia binominală Distribuţia denumită “Legea numerelor mici” a lui Poisson Distribuţia Student (t) Distribuţia 2 a lui Pearson Distribuţia F a lui Fisher.

2.a). Distribuţia normală (Gauss-Laplace) Distribuţia normală (distribuţia gaussiană)este simetrică în jurul valorii

centrale, media aritmetică, mediana şi modul fiind egale, situate în origine. În punctul x=0 ordonata va avea valoarea maximă. Dacă se cunosc media şi deviaţia standard, curba se poate descrie perfect.

Curba are o alura tipică de clopot, cu două cozi simetrice, continue şi poate, teoretic, să varieze între şi .

Este numită curbă normală sau curba lui Gauss. Ea poate constitui un model pentru multe variabile aleatoare continue cum ar fi: concentraţiile de substanţe, erorile de măsurare în biologie, medicină, fizică, economie, etc.

Aşa cum am spus anterior distribuţia normală depinde de media şi de abaterea standard şi are densitatea de probabilitate următoare:Aşa cum am spus anterior distribuţia normală depinde de media şi de

abaterea standard şi are densitatea de probabilitate următoare:

1 (x ) 2

352

Page 33: CARTE BIOSTATISTICA

1 2 2

f(x) = e pentru x _____ 2

unde: f(x) = probabilitate obţinerii unei distribuţii normale x = variabila = valoarea medie = abaterea (deviaţia) standard

Distribuţie normală

Pentru fiecare pereche de parametrii (,) există câte o lege de distribuţie normală, deci va exista o gamă infinită de legi normale.

Toate aceste distribuţii normale se pot reduce la una singură, având media 0 şi abaterea standard 1, cu ajutorul unei schimbări de variabilă:

X - Z =

Aceasta este legea normală redusă cu densitate de probabilitate:

353

Page 34: CARTE BIOSTATISTICA

1 x 2

1 2

f(x) = e _____ 2

Acestei legi de probabilitate îi sunt asociate un număr de tabele care permit utilizarea practică a ei. Unul dintre aceste tabele este Tabelul p() care conţine pentru fiecare valoare probabilitatea ca variabila Z să fie în exteriorul intervalului [ -, ]. Alt tabel asociat legii este Tabelul abaterii standard.Au loc relaţiile:

p() = Pr (Z - sau Z )

Pr (- Z ) = 1 – p()

Din tabelul ecartului redus p(1) = 0,32 şi deci 1 – p(1) = 0,68 iar p(1,96) = 0,05 şi deci 1 – p(1) = 0,95

2.b). Distribuţia binominală sau distribuţia lui Bernoulli

354

Page 35: CARTE BIOSTATISTICA

Distribuţia binominală este acea distribuţie a rezultatelor unui experiment, când acestea au numai două valori discrete şi mutual exclusive, într-un număr cunoscut de probe. Rezultatele posibile ale fiecărei încercări elementare sunt doar două evenimente numite de obicei succes (S) şi eşec (E). Probabilitatea fiecăruia dintre cele două rezultate (p de succes şi q = 1 – p de eşec) este constantă de la o încercare la alta, dar rezultatul fiecărei probe este independent de rezultatul altei probe.

Probabilitatea pentru o distribuţie binominală este determinată prin formula:

nf(x) = pxqn-x

x (n - x)

unde: f(x) = probabilitatea obţinerii valorii x în n probe;p = probabilitatea unuia din cele două rezultate posibile (“un succes”)

într-o singură probă;q = probabilitatea celuilalt rezultat posibil (“un eşec”) într-o singură

probă;n = numărul total de probe în cadrul experimentului;x = numărul de succese obţinute în cadrul unui experiment de n probe;n – x = numărul de “eşecuri” obţinute în cadrul aceluiaşi experiment; = semnul factorial (n = 1x2x3x….xn; 0 = 1 = 1)

Distribuţia binominală se referă la o variabilă aleatorie discretă x (= numărul de “succese”) pentru care valoarea medie este:

x = npşi dispersia se calculează după formula:

2x = npq

Pentru diverse valori ale lui n şi p se obţin diverse curbe reprezentative pentru probabilităţile f(x).

Pentru np 10 şi nq 10, curbele devin suficient de simetrice în jurul valorii lui x şi se poate asimila distribuţia binominală cu o distribuţie normală (gauss-Laplace).

2.c).Distribuţia denumită “Legea numerelor mici” a lui PoissonVariabila aleatorie Poisson este o variabilă discretă care ia o infinitate

numărabilă de valori: 0, 1, 2, …, x, care reprezintă numărul de realizări într-un interval dat de timp sau spaţiu ale unui eveniment (de exemplu frecvenţa unor boli foarte rare, numărul de dezintegrări ale unei substanţe radioactive într-un interval de timp T, etc.)

355

Page 36: CARTE BIOSTATISTICA

Distribuţia lui Poisson este acea distribuţie binominală a rezultatelor în care numărul de probe este foarte mare şi probabilitatea p este foarte mică. Într-un interval suficient de mic probabilitatea de a observa mai mult de o realizare a evenimentului este neglijabilă în raport cu probabilitatea de a observa una singură (nesimultaneitatea realizării a două evenimente în timp şi spaţiu).

Această variabilă aleatorie x este caracterizată de un parametru care reprezintă numărul mediu teoretic aşteptat de realizări ale evenimentului în intervalul considerat şi are următoarea lege de distribuţie:

x

f(x) = e x

Se poate demonstra că valoarea medie şi dispersia sunt:x = 2

x = .

Prin creşterea lui , se obţin curbe simetrice, astfel pentru 20,, distribuţia Poisson poate fi asimilată cu o distribuţie normală.

2.d).Distribuţia Student (t)Distribuţia t este o distribuţie aleatorie continuă, simetrică, unimodală,

care variază de la - la +, are formă de clopot şi este mult mai “largă” decât distribuţia normală. Din aceste motive, distribuţia ”t” este utilizată pentru eşantioane mici.

Funcţia de probabilitate a variabilei aleatorie Student t depinde de un singur parametru k numit numărul gradelor de libertate.

Cînd k tinde la , distribuţia Student tinde către o distribuţie normală redusă.

Această variabilă aleatorie este utilizată, în anumite condiţii, în testul de comparaţie a mediilor numit testul Student (t) (descris în capitolul teste statistice).

2.e).Distribuţia 2 a lui PearsonDistribuţia 2 a lui Pearson descrie comportarea unei sume de pătrate a

unor variabile independente normal distribuite, fiecare având o medie egală cu zero şi abatere standard egală cu 1. Astfel variabila U, definită prin egalitatea

U = X12 + X2

2 + … +Xn2 este distribuită după Pearson.

Unde: Xi2 reprezintă pătratul unei observaţii selectate aleator dintr-o

populaţienormal distribuită având media 0 şi deviaţia standard 1.

356

Page 37: CARTE BIOSTATISTICA

Numărul de termeni Xi2 independenţi se numeşte numărul de grade de

libertate care determină forma acestei distribuţii. Media şi dispersia sunt:x = d2

x =2d, unde d este numărul gradelor de libertate.

Distribuţiile Pearson având un număr mic de grade de libertate sunt asimetrice spre dreapta, asimetria crescând o dată cu scăderea numărului de grade de libertate. Dacă numărul de grade de liberatate creşte atunci distribuţia asociată se apropie de una simetrică iar forma acestei distribuţii la limită tinde spre forma unei distribuţii normale. Este legitim să se utilizeze o aproximaţie normală cu media egală cu d şi abaterea standard 2d pentru o distribuţie Pearson cu numărul de grade de libertate cel puţin egal cu 30.

2.f).Distribuţia F a lui FisherDistribuţia F este definită pe intervalul [ 0, +) şi descrie comportarea

câtului a două variabile cu distribuţie Pearson fiecare fiind împăţită prin numărul gradelor sale de libertate.

Un membru al acestei clase de distribuţii este determinat prin numărul de grade de libertate ale numărătorului dn şi respectiv numărul de grade de libertate ale numitorului dm, distribuţiile F distincte fiind determinate de perechi (dn, dm) distincte.

În general, pentru dn şi dm 2 distribuţia F este unimodală şi pozitiv asimetrică. Atunci când numărul gradelor de libertate creşte distribuţia F se apropie pe domeniul său de definiţie de o distribuţie normală.

Această distribuţie este utilizată în testele de comparaţie a variaţiilor şi ca aplicaţie a acestora în testele ANOVA.

3. Reguli de calcul al probabilităţilorExistă două reguli de bază pentru calculul probabilităţilor în funcţie de

tipul de evenimente la care se aplică:

357

Page 38: CARTE BIOSTATISTICA

a. Regula aditivăb. Regula multiplicativă.

a. Regula aditivă se aplică pentru evenimente mutual exclusive sau “disjuncte” (realizarea unuia înseamnă automat nerealizarea celuilalt). Dacă avem cel puţin două evenimente disjunte, atunci probabilitatea lui A sau B se calculează prin însumarea probabilităţilor fiecărui eveniment.

Pr (A sau B) = Pr (A) + Pr (B)unde: Pr (A sau B) = probabilitatea evenimentului A sau a evenimentului

BPr (A) = probabilitatea evenimentului APr (B) = probabilitatea evenimentului B

Exemplu: Se ştie că aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital

sunt de vârstă X, iar 4,9 % sunt de vârstă Y. Probabilitatea ca un bolnav luat la întâmplare să fie de vârstă X sau de vârstă Y este: 6,5 % + 4,9 % = 11,4 %. Evenimentele sunt mutual exclusive, în sensul că un anumit pacient internat nu poate fi, în acelaşi timp şi de vârstă X şi de vârstă Y.

b.Regula multiplicativă se aplică pentru evenimente independente care se produc concomitent şi constă în multiplicarea probabilităţilor individuale ale evenimentelor.

Pr (A şi B) = Pr (A) Pr (B)

unde: Pr (A şi B) = probabilitatea producerii concomitente a evenimentului A şi B

Pr (A) = probabilitatea evenimentului APr (B) = probabilitatea evenimentului B

Exemplu: Aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de

vârstă X şi 55,3 % din toţi bolnavii sunt femei. Probabilitatea femeilor de vârstă X va fi: (6,5 %) 0,065 (55,3 %) 0,553 = 0,0359 (3,59 %)

358

Page 39: CARTE BIOSTATISTICA

“Nici o investigaţie umană nu se poate intitula ştiinţă adevărată dacă nu trece prin demonstraţia matematică”

Roger Bacon

359

Page 40: CARTE BIOSTATISTICA

360

Page 41: CARTE BIOSTATISTICA

TESTE STATISTICE

1. Ipoteza nulăStatistica inferenţială cuprinde două laturi: estimarea parametrilor şi

testarea ipotezelor.Unul dintre principalele aspecte ale cercetării ştiinţifice este formularea

de noi ipoteze. Întotdeauna o ipoteză nouă trebuie testată pentru a vedea dacă este în concordanţă cu observaţiile făcute şi pentru a arăta că este mai bună decât alte ipoteze alternative.

Aceste două modele se numesc ipoteza nulă şi ipoteza alternativă. Ipoteza nulă notată H0, reprezintă modelul pe care experimentatorul ar dori să-l înlocuiască. Ipoteza alternativă Ha este modelul care reprezintă o negaţie a ipotezei nule.

Ipoteza nulă (H0 ) este ipoteza care postulează faptul că eşantioanele sau populaţiile pe care le avem de comparat în cadrul unui studiu, experiment sau test sunt similare, sau orice diferenţă este atribuită şansei şi nu unui anumit factor.

Ipoteza nulă arată absenţa unor deosebiri care pot apărea în orice problemă de comparare statistică. Ea se foloseşte pentru a defini semnificaţia statistică (semnificaţia diferenţei), adică se spune că există semnificaţie statistică între eşantioane, populaţii sau ambele datorată altor factori decât şansa, dacă ipoteza nulă este falsă.

Acceptarea ipotezei nule presupune că diferenţă testată este nesemnificativă între cele cele două populaţii, fără ca mediile populaţiilor să fie identice.

Respingerea ipotezei nule, presupune că diferenţa între populaţii este semnificativă, ea poate fi explicată prin alt factor decât şansa, iar una din ipotezele alternative este acceptată.

Pentru verificarea ipotezei statistice se utilizează diferite teste statistice parametrice şi neparametrice, constând din calcularea unor statistici şi din stabilirea unor reguli clare de acceptare sau de respingere a ipotezei nule H0 , cu o anumită probabilitate.

Valoarea probabilităţii sub care se respinge ipoteza nulă se numeşte prag de semnificaţie sau risc, pentru un anumit test statistic. Pragul de semnificaţie este ales de cercetător şi se notează cu sau p-value. În general = 0,05. Dacă el este maximum 5 % se respinge ipoteza nulă, care spune că nu există diferenţă semnificativă statistic între cele două populaţii, iar una dintre ipotezele alternative este acceptată.

În orice testare a semnificaţiei statistice se pot comite două tipuri de erori:

361

Page 42: CARTE BIOSTATISTICA

Eroarea de speţă I, adică decizia de a respinge ipoteza nulă, H0

când aceasta este adevărată;

Eroarea de speţă a II-a, adică decizia de a accepta ipoteza nulă H0 când aceasta este falsă, ipoteza alternativă Ha fiind cea adevărată.

Riscul erorilor asociate unui test statistic, în termeni probabilistici arată astfel:

Pr (Ha / H0 adevărată ) = , riscul erorii de speţă I

Pr (H0 / Ha adevărată ) = , riscul erorii de speţă a II-a

Aceste riscuri cu erorile respective sunt ilustrate în tabelul următor:

Decizia investigatoruluiAcceptarea H0

Respingerea H0

Situaţia reală

H0 adevărată CorectaPr = 1 -

Eronată(Eroarea de speţă I ; Pr =

H0 falsă Eronată(Eroarea de speţă a II-a; Pr = )

CorectăPr = 1 -

În funcţie de aceste interpretări, în spaţiul eşantioanelor mulţimea tuturor valorilor posibile calculate se împarte în două intervale (arii sau regiuni complementare):

Interval de acceptare (I.A.) reprezintă mulţimea valorilor pentru care, dacă o valoare a statisticii calculate prin test se înscrie printre valorile sale, se acceptă ipoteza nulă, H0 ; iar dacă H0 este adevărată, atunci 1 - este probabilitatea ca valoarea statisticii să aparţină acestui interval;

Interval de respingere (I.R.) reprezintă mulţimea valorilor pentru care, dacă o valoare a statisticii calculate prin test se înscrie printre valorile sale, se respinge ipoteza nulă H0 ; iar dacă H0 este adevărată, atunci este probabilitatea ca valoarea statisticii să aparţină acestui interval.

Pe baza celor prezentate anterior, etapele unui test statistic sunt:

362

Page 43: CARTE BIOSTATISTICA

1. Stabilirea ipotezei nule (H0);2. Alegerea testului statistic pentru testarea lui H0;

3. Stabilirea nivelului de semnificaţie şi a volumului eşantionului;4. Calcularea valorii statisticii corespunzătoare testului ales, utilizând

datele din eşantion;5. Stabilirea intervalului de acceptare/ respingere pe baza celor

anterioare.Dacă statistica testului se află în intervalul de respingere, se decide respingerea lui H0 , iar dacă este în intervalul de acceptare, se decide că H0 nu poate fi respinsă, pentru nivelul de semnificaţie ales ().

2. Comparaţia caracteristicilor cantitative

2.1. Comparaţia mediei unui eşantion cu media unei populaţii

Atunci când se cunoaşte media unui eşantion (x) şi numărul cazurilor conţinute în acesta (n) se poate estima media populaţiei ( ) din care provine eşantionul.

Relaţia dintre media unei populaţii şi media eşantionului este dată de formula:

x

= x U n

unde: = media în populaţia din care s-a extras eşantionul

x = media eşantionuluin = numărul de cazuri din eşantionx = dispersia caracteristicii studiate în populaţia din care s-a extras

eşantionulU = coeficientul de distribuţia pentru un risc (valoare luată din

tabele), pentru o distribuţie normală Gauss-Laplace

Semnele arată că media eşantionului poate fi mai mică sau mai mare decât media populaţiei.

Această formulă se utilizează dacă parametrii populaţiei şi eşantionului sunt cunoscuţi.

Dacă nu se cunoaşte dispersia în populaţia din care

363

Page 44: CARTE BIOSTATISTICA

s-a extras eşantionul ea poate fi estimată pe baza varianţei eşantionului cu formula:

nˆx2 = sx

2 n - 1

unde: x2 = varianţa estimată a populaţiei

sx2 = varianţa eşantionului

n = numărul de cazuri din eşantionn

= termen de corecţie n - 1

Formula se modifică devenind: sx

= x t, n-1

Distribuţia normală Gauss-Laplace este înlocuită prin distribuţia Student. = riscul asumat, stabilit de cercetător, de cele mai multe ori fiind de

0,05 ( 5%), ce corespunde unei probabilităţi de 95 %. = grad de libertate, dat de numărul variantelor aleatorii independente de

care depinde statistica considerată; pentru o serie de variaţie cu n variante, sunt n-1 grade de libertate;

= n - 1

Ori de câte ori nu de cunoaşte varianţa în populaţie şi se foloseşte o valoare estimată prin varianţa eşantionului, se utilizează formula:

ˆx = x t,

n-1

Exemplu:În urma unui screening au fost examinate 5000 de persoane pentru care

valoare medie a glicemiei a fost de 80 mg % cu o abatere standard de 40 mg %. Din populaţia examinată s-a extras un eşantion conţinând cazurile cu obezitate, reprezentând 256 de persoane.Glicemia medie în acest grup a fost de 100 mg % cu o abatere standard de 48 mg %.

Parcurgem etapele unui test statistic1. Stabilirea ipotezei nule H0

364

Page 45: CARTE BIOSTATISTICA

H0 : = xNu există diferenţă semnificativă statistic între media glicemiei populaţiei

şi cea a eşantionului extras din ea

2. Stabilirea statisticii testului:Mediile cunoscute, dispersiile cunoscute atât în eşantion cât şi în

populaţie, calculăm valoarea testului şi o comparăm cu valoarea tabelară a acestuia.

Dacă Uc < U se acceptă ipoteza nulă, iar dacă Uc U se respinge ipoteza nulă

3. Stabilirea nivelului de semnificaţie

= 0,05

4. Calcularea valorii statistice a testului

| - x | nUc =

x

| 80 – 100 | 256 20 16 20Uc = = = = 6,6

48 48 3

5. Stabilirea intervalului de acceptare / respingere

Valoarea tabelară pentru o probabilitate de 95 % este U = 1,96.

6. Decizia asupra ipotezei nule de respingere sau acceptare

Deci, Uc U, deci diferenţa mediilor glicemiilor populaţiei şi eşantionului este semnificativă statistic, se respinge ipoteza nulă. Aceasta indică faptul că lotul nu afost extras la întâmplare din populaţie, ci de fapt s-a arătat de la început că el a fost delimitat după un criteriu, obezitate.

2.2. Testul “t” (student) pentru un singur eşantion mic

Testul “t” este folosit pentru eşantioane cu volum mai mic de 30 de cazuri şi compară o singură medie (x) a eşantionului cu media populaţiei notată .

365

Page 46: CARTE BIOSTATISTICA

Testele “t” sunt utilizate în analiza pentru care deviaţiile standard din eşantioane sunt substituite ca estimaţii pentru deviaţiile standard din populaţii.

Distribuţia “t”este folosită în cazul eşantioanelor mici (sub 30 de cazuri) pentru a calcula “intervalele de încredere” în jurul mediei eşantionului.

Valoarea probabilităţii de respingere a ipotezei nule, când aceasta este adevărată ( = p-value) este obţinută din tabela –t, corespunzătoare lui = n – 1 grade de liberate.

Statistica testului pentru compararea mediei unui eşantion cu media unei populaţii este determinată prin formula:

x - tc =

sx / n unde:

tc = valoarea calculată a testului la diferite grade de libertatex = valoarea medie a eşantionului = media populaţieisx = deviaţia standardn = volumul eşantionuluiNumitorul ecuaţiei de mai sus este numit “eroarea standard a mediei

eşantionului”.

2.3. Testul “t” pentru eşantioane independenteTestul “t” pentru eşantioane independente compară mediile a două

eşantioane care au fiecare sub 30 de cazuri (n1, n2 30 cazuri). Determinările apaţin la indivizi diferiţi fără nici o legătură între ei.

Testul “t” este nepotrivit atunci când avem de comparat mai mult de 2 valori medii; în acest caz se aplică metode de comparare multiplă (modelul “ANOVA”).

Etape:1. n1, n2 302. Stabilirea ipotezei nule:

H0 : x1 = x2 (nu există diferenţă semnificativă statistic între mediile celor două eşantioane independente)

3. Statistica testului “t”x1 – x2

tc = ______________sc

2 / n1 + sc2 / n2

unde:

366

Page 47: CARTE BIOSTATISTICA

tc = valoarea calculată a testului la gradele de libertate corespunzătoarex1 = valoarea medie din primul eşantionx2 = valoarea medie din al doilea eşantionsc

2 = varianţa comună a celor două eşantioane

n1 = volumul primului eşantionn2 = volumul celui de-al doilea eşantion

x1 – x2 tc =

___________sc 1/n1 + 1/n2

unde:sc = deviaţia standard ponderată a celor 2 eşantioane = numărul gradelor de libertate = n1 + n2 – 2Numitorul ecuaţiei de mai sus este numit “eroarea standard a diferenţei

celor două medii”.

__________________________ (xi1 - x1)2 fi1 + (xi2 - x2)2 fi2

sc = (n1 – 1)+ (n2 – 1)

4. Dacă tc t, se respinge ipoteza nulăDacă tc t, se acceptă ipoteza nulă

2.4. Testul “t” pentru eşantioane perechiTestul “t” pentru eşantioane perechi compară valorile medii a două

eşantioane perechi. Determinările aparţin la aceeaşi indivizi în condiţii sau momente de timp diferite. Numărul de perechi trebuie să fie sub 30.

1. n1, n2 302. Stabilirea ipotezei nule:

H0 : x1 = x2 (nu există diferenţă semnificativă statistic între valorile medii înregistrate la cele două determinări)

3. Statistica testului “t”

d tc(perechi) =

_____

367

Page 48: CARTE BIOSTATISTICA

sd2 / n

_______________sd

= (di - d)2 / (n-1)

unde:tc(perechi) = valoarea calculată a testului la gradele de libertate

corespunzătoare = numărul gradelor de libertate ( = n-1)d = valoarea medie a diferenţelorsd

2 = varianţa diferenţei medii

n = numărul de perechi

Numitorul testului “t” pe perechi este “eroarea standard a diferenţei mediilor”.

4. Dacă tc t, se respinge ipoteza nulăDacă tc t, se acceptă ipoteza nulă.

3. Comparaţia caracteristicilor calitative3.1. Testul “2” (chi-pătrat)

3.1.1. Testul“2” - “rxc”Testul“2” - “rxc” compară o distribuţie de frecvenţe absolute observate

(sau proporţii) cu o distribuţie teoretică (aşteptată) de frecvenţe absolute (sau proporţii) sau compară 2 sau mai multe distribuţii observate pe baza “distribuţiei de probabilitate chi-pătrat”.

În cadrul testului se pot folosi numai valori absolute, iar categoriile de date trebuie să fie mutual exclusive sau discrete.

Frecvenţele teoretice trebuie să fie mai mari decât 5, frecvenţele observate pot fi mai mici decât 5.

Valorile probabilităţii pentru respingerea ipotezei nule (H0) sunt obţinute din tabele speciale pentru distribuţia chi-pătrat, corespunzător numărului de grade de libertate.

Numărul gradelor de liberatate este = (r - 1) (c - 1), unde:r = numărul de rânduric = numărul de coloaneDistribuţia de probabilitate chi-pătrat este o distribuţie continuă, simetrică

şi se bazează pe aproximaţia normală a distribuţiei binominale.

368

Page 49: CARTE BIOSTATISTICA

Pentru eşantioane mici se impune o corecţie de continuitate numită “Corecţia Yates”, care scade valoarea lui chi-pătrat, deci scade probabilitatea () de respingere a ipotezei nule (H0).

Valorile probabilităţii pentru respingerea ipotezei nule sunt obţinute din tabele speciale pentru distribuţia chi-pătrat corespunzător numărului gradelor de libertate.

(oi - ci - 1/2 )2

c2 =

ci

unde:c

2 = valoarea calculată a testului chi-pătratoi = frecvenţe absolute observate din fiecare celulă a tabeluluici = frecvenţe teoretice (aşteptate) corespunzătoare frecvenţelor

observate½ = corecţia Yates

3.1.2. Testul “c2” “2 x 2”

Testul “c2” “2 x 2”este un caz particular al testului“2” - “rxc”, se aplică

pentru tabelele de contingenţă “2x2” şi are 1 grad de libertate.

3.2. Teste neparametriceTestele neparametrice testează ipoteza nulă sau determină “limitele de

încredere” pentru eşantioane şi populaţii fără a se ţine cont de distribuţia populaţiei.

Tipuri de teste neparametrice:- Testul Wilcoxon al sumei rangurilor, este un test pentru date neperechi

sau împerechiate şi este o alternativă a testului “t” al lui Student pentru eşantioane perechi.

- Testul Wilcoxon pentru două eşantioane este un test pentru date neîmperecheate şi este o alternativă a testului “t” al lui Student pentru eşantioane independente.

- Testul “U”Mann-Whitney, duce la rezultate echivalente cu testul Wilcoxon pentru două eşantioane.

- Testul exact Fisher, se aplică pentru tabele de contingenţă “2x2”, în aceleaşi condiţii ca testul “c

2” dar când frecvenţele aşteptate sunt mai mici decât 5.

369

Page 50: CARTE BIOSTATISTICA

BIBLIOGRAFIE

1. Achimaş A. Cadariu - Metodologia cercetării ştiinţifice medicale - EMU “Iuliu Haţieganu”, Cluj-Napoca, 1999

2. Beaglehole R., Bonita R., KjellstramT. - Bazele epidemiologiei - Ed. ALL3. Bowling A. - Measuring health - A review of quality life measurement scales,

19914. Clocotici V., Stan A. – Statistică aplicată în psihologie, Ed. Iaşi, 20015. Colton T. – Statistics in Medicine, University of New-foundland, St. John’s,

New-foundland, Canada, 19986. Drugan T., Bondor C., Bolboacă S., Călinici T., Colosi H., Gălătuş R., Istrate D.,

Văleanu M., Achimaş A., Ţigan Ş. – Aplicaţii practice de informatică şi statistică medicală, Ed. Alma Mater, Cluj-Napoca, 2002

7. Enăchescu D., Havriliuc C., Lemneanu E., Luculescu S., Mihăilescu D., Popa I., Popescu-Spineni S. – Medicina socială, elemente de biostatistică, Bucureşti, 1990

8. Keynes Milton - Open University Press9. Lofland J. & Lofland L. - Analysing social settings, CA: Wadsworth, Belmont,

198410.Lupu I., Zand I. – Sociologie medicală, Teorie şi Aplicaţii, Ed. Polirom, Iaşi,

199911.Marin Estell M. – L’idee que l’on setat de l’eficacite organisationnelle12.Mazs Nicolas, Pope Catherine - Rigour and qualitative research - BMJ, vol.311,

199513.Mureşan P. - Manual de metode matematice în analiza stării de sănătate – Ed.

Medicală, Bucureşti, 198914.Silverman D. - Interpreting quantitative data, Ed. Stage Publications, London,

199315.Steiner & Norman Health measurement scales - A practical guide to their

development and use, 198916.Steward & Ware - Measuring functioning and well-being-The Medical

Outcomes Study approach, 199217.The Washington DC Conference - Aplication of health status assessement

measures in clinical practice Medical Care, Ed. Lohr, 199218.Ţigan Ş., Achimaş A., Drugan T. – Biostatistică medicală, Ed. Srima, Cluj –

Napoca, 199919.Ţigan Ş., Achimaş A., Drugan T. – Curs de informatică şi statistică medicală,

Ed. Srima, Cluj – Napoca, 2001

370