81
1. Introducere în statistică 2. Statistica descriptivă Curs 3 BIOSTATISTICA Ce este statistica? Statistica este ştiinţa care culege, sintetizează, descrie, interpretează datele referitoare la fenomene generale (DEX ’98) Obiectul statisticii moderne îl constituie colectarea, organizarea, analiza şi interpretarea datelor în vederea adoptării deciziilor. Ce este statistica? Clasificare: Statistica matematică Statistica economică Statistica industrială Statistica socială Statistica medicală (biostatistica) Ce este statistica? Statistica matematică este o ramură a matematicii care elaborează noţiunile şi metodele folosite în statistică Statistica economică (sau Statistica pentru afaceri = Business Statistics) este ramura statisticii care studiază fenomenele şi procesele economice, cu aplicaţii în asigurări, finanţe, marketing, management ş.a. 1 Facultatea de Farmacie

Cursuri biostatistica 2015

Embed Size (px)

DESCRIPTION

facultatea de farmacie , universitatea ovidius

Citation preview

Page 1: Cursuri biostatistica 2015

1. Introducere în statistică2. Statistica descriptivă

Curs 3

BIOSTATISTICA

Ce este statistica?

Statistica este ştiinţa care culege, sintetizează, descrie, interpretează datele referitoare la fenomene generale (DEX ’98)

Obiectul statisticii moderne îl constituie colectarea, organizarea, analiza şi interpretarea datelor în vederea adoptării deciziilor.

Ce este statistica?

Clasificare: Statistica matematică Statistica economică Statistica industrială Statistica socială Statistica medicală (biostatistica)

Ce este statistica?

Statistica matematică este o ramură a matematicii care elaborează noţiunile şi metodele folosite în statistică

Statistica economică (sau Statistica pentru afaceri = Business Statistics) este ramura statisticii care studiază fenomenele şi procesele economice, cu aplicaţii în asigurări, finanţe, marketing, management ş.a.

1Facult

atea d

e Farm

acie

Page 2: Cursuri biostatistica 2015

Ce este statistica?

Statistica industrială (în engleză Engineering Statistics sau Industrial Statistics) studiază fenomenele şi procesele din inginerie şi industrie, cu aplicaţii în proiectarea experimentelor, controlul statistic al calităţii, fiabilitate etc.)

Statistica socială studiază fenomenele sociale, cu aplicaţii în demografie, recensăminte, analize politice etc.

Statistica medicală (biostatistica): aplicaţii în medicină, farmacie şi ştiinţe biologice

Biostatistica – statistică aplicată în medicinăObiectivele biostatisticii:1. Starea sănătăţii populaţiei:

- Reproducerea şi mortalitatea populaţiei;- Morbiditatea şi invaliditatea;- Parametrii dezvoltării fizice.

2. Legătura dintre influenţa mediului ambiant şi factorilor sociali asuprasănătăţii populaţiei.

3. Acumularea şi analiza datelor referitor la activitatea instituţiilor şicadrelor medicale.

4. Evaluarea eficacităţii metodelor de profilaxie şi tratament.

5. Planificarea, economia şi finanţarea ocrotirii sănătăţii.

Pornind de la obiective, deosebim următoarele compartimente alebiostatisticii:

- Statistica sănătăţii populaţiei;- Statistica ocrotirii sănătăţii;- Statistica managementului de profilaxie, tratament şi altor activităţi în medicină.

Scopul statisticii

Scopul statisticii poate fi dedus din clasificarea acesteia:- statistica descriptivă- statistica analitică.

Statistica descriptivă se ocupă de prezentarea, clasificarea şisintetizarea datelor din observaţii. Aceasta prezintă informaţia existentăîn datele respective cu ajutorul indicatorilor statistici - numere ceexprimă caracteristici sau tendinţe ale fenomenului studiat.

Statistica analitică (inferențială) foloseşte teoria probabilităţilorpentru extragerea şi prelucrarea informaţiei statistice; în multe cazuriaceste metode pun în evidenţă legităţi statistice.

Biostatistica – scopuriDescriptiv (statistica descriptivă): evidențierea caracteristicilorimportante ale unui set de date medicale.Metode:• Organizarea• Sumarizarea• Caracterizarea unui set de dateInstrumente:• Grafice:

– Distribuţia de frecvenţe (histograma)– Distribuţia de frecvenţe (histograma diferenţelor pentru date

perechi)– Compararea grafică a distribuţiilor datelor– Identificarea relaţiilor liniare– Compararea relaţiilor liniare

2Facult

atea d

e Farm

acie

Page 3: Cursuri biostatistica 2015

Biostatistica – scopuri

Inferenţial (statistica inferenţială):Cum (şi când) generalizăm rezultatele obţinutede la un eşantion la populaţia generală

Populaţia

Eşantionul

Inferenta statistica

Metode de colectare a datelor

Principalele metode de colectare sau de culegere a datelor sunt:

SURSE DE DATE

STATISTICE

OBSERVARE EXPERIMEN-TARE SONDAJ SIMULARE

Metode de colectare a datelor

Observarea directă este cea mai simplă metodă de obţinere a datelor statistice şi constă din observarea şi înregistrarea directă (nemijlocită) a datelor dintr-un anumit eşantion sau populaţie statistică

Experimentele reprezintă o metodă de a obţine date statistice prin proiectarea şi planificarea modalităţii de obţinere a datelor statistice respective

Sondajele statistice reprezintă o metodă de culegere a datelor statistice, ce constă în obţinerea de informaţii de la diferite categorii de populaţii

Metode de colectare a datelor

Tehnicile de sondaj utilizează: interviuri (directe, telefonice) chestionare (directe, prin poştă, e-mail, internet)

Pentru analiza datelor statistice şi pentru decizie se utilizează şi date obţinute prin metode de simulare

Indiferent de metoda de colectare a datelor, pentru inferenţa statistică este importantă eşantionarea datelor

3Facult

atea d

e Farm

acie

Page 4: Cursuri biostatistica 2015

Populaţie statistică şi eşantion statistic Definiţie: O populaţie statistică este o mulţime sau o

colecţie de obiecte despre care observăm şi înregistrăm date, în scopul unei analize statistice.

De obicei, prin populaţie statistică, în mod empiric, înţelegem o mulţime de persoane umane:

persoanele din Judeţul Constanța care suferă de hipertensiunea arterială esenţială (HTA)persoanele din judeţul Constanța de sex feminin care suferă de HTApersoanele din România care suferă de o afecțiune şi care au fost operate, etc.

Populaţie statistică şi eşantion statistic

Definiţie: Măsurile numerice ce caracterizează o populaţie statistică se numesc parametri statistici.

Parametrii unei populaţii se notează cu litere greceşti

De exemplu, media unei populaţii se notează cu , iar abaterea standard cu .

Definiţie: Măsurile numerice ce caracterizează un eşantion statistic se numesc statistici sau indicatori statistici.

De exemplu, media unui eşantion se notează cu , iar abaterea standard cu s.

Populaţie statistică şi eşantion statistic

Definiţie: Un eşantion statistic este o submulţime de obiecte extrase dintr-o populaţie statistică.

Populaţie statistică şi eşantion statistic

Populaţie şi eşantion

EŞANTIONAREPOPULAŢIE

EŞANTION

INFERENŢĂ

4Facult

atea d

e Farm

acie

Page 5: Cursuri biostatistica 2015

Metode de eşantionare

Metodele de eşantionare sunt de două tipuri: aleatoare (sau probabiliste) nealeatoare (sau deterministe)

Eşantionarea aleatoare se bazează pe tehnica numerelor aleatoare (întâmplătoare) şi pe teoria probabilităţilor

Eşantionarea nealeatoare se bazează, în general pe raţionament şi pe modul în care datele sunt disponibile

Metode de eşantionare EŞANTIONARE

NEALEATOARE

RAŢIONAMENT

COTĂ PARTE

ALEATOARE

SIMPLĂ

SISTEMATICĂ

STRATIFICATĂ

PE GRUPURI

Un eşantion aleator simplu de efectiv n este un eşantion selectat întâmplător dintr-o populaţie astfel încât orice eşantion diferit să aibă aceeaşi probabilitate de prelevare sau de extragere.

Un eşantion aleator sistematic de efectiv k se obţine prin divizarea populaţiei cu efectivul N în keşantioane cu efectivul n şi apoi extragerea elementului de acelaşi rang (ales întâmplător) din fiecare eşantion format

5Facult

atea d

e Farm

acie

Page 6: Cursuri biostatistica 2015

Un eşantion aleator stratificat de efectiv n se obţine prin separarea populaţiei cu efectivul N în nsubpopulaţii sau straturi şi apoi extragerea de eşantioane aleatoare simple din fiecare strat.

Un eşantion aleator pe grupuri (pe clustere) de efectiv n se obţine prin separarea populaţiei cu efectivul N în n grupuri sau clustere şi apoi extragerea aleatoare a unui anumit grup.

Tipuri de date statistice Unitatea statistică reprezintă elementul component al unei

colectivitțăi statistice (de ex. în cazul populației unei țări, unitățile statistice sunt indivizii). Unitățile statistice sunt elementele de observare, măsurare şi înregistrare; prin ele se observă, măsoară şi înregistrează o populație.

O variabilă statistică este o anumită caracteristică înregistrată la nivelul unităților statistice ale unei populaţii sau ale unui eşantion

Valorile unei variabile statistice sunt valorile observate şi posibile ale variabilei respective

Datele statistice sunt valorile observate şi înregistrate ale unei variabile statistice

Informaţiile statistice rezultă din prelucrarea şi analiza datelor statistice

Datele statistice pot fi clasificate după:Modul de exprimare:

A. CALITATIVE

1. nominale - exprimate în cuvinte: profesie, culoarea părului, culoarea tegumentelor, starea la externare a unui bolnav, grupa de acțiune farmacologică (antiinflamator, antipiretic, antireumatic), etc.;

2. ordinale - sunt date calitative nominale, în care caracteristicile sau categoriile sunt ordonate: Graduarea uneiafectiuni (Incipient, Moderat, Sever, Stare critică)

Tipuri de date statistice

6Facult

atea d

e Farm

acie

Page 7: Cursuri biostatistica 2015

B. CANTITATIVE (numerice), exprimate în cifre:înălţime, greutate, tensiune arterială, puls, temperatură, etc.

1. continue (măsurabile)- pot lua orice valoare din scara lor de variaţie: greutatea unei persoane, înălţimea, temperatura, etc.;

2. discrete (numărabile)- pot lua numai valori întregi: numărul de copii, număr de vizite, flux de pacienți / ziîntr-o farmacie, etc;

Modul de obţinere:- primare, obţinute în etapa de colectare a datelor;- derivate, obţinute în procesul prelucrării datelor statistice

Tipuri de date statistice Variabila calitativă Tip Valori / UM

Clasificarea hotelurilor

Ordinală *, **, ***, ****, *****

Satisfacţia clientului (calitatea produsului)

Nominală Foarte redusă, Redusă, Satisfăcătoare, Bună,

Foarte bună

Clasificarea funcţiilor didactice

Nominală Preparator, Asistent, Lector, Conferenţiar,

Profesor

Variabila cantitativă Tip Valori / UM

Faţa apărută la aruncare unui zar

Discretă 1, 2, 3, 4, 5, 6

Nota obţinută la un examen

Discretă 4, 5, ..., 9, 10

Înălţimea Continuă cm

Greutatea Continuă kg

Poate fi:• Alternativă

• Simetrică

• Asimetrica (pe dreapta)

Distribuţia datelor în colectivitatea selectivă 

• Asimetrică (pe stânga)

• Asimetrică (bimodală)

Sistematizarea datelor statistice Gruparea statistică reprezintă o operaţie de sistematizare a datelor

primare, prin care pentru caracteristicile înregistrate, evidenţiază tipurile calitative existente în cadrul populaţiei cercetate.

Prin grupare se omogenizează unităţile colectivităţii din punct de vedereal variaţiei uneia sau mai multor caracteristici.Grupările pot fi clasificate astfel:1. după obiectivul urmărit:

- grupări destinate prezentării sistematice a datelor culese;- grupări destinate analizei statistice.

2. după forma de exprimare a caracteristicilor:- grupări după caracteristici numerice sau cantitative;- grupări după caracteristici nenumerice sau calitative.

7Facult

atea d

e Farm

acie

Page 8: Cursuri biostatistica 2015

Gruparea statistică3. după numărul de caracteristici în funcţie de care se face gruparea:

- grupări simple – făcute după o singură caracteristică;- grupări combinate – făcute după două sau mai multe

caracteristici.4. după conţinutul caracteristicilor:

- grupări după caracteristici de spaţiu;- grupări după caracteristici de timp;- grupări după caracteristice atributive.

5. după mărimea intervalelor de grupare:- grupări cu intervale egale;- grupări cu intervale neegale (inegale).

Prezentarea datelor statisticeTabele statisticeUn tabel statistic trebuie să cuprindă următoarele elemente: titlul general al tabelului şi titlurile interioare, unitatea de măsură utilizată, notele explicative, sursa datelor.Tabelele pot fi:- simple (ce nu cuprind grupări)- de grupare (o singură caracteristică de grupare)- combinate (grupări după două caracteristici)- de corelație (grupări după două sau mai multe caracteristici,legate între ele cauzal)

Prezentarea datelor statisticeGrafice Elementele specifice ale unui grafic sunt următoarele: axele

de coordonate, scara, rețeaua graficului, legenda.

Reprezentarea în coordonate rectangulare (I, II) şi coordonate polare (III)

Scările utilizate în reprezentările grafice pot fi scări uniforme (scara aritmetică în care diviziunile sunt echidistante) sau scări neuniforme (de tipul gaussiană, respectiv logaritmică).

Prezentarea datelor statistice

Distribuții statistice unidimensionale

Tabele de frecvențăSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Considerăm o colectivitate P pentru care definim o variabilăstatistică X ale cărei valori (variante) sunt:

{x1, ... ,xn} Aceste valori pot fi grupate:

- pe variante xi, cărora asociem frecvența de apariție corespunzătoare ni, unde i=1,k în cazul unei variabile discrete- pe intervale Ji=(xi-1, xi), la care asociem frecvența de apariție corespunzătoare ni, unde i=1,k în cazul unei variabile continue

8Facult

atea d

e Farm

acie

Page 9: Cursuri biostatistica 2015

Tabelul de frecvențe – variabile discrete

Varianta Frecvenţa absolută

(

Frecvenţa relativă

(

Frecvenţa absolută cumulată

(

Frecvenţa relativă cumulată

(

x1 n1 N1= n1 F1= f1

x2 n2 N2= N1 + n2 F2=F 1 + f2

... ... ... ...

xi ni Ni= Ni-1 + ni Fi=Fi-1 + fi

... ... ... ...

xk nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1

Total n 1 - -

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile discrete

Realizarea tabelelor de frecvență utilizând programul ExcelAplicație: Considerăm o colectivitate statistică (P) formata din 19 pacienti (nou nascuți) pentru care definim si urmărim experimental variabila scor apgar:VSA = Variabila scor Apgar = {1,2,...,10}

Funcția COUNTIF(Range, Criteria)

Reprezentări grafice folosind Excel

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile discrete

0 0 0 0 0

1 1

6 6

5

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10

0.00%5.26%

5.26%

31.58%31.58%

26.32%

1 2 3 4 5 6 7 8 9 10

0 0 0 0 0

1 1

6 6

5

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10

Scor

PoligonulFrecvențelor

Grafic Coloană

Grafic Pie

00000

11

66

5

0 2 4 6 8

123456789

10

Scor

Grafic Bar

Tabelul de frecvențe – variabile continue

Intervale Frecvenţa absolută

(

Frecvenţa relativă

(

Frecvenţa absolută cumulată

(

Frecvenţa relativă cumulată

(

(x0-x1] n1 N1= n1 F1= f1

(x1-x2] n2 N2= N1 + n2 F2=F 1 + f2

... ... ... ...

(xi-1-xi] ni Ni= Ni-1 + ni Fi=Fi-1 + fi

... ... ... ...

(xk-1-xk] nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1

Total n 1 - -

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile continue

9Facult

atea d

e Farm

acie

Page 10: Cursuri biostatistica 2015

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile continue

Realizarea tabelelor de frecvență utilizând programul ExcelAplicație: Considerăm o colectivitate statistică (P) formata din 19 pacienti (nou nascuți) pentru care definim si urmărim experimental variabila greutate:VG = Variabila greutate (Kg)

Funcția FREQUENCY(data_array, bins_array)

Reprezentări grafice folosind Excel

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile continue

Histograma și PoligonulFrecvențelor

Histograma permite să se cunoască zonele de concentrare şi de dispersie a distribuției, precum şi compararea efectivelor unei grupe cu alta.

Grafic Pie

10%

21%

32%

21%

11% 5%(3,3-3,7]

(3,7-4,1]

(4,1-4,5]

(4,5-4,9]

(4,9-5,3]

(5,3-5,7]

2

4

6

4

2

1

0

1

2

3

4

5

6

7

(3,3-3,7]

(3,7-4,1]

(4,1-4,5]

(4,5-4,9]

(4,9-5,3]

(5,3-5,7]0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

0

1

2

3

4

5

6

7

Freq

uency

Bin

Histogramă

Frequency

Cumulative %

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile continue

Gruparea pe intervale neegale (gruparea tipologică) - se poate realiza fie pornind de la intervalele egale stabilite anterior şi regruparea acestora pentru a diminua fluctuaţia excesivă a frecvenţelor de la o grupă la alta, sau pentru a acoperi una sau mai multe grupe vide (fără unităţi), fie pe baza particulari-tăţilor caracteristicii cercetate, sau a necesităţilor analizei.Dacă ⋯ , efectivele nu se pot compara de la o clasă la alta, fiind necesar calculul frecvențele reduse ( .Înălțimea dreptunghiului corespunzător intervalului este proporțională cu frecvența redusă ( calculată cu formula:

ki = coeficientul de reducere a frecvențelorni = efectivul corespunzător intervalului Ji=(xi-1, xi)Li, Lmin = mărimea intervalului Ji, Jmin

10Facult

atea d

e Farm

acie

Page 11: Cursuri biostatistica 2015

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)

Variabile continue

2

6

5

0

1

2

3

4

5

6

7

(10-30] (30-40] (40-60]

hi

Cifra de afaceri

Prezentarea datelor statistice

Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată calitativ (nenumeric)

Gruparea în funcţie de o caracteristică nominativă (calitativă sau nenumerică)seamănă cu gruparea unităţilor colectivităţii cercetate după valorile (variantele) distincte ale unei caracteristici numerice (variabile discrete). De astă dată, se începe cu listarea stărilor calitative distincte ale caracteristicii de grupare care pot fi identificate în colectivitatea cercetată. Aceste stări calitative distincte se mai numesc şi atribute (variante calitative).

Cele mai uzuale metode de descriere şi reprezentare grafică a mulţimilor de date calitative sunt:

graficul (diagrama) cu bare (coloană, bar)graficul circular (pie)

11Facult

atea d

e Farm

acie

Page 12: Cursuri biostatistica 2015

• Serii cronologice• Serii de spațiu

• Distribuții bidimensionale

Biostatistică

Curs 4

Sistematizarea și reprezentarea distribuțiilor statistice unidimensionale (Tabele de frecvență, Reprezentare grafică)Date cantitative

o Continueo Discrete

Date calitative (nenumerice)

Serii de timp (cronologice) Serii de spațiu Sistematizarea și reprezentarea distribuțiilor statistice

unidimensionale

Curs 4

Curs 3

Serii de timp (Serii cronologice)Variabila

timp tiNumărul unităților

yit1

t2…tk

y1

y2

...yk

Total yk 

Macheta tabelului cronologic

Seria cronologică prezintă variația unei caracteristici în funcție de timp (yt = f(t)), unde: yt = variația caracteristicii studiate; ti = variația de timp.După timpul la care se referă pot fi:o Serii cronologice de fluxuri (intervale) sunt acele serii în care valorile caracteristicii studiate se înregistrează pe luni, trimestre, ani etc. Valoarea centralizată se poate obține prin cumularea unităților înregistrate.o Serii cronologice de stocuri sau de momente sunt valorile caracteristicii obținute la diferite momente de timp

Reprezentarea grafică seriilor de timp (seriilor cronologice)Reprezentarea grafică a seriilor de timp (cronologice) se realizează cu ajutorul cronogramei si a diagramelor polare. Cronograma se foloseste pentru a desprinde tendința de

dezvoltare a fenomenelor pe fiecare etapă analizată. Se construieste în cadranul I; pe axa absciselor (OX) se construieste scara timpului, iar pe axa ordonatelor (OY), scara valorilor seriei cronologice.

La stabilirea scării timpului si nivelurilor trebuie să se respecte proporționalitatea, pentru că raportul dintre scări are o importanță mare asupra formei curbei si poate da o imagine denaturată asupra dezvoltării fenomenului.

12Facult

atea d

e Farm

acie

Page 13: Cursuri biostatistica 2015

Cronogramele – prin benzi, coloane şi liniare Reprezentarea grafică seriilor de timp (seriilor cronologice)

Diagrama polară (radială) ajută la interpretarea gradului şi formei de variație sezonieră. În statistica social-economică se întâlnesc frecvent fenomene care prezintă variații sezoniere săptămânale, trimestriale etc., ca de exemplu, consumul antibiotice, consumul de bere şi băuturi răcoritoare ş.a. Fenomenele cu caracter sezonier sunt specifice îndeosebi activităților din turism, comerț şi agricultură.

La construirea graficului se foloseşte o rețea de cercuri concentrice, iar raza este proporțională cu nivelul mediu al indicatorilor; cercul se împarte în atâtea părți câți indicatori sunt. Drept abscisă serveşte circumferința cercului pe care se notează timpul, iar ca ordonată raza sau poziția razei, pe care se notează cantitățile.

Trimestrul I II III IV Mediatrimestrială

Producția (nr. cutii) 250 350 700 300 400

Producția trimestrială a fabricii „X”.

Serii de spațiuUnități

teritorialeValoarea

caracteristiciiyi

A

B…T

yA

yB

...yT

Total yT 

Macheta tabelului cronologic

Seria teritorială prezintă variația teritorială a caracteristicii analizate. În aceste serii, valorile caracteristicii se referă la unitățile teritoriale din care fac parte. Aceste serii se obțin după criterii administrativ-teritoriale, ceea ce înseamnă că spațiul este variabil, timpul și structura organizatorică fiind considerate constante.

13Facult

atea d

e Farm

acie

Page 14: Cursuri biostatistica 2015

Reprezentări grafice pentru seriile de spațiuSeriile de spațiu (teritoriale) se pot reprezenta grafic prin cartograme și cartodiagrame. Cartograma prezintă distribuția în spațiu a intensității de

manifestare a unui fenomen. Construirea graficuluipresupune: gruparea unităților teritoriale după o variabilă considerată; construirea unei hărți în care se delimitează unitățile teritoriale; hașurarea suprafețelor unităților teritoriale în funcție de

intensitatea de manifestare a fenomenului studiat.

Reprezentări grafice pentru seriile de spațiu Cartodiagramele reprezintă un tip special de cartogramă, care

constă dintr-o combinație a cartogramei cu diagramele (cerc, pătrat, coloane etc.) care se aplică pe cartogramă. Pe hartă se vor construi figurile geometrice amintite mai sus, pentru a reda volumul sau structura diferiților indicatori distribuiți din punct de vedere teritorial. La întocmirea graficului se va ține seama de obiectivul urmărit.

La reprezentarea grafică a distribuțiilor teritoriale ale diferiților indicatori se mai pot folosi si figuri naturale sau simbolice, care sunt proporționale cu valoareaindicatorilor de reprezentat.

Distribuțiilor statistice bidimensionaleO distribuție bidimensională prezintă variația unităților unei colectivități simultan după două caracteristici de grupare.

Considerăm o colectivitate C cu n elemente la nivelul căreia definimdouă variabile:

- X cu valorile xi, i=1,… ,- Y cu valorile yj, j=1,...,p

Dacă notăm cu nij elementele colectivității care au simultan valoarea xi şi valoarea yj, atunci o distribuție bidimensională este definită prinansamblul de triplete:

(xi, yj, nij)

Distribuțiilor statistice bidimensionale

În funcție de modul de exprimare a variabilelor x, y se pot trata următoarele tipuri de distribuții bidimensionale: distribuții cu ambele variabile exprimate numeric;

distribuții cu o variabilă exprimată numeric și o variabilă

exprimată nenumeric;

distribuții cu ambele variabile exprimate nenumeric.

14Facult

atea d

e Farm

acie

Page 15: Cursuri biostatistica 2015

Distribuțiilor statistice bidimensionaleA. distribuții cu ambele variabile exprimate numeric

În cadrul unei distribuții bidimensionale se disting două distribuții marginale, în X, respectiv în Y și (m+p) distribuții condiționate.

Prezentarea tabelară a unei distribuții bidimensionale (grupare pe variante)Tabel de contingență

YX

y1 y2 ... yj ... yp ni•

x1 n11 n12 ... n1j ... n1p n1•

x2 n21 n22 ... n2j ... n2p n2•

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... nip ni•

... ... ... ... ... ... ...

xm nm1 nm2 ... nmj ... nmp nm•

n•j n•1 n•2 ... n•j ... n•p n=∑ ∑ ∑ ∙ ∑ ⋅

Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numeric

Exemplu: Considerăm un eşantion format din 30 de reprezentanţi medicali aiunei firme de medicamente, pe care îl analizăm din punct de vedere alnumărului produselor vândute (variabila X), respectiv al salariului obţinut defiecare în parte (variabila Y) timp de o luna.

1.Legătura dintre produsele vândute şi salariul lunar – diagramanor de puncte.2.Distribuţia eşantionului de reprezentanţi medicali în funcţie de produsele vândute şi salariul lunar – diagramaparalelipipedelor.3.Distribuţia eşantionului de reprezentanţi medicali în funcţie de produsele vândute şi salariul lunar – suprafaţă poliedrală.

Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică

Corelograma (Diagrama nor de puncte)• Reprezentarea grafică se realizează cu corelograma cunoscută sub

denumirea „diagrama nor de puncte”. Se construieste în cadranul I alsistemului de axe rectangulare. Pe axa OX (axa absciselor) se ia o scară a valorilor caracteristicii factoriale (x), iar pe OY (axa ordonatelor) valorile caracteristicii rezultative. Pe fiecare axă se va face întrerupere în origine cu două liniuțe paralele, pentru ca cele două scări de reprezentare să înceapă cu valorile cele mai apropiate de limitele inferioare înregistrate pentru cele două caracteristici.

0

200

400

600

800

1000

1200

0 20 40 60 8015Fac

ultate

a de F

armac

ie

Page 16: Cursuri biostatistica 2015

Fiecare unitate purtătoare a celor două caracteristici (xi, yj), se reprezintă pe grafic printr-un punct. Acest tip de grafic stabileste existența, direcția legăturii șiforma de legătură dintre cele două variabile.

Pentru interpretarea legăturii putem folosi următoarele variante de grafice care se referă la funcțiile liniare:

Legătură liniară directă Legătură liniară inversă Lipsă de legătură

Legătura directă între cele două variabile poate fi și neliniară, în acest caz, pe grafic, apărând o linie curbă.

Hiperbolă Parabolă Funcție exponențială

OBSERVAȚIE: Graficul prezintă avantajul că pe baza lui se poateconstata nu numai existența legăturii și sensul ei, dar mai ales forma către care tinde să se realizeze, deci se poate elabora o ipoteză statistică care să fie utilizată la aplicarea metodelor analitice de corelație.

Diagrama paralelipipedelor Reprezintă o transpunere a histogramei într-un spațiu cu trei

dimensiuni; această diagramă se trasează ridicând pefiecare suprafață luată ca bază, un paralelipipedproporțional cu frecvența nij corespunzătoare fiecăreiperechi de valori (xi, yi).

Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică

(200-400](400-600]

(600-800](800-1000]

(1000-1200]

0

1

2

3

4

5

6

7

(20-30](30-40](40-50](50-60](60-70]

Y

n ij

X

Suprafața poliedrală Reprezintă o transpunere a

poligonului sau curbei frecvențelorîntr-un spațiu cu trei dimensiuni; acesta se construieşte astfel: se ridică din centrul fiecărei suprafețe luate ca bază, o linie verticală de lungime proporțională cu frecvența nij, apoi se unesc capetele acestorverticale (pentru fiecare grupă şisubgrupă) fie printr-o linie frântă(varianta poligonului frecvențelor), fie printr-o curbă (varianta curbeifrecvențelor)

Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică

(200-400](400-600]

(600-800](800-1000](1000-…

0

1

2

3

4

5

6

7

(20-30](30-40](40-50](50-60](60-70]

2 2

0 0 0

0

5

2

0 0

01

7

12

0 0

2 2 2

0 0 0 0

2

Y

n ij

X

16Facult

atea d

e Farm

acie

Page 17: Cursuri biostatistica 2015

Pentru acest tip de distribuție datele sunt prezentate într-un tabel decontingență şi sunt reprezentate grafic prin diagrame de structură construiteîn acelaşi plan.Pentru un tabel de contingență, xi reprezintă categorii ale variabilei X degrupare, yi reprezintă categorii ale variabilei Y de grupare, iar nij reprezintăefectivul care posedă simultan categoria „i” şi „j” ale celor două variabile.

Distribuțiilor statistice bidimensionaleB. Serii cu ambele caracteristici exprimate atributivReprezentare grafică

O situaţie aparte o întâlnim în cazul variabilelor alternative, cânddatele se pot prezenta într-un tabel de asociere de forma

.

Distribuțiilor statistice bidimensionaleB. Serii cu ambele caracteristici exprimate atributivReprezentare grafică

Situația vaccinării pe sexe din mediul rural şi urban

0

500

1000

1500

2000

2500

3000

3500

RuralUrban

200 800

1950

2500Feminin

Masculin

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

RuralUrban

9% 24%

91% 76%

Feminin

Masculin

Reprezentarea grafică a distribuțiilor bidimensionale cu o variabilă exprimată cantitativ şi una atributiv se face prindiagrame de tip piramida vârstelor. Construirea acestui tip de diagramă constă în ridicarea în acelaşi plan a două histograme răsturnate.

Distribuțiilor statistice bidimensionaleC. Serii cu o caracteristică exprimată atributiv şi una numericReprezentare grafică

Reprezentarea grafică a distribuției unei populații după vârstă, corelatăcu distribuția după sex, utilizând diagrama de tip piramida vârstelor

17Facult

atea d

e Farm

acie

Page 18: Cursuri biostatistica 2015

INDICATORI AI TENDINȚEI CENTRALE, VARIAȚIEI ȘI

FORMEI

METODE NUMERICE PENTRU DESCRIEREA DATELOR STATISTICE

Curs 5

Obiective Cunoaşterea metodelor numerice de

descriere a datelor statistice

Analiza principalelor metode numericepentru descrierea datelor cantitative negrupate

Analiza principalelor metode numericepentru descrierea datelor cantitative grupate

Cuprins Indicatori ai tendinței centrale

Media Modul Mediana

Indicatori ai variației Amplitudinea Varianța Abaterea standard Coeficientul de variaţie

Indicatori ai formei Coeficientul de asimetrie Coeficientul de boltire

Metode numerice pentru descrierea datelor statistice

Indicatorii numerici descriptivi sunt valori numerice calculate dintr-o mulţime de date, care ne permit să ne facem o imagine mentală asupra distribuţiei datelor.

Anterior, metodele grafice pentru descrierea datelor ne-au furnizat o reprezentare vizuală asupra distribuţiei datelor.

18Facult

atea d

e Farm

acie

Page 19: Cursuri biostatistica 2015

INDICATORI STATISTICI PRIMARI ŞI DERIVAŢIDEFINIŢIE: Indicatorul statistic — în sens larg — reprezentă expresianumerică a unor fenomene şi procese social-economice, definite în timp,spaţiu şi structură organizatorică.

Indicatorii statistici pot fi primari şi derivaţi. Indicatorii primari se obţin de regulă în etapa de

sistematizare a datelor statistice, prin centralizarea şiagregarea acestora.

Indicatorii derivaţi se obţin prin prelucrarea mărimilor absolute ale indicatorilor primari.

Cele trei proprietăţi majore ale seriilor de date numerice, pe care leputem analiza folosind indicatorii statistici sunt cele privitoare la tendinţa centrală, la variabilitatea şi la forma distribuţiilor.

1. Indicatorii tendinţei centraleO clasificare a indicatorilor tendinţei centrale se poate face în funcţie de modul de determinare a lor, în:

indicatori (mărimi) medii de calcul: media aritmetică, armonică,pătratică, geometrică etc.;

indicatori medii de poziţie: modul, mediana.

Cele mai frecvent utilizate măsuri ale tendinţei centrale sunt: media aritmetică mediana modul.

În definiţiile şi relaţiile ce urmează, vom nota cele n valori ale eşantionului de date negrupate cu:

Valorile ordonate ale eşantionului le vom nota cu:

sau

Media aritmetică a unei populaţii statistice cu un efectiv de N valori este prin definiţie:

1. Indicatorii tendinţei centrale1.1 Media aritmetică

A. Variabile numerice negrupate

Definiţie: Media aritmetică a unui eşantion cu un efectiv de n valorieste prin definiţie:

=AVERAGE(range)Exemplu: =AVERAGE(A2:A20)

Media aritmetică a unei populaţii statistice se notează prin simbolul .

1. Indicatorii tendinţei centrale1.1 Media aritmetică

B. Variabile numerice grupate pe variante (discrete)

Media aritmetică a unui eşantion în care datele au fost sistematizate într-o serie de distribuţie unde valorile (xi ,i = 1, m) apar cu frecvenţele ni este:

Se numește şi medie aritmetică ponderată.19Fac

ultate

a de F

armac

ie

Page 20: Cursuri biostatistica 2015

1. Indicatorii tendinţei centrale1.1 Media aritmetică

B. Variabile numerice grupate pe variante

Aplicație: Considerăm o colectivitate statistică formată din 40 de hematii pentru care definim variabila statistică diametru Vd (microni). Datele au fost sistematizate în tabelul de frecvență:

1. Indicatorii tendinţei centrale1.1 Media aritmetică

C. Variabile numerice grupate pe intervale (continue)

Media aritmetică a unui eşantion în care datele suntprezentate pe intervale de tipul Ji=(xi-1,xi), la careasociem frecvența de apariție corespunzătoare ni, cu i=1,m atunci media este:

unde este mijlocul intervalului Ji .

Se numește şi medie aritmetică ponderată.

1. Indicatorii tendinţei centrale1.1 Media aritmetică

C. Variabile numerice grupate pe intervale

Aplicație: Considerăm o colectivitate statistică formată din 19 nou născuți pentru care definim variabila statistică Greutate (Kg).

1. Indicatorii tendinţei centrale1.1 Media aritmetică

D. Variabile nenumerice alternative

20Facult

atea d

e Farm

acie

Page 21: Cursuri biostatistica 2015

Media aritmetică este cea mai uzuală măsură a tendinţei centrale, utilizată pentru localizarea “centrului” unei distribuţii statistice.

Media aritmetică este influenţată de prezența valorilor extreme (denumite şi “valori aberante” din punct de vedere statistic).

1. Indicatorii tendinţei centrale1.1 Media aritmetică

Definiţie: Modul (sau dominanta) unui eşantion ordonat crescător cu un efectiv de n valori

este prin definiţie valoarea sau valorile cu cea mai mare frecvenţă de apariţie.

=

1. Indicatorii tendinţei centrale1.2 Modul

A. Variabile numerice negrupate

=MODE(Range)

Exemplu: =MODE(A2:A20)

1. Indicatorii tendinţei centrale1.2 Modul

B. Variabile numerice grupate pe variante (discrete)

Dacă variabila este discretă, pentru determinareamodului se găseşte mai întâi frecvența maximă a seriei(ni = nmax) şi apoi se citeşte valoarea xi corespunzătoarecare este egală practic cu modul (Mo = xi).

Modul

1. Indicatorii tendinţei centrale1.2 Modul

C. Variabile numerice grupate pe intervale (continue) Dacă variabila este continuă, iar datele sunt grupate pe

intervale de variație, pentru determinarea modului se găseşte mai întâi frecvența maximă nmax, iar apoi se citeşte intervalulmodal (xi-1, xi).

Modul se poate obține (prin interpolare în intervalul modal) cu relația:

unde:

d = xi - xi-1 reprezintă mărimea intervalului modal;d1 = ni - ni-1 reprezintă diferența dintre frecvența intervalului modal (ni) şi frecvența intervalului anterior celui modal (ni-1);d2 = ni – ni+1 reprezintă diferența dintre frecvența intervalului modal (ni) şi frecvența intervalului următor celui modal (ni+1);xi-1 reprezintă limita inferioară a intervalului modal.

21Facult

atea d

e Farm

acie

Page 22: Cursuri biostatistica 2015

1. Indicatorii tendinţei centrale1.2 Modul

C. Variabile numerice grupate pe intervale (continue)

Modul se poate aproxima grafic cu ajutorul histogramei frecvenţei relative, coborând o perpendiculară pe abscisă, din punctul în care se intersectează dreptele trasate.

Pentru intervale inegale, modul se determină asemănător, fie prininterpolare în intervalul modal, fie pe cale grafică, după ce în prealabils-au făcut corecțiile necesare conform metodei descrise la construcțiahistogramei pe intervale inegale.

O distribuţie cu un singur mod se numeşte unimodală; O distribuţie este bimodală dacă are două valori dominante (moduri) şi

multimodală dacă are mai mult de două moduri.

1. Indicatorii tendinţei centrale1.2 Modul

Distribuţie de frecvenţe: a) unimodală; b) bimodală; c) multimodală

Definiţie: Mediana unui eşantion ordonat crescător cu un efectiv de n valorieste prin definiţie acea valoarea care împartedatele în două grupe egale :

1. Indicatorii tendinţei centrale1.3 Mediana

A. Variabile numerice negrupate

=MEDIAN(Range)

Exemplu: =MEDIAN(A2:A20)

1. Indicatorii tendinţei centrale1.3 Mediana

A. Variabile numerice negrupate

Exemplu: Se consideră eşantionul ordonat cu n = 11 valori:

8,6 8,7 9,2 9,7 9,9 10,1 10,3 10,6 10,7 10,8 11,0

Exemplul: Să se calculeze mediana pentru eşantionul

3,9 4,4 4,5 4,8 4,9 5,1 5,5 5,6 5,6 5,9

Deoarece n = 10 par avem:

22Facult

atea d

e Farm

acie

Page 23: Cursuri biostatistica 2015

1. Indicatorii tendinţei centrale1.3 Mediana

B. Variabile numerice grupate pe variante (discrete)

• aflarea frecvențelor cumulate absolute (Ni)

• calcularea unității mediane (m), m=

• localizarea acesteia în şirul frecvențelor cumulate(cu condiția ca Ni ≥ m)

Valoarea xi cecorespunde lui Nireprezintă mediana

1. Indicatorii tendinţei centrale1.3 Mediana

C. Variabile numerice grupate pe intervale (continue)

aflarea frecvențelor cumulate absolute (Ni) calcularea unității mediane (m) localizarea lui m în şirul frecvențelor cumulate (cu condiția ca Ni ≥ m) determinarea intervalului median (IM) (în aceeaşi condiție) calcularea medianei utilizând relația:

unde: d – reprezintă mărimea IM;xi-1 - reprezintă limita inferioară a IM;m - unitatea mediană;Ni-1 – frecvența cumulată anterior IM;ni – frecvența IM.

Pentru o distribuție unimodală simetrică, valorile centrale, medie, mod, mediană, ocupă acelaşi loc, iar între acesteaexistă o relație de egalitate.

Pentru o distribuție unimodală asimetrică, cele trei valori centrale ocupă locuri diferite după cum urmează:

1. Indicatorii tendinţei centrale1.4 Relații între valorile tendinței centrale

a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă

2. Indicatorii variaţiei În analiza unei serii statistice de date cantitative ne interesează,

pe lângă indicatorii tendinţei centrale şi indicatorii împrăştieriivalorilor.

Astfel, două serii statistice pot diferi prin tendinţa centrală prin împrăştierea datelor sau prin amândouă.

Cele mai frecvent utilizate măsuri ale variaţiei sunt: amplitudinea varianța sau dispersia abaterea standard sau deviația standard coeficientul de variaţie

a) Distribuţii cu tendinţă centrală diferită; b) Distribuţii cu variabilitate diferită; c) Distribuţii cu tendinţă centrală şi variabilitate diferite

23Facult

atea d

e Farm

acie

Page 24: Cursuri biostatistica 2015

Definiţie: Amplitudinea unui eşantion cu un efectiv de n valori este prin definiţie diferenţa dintre cea mai mare şi cea mai mică valoare a eşantionului, adică:

unde:

2. Indicatorii variației2.1 Amplitudinea

• Avantajul amplitudinii este reprezentat de simplitatea calculului acesteia.

• Simplitatea este însă şi un dezavantaj, deoarece amplitudinea se determină numai din două valori ale eşantionului (maximă şi minimă), fără a ţine seama de celelalte valori.

• Amplitudinea este o măsură relativ insensibilă la variaţia datelor unui eşantion, ea fiind utilizată în practică pentru eşantioane cu efective reduse.

Definiţie: Dispersia unui eşantion cu un efectiv de nvalori este prin definiţie:

unde este media aritmetică a eşantionului .

=VAR (Range)

2. Indicatorii variației2.2 Varianța sau dispersia

A. Variabile numerice negrupate

Dispersia sau varianţa unei populaţii statistice se notează cu 2

Dispersia unui eşantion cu un efectiv de n valori în care valorile (xi ,i = 1, m) apar cu frecvenţele ni este:

2. Indicatorii variației2.2 Varianța sau dispersia

B. Variabile numerice grupate pe variante (discrete)

C. Variabile numerice grupate pe intervale (continue)

Dispersia unui eşantion cu un efectiv de n valori în care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:

unde este mijlocul intervalului Ji.

Definiţie: Abaterea standard a unui eşantion cu un efectiv de n valori este prin definiţie:

unde este media aritmetică a eşantionului .

=STDEV(Range)

2. Indicatorii variației2.3 Abaterea standard

A. Variabile numerice negrupate

Abaterea standard a unei populaţii statistice se notează cu

24Facult

atea d

e Farm

acie

Page 25: Cursuri biostatistica 2015

Abaterea standard a unui eşantion cu un efectiv de n valori în care valorile (xi ,i = 1, m) apar cu frecvenţele ni este:

2. Indicatorii variației2.3 Abaterea standard

B. Variabile numerice grupate pe variante (discrete)

C. Variabile numerice grupate pe intervale (continue)

Abaterea standard a unui eşantion cu un efectiv de n valori în care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:

unde este mijlocul intervalului Ji

Regula lui Cebîşev: Pentru k ≥ 1, cel puţin valori ale unui eşantion cu un efectiv de n valori aparţin intervalului

unde: este media aritmetică, iar s este abaterea standard a eşantionului.

Regula lui Cebîşev furnizează o legătură de natură algebrică între media aritmetică şi abaterea standard ale unui eşantion de date

2. Indicatorii variației2.3 Abaterea standard

Regula empirică: Dacă mulţimea de date are distribuţia frecvenţei relative sub formă de "clopot", atunci următoarele reguli empirice pot fi utilizate pentru a descrie mulţimea de date:

[1] Aproximativ 68% din valori vor aparţine intervalului [2] Aproximativ 95% din valori vor aparţine intervalului [3] Aproape toate valorile (99,7% din valori) vor aparţine

intervalului .

Coeficientul de variaţie al unui eşantion cu un efectiv de n valori este prin definiţie raportul dintre abaterea standard şi media eşantionului, respectiv:

2. Indicatorii variației2.4 Coeficientul de variație

Coeficientul de variaţie al unei populații cu un efectiv de N valori este prin definiţie raportul dintre abaterea standard şi media populației, respectiv:

2. Indicatorii variației2.4 Coeficientul de variație

25Facult

atea d

e Farm

acie

Page 26: Cursuri biostatistica 2015

2. Indicatorii variațieiVariabile nenumerice alternative

Varianța - este egală cu produsul dintreponderea unităților care poartă caracteristica (p) şi ponderea celor care nu o poartă (q):

Eliminarea valorilor aberante. Testul luiGrubbs

Eliminarea valorilor aberante. Testul luiGrubbs

Etape

Eliminarea valorilor aberante. Testul luiGrubbs

Etape

26Facult

atea d

e Farm

acie

Page 27: Cursuri biostatistica 2015

3. Indicatorii formei

Forma unei distribuţii de frecvenţe se analizează,comparativ cu distribuţia ideală, normală, prin:

• Coeficientul de asimetrie (Skewness)• Coeficientul de aplatizare (Kurtosis)

o Coeficientul de asimetrie ne indică simetria sau asimetria distribuţiei frecvenței relative

o Coeficientul de aplatizare ne indică forma mai “boltită” sau mai “ascuţită”, respectiv mai “plată” sau mai “turtită” a distribuţiei frecvenţei relative

3. Indicatorii formei3.1 Coeficientul de asimetrie

Asimetria – reprezintă deviația de la forma simetrică de distribuție.

Interpretare: (+) asimetrie dreapta; (-) asimetrie stanga

Pentru variabile negrupate=SKEW(Rage)

3. Indicatorii formei3.1 Coeficientul de asimetrie

Coeficientul de asimetrie Pearson ( ) – se calculează pe bazamomentelor centrate μ2 şi μ3 de ordin doi, respectiv trei:

unde

(momentul centrat de ordin 2)

(momentul centrat de ordin 3)

Interpretare

3. Indicatorii formei3.2 Coeficientul de boltire

Boltirea (aplatizarea)• curba mezocurtică (coincide cu modelul; curb normală )• curba platicurtică (prezintă o variație puternică a variabilei X

însoțită de variația slabă a frecvenței fi)• curba leptocurtică (prezintă o variație slabă a variabilei X

însoțită de o variație puternică a frecvenței fi)

Interpretare: (+) distributie ascuțită;(-) distributie aplatizată

Pentru variabile negrupate=KURT(Rage)

27Facult

atea d

e Farm

acie

Page 28: Cursuri biostatistica 2015

3. Indicatorii formei3.2 Coeficientul de boltire

Coeficientul lui Pearson

unde

Interpretare:

β2=3 (repartiţie mezocurtică)

β 2>3 (repartiţie leptocurtică)

β 2<3 (repartiţie platicurtică)

Coeficientul lui Fischer

Interpretare:

=0 (repartiţie mezocurtică)

>0 (repartiţie leptocurtică)

<0 (repartiţie platicurtică)

Utilizarea funcției Descriptive Statistics (din Data Analysis)

28Facult

atea d

e Farm

acie

Page 29: Cursuri biostatistica 2015

ELEMENTE DE TEORIA PROBABILITĂȚILOR

Biostatistică

Curs 6

Introducere În cursurile anterioare am analizat metodele grafice şi

numerice pentru descrierea datelor statistice cu ajutorul cărora am determinat modelul empiric al distribuţiei frecvenţei relative, precum şi statisticile eşantionului.

Pentru inferenţă, respectiv pentru trecerea de la eşantion la populaţie şi de la “modelul empiric” la “modelul teoretic” avem nevoie de probabilităţi

Probabilitatea reprezintă – în mod intuitiv – posibilitatea sau şansa ca un anumit fenomen să se producă.

Experimente, spaţii de eşantionare, evenimente Un experiment statistic aleator este procesul de

observare a unui anumit fenomen, care conduce la apariţia unuia sau a mai multor rezultate posibile. După efectuarea experimentului se obține un rezultat. Acesta îl vom numi probă.

Experimentul Rezultate posibile Aruncarea unei

monedeApariţia “banului” (B)

sau a “coroanei” (C)Aruncarea unui zar Apariţia feţelor

1,2,3,4,5 sau 6 Determinarea grupeisangvine

Rezultate posibile :A,B, AB, 0

Experimente, spaţii de eşantionare, evenimente

Prima caracteristică a unui experiment statistic este caracterul aleator, adică rezultatele sunt întâmplătoare, fără a fi determinate de anumite cauze speciale

Lista rezultatelor unui experiment aleator trebuie să fie exhaustivă, adică să includă toate rezultatele care pot să apară

Rezultatele experimentului trebuie să fie reciproc exclusive, adică nu pot să apară în acelaşi timp două rezultate diferite

29Facult

atea d

e Farm

acie

Page 30: Cursuri biostatistica 2015

Experimente, spaţii de eşantionare, evenimenteSpaţiul de eşantionare (Spațiul probelor) al unui experiment aleator este mulţimea tuturor rezultatelor posibile ale acelui experiment. Rezultatele trebuie să fie exhaustive şi reciproce exclusive

Vom nota spaţiul de eşantionare cu şi rezultatele posibile cu R1, R2, ..., Rm, adică:

}

Experimente, spaţii de eşantionare, evenimente Spaţiul de eşantionare al unui experiment aleator se

poate reprezenta grafic prin aşa-numita diagramă Venn.

Diagrama Venn este o curbă închisă, care conţine, reprezentate prin puncte, toate rezultatele posibile ale experimentului

R1R2

R3 R4R5

Rm-1Rm

Diagrama Venn a unui spaţiu de eşantionare

Experimente, spaţii de eşantionare, evenimenteUn eveniment simplu este un rezultat individual al unui spaţiu de eşantionare.

Spaţiul de eşantionare al unui experiment este alcătuit din mulţimea tuturor evenimentelor simple ale acelui experiment

Exemplu: Să se determine mulţimea evenimentelor simple, respectiv spaţiul de eşantionare, pentru experimentul aruncării a două monede.Rezolvare:Notăm cu B apariţia valorii numerice sau a “banului” pe o faţă a monedei şi cu C apariţia “coroanei“ sau a “stemei” pe cealaltă faţă a monedei.Aruncarea celor două monede va conduce la apariţia unui rezultat de forma R1, R2,undeDe exemplu, rezultatul BC înseamnă că la prima monedă a apărut faţa B, iar la a doua monedă a apărut faţa C. Atunci evenimentele simple ale acestui experiment sunt: BB, BC, CB, CCiar spaţiul de eşantionare:

BB, BC, CB, CC}

Experimente, spaţii de eşantionare, evenimenteUn eveniment este o mulţime sau un set de evenimente simple într-un spaţiu de eşantionare.

Exemplu: În experimentul aruncării unui zar să se determine evenimentele:(a) apariţia unui număr par;(b) apariţia unui număr > 3.

Rezolvare: Evenimentele simple sunt apariţia feţelor 1, 2, 3, 4, 5 sau 6, iar spaţiul de eşantionare este:

(a) Evenimentul E1={Apariţia unui număr par}

este alcătuit din evenimentele simple 2, 4, 6 şi avem E1={2, 4, 6}.(b) Evenimentul

E2={Apariţia unui număr > 3}este alcătui din evenimentele simple 4, 5, 6 şi avem E2={4, 5, 6}.

1,2,3,4,5,6}

30Facult

atea d

e Farm

acie

Page 31: Cursuri biostatistica 2015

Experimente, spaţii de eşantionare, evenimente

• Vom nota, în continuare:- spațiul probelor cu - mulţimea evenimentelor cu K- evenimentele cu litere mari (A, B, C etc).

• În mulţimea evenimentelor se disting două evenimente cucaracter special:

• evenimentul sigur este evenimentul care se produce cu certitudine;se notează cu . De exemplu, evenimentul “cap sau pajură” laaruncarea unei monede este un eveniment sigur.

• evenimentul imposibil este evenimentul care nu se produceniciodată; se notează cu ∅ . Este evident că evenimentul sigureste evenimentul contrar evenimentului imposibil şi reciproc.

• Se poate astfel spune că evenimentele sunt de trei categorii:sigure, imposibile şi aleatorii.

Experimente, spaţii de eşantionare, evenimente

• Între evenimente se definesc operaţii, inspirate dinteoria mulţimilor: Egalitatea, Negaţia, Reuniunea,Intersecţia, Incluziunea.A ∪ B - evenimentul care constă în realizarea a cel puțin unuia din

cele două evenimente (se realizeazăA sau B)A ∩ B - evenimentul care constă în realizarea ambelor evenimente (se realizeazăA și B)A \ B - evenimentul care constă în realizarea lui A și nerealizarealui B.A= CA - evenimentul “contrar “ lui A care constă în nerealizarea luiA (realizarea lui \ A)

• Două evenimente A şi B se spun incompatibile dacăintersecţia lor este evenimentul imposibil, A ∩ B = ∅ , adică nu este posibil ca evenimentele A şi B să se producă simultan.

În prezentarea şi prelucrarea datelor, măsurate pe diverse scale, noţiunea de frecvenţă relativă este o noţiune unificatoare: se regăseşte la toate scalele, valorileobţinute pot fi utilizate pentru comparaţii etc.

Practica arată că atunci când o experienţă este repetată de unnumăr mare de ori, frecvenţa relativă a apariţiei unui fapt tindesă se stabilizeze.

Acest fenomen este formalizat în teoria probabilităţilorprin introducerea noţiunii de probabilitate.

Probabilitatea unui eveniment

Fie K mulţimea evenimentelor. Se numeşte probabilitate orice funcţie cu valori reale definită pe mulţimeaevenimentelor,P : K şi care satisface:

probabilitatea oricărui eveniment este un număr nenegativ: P(A) 0;

probabilitatea evenimentului sigur este egală cu 1: P() = 1; probabilitatea oricărei reuniuni de evenimente incompatibile

două câte două este egală cu suma probabilităţilorevenimentelor: P(A∪B) = P(A)+P(B) atunci când A și B suntincompatibile (A ∩B = ∅)

Probabilitatea unui eveniment

Se spune că tripleta (, K,P) defineşte un spaţiu de probabilitate.31Fac

ultate

a de F

armac

ie

Page 32: Cursuri biostatistica 2015

Probabilitatea unui evenimentDacă rezultatele sau evenimentele simple ale unui spaţiu de eşantionare au aceeaşi “şansă” sau probabilitate de apariţie (evenimentele sunt “echiprobabile”), atunci probabilitatea de apariţie a fiecărui eveniment simplu va fi:

De exemplu, în experimentul aruncării unui zar, probabilitatea de apariţie a unei feţe va fi (ţinând cont că rezultatele de bază, respectiv una din feţele 1, 2, 3, 4, 5 sau 6, au aceeaşi şansă de apariţie):

Probabilitatea unui eveniment Considerăm evenimentele simple care alcătuiesc un

eveniment ca fiind “cazuri favorabile” producerii acelui eveniment, iar evenimentele simple care alcătuiesc spaţiul de eşantionare ca fiind “cazuri posibile” producerii acelui eveniment.

Probabilitatea unui eveniment A este:

denumită şi “formula clasică” a probabilităţilorExemplul Să se determine probabilitatea extragerii unei “figuri” (J, Q, R) dintr-un pachet de 52 de cărţi, utilizând formula clasică a probabilităţilor.Rezolvare: Numărul cazurilor favorabile, respectiv figurile roşii şi negre (♥ ♦ ♠ ♣) este . .Numărul cazurilor posibile este 52, egal cu numărul de cărţi din pachet. Atunci probabilitatea extragerii unei “figuri” este:

• Atunci când dispunem de informaţii privind legătura între evenimente, informaţii care ar putea condiţiona rezultatul unui experiment, vom determina probabilităţi condiţionate

Se numește probabilitatea evenimentului A, condiționată de evenimentul B raportul dintre probabilitatea intersecției celor două evenimente și probabilitateaevenimentului care condiționează:

probabilitatea evenimentului B, condiționată de evenimentul A

Formule fundamentaleProbabilitatea condiționată

Formule fundamentaleProbabilitatea condiționată

Două evenimente A şi B se numesc evenimente independente dacă

sau

Din relaţiile de mai sus rezultă că două evenimente sunt independente dacă probabilitatea unui eveniment nu este afectată de apariţia celuilalt eveniment

32Facult

atea d

e Farm

acie

Page 33: Cursuri biostatistica 2015

Formule fundamentaleRegula multiplicativă pentru evenimente independente

Probabilitatea intersecţiei a două evenimente independente A şi B este

Probabilitatea reuniunii a două evenimente A şi B esteRegula aditivă

Regula aditivă pentru evenimente reciproc exclusive

• Probabilitatea reuniunii a două evenimente reciproc exclusive A şi B este

Formule fundamentaleRegula lui Bayes

• Probabilităţile condiţionate iau în considerare informaţia despre probabilitatea unui eveniment pentru a face predicţia asupra probabilităţii unui alt eveniment.

• Conceptul poate fi extins pentru a “revizui” probabilităţile, pe baza unor informaţii suplimentare, pentru a determina probabilitatea ca un anumit efect să fie datorat unei cauze speciale.

• Această procedură este dată de regula sau teorema lui Bayes.

Fie dat evenimentul B şi evenimentele reciproc exclusive pentru care se cunosc valorile probabilităţilor asociate.

Probabilităţile se numesc probabilităţi anterioare

Probabilităţilese numesc probabilităţi verosimile

Probabilităţilese numesc probabilităţi posterioare

Formule fundamentaleRegula lui Bayes

Formule fundamentaleRegula lui Bayes

Regula (teorema) lui Bayes Probabilitatea evenimentelor reciproc exclusive

condiţionate de evenimentul B este

33Facult

atea d

e Farm

acie

Page 34: Cursuri biostatistica 2015

Aplicații1. Masa, rezistența și înălțimea sunt caracteristici independente ale unuicomprimat. Probabilitățile ca un comprimat să nu corespundă din aceste puncte de vedere sunt: 0,03; 0,05 si 0,02. Care este probabilitatea ca tableta să corespundă în raport cu cele trei caracteristici? Soluție: Fie E1, E2, E3 evenimentele care se realizează când produsul corespunde în raport cu fiecare dintre caracteristici.

Aplicații2. Un produs farmaceutic este prelucrat în două etape A si B. În prima etapă are loc comprimarea propriu-zisa, iar în a doua etapă are loc ambalarea produsuluiintermediar obținut. După etapa A, comprimatele vrac sunt controlate obținându-se un randament de 97%. Comprimatele vrac corespunzătoare vor fi prelucrate în etapa B obținându-se un randament de 95%. Care este probabilitatea ca produsulfinit să corespundă?

SoluțieP(A)=P(comprimat vrac corespunzător)= 0,97PA(B)=P( comprimat ambalat corespunzător)=0,95

Aplicații3. Se consideră două recipiente cu reactivii B1 si B2. In recipientul B1 se află pastile de KOH, iar în recipientul B2 pastile de KOH și de NaOH în număr egal. O pastilă scoasă la întamplare din unul din recipienti se dovedeste a fi KOH. Care este probabilitatea ca această pastilă să provină din B1? În algoritmul pentru calculul probabilităţii unui

eveniment unul din paşii dificili îl constituie determinarea numărului evenimentelor simple ale spaţiului de eşantionare

Pentru rezolvarea acestei probleme vom analiza în continuare aşa-numitele reguli de numărare, cunoscute în matematică sub denumirea de elemente de combinatorică

Reguli de numărare

34Facult

atea d

e Farm

acie

Page 35: Cursuri biostatistica 2015

Regula multiplicativă Fie k mulţimi care conţin respectiv n1, n2,..., nk elemente. Numărul de mulţimi cu câte k elemente formate prin alegerea a câte unui singur element din fiecare mulţime este

Reguli de numărare

Exemplu Să se determine numărul tripletelor care se pot forma din mulţimile

luând câte un element din fiecare mulţime.

Rezolvare: Avem şi rezultă

Obţinem din primele două mulţimi A şi B perechile (a,c), (a,d), (a,e), (b,c), (b,d), (b,e) la care adăugăm al treilea element din mulţimea C, adică(a,c,f), (a,d,f), (a,e,f),..., (b,c,i), (b,d,i), (b,e,i)

Reguli de numărare

Reguli de numărare

Se numesc permutări ale unei mulţimi A cu nelemente toate mulţimile ordonate de n elementecare se pot forma cu elementele lui A.

Regula permutărilor Numărul permutărilor a nelemente, , este

Prin definiţie şi

Exemplu Să se determine numărul permutărilor mulţimii

Rezolvare: Avem n = 3 şi

Mulţimile ordonate cu câte 3 elemente vor fi:(a,b,c), (b,c,a), (a,c,b), (c,a,b), (b,a,c), (c,b,a)

Simbolul n! se citeşte “n factorial”

Reguli de numărare

35Facult

atea d

e Farm

acie

Page 36: Cursuri biostatistica 2015

Numărul permutărilor cu repetiţie a n elemente, în care fiecare element se poate repeta până la n ori este:

Exemplu Să se determine numărul permutărilor cu repetiţie ale mulţimii

Rezolvare: Avem n = 3 şi

Mulţimile ordonate cu câte 3 elemente şi repetiţie vor fi de forma:

(a,a,a), (a,a,b), ..., (c,c,b), (c,c,c)

Reguli de numărare

Se numesc aranjamente a n elemente luate câte k, k ≤ n, ale unei mulţimi A cu n elemente, toate submulţimile ordonate cu câte k elemente care se pot forma cu elementele lui A.

Regula aranjamentelor Numărul aranjamentelor a n elemente, luate câte k, este

Reguli de numărare

Numărul aranjamentelor cu repetiţie a n elemente, luate câte k, în care fiecare element se poate repeta până la kori este:

Exemplu (a) Să se determine numărul aranjamentelor a 3 elemente luate câte 2.

(b) Să se determine numărul aranjamentelor cu repetiţie a 3 elemente luate câte 2.

Rezolvare: (a)

(b)

Reguli de numărare

Se numesc combinări a n elemente luate câte k, k ≤ n, ale unei mulţimi A cu n elemente, toate submulţimile cu câte k elemente care se pot forma cu elementele lui A.

Regula combinărilor Numărul combinărilor a nelemente, luate câte k, este

Reguli de numărare

36Facult

atea d

e Farm

acie

Page 37: Cursuri biostatistica 2015

Numărul combinărilor cu repetiţie a n elemente, luate câte k, în care fiecare element se poate repeta până la kori este:

Exemplu (a) Să se determine numărul combinărilor a 3 elemente luate câte 2.

(b) Să se determine numărul combinărilor cu repetiţie a 3 elemente luate câte 2.

Rezolvare: (a)

(b)

Reguli de numărare

Regula partiţionărilorFie o mulţime cu n elemente distincte. Numărul partiţiilor mulţimii date în k submulţimi, fiecare conţinând respectiv n1, n2,..., nk elemente este

unde

Reguli de numărare

Exemplu La un concurs cu premii se atribuie 12 obiecte diferite primilor trei clasaţi, astfel: Locul 1: 5 obiecte Locul 2: 4 obiecte Locul 3: 3 obiecte

În câte moduri se pot atribui aceste obiecte?Rezolvare: Conform regulii partiţionărilor avem k = 3,n = 12, n1 = 5, n2 = 4, n3 = 3 şi rezultă:

Reguli de numărare Exemple aplicații lucrare LP-uriDistribuţia farmaciștilor în funcţie de numărul de zile de concediu de

odihnă dintr-un an se prezintă astfel:

Se cere:•să se reprezinte grafic seria;•să se calculeze indicatorii tendinţei centrale;•să se caracterizeze gradul de boltire

SauSe cere•să se calculeze indicatorii variaţiei;•să se caracterizeze gradul de asimetrie;•să se reprezinte grafic poligonul frecvențelor;

37Facult

atea d

e Farm

acie

Page 38: Cursuri biostatistica 2015

Notele obtținute de 40 de studentți sunt următoarele:8; 10; 4; 9; 6; 8; 10; 7; 8; 3;9; 6; 5; 4; 8; 7; 10; 9; 6; 5;4; 3; 6; 9; 10; 8; 7; 7; 7; 6;5; 5; 6; 7; 9; 10; 7; 6; 3; 4;

Să se prezinte datele sub forma unui tabel statistic; Să se reprezinte grafic datele; Să se grupeze datele pe 4 intervale; Să se calculeze frecventțele cumulate crescător; Să se reprezinte seria de date.

Exemple aplicații lucrare LP-uri

Au fost înregistrate numărul de ore petrecute de studentți cu învățatul:

• Să se calculeze numărul mediu de ore petrecut de un student cu învățatul

• Să se calculeze coeficientul de variație. Discuții• Să se realizeze histograma

Exemple aplicații lucrare LP-uri

38Facult

atea d

e Farm

acie

Page 39: Cursuri biostatistica 2015

Curs 7

Obiective

Cunoaşterea principalelor concepte de teoria distribuţiilor statistice

Analiza principalelor repartiții de probabilitate discrete.

• Repartiția Binomială• Repartiția Poisson

Variabile aleatoare

Atunci când efectuăm un experiment, ne interesează evenimente pe care le cuantificăm prin valori numerice, adică realizăm experimentul şi înregistrăm valorile numerice ale uneia sau mai multor variabile statistice.

Dacă repetăm experimentul aleator de n ori şi “numărăm” evenimentele apărute pentru o anumită variabilă statistică, obţinem o mulţime de date cantitative discrete, iar variabila statistică va fi o variabilă aleatoare.

Variabile aleatoare

Definiție: O funcţie reală X: , se numeşte variabilă aleatoare dacă mulțimea | X() xa evenimentelor elementare pentru care v.a. X are valori mai mici sau egale cu x, oricare ar fi x, este tot un eveniment.

Variabilele aleatoare pot fi:- discrete, definite pe o mulţime cel mult numărabilă;- continue, definite pe o mulţime măsurabilă;

39Facult

atea d

e Farm

acie

Page 40: Cursuri biostatistica 2015

Variabile aleatoare discrete. Exemple Numărul de internări într-un spital într-un interval

de timp dat X={0,1,…,n,…}Variabilă aleatoare infinită

Numărul de bacterii într-un mililitru de apă X={0,1,…,n,…}

Variabilă aleatoare infinită

Numărul de indivizi cu RH-negativ dintr-un grup de n persoane luate la întâmplare X={0,1,…,n}

Variabilă aleatoare finită

Variabile aleatoare discrete

Variabile aleatoare discrete Variabile aleatoare discrete

40Facult

atea d

e Farm

acie

Page 41: Cursuri biostatistica 2015

Variabile aleatoare discrete Variabile aleatoare discrete

Variabile aleatoare discreteExempluFie următoarea variabilă aleatoare:

Să se determine funcția sa de repartiție. Soluție:

Variabile aleatoare discrete

Distribuţia de probabilitate a unei variabile aleatoare discrete X furnizează un model pentru populaţia de valori a lui X şi pentru distribuţia frecvenţei relative a populaţiei descrisă de variabila aleatoare X.

Vom putea descrie atunci distribuţia de probabilitate a unei variabile aleatoare discrete Xprin măsuri numerice, cum sunt media, dispersia sau abaterea standard.

41Facult

atea d

e Farm

acie

Page 42: Cursuri biostatistica 2015

Variabile aleatoare discreteCaracteristici numerice MediaSe numeşte valoare medie (sau speranţă matematică) a unei valori aleatoare X, numărul

Proprietăţi ale valorii medii:

Variabile aleatoare discreteCaracteristici numerice Dispersia (sau varianța)

Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică (sau abaterea standard) a variabilei X

Proprietăţi ale dispersiei

Repartiția Binomială-B(n,p) Multe experimente reale sunt analoge experimentului

aruncării monedelor.

Sondajele opiniei publice sau ale preferinţelor consumatorilor, atunci când acestea sunt de tipul DA / NU, sunt similare experimentului aruncării unei monede.

Acest tip de experimente sunt particularizări ale variabilelor aleatoare binomiale

Repartiția Binomială-B(n,p)Caracteristici ce definesc o variabilă aleatoare binomială

Experimentul constă în n încercări identice Sunt posibile numai două rezultate ale fiecărei

încercări: S – succes F - insucces

Probabilitatea lui S este p şi rămâne aceeaşi la fiecare încercare. Probabilitatea lui F este q şi avem p + q = 1.

Încercările sunt independente Variabila aleatoare binomială X este numărul de

succese (S) în n încercări

42Facult

atea d

e Farm

acie

Page 43: Cursuri biostatistica 2015

Repartiția Binomială-B(n,p) Probabilitatea de a avea de k ori succes în n încercări

este dată de formula:

unde: p = probabilitatea de succes într-o singură încercare q = 1 – p n = numărul de încercări k = numărul de succese S în n încercări

Reprezentare sub formă matricială

Repartiția Binomială-B(n,p)Caracteristici numerice Media pentru o variabilă aleatoare binomială X este:

Dispersia pentru o variabilă aleatoare binomială Xeste:

Reprezentarea grafică a repartiției binomiale, se realizează prin diagrama în batoane şi depinde de valoarea parametrilor săi n şi p. Astfel:

- diagrama este simetrică dacă p = q = 0.5;- diagrama este asimetrică dacă p > q sau p < q; - o distribuţie asimetrică devine tot mai simetrică pe măsură ce ncreşte.

Repartiția Binomială-B(n,p)Pentru calculul valorilor repartiției binomiale se poate folosi funcţia statistică din Excel

BINOM.DIST(number_s,trials, probability_s, cumulative) nuber_s (X) Este numărul de succese din experimente

trials(n) Este numărul de experimente independente

Probability_s (p) Este probabilitatea de succes la fiecare experiment

Cumulative Este o valoare logică ce determină forma repartiției de

probabilitate returnată. Dacă cumulativ este TRUE, BINOM.DIST întoarce probabilitatea Binomială cumulativă că numărul de evenimente întâmplătoare care vor apărea va fi cuprins între 0 și x inclusiv , P{X ≤x} ; în cazul FALSE, va returna probabilitatea că numărul de evenimente apărute va fi exact x, P{X = x}

Repartiția Binomială-B(n,p)ExempluTestele pentru calitatea apei potabile într-un anumit Judeţ au pus în evidenţă faptul că 30% din sursele individuale conţin o anumită substanţă A, care nu este bună pentru consum.Dacă sunt alese în mod aleator 5 surse din Judeţul respectiv, care este probabilitatea ca:

(a) Exact 3 surse să conţină substanţa A;(b) Cel puţin 3 surse să conţină substanţa A;(c) Mai puţin de 3 surse să conţină substanţa A.

Soluție: Să confirmăm mai întâi că avem un experiment binomial. Experimentul constă în n = 5 încercări, fiecare corespunzătoare unei surse alese în mod aleator. Rezultatele fiecărei încercări constau dintr-un succes S (sursa conţine substanţa A) sau dintr-un insucces F (sursa nu conţine A). Deoarece numărul de surse de apă individuale este relativ mare, probabilitatea alegerii unei surse care conţine substanţa A o considerăm egală cu 0,3 pentru toate cele 5 surse selectate aleator.

43Facult

atea d

e Farm

acie

Page 44: Cursuri biostatistica 2015

Repartiția Binomială-B(n,p)ExempluEşantionarea fiind aleatoare, încercările sunt independente. Ne interesează numărul X de surse care conţin substanţa A, dintr-un eşantion de n = 5.Suntem deci în condiţiile unui experiment binomial, cu n = 5 şi p = 0.3, q = 1 – 0,3 = 0,7.Probabilitatea ca exact 3 surse să conţină substanţa A este:

=BINOM.DIST(3, 5, 0.3, 0) = 0,1323(b) Probabilitatea ca cel puţin 3 surse să conţină substanţa A este:

=1-BINOM.DIST(2, 5, 0.3, 1)

Repartiția Binomială-B(n,p)Exemplu(c) Probabilitatea ca mai puţin de 3 surse să conţină substanţa A

este:

BINOM.DIST(2, 5, 0.3, 1) = 0,83692această probabilitate se poate calcula mai uşor cu ajutorul relaţiei de complementaritate:

Repartiția Poisson – P(

Repartiția Poisson oferă un model pentru frecvenţa relativă a numărului de “evenimente rare” care apar într-o unitate de timp, arie, volum etc.

Repartiția Poisson se utilizează mai ales în modelarea fenomenelor de aşteptare, denumite “cozi” sau “şiruri” de aşteptare (“aşteptarea” la case de marcat, la un service auto, la urgenţă, la semafor etc.)

De asemenea, repartiția Poisson este folosită pentru a aproxima o distribuţie binomială în cazul în care p(sau q) are o valoare foarte mică şi n este mare.

Repartiția Poisson – P(Caracteristici ce definesc o variabilă aleatoare Poisson Experimentul constă în înregistrarea numărului x de

apariţii ale unui eveniment într-o unitate dată de timp (de volum, de arie, de greutate, de distanţă sau orice altă unitate de măsură).

Probabilitatea ca evenimentul să apară într-o unitate dată de timp (de volum, de arie etc.) este aceeaşi pentru toate unităţile.

Numărul de evenimente care apar într-o unitate dată de timp (de volum, de arie etc.) este independent de numărul de evenimente care apar în celelalte unităţi.

44Facult

atea d

e Farm

acie

Page 45: Cursuri biostatistica 2015

Repartiția Poisson – P(Distribuția de probabilitate Distribuţia Poisson este determinată de un singur parametru:

(media variabilei). Fie o variabilă X ce ia valori discrete 0, 1, 2, ..., n, într-un interval continuu. Se spune că variabila X urmează o lege Poisson atunci când probabilitatea pentru care X = k este dată de:

= media numărului de evenimente într-o anumită perioadă de timp;

e = 2,71828... Reprezentare sub formă matricială

Repartiția Poisson – P(Caracteristici numerice Media pentru o variabilă aleatoare Poisson X este:

Dispersia pentru o variabilă aleatoare Poisson X este:

Aproximarea legii binomiale printr-o lege Poisson: Când p este mic şi n este mare, legea Poisson

constituie o bună aproximare a legii binomiale. În acest caz se foloseşte ca parametru al legii

Poisson speranţa matematică a legii binomiale:

Repartiția Poisson – P(Pentru calculul valorilor repartiției Poisson se poate folosi funcţia statistică din Excel:

POISSON.DIST(X,mean,cumulative) X Este numărul de evenimente; mean (Media) Este valoarea numerică așteptată. cumulative Este o valoare logică ce determină forma

repartiției de probabilitate returnată. Dacă cumulativ este TRUE, POISSON.DIST întoarce probabilitatea Poisson cumulativă că numărul de evenimente întâmplătoare care vor apărea va fi cuprins între 0 și x inclusiv, P{X ≤x}. În cazul FALSE, va returna probabilitatea Poisson că numărul de evenimente apărute va fi exact x, P{X = x}

Repartiția Poisson – P(Repartiția Poisson apare în multiple situații, ca de exemplu:

dă probabilitățile unui număr specificat de chemări telefoniceîntr-un anumit timp;

dă probabilitățile unui număr specificat de defecte pe o unitatede lungime a unui fir;

dă probabilitățile unui număr specificat de defecte pe o unitatede arie a unei țesături;

dă probabilitățile unui număr specificat de bacterii pe unitatea de volum într-o soluțe;

dă probabilitățile unui număr specificat de accidente pe unitateade timp.

45Facult

atea d

e Farm

acie

Page 46: Cursuri biostatistica 2015

Repartiția Poisson – P(Exemplu8% din recipientele cu materie primă sunt rebutate. Care este probabilitatea ca din 20 de recipiente 2 să fie rebutate?Soluțiep=0.08, n=20. Folosind repartiția Poisson pentru

=POISSON.DIST(2,1.6,FALSE)

46Facult

atea d

e Farm

acie

Page 47: Cursuri biostatistica 2015

REPARTIȚII CONTINUE

Curs 8

Obiective

Cunoaşterea principalelor proprietăţi ale variabilelor aleatoare şi distribuţiilor continue

Analiza principalelor distribuţii • Repartiția Normală• Repartiția Fisher-Snedecor• Repartiția Hi-pătrat ( )• Repartiția Student

Variabile aleatoare continue

• Multe dintre variabilele aleatoare întâlnite în practică nu sunt variabile aleatoare discrete, nefiind rezultatul unui proces de numărare şi neavând deci valori într-o mulţime numărabilă

• Variabilele aleatoare rezultate în urma unui proces de măsurare, care iau valori în mulţimea numerelor reale R (care are puterea continuului) sunt variabile aleatoare continue

Variabile aleatoare continue• Diferenţa dintre variabilele aleatoare discrete şi

variabilele aleatoare continue este cel mai bine sugerată de diferenţa dintre funcţiile de distribuţie cumulativă ale celor două tipuri de variabile

Definiţie: Funcţia de repartiție F(x) a unei variabile aleatoare x este egală cu probabilitatea

F(x0) = Prob{x ≤ x0}

47Facult

atea d

e Farm

acie

Page 48: Cursuri biostatistica 2015

Variabile aleatoare continue• Pentru o variabilă aleatoare discretă, funcţia de

repartiție este suma probabilităţilor de la cea mai mică valoare pe care o poate lua x şi până la x0.

• Funcţia de repartiție pentru o variabilă aleatoare discretă este o funcţie discontinuă, “în scară”, aşa cum am văzut anterior

• Funcţia de repartiție a unei variabile aleatoare continue este o funcţie continuă, monoton crescătoare

Variabile aleatoare continue f(x) reprezintã densitatea de repartiție, care poate fi

definitã ca primã derivatã (dacã existã) a funcţiei de repartiţie F(x) adicã:

Graficul densitãţii de probabilitate Reprezentarea elementului de probabilitate.

Mãrimea f(x)dx se numeşte element de probabilitate şi reprezintã probabilitatea ca valoarea variabilei aleatoare sã se gãseascã înintervalul ds. Aceastã probabilitate este egalã cu aria dreptunghiuluielementar cu baza egalã cu ds.

Variabile aleatoare continue Expresia P(X<x) se citeşte probabilitatea ca X sã fie cel

mult egal cu x. Dacã ds→0, aria dreptunghiului tinde spre zero, cea ce ne

duce la concluzia cã probabilitatea obţinerii unei valori x este egalã cu zero, deci ar fi un eveniment imposibil.

Deoarece o astfel de concluzie este paradoxalã trebuie, evidenţiatã definiţia probabilitãţii care ne conduce la o interpretare care evidenţeazã faptul cã frecvenţa unuiastfel de eveniment este zero şi nu faptul cã un astfel deeveniment nu poate avea loc

f(x) nu are semnificaţia unei probabillităţi aşa cum se prezintă expresia , pentru variabila aleatoare discretă. În consecinţă, semnul sau folosit la variabila aleatoare discretă va fi înlocuit, în general, prin < sau > pentru variabila aleatoare continuă (probabilitatea egalităţii fiind nulă)

Variabile aleatoare continueProprietăţile funcţiei de repartiţie

Fie intervalul [a, b], probabilitatea ca o valoare x sã aparţinã acestui interval, respectiv P(a≤X<b) este

Probabilitatea ca o variabilã sã aparţinã intervalului [a,b] esteegalã cu aria trapezului curbiliniu mărginit de axa x, curba densitãţii de repartiție f(x) şi dreptele x=a şi x=b.

48Facult

atea d

e Farm

acie

Page 49: Cursuri biostatistica 2015

Variabile aleatoare continueCaracteristici numerice

MediaValoarea medie (sau valoarea aşteptată) a lui x este

Varianța sau dispersia

Abaterea standard

Repartiția Normală~N( )• Repartiția normală (cunoscută şi sub numele de

Repartiția Gauss-Laplace sau popular sub numele de “clopotul lui Gauss”) este una din cele mai răspândite şi utilizate repartiții

• Numeroase fenomene şi procese naturale, economice, sociale sau medicale pot fi modelate de repartiția normală

• Repartiția normală este o funcţie parametrică simetrică, definită pe mulţimea R

Repartiția Normală~N( )Fie o variabilă X ={x1, ..., xn} care urmează o lege normală : μ, V =

Densitatea de repartiție

Funcția de repartiție

Media:Varianța:

f(xi) se calculeaza cu functia: =NORM.DIST(xi, μ, σ, FALSE)F(xi) = P(x < xi) se calculeaza cu functia: =NORM.DIST(xi, μ, σ, TRUE)xi se calculeaza cu functia: =NORM.INV(F(xi), μ, σ)

Repartiția Normală~N( )Proprietăţi ale distribuţiei normale: o distribuţie normală este simetrică în raport cu ordonata

valorii x = μ; de asemenea, μ = Me = Mo pentru o distribuţie normală, când x tinde la ±∞, funcţia f(x)

tinde la zero (amplitudinea variabilei este infinită) f(x) este maximă pentru x = μ şi se diminuează pe măsură

ce valorile variabilei se depărtează de medie curba densităţii de repartiție f(x) are puncte de inflexiune

când x = μ ± σ. o distribuţie normală este unic determinată de medie şi de

varianţă: X ~ N(μ; σ2) suma (sau diferenţa) a două variabile aleatoare

independente X1 şi X2 ce urmează legi normale N(μ1, σ21)

şi N(μ2, σ22), urmează tot o lege normală:

X~N(μ1±μ2,σ21+σ2

2)

49Facult

atea d

e Farm

acie

Page 50: Cursuri biostatistica 2015

Repartiția Normală Standard~N(0 )

• O variabilă aleatoare, X, normal repartizatăcu media şi deviaţia standard diferite de 0respectiv 1, poate fi transformată într-orepartiție normală standard, Z, astfel:

Repartiţia normală standardizată, cu media 0 şi abaterea standard 1.

Repartiția Normală Standard~N(0 )Fie o variabilă Z ={z1, ..., zn} – variabilă centrată redusă

Densitatea de repartiție

Funcția de repartiție

Media: 0Varianța:1

f(zi) se calculeaza cu functia: =NORM.S.DIST(zi,FALSE)F(zi) = P(z < zi) se calculeaza cu functia: =NORM.S.DIST(zi, TRUE)zi se calculeaza cu functia: =NORM.S.INV(F(zi))

Repartiția Normală Standard~N(0 )Repartiția Normală Standard~N(0 )

50Facult

atea d

e Farm

acie

Page 51: Cursuri biostatistica 2015

Repartiția Normală Standard~N(0 ) Pentru calculul unor probabilităţi pe baza funcţiei de repartiţie, se

utilizează funcţia Laplace, ale cărei valori calculate se pot obţine din tabelele Gauss-Laplace.

Funcţia Laplace este definită de relaţia:

- Φ (0) = 0

- Φ(-z) = - Φ(z)

---

Proprietăţile funcţiei lui Laplace:

-

Densitatea de repartiție a variabilei z.

P(-z ≤ Z ≤z) = 2 Φ(z).

Repartiția Normală Standard~N(0 )

Repartiția hi-pătrat ( 2) Repartiția hi-pătrat ( 2)

51Facult

atea d

e Farm

acie

Page 52: Cursuri biostatistica 2015

Repartiția hi-pătrat ( 2)=CHISQ.DIST.RT(x,deg_freedom)sau=CHIDIST(x,deg_freedom)

Returnează probabilitatea pentru hi-pătrat , unde o valoare numerică (x) este o valoare calculată a lui 2 pentru care se vor calcula probabilitățile.

Repartiția hi-pătrat ( 2)=CHISQ.INV(probability, deg_freedom)sau=CHIINV(probability, deg_freedom)

Returnează inversa funcției de repartiție F (alungită la dreapta). Dacă p = CHIDIST(x,...), atunci CHIINV(p,...) = x

Repartiția hi-pătrat ( 2) Repartiția Fisher-Snedecor F( 1, 2)

52Facult

atea d

e Farm

acie

Page 53: Cursuri biostatistica 2015

Repartiția Fisher-Snedecor F( 1, 2) Repartiția Fisher-Snedecor F( 1, 2)

=F.DIST(x,deg_freedom1, deg_freedom2)

X Valoarea la care să se evalueze funcțiadeg_freedom1 Gradele de libertate pentru numărătordeg_freedom 2 Gradele de libertate pentru numitor

Densitatea de repartiție pentru diferite valori ale lui 1, 2

Repartiția Fisher-Snedecor F( 1, 2)

=F.INV(probability,deg_freedom1,deg_freedom2)probability Probabilitatea asociată cu funcția de repartiție Fdeg_freedom1 Gradele de libertate ale numărătorului.deg_freedom2 Gradele de libertate ale numitorului.

F.INV(0.05,3,60) Fcr = 2,758

Repartiția Student – distribuţia t

53Facult

atea d

e Farm

acie

Page 54: Cursuri biostatistica 2015

Repartiția Student – distribuţia t Repartiția Student – distribuţia t

=TDIST(x,deg_freedom,tails)x este valoarea numerică la care va fi evaluată repartiția.deg_freedom numărul gradelor de libertate.Tails

Dacă tails = 1, TDIST întoarce o repartiție unilaterală. Dacă tails = 2, TDIST întoarce repartiția bilaterală.

TDIST(x, ,1) = aria haşurată TDIST(x, ,2) = aria haşurată

Repartiția Student – distribuţia t

O valoare t unilaterală poate fi întoarsă înlocuind probabilitatea cu 2*probabilitate. Pentru o probabilitate de 0,05 și grade de libertate 10, valoarea bilaterală este calculată cu T.INV(0,05;10), care întoarce 2,28139. Valoarea unilaterală pentru aceeași probabilitate și grade de libertate poate fi calculată cu T.INV(2*0,05;10), care întoarce 1,812462.

=T.INV(probability,deg_freedom)

Aplicații. Verificarea normalității unei distribuții

54Facult

atea d

e Farm

acie

Page 55: Cursuri biostatistica 2015

Aplicații. Verificarea normalității unei distribuții Aplicații. Verificarea normalității unei distribuții

55Facult

atea d

e Farm

acie

Page 56: Cursuri biostatistica 2015

EstimațiiTestarea ipotezelor statistice

Teste statistice:Testul Student, Testul

Biostatistică

Curs 9

Eşantionare . Probleme ale Eşantionării

EȘANTIONARE: selecția unei porțiuni din populație care e reprezentativă pentru caracteristica de interes a populației.

• Nu se poate investiga întreaga populaţie; (nepractic: timpîndelungat, costuri mari, populații care nu pot fi numărate)

• Se consideră un eşantion: se calculează media eşantionului. Ne aşteptăm ca media eşantionului să fie rezonabil de aproape de media populaţiei.

• Repartiția de eșantionare ne permite să evaluăm cât de aproape este valoarea statisticii eşantionului de valoareaparametrului populaţiei.

Eşantionare. Probleme ale Eşantionării

Populaţia ţintă - populaţia pentru care vremsă facem inferenţe

Populaţia eşantionată - populaţia din care extragem de fapt eşantioane

Problema eşantionării:

Este populaţia ţintă aceeaşi cu populaţiaeşantionată?

Eşantionare . Probleme ale Eşantionării

Eșantionarea aleatorie simplă Un eşantion aleatoriu simplu este un eşantion în care

fiecare membru al populaţiei este la fel de probabil de a fi inclus.

Metoda presupune identificarea fiecărui membru al populaţiei şi alegerea aleatorie a acestora.

Eșantionarea aleatorie stratificată Un eşantion aleatoriu stratificat se obţine prin separarea

populaţiei în seturi reciproc exclusive (sau straturi) şiapoi extrăgând eşantioane aleatorii simple din fiecareset (strat).

Eșantionarea de grupuri Un eşantion de grupuri este un eşantion aleatoriu simplu

a unor grupuri de elemente.

56Facult

atea d

e Farm

acie

Page 57: Cursuri biostatistica 2015

Eşantionarea aleatorie simplă in Excel

Pentru extragerea unui întreg situat între a si b:RANDBETWEEN(bottom, top)

Pentru extragerea unui număr situat în intervalul [0, 1]:

RAND ()

Pentru extragerea unei serii de N numere din una dintremai multe variante de distribuții,

DATA >> DATA ANALYSIS >> Random Number Generation

Pentru extragerea unui eșantion dintr-o populatie:DATA >> DATA ANALYSIS >> Sampling

LA FIECARE RECALCULARE A FOII DE CALCUL, VALORILE SUNT GENERATE DIN NOU !

Inferență Statistică

Obiectivul (problema)

Descrierea unei singurepopulaţii

Compararea a douăpopulaţii

Compararea a două saumai multor populaţii

Analiza relaţiei între douăsau mai multor variabile

Tipul de date

• cantitative

• calitative

• ordinale.

ESANTION POPULAȚIA STATISTICĂ(STATISTICĂ) (PARAMETRU)

MEDIA:

DISPERSIA

ABATEREASTANDARD

COEFICIENTULDE VARIATIE

Inferență StatisticăInferență Statistică. Repartiția de sondaj a mediei Se consideră o populaţie statistică şi o caracteristică continuă X. Fie M(X) = şi D2(X) = . Repartiţia variabilei X este

necunoscută (deci nu sunt cunoscute , , forma distribuţiei sau numai unele dintre aceste atribute).

Din populaţia respectivă se extrage un eşantion de volum n, fie acesta x1, x2, …, xn, şi se calculează media aritmetică x . Este evident că se doreşte ca această valoare să fie utilizată drept estimaţie a mediei populaţiei, .

Repartiţia de sondaj a mediei este caracterizată de

57Facult

atea d

e Farm

acie

Page 58: Cursuri biostatistica 2015

Inferență Statistică. Repartiția de sondaj a medieiForma repartiţiei de sondaj a mediei este determinată de rezultatele:

dacă X este repartizată normal, atunci media de sondaj este repartizată de asemenea normal, cu parametriiprecizaţi mai sus, indiferent de volumul eşantionului

dacă nu se cunoaşte repartiţia lui X, atunci teorema limită centrală afirmă că repartiţia de sondaj a mediei devine normală la limită, pentru un volum mare al eşantionului.

Practic, se poate accepta o repartiţie , pentru n > 10, dacă repartiţia lui X este aproape simetrică,

sau pentru n > 30, în repartiţii cu asimetrie pronunţată sau

necunoscută.

Inferență Statistică• Estimarea Determinarea parametrului unei

populații pe baza statisticii unuieșantion

• Testarea ipotezelor statistice Scop: a determina dacă există

suficientă evidență statistică pentru a susține o anumită afirmație făcutădespre un parametru al populațieistatistice

Inferență Statistică Estimare şi estimator

Estimarea este calcularea unei valori specifice a estimatorului.

Exemplu: Media eşantionului este un estimator al medieipopulaţiei. Când calculăm valoarea mediei eşantionului, acea valoare reprezintă o estimare a mediei populaţiei.

Estimator punctual - realizează inferenţe despre o populaţieprin estimarea valorii unui parametru necunoscut utilizând o singură valoare sau un punct.

Estimator al unui interval - realizează inferenţe despre o populaţie prin estimarea unui interval de variaţie în care esteprobabil ca valoarea parametrului să se afle.

Numim eroare de estimare valoarea absolută a diferenţei dintre estimaţia punctuală şi valoarea parametrului.

Estimații Deoarece aprecierea erorilor de estimare posibile, în cazul

estimaţiile punctuale, este suficient de laborioasă, s-a încercatdezvoltarea unei metode care să pună accentul pe probabilităţile de apariţie ale erorilor. Această metodă genericăeste metoda determinării intervalelor de încredere sau metodade estimare sub formă de interval.

Fie o populaţie statistică, caracterizată de o v.a. continuă X a cărei repartiţie depinde de un parametru , necunoscut. Problema este ca, pornind de la datele de sondaj ale unui eşantion de volum n, să se determine două limite între care valoarea parametrului să se afle cu o probabilitate fixată. Adică să se determine două statistici, 1 şi 2, astfel încât

P(1 2 ) punde p este o probabilitate independentă de parametrul .

58Facult

atea d

e Farm

acie

Page 59: Cursuri biostatistica 2015

Estimații

Prin definiţie, dacă se pot determina 1 şi 2

astfel încât pentru o valoare prestabilită(0<< 1) să aibă loc:

P( 1 2) 1

atunci intervalul (1, 2) se numeşte interval de încredere pentru parametrul necunoscut cu un coeficient (sau nivel) de încredere egal cu , sau cu o siguranţă statistică S = 1–.

Valoarea se numeşte nivel (sau prag) de semnificaţie.

Estimații Dacă se repetă procedeul pentru eşantioane diferite,

atunci 100(1–)% dintre intervalele determinate vorconţine valoarea necunoscută a parametrului (evident că nu se va şti care sunt acele intervale).

Apare atunci necesitatea ca să fie cât mai mic, dar o dată cu micşorarea lui se măreşte lungimea intervalului, deci erorile de estimare sunt mai mari.

Uzual se alege = 0,05 sau = 0,01. Dacă atât 1 cât şi 2 sunt finite, atunci intervalul de încredere este

bilateral. În cazul când 1 este - sau 2 este +, ceea ce revine, în fapt, la

determinarea unei singure limite, intervalul este unilateral.

EstimațiiIntervale de încredere pentru valoarea medie Fie o populaţie statistică caracterizată de o v.a. X repartizată

normal, cu parametrii şi 2, X ~ N(, 2 ). Presupunem că s-au obţinut dintr-un eşantion de volum n, media

de sondaj ̅ și dispersia de sondaj s2.Fixăm pragul de semnificatie .

Limitele unui interval de încredere depind atât de eşantion, cât şide cunoașterea sau nu, a dispersiei populaţiei.

Dacă dispersia, 2, este cunoscută, intervalul de încredere:̅ μ ̅ Dacă dispersia, 2 nu este cunoscută și <30:̅ , μ ̅ ,Dacă numărul de grade de libertate este > 30, atunci poate

fi aproximat cu .

EstimațiiIntervale de încredere pentru valoarea medie

59Facult

atea d

e Farm

acie

Page 60: Cursuri biostatistica 2015

EstimațiiIntervale de încredere pentru dispersie

Fie o populaţie normală sau aproximativ normală, cu parametrii şi 2 necunoscuţi. Se demonstrează că intervalul de încredere bilateral pentru dispersia populaţiei, cu încrederea statistică de 1–, este dat de

unde n este volumul eşantionului, s2 este dispersia de sondaj, iar / 2; şi 1 / 2; sunt valorile repartiţiei 2 de ordin /2, respectiv 1– cu = n–1 grade de libertate.

Estimații Este frecventă situaţia în care, pornind de la un eşantion de

volum n, cercetătorul este interesat de frecvenţa relativă(exprimată eventual procentual) a cazurilor care prezintă oanumită caracteristică.

Situaţia poate fi formalizată prin considerarea unei v.a. X,repartizată binomial, Bi(n; p), pentru care se consideră“succes” prezenţa caracteristicii dorite.

Pentru cazul eşantioanelor mari, sau mai precis cazul în carese poate aproxima repartiţia binomială prin repartiţia normală,se demonstrează că intervalul de încredere cu siguranţastatistică S = 1– este dat de

⁄ < ⁄unde fn este frecvenţa relativă a cazurilor “succes” din eşantionul de volum n, iar z/2 este valoarea critică a repartiţiei normale standardpentru ales.

Testarea ipotezelor statistice Testarea ipotezelor statistice este procedeul prin care

se poate respinge sau accepta o ipoteză făcută asupra unui parametru sau asupra unei distribuţii, ţinând cont de anumite reguli de decizie.

Ipoteza pe care dorim să o testăm se numeşte ipoteza nulă şi este notată H0.H0 nu există nici o diferenţă între valorile comparate.

Ipoteza pe care dorim să o testăm în opoziţie cu ipoteza nulă se numeşte ipoteza alternativă şi se notează cu H1.

H1: există diferenţe între valorile comparate.

Ipoteza alternativă este ipoteza care o acceptăm dacă, prin regula de decizie, se respinge ipoteza nulă.

Testarea ipotezelor statisticeErori de testare: Eroarea de tip I - este eroarea care se face când se

decide respingerea ipotezei nule H0 când în realitate aceasta este adevărată. Probabilitatea asociată erorii de tip I se notează cu α şi este numită prag de semnificaţie, sau riscul acceptat în luarea deciziei de respingere a H0 când H0 este adevărată.

Eroarea de tip II - este eroarea care se face când se decide acceptarea ipotezei nule H0 atunci când acesta este falsă. Probabilitatea asociată erorii de tip II este notată cu β şi reprezintă riscul acceptat în luarea deciziei că H0 este adevărată când H0 este falsă.

60Facult

atea d

e Farm

acie

Page 61: Cursuri biostatistica 2015

Testarea ipotezelor statistice Regiunea de respingere – sau regiunea critică este intervalul în

care se respinge ipoteza nulă H0, considerând ipoteza alternativă H1 adevărată. Se defineşte în acest context, un prag critic (inferior Li superior Ls), de la care o estimaţie tinde să confirme ipoteza H1 şi să respingă H0. Regiunii critice i se asociază o probabilitate α, cuprinsă în general între 0.01 şi 0.1.

Regiunea de acceptare – sau intervalul de încredere este un interval în care, pe baza unui test, nu se respinge ipoteza H0. Regiunii de acceptare a ipotezei H0 i se asociază o probabilitate 1 – α, numită şi coeficient de încredere.

H0: θ = θ0H1: θ ≠ θ0

H0: θ = θ0H1: θ > θ0

H0: θ = θ0H1: θ < θ0

Testarea ipotezelor statisticea) Stabilirea eșantionului (eșantioanelor) de lucrub) Formularea ipotezelor alternative (H0, H1)c) Alegerea testului statisticd) Specificarea pragului de semnificație = 0.01, 0.05 , 0.1e) Definirea regiunii critice (RC)f) Calcularea valorii statistice a testului (Zcalc, tcalc)g) Compararea valorii statistice a testului Zcalc sau tcalc, cu valoarea critică Zcr, respectiv tcr cu (n–1) grade de libertate pentru pragul de semnificație alesh) Luarea deciziei

Testarea ipotezelor statisticee) Definirea regiunii critice (RC)A. Statistica Z (n > 30, = 0.05)

Test unilateral dreaptazcr=NORM.S.INV(0.95)=1.645, RC=(1.645,+∞

Test unilateral stângazcr=NORM.S.INV(0.05)= -1.645, RC=(-∞,-1.645

Test bilateralzcr=NORM.S.INV(0.975)= 1.96, RC = (-∞, -1.96)U(1.96, +∞)

B. Statistica T (n < 30, = 0.05)- Valorile critice ale repartiției Student cu grade de libertate (= n-1), n=15

Test unilateraltcr=TINV(2*0.05,14)=1.761, RC=(1.761,+∞ , RC=(-∞,-1.761

Test bilateraltcr=TINV(0.05,14)= 2144, RC = (-∞, -2.144)U(2.144, +∞)

Testarea ipotezelor statistice. Teste parametricef) Calcularea valorii statistice a testului (Zcalc, tcalc)Ipoteza H0 este strict legată de un parametru al populaţiei, iar statistica testului are o repartiţie cunoscută tocmai din această ipoteză.

61Facult

atea d

e Farm

acie

Page 62: Cursuri biostatistica 2015

Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiA. Grupuri independente

H0: NU există diferențe semnificative între valoarea medie a variabilei X dineșantionul E1 și valoarea medie a variabilei X din eșantionul E2. ( = .H1: Există diferențe semnificative între valoarea medie a variabilei X dineșantionul E1 și valoarea medie a variabilei X din eșantionul E2. ( ≠ . pentru eşantioane de volum mare (n1 ≥ 30, n2 ≥ 30) se foloseşte

statistica Z (ce urmează o distribuţie de probabilitate normală):

- când şi sunt cunoscute, statistica Z este:

- când şi sunt necunoscute, statistica Z este:

Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiA. Grupuri independente

Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiB. Grupuri dependente

Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiLuarea deciziei dacă valoarea numerică calculată a statisticii (Zcalc sau tcalc) cade

în RC (Zcalc > Zcr sau tcalc>tcr ), respingem ipoteza nulă H0 înfavoarea ipotezei alternative H1

dacă valoarea statisticii (Zcalc sau tcalc) NU cade în RC (Zcalc < Zcrsau tcalc<tcr ), acceptăm ipoteza nulă H0 cu o încredere de 1-

Observație: O serie de programe de prelucrare statistică furnizează valoarea p-value (probabilitatea asociata valorii statistice a testului). Astfel: (1) dacă p < atunci se poate afirma că există o diferență

semnificativă între valoarea ipotetică a parametrului şi valoareaobținută pe baza datelor observate (se respinge H0 și se acceptă H1 ).

(2) dacă p > atunci nu se poate spune că există o diferențăsemnificativă între valoarea ipotetică şi valoarea rezultată dindatele observate (se acceptă H0).

62Facult

atea d

e Farm

acie

Page 63: Cursuri biostatistica 2015

Testarea ipotezelor statistice. Testul StudentCalcularea probabilitatii (p) asociate valorii statistice a testului=T.TEST(array1,array2,tails,type)

Funcția T.TEST se introduce într-o celulă oarecare specificând în ordine:

a) zonele care conțin datele celor două serii de valorib) valoarea: 1 sau 2 – pentru a indica dacă testul este cu un capăt (unilateral) sau cu două capete (bilateral)c) tipul testului: 1, 2 sau 3

1 - dacă grupurile sunt dependente2 - dacă grupurile sunt independente şi se presupune că populațiile au aceeaşi dispersie3 - dacă grupurile sunt independente şi se presupune că populațiile au dispersii diferite

Testarea ipotezelor statistice. Testul StudentGrupuri independente Grupuri dependente (perechi)

Luarea deciziei(1) dacă p < atunci se repinge ipoteza nulă H0 şi se acceptă ipoteza alternativăH1. Prin urmare există o diferență semnificativă între mediile caracteristicii în celedouă populații.(2) dacă p > atunci se acceptă ipoteza nulă H0. Prin urmare nu există o diferență semnificativă între mediile caracteristicii în cele două populații.

Obs. Dacă testul este cu două capete, atunci în cazul respingerii ipotezei H0 se considerăcă există diferențe între mediile celor două caracteristici fără a se specifica care dintre celedouă medii este mai mare.Dacă testul este cu un capăt, atunci în cazul respingerii ipotezei H0 este clar care dintre mediile celor două populații este mai mare.

=T.TEST(A3:A12,B3:B12,2,2) =T.TEST(A3:A14,B3:B14,2,1)

Testarea ipotezelor statistice. Testul StudentGrupuri independente Grupuri dependente (perechi)

Utilizarea testului t în analiza comparativă a medicamentelor La compararea efectului a două medicamente, la

compararea rezultatului determinărilor analitice cu valoare impusă de standardul de control asupra medicamentului precum şi în multe alte situaţii, apar rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale.

Ne punem întotdeauna problema dacă, diferenţele constatate în practică sunt “semnificative” sau nu. Deoarece rezultatele provin din testarea unor eşantioane reduse, nu putem fi niciodată siguri în ceea ce priveşte parametrii întregii populaţii. Totuşi, asumându-ne un risc mai mare sau mai mic, trebuie să luăm decizii.

63Facult

atea d

e Farm

acie

Page 64: Cursuri biostatistica 2015

Dacă, de exemplu, dozăm cantitatea de substanţă activă din 10 comprimate care provin dintr-o şarjă de 1.000.000 de comprimate, alegerea celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un eşantion reprezentativ pentru întreaga şarjă. Problema este dacă, în funcţie de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea celor 10 valori, putem spune, asumându-ne un anumit risc, că valoarea medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată. În acest caz aplicarea testului t în verificarea ipotezei asupra mediei, este imediată.

La compararea mediilor a două selecţii independente, numite în experimentele cu medicamente “grupuri paralele”, o atenţia deosebită trebuie acordată verificării independenţei efective a acestora. De exemplu la testarea efectelor unui medicament asupra unui grup de pacienţi în comparaţie cu un alt grup ce se numeşte placebo, trebuie avut în vedere că pacienţii să nu se influențeze ca urmare a discuţiilor între ei. Dacă loturile sunt de animale ce trăiesc în aceiaşi cuşcă, medicamentul poate favoriza sau din contră, defavoriza un grup în lupta animalelor pentru hrană şi adaugă efecte suplimentare asupra rezultatelor finale ale testului.

Un caz foarte frecvent în testările comparative ale efectelor sau nivelelor plasmatice ale medicamentelor, este acela al observaţiilor pereche, când lotul de subiecţi trataţi se constituie ca propriul martor. Acestea oferă unele avantaje asupra experimentului pe grupuri paralele.

În primul rând, în experimentul pe grupe paralele, variabilitatea rezultă din diferenţele de răspuns la medicament între cele două grupuri, aşa numita “intervariabilitate”. În experimentul pereche apare “intravariabilitatea”, variabilitatea în răspunsul aceluiaşi subiect la două tratamente diferite şi avem motive să presupunem că aceasta este mai mică, de regulă decât intervariabilitatea. Teoretic, intervariabilitatea include şi intravariabilitatea şi deci nu poate fi mai mică decât aceasta. Din aceste motive, testul pereche oferă avantajul unei variabilităţi mai mici.

Testul pereche oferă avantajul că lotul poate fi mai mic. În experimentul pe grupe paralele, de exemplu două loturi de 10 subiecţi primesc două medicamente diferite. În experimentul pereche numai 10 subiecţi pot primi în prima administrare un medicament şi în a doua perioadă al doilea medicament.

Desigur că acestă cuplare nu este întotdeauna posibilă. Când dozăm cantitatea de substanţăactivă din comprimate sau determinăm timpul de dizolvare, acestea sunt consumate în timpultestării.

Testul pereche prezintă dezavantajul că între cele două tratamente trebuie să existe o perioadadestul de lungă pentru ca primul medicament administrat să se elimine din organism care, încazul medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu piroxicamul, depăşeşte30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada între cele douaadministrari, de mai multe luni. În aceste situaţii se prelungeşte destul de mult timpul pentrudefinitivarea studiului.

Deasemenea, efectul primului medicament, în cazul că experimentele se fac pe pacienţi, poateduce la o îmbunătăţire a stării de sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea tratament.

Testarea ipotezelor statistice. Teste neparametriceTestul Testul CHI este un test neparametric ce poate compara două sau mai multe repartiții de frecvențe, dintre care unase consideră lot martor și alta lot experimental, provenitedin aceeași populație, dar având o caracteristică diferită, de exemplu:- copii vaccinati și nevaccinati antigripal, îmbolnăviți sau nu;- bolnavi tratați sau netratați cu medicamentul X,

nevindecați sau vindecați;- copii decedați sau vindecați de tuse convulsivă, tratați la

domiciliu sau la spital; etc.Testul CHI se aplică numai în acele situații cândevenimentele așteptate se exclud unul pe celălalt, în sensulcă nu este posibil să se producă decât unul dintre ele.

64Facult

atea d

e Farm

acie

Page 65: Cursuri biostatistica 2015

Testarea ipotezelor statistice. Teste neparametrice. Testul

Etapele aplicării testului CHI:1. Culegerea și înregistrarea datelor studiului:

Subiecții sunt clasificați ca bolnavi sau nu, expuși la un anumitfactor de risc sau nu, etc.

se stabilește numărul de subiecți care fac parte din fiecare clasă

2. Formularea ipotezelor alternative (H0, H1)H0: Între cele două caracteristici studiate NU există o asociere(o legatură).H1: Există o asociere (o legătură) între cele două caracteristicistudiate.

3. Specificarea pragului de semnificație = 0.01, 0.05, 0.14. Stabilirea numărului gradelor de libertate (gl) a testului *

gl = (Nr.Rânduri -1)*(Nr.Coloane -1)5. Calcularea valorii statistice a testului ( calc) *

Testarea ipotezelor statistice. Teste neparametrice Testul 6. Calcularea probabilității asociate valorii statistice a testului (p)

=CHISQ .TEST(actual_range, expected_range) sau=CHITEST(actual_range, expected_range)

Valoarea unei celule din matricea valorilor estimate este egală cu produsul dintre suma valorilor de pe linia și suma valorilor de pe coloana matricei datelor test, totul împărțit la suma tuturor

Luarea deciziei(1) dacă p < atunci se respinge ipoteza nulă H0 şi se acceptă

ipoteza alternativă H1, (2) dacă p > atunci se acceptă ipoteza nulă H0,

Testarea ipotezelor statistice. Teste neparametrice Testul * Stabilirea numărului gradelor de libertate (gl) a testului

gl = (Nr.Randuri -1)*(Nr.Coloane -1)* Calcularea valorii statistice a testului ( calc)

=CHIINV(probability=p, degrees_freedom)* Stabilirea valorii critice a testului ( cr) pentru considerat

1. =CHIINV(probability=, degrees_freedom)2. Din tabelul valorilor critice ale testului cu pragul de

semnificație și gradele de libertate (gl)

Varianta 2

Luarea deciziei(1) dacă calc > cr atunci se repinge ipoteza nulă H0 şi se

acceptă ipoteza alternativă H1, (2) dacă calc < cr atunci se acceptă ipoteza nulă H0,

Testarea ipotezelor statistice. Teste neparametrice Testul Aplicație. Mortalitatea postoperatorie la bolnavii de ulcer gastric, în cazul utilizării mai multor tehnici de rezecție gastrică.

H0: NU există o asociere (o legătură) între mortalitatea postoperatorieși tehnicile chirurgicale utilizate.H1: Există o asociere (o legătură) între mortalitatea postoperatorie șitehnicile chirurgicale utilizate.

Deoarece p = 0,47 > 0,05 se acceptă ipoteza nulă H0. Prin urmare, nu există o asociere între numărul de decese și tehnica chirurgicală folosită.

Se poate face o asociere între numărulpersoanelor decedate și tehnica derezecție utilizată?

65Facult

atea d

e Farm

acie

Page 66: Cursuri biostatistica 2015

Regresie și corelație

Curs 10

Context Statistica dispune de o seamă de metode de

studiere a dependenţelor (legăturilor) dintre două sau mai multe variabile. Printre acestea sunt şi cele cuprinse în "analiza de regresie şi corelaţie".

În cadrul acesteia se studiază dependenţa dintre o variabilă (caracteristică) rezultativă (y) şi una sau mai multe variabile (caracteristici) independente (x).

Caracteristica rezultativă se mai numeşte caracteristica dependentă, endogenă sau efect, iar caracteristica independentă se mai numeşte caracteristica factorială, exogenă sau cauză.

Regresia ne arată cum (ca formă analitică) o variabilă este dependentă de altă variabilă (sau de alte variabile), iar corelaţia ne arată gradul în care o variabilă este dependentă de o altă variabilă (sau alte variabile).

Clasificăria) după numărul caracteristicilor independente luate în studiu:- legături simple - legături multiple b) după direcţia legăturilor:- legături directe - legături inverse c) după expresia analitică a legăturilor:- legături liniare- legături neliniare (curbilinii) d) după metodele de abordare:- metode simple (elementare)- metode analitice

IntroducereMetode de regresie şi corelație pentru variabile cantitative de tip interval

Metoda de regresie şi corelaţie se bazează pe determinarea unei ecuaţii matematice ce descrie relaţia dintre variabila care va fi prognozată, denumită variabilă dependentă (notată cu y) şi variabilele care sunt legate de această variabilă, denumite variabile independente (notate cu x1, x2,..., xk).

Relaţia funcţională estey = f (x1, x2,..., xk)

66Facult

atea d

e Farm

acie

Page 67: Cursuri biostatistica 2015

Modelul de regresie

Modelul de regresie este un model probabilist (saustohastic) deoarece variabilele modelului sunt variabile aleatoare (sau variabile stohastice).

Pentru a crea însă un model probabilist trebuie mai întâi să creăm un model determinist, care să stabilească, cu ajutorul unei relaţii funcţionale, legăturile dintre variabilele modelului.

Modelul de regresie

Modelul de regresie liniar (de ordinul I) va avea forma:

unde: y = variabila dependentă x = variabila independentă = intersecţia cu axa Oy (intercept) = panta (coeficientul unghiular) = variabila de eroare

Modelul de regresie

Pentru estimarea coeficienţilor şi ai modelului de regresie liniar se utilizează următorul algoritm:

[1]: Se extrage un eşantion de valori (xi, yi) din populaţia analizată;

[2]: Se calculează coeficienţii şi [3]: Se reprezintă dreapta de regresie. Coeficienţii şi ai modelului de regresie

liniar se determină cu ajutorul metodei celor mai mici pătrate.

Modelul de regresie

Am menţionat anterior şi am analizat modelul de regresie liniar.

În practică, există numeroase situaţii când modelul liniar nu este adecvat, utilizându-se modele de regresie neliniare.

Acestea pot fi modelate fie prin funcţii polinomiale de grad ≥ 2 sau prin funcţii exponenţiale sau logaritmice.

67Facult

atea d

e Farm

acie

Page 68: Cursuri biostatistica 2015

Metoda celor mai mici pătrate

Metoda celor mai mici pătrate determină dreapta care minimizează suma

unde: yi sunt valorile observate sunt valorile calculate pe baza ecuaţiei dreptei

de regresie

Metoda celor mai mici pătrate

Metoda celor mai mici pătrate

Metoda celor mai mici pătrate

Coeficienţii şi se determină cu relaţiile

unde:

Metoda celor mai mici pătrate. Dreapta de regresie

R2 = coeficient de determinare (ia valori între 0 si 1)R2 arată cât de apropiate se află punctele de dreapta determinată

41,14% din variația (împrăștierea) uneia din cele două variabile estedeterminată de variația celeilalte variabilesau:cele două variabile au în comun 41,14% din variația ce le caracterizează, restul până la 100% din variabilitatea lor 58,86% provine din alte surse68Fac

ultate

a de F

armac

ie

Page 69: Cursuri biostatistica 2015

Măsurile numerice ale dependenţei liniare Am descris anterior în mod grafic, cu ajutorul

diagramei de împrăştiere, legătura sau dependenţa dintre două variabile.

Dacă valorile reprezentate se situau aproximativ în apropierea unei drepte ce putea fi trasată aveam o dependenţă liniară.

Vom determina în continuare măsurile numerice ale dependenţei liniare, şi anume: covarianţa corelaţia

Definiţie Covarianţa unei populaţii statistice este prin definiţie:

Covarianţa unui eşantion statistic este prin definiţie:

Măsurile numerice ale dependenţei liniare

Dacă cov(x,y) > 0, atunci avem o dependenţă liniară pozitivă între variabilele analizate

Dacă cov(x,y) < 0, atunci avem o dependenţă liniară negativă între variabilele analizate

Dacă cov(x,y) = 0, atunci nu avem o dependenţă liniară între variabilele analizate

Măsurile numerice ale dependenţei liniare

c) cov(x,y) = 0b) cov(x,y) < 0a) cov(x,y) > 0

y

x

y

x

y

x

Definiţia: Coeficientul de corelaţie al unei populaţii statistice este prin definiţie:

unde x şi y sunt abaterile standard.Coeficientul de corelaţie al unui eşantion statistic

este prin definiţie:

unde sx şi sy sunt abaterile standard.

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

69Facult

atea d

e Farm

acie

Page 70: Cursuri biostatistica 2015

Coeficientul de corelaţie al eşantionului(coeficientul Pearson) poate fi determinat şi cu o relaţie de calcul prescurtat:

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

Corelaţia şi dependenţa liniară

y

x

y

x

y

x

a) r(x,y) → 1 b) r(x,y) → 1 c) r(x,y) → 0

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

Pentru a afla dacă două variabile studiate sunt corelate sau nu,formulăm următoarele ipoteze statistice:- ipoteza nulă (H0): cele două variabile nu sunt corelate- ipoteza alternativă (H1): cele două variabile sunt corelate

Procedeu de lucru:• Se calculează coeficientul de corelație r• Se calculează numărul gradelor de libertate (gl):

gl = nr. perechilor de date – 2• Se alege un nivel de semnificație: 0.10, 0.05, 0.02, 0.01.• Pentru nivelul ales se citeşte din tabel valoarea critică (rcr)corespunzătoare numărului de grade de libertate.

Interpretare:• Dacă r > rcr se respinge ipoteza H0 şi se acceptă ipoteza H1 cu nivelul de semnificație respectiv (p < alfa).• Dacă r < rcr atunci cele două variabile sunt considerate necorelateşi se acceptă ipoteza H0 (p > alfa). 70Fac

ultate

a de F

armac

ie

Page 71: Cursuri biostatistica 2015

Măsurile numerice ale dependenţei liniare. Coeficientul de corelație

Tabelul 1. Valoarea critică a coeficientului decorelație pentru nivele diferite de semnificație:0,10; 0,05; 0,02; 0,01

Interpretare: = 0.05gl = 17rcr = 0.4555r = 0,6414 > rcrse respinge H0 şi se acceptă H1.Cele două variabile studiate sunt corelate.

Coeficientul de corelație în EXCEL=CORREL(Array1, Array2)

Evaluarea modelului de regresie Variabila de eroare , care apare în modelul de

regresie trebuie să satisfacă următoarele condiţii:

[1] Distribuţia lui este normală;[2] Valoarea medie a lui este 0, adică

M[]=0;[3] Abaterea standard a lui respectiv , este

constantă faţă de valorile lui x;[4] Valoarea lui asociată unei valori y este

independentă de altă valoare a lui y.

În modelul de regresie, abaterile valorilor observate de la dreapta de regresie

se numesc valori reziduale. Suma pătratelor acestor valori reziduale este:

Evaluarea modelului de regresie

Estimatorul nedeplasat al dispersiei variabilei de eroare

este dat de relaţia:

Rădăcina pătrată a lui s se numeşte eroarea standard a estimării, adică

Evaluarea modelului de regresie

71Facult

atea d

e Farm

acie

Page 72: Cursuri biostatistica 2015

Coeficientul de determinare R2 măsoară intensitatea dependenţei liniare dintre două variabile şi este dat de relaţia:

Coeficientul de determinare este pătratul coeficientului de corelaţie, adică

Evaluarea modelului de regresie O altă metodă de evaluare a modelului de

regresie este analiza reziduală.

O primă abordare este reprezentarea grafică, cu ajutorul histogramei frecvenţei relative a valorilor reziduale.

Cerinţa este ca histograma valorilor reziduale să pună în evidenţă normalitatea, ceea ce ne arată faptul că eroarea este distribuită normal.

Evaluarea modelului de regresie

Cerinţa ca dispersia variabilei de eroare să fie

constantă se numeşte homoscedasticitate.

Nerespectarea acestei cerinţe privind constanţa dispersiei se numeşte heteroscedasticitate.

Alte elemente de evaluare ale modelului de regresie se referă la independenţa saudependenţa variabilelor şi la prezenţa sau nu a valorilor extreme.

Evaluarea modelului de regresie

Dacă modelul de regresie este adecvat, putem să îl utilizăm pentru a face o prognoză sau o predicţie asupra valorilor variabilei dependente.

Pentru valoarea x0 dată, valoarea de predicţie punctuală este

obţinută prin înlocuirea valorii date în ecuaţie de regresie.

Evaluarea modelului de regresie

72Facult

atea d

e Farm

acie

Page 73: Cursuri biostatistica 2015

Pentru predicţia asupra unei valori individuale ale variabilei dependente, dată fiind o valoare specificată x0 a variabilei independente se utilizează intervalul de predicţie de forma:

unde:

Evaluarea modelului de regresie

Pentru estimarea valorii medii a variabilei dependente, dată fiind o valoare specificată x0a variabilei independente se utilizează intervalul de încredere de forma:

unde:

Evaluarea modelului de regresie

Evaluarea modelului de regresieDeterminarea coeficienților drepteide regresie utilizând Regressiondin modulul Data Analysis.

Evaluarea modelului de regresie

Intervalul de încredere pentru coeficientul lui x (greutate) din funcția de regresie nu conține pe 0, deci se poate afirma ca există o corelațiesemnificativă între cele două variabile.

73Facult

atea d

e Farm

acie

Page 74: Cursuri biostatistica 2015

Regresie Multiplă

Biostatistică

Curs 11

În foarte multe cazuri, modelul de regresie simplă nu explicăsuficient de bine legatura variabilei dependente de variabilaindependentă. R2 este prea mic si ε este prea mare pentru a da veridicitate modelului.

Situația se datorează de cele mai multe ori neglijării unorfactori suplimentari de influență.

Luarea în considerare corectă a acestora aduce o creștereconsiderabilă a preciziei modelului.

Se poate cuantifica astfel contribuția fiecarui factor la explicarea variabilei dependente

Factorii suplimentari de influență semnificativi (alte variabileindependente) trebuie identificați cu atenție și validați ca atareprin construcția modelului.

LIMITĂRILE REGRESIEI SIMPLE

Într-un lanț de farmacii, remunerarea personalului estede așteptat sa fie proporționalăcu experiența fiecărui angajat(nr de ani în meserie). Dorindsa verifice acest lucru, managerul unității colecteazădatele referitoare la 12 farmaciști aleși aleator (tabelulalăturat) și construiește un model de regresie liniarăsimplă.

Exemplu

Angajat#

Venit lunar(lei)

Experienta(ani)

1 1650 32 1280 13 2420 184 3180 155 1920 66 1500 27 3430 128 2220 129 4210 22

10 2240 711 1860 512 1940 4

Modelul obținut nu este satisfăcător (coeficientul de determinare R2 este destul de redus iar depărtareapunctelor de dreapta-model este cam mare). Nivelulsalariului nu este explicat suficient de vechimea în meserie. Managerul încearca să gasească explicații pentruaceasta în influența altor factori asupra retribuției.

Exemplu-rezolvare

y = 112.13x + 1321R² = 0.7689

0

500

1000

1500

2000

2500

3000

3500

4000

4500

0 5 10 15 20 25

Venit lunar (lei)

Venit lunar (lei)

Linear (Venit lunar (lei))

74Facult

atea d

e Farm

acie

Page 75: Cursuri biostatistica 2015

Este o generalizare a modelului de regresie simplă. Modelul construit în acest fel conține mai multe variabileindependente (predictori, variabile explicative). Pentruvariabila dependenta Y și un număr de k variabileindependente X1, X2,…, Xk, modelul de bază este:

Y=β0+ β1*X1+ β2*X2+…..+ βk*Xk+ε Putem astfel evalua influențele mai multor factori asupra

variabilei dependente (variabila de răspuns) care ne interesează.

Modelul poate fi utilizat pentru: Confirmarea si explicarea dependențelor Previzionare Identificarea factorilor de control cei mai eficienți

REGRESIA MULTIPLĂ

Pentru modelul :Y=β0+ β1*X1+ β2*X2+…..+ βk*Xk+ε

ordonăm eșantionul de n seturi de valori de care dispunem[Yi, X1i, X2i,…, Xki,] unde i=1,…,n

calculăm coeficienții ecuației unei suprafete într-un spațiu cu k dimensiuni de forma:

Y(X1,X2,…,Xk)=b0+ b1*X1+ b2*X2+…..+ bk* Xk

care indeplinește condiția∑|Yi, Y(X1i,X2i,…,Xki)| = min unde i=1,…,n

REGRESIA MULTIPLĂ modelul

Pentru modelul :Y(X1,X2,…,Xk)=b0+ b1*X1+ b2*X2+…..+ bk* Xk

calculul algebric manual al coeficienților b0,b1,….. bk esteextrem de laborios și expus erorilor. Se utilizeaza rutine de calcul furnizate de produse de software adecvate.

În Excel se folosesc functia LINEST și rutina REGRESSION. Aceasta din urmă folosete ea insăși functia LINEST, darintroducerea datelor nu cere manipulări vectoriale, iarrezultatele analizei sunt explicitate mult mai accesibil, sub forma tabelului ANOVA (Analysis of Variance).

CALCULUL COEFICIENȚILORNesatisfăcut de modelul de

regresie simplă construit, managerul unitătii identifică altăvariabila independentă care arputea influența salariulangajaților: nivelul de expertiză, exprimat în clasele 1-40 în care este încadrat fiecare angajat din eșantionul colectat. Dateleculese sunt în tabelul alăturat. Cu aceste date el construieșteun model de regresie multiplăcu 2 factori (vechimea în meserie si nivelul de expertiză).

Exemplu

Angajat #

Venitlunar

(lei)Experienta

(ani)

Nivelexpertiza

(1-40)1 1650 3 122 1280 1 83 2420 18 254 3180 15 325 1920 6 176 1500 2 157 3430 12 358 2220 12 209 4210 22 38

10 2240 7 2211 1860 5 1612 1940 4 19

75Facult

atea d

e Farm

acie

Page 76: Cursuri biostatistica 2015

Exemplu - comentarii rezultate

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.978071814R Square 0.956624473Adjusted R Square 0.946985467Standard Error 199.8732147Observations 12

ANOVA

df SS MS FSignifican

ce FRegression 2 7929547.9 3964773.97 99.245 7.37E-07Residual 9 359543.72 39949.302Total 11 8289091.7

CoefficientsStandard

Error t Stat P-valueLower 95% Upper 95%

Lower 95.0% Upper 95.0%

Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407Experienta (ani) 15.32418547 17.872374 0.85742304 0.4135 -25.1059 55.754305 -25.105934 55.75430463Nivel expertiza (1-40) 81.43728112 13.049062 6.24085313 0.0002 51.91825 110.95631 51.918251 110.9563107

Coeficientii b0,b1,b2

Coeficientul de determinare R2

(Trebuie sa fie cat mai apropiat de 1)

Variabila statistica F(Trebuie sa fie cat mai mare)

Modelul obținut este satisfăcător: coeficientul de determinare R2 a crescutde la 0.769 în modelul simplu la 0.957 în modelul multiplu. Aceastaînseamna că Experiența explică doar 77% din valoara venitului, întimp ce Experiență si Nivel expertiză explică 96%. F este foartemare iar p este mult mai mic decat α=1-Nivelul de incredere=1-0.95=0.05

Modelul este semnificativ statistic.

Nivelul observat de semnificatie p(Trebuie sa fie mai mic decat αales initial, adica 0.05)

Exemplu - comentarii rezultate

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.978071814R Square 0.956624473Adjusted R Square 0.946985467Standard Error 199.8732147Observations 12

ANOVA

df SS MS FSignificanc

e FRegression 2 7929547.9 3964773.97 99.245 7.37E-07Residual 9 359543.72 39949.302Total 11 8289091.7

CoefficientsStandard

Error t Stat P-value Lower 95% Upper 95%Lower 95.0% Upper 95.0%

Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407Experienta (ani) 15.32418547 17.872374 0.85742304 0.4135 -25.1059 55.754305 -25.105934 55.75430463Nivel expertiza (1-40) 81.43728112 13.049062 6.24085313 0.0002 51.91825 110.95631 51.918251 110.9563107

Oferă informații despre valorile estimate ale coeficienților modelului de regresie în coloana Coefficients, erorile standard ale coeficientilor în coloana Standard Error, elemente pentru aplicarea testului de semnificație t-Student pentru fiecare coeficient (coloanele t Stat si P-value.). Tot aici avem informații despre intervalele de încredere calculate pentru fiecare parametru din modelul de regresie.

Modelul de regresie simplăV=1321+112*E

sugerează ca un începător la angajare (E=0) ar trebui săcastige 1321 lei/lună, iar în fiecare an veniturile ar trebui să-icrească cu 112 lei/lună. Puțin probabil.

Modelul de regresie multiplă cu 2 factoriV=427+15.3*E+81.44*N

sugerează că un începator la angajare (E=0, N=0) ar trebui săcastige 427 lei/lună, în fiecare an veniturile ar trebui să-icrească cu 15.3 lei/lună dacă nu iși crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele 40) a nivelului de expertiză, veniturile ar trebui să-i crească cu 81.44 lei/lună

INTERPRETAREA MODELULUI

În cele mai multe cazuri variabilele independente suntmărimi măsurabile cantitativ. Dacă toate componentele eșantionului pe care îl modelăm au

același ordin de mărime, folosim valorile ca atare. Dacă avem de-a face cu cazuri semnificativ diferite ca ordine de

marime, folosim valori relative. (Ex: modelul care stabileste o legatură intreprofitul unei companii farmaceutice și factori precum cifra de afaceri, numărul de farmacii, numarul de personal, datorii, etc, este abordabil doar dacă toate mărimilesunt raportate la un indicator de scală, de ex mărimea activelor. În acest mod puteminclude în eșantion companii mari și companii mici)

Unii factori sunt mai degrabă calitativi (ex: supervizor sau nu, barbat/femeie, studii superioare sau nu, etc) sunt incluși în model sub forma binară (Ex: X3 =0 daca angajatul nu este supervizor, X3 =1 dacă angajatul este supervizor)

ALEGERA FORMEI VARIABILELOR INDEPENDENTE

76Facult

atea d

e Farm

acie

Page 77: Cursuri biostatistica 2015

Modelul cu 2 variabileindependente pare destul de precis, totuși managerul unitătiimai caută să identifice și altevariabile care ar puteainfluența veniturile. E convinscă poziția de supervizor are o influență semnificativă, șibanuiește că barbații și femeileprimesc tratamente diferite, acestea din urmă fiinddiscriminate. Pentru extindereaanalizei, completează datelebinare respective.

Exemplu

Angajat#

Venitlunar

(lei)Experienta

(ani)

Nivelexpertiza

(1-40)Supervizor

(da/nu)Barbat(da/nu)

1 1650 3 12 0 12 1280 1 8 0 13 2420 18 25 0 14 3180 15 32 1 15 1920 6 17 0 06 1500 2 15 0 17 3430 12 35 1 08 2220 12 20 0 19 4210 22 38 1 1

10 2240 7 22 0 011 1860 5 16 0 112 1940 4 19 0 0

Exemplu - comentarii rezultate

Coeficientii b0,b1, b2,b3,b4

Coeficientul de determinare ajustat R2

A

(Trebuie sa creasca la adaugarea unor factori semnificativi)

Variabila statistica F(Trebuie sa fie cat mai mare)

Modelul obținut este MAI BUN: coeficientul de determinare R2 a crescutde la 0.957 pentru 2 factori la 0.973 la 4 factori . F este foarte mare iarp este mic. Coeficientul de determinare ajustat R2

A a crescut de la 0.947 pentru 2 factori la 0.957 la 4 factori.

Modelul cu 4 factori este semnificativ statistic și superior modelului cu 2 factori.

Nivelul observat de semnificatie p(Trebuie sa fie mai mic decat αales initial, adica 0.05)

Regression StatisticsMultiple R 0.986261311R Square 0.972711374Adjusted R Square 0.957117874Standard Error 179.7609209Observations 12

ANOVA

df SS MS FSignifican

ce FRegression 4 8062893.7 2015723.44 62.379 1.48E-05Residual 7 226197.92 32313.9887Total 11 8289091.7

CoefficientsStandard

Error t Stat P-valueLower 95% Upper 95%

Lower 95.0% Upper 95.0%

Intercept 1054.995654 476.83388 2.21250146 0.0626 -72.5373 2182.5286 -72.537303 2182.528611Experienta (ani) 40.76562985 27.813553 1.46567503 0.1862 -25.003 106.53423 -25.002972 106.5342313Nivel expertiza (1-40) 37.4977339 31.238109 1.20038424 0.269 -36.3687 111.36412 -36.368657 111.3641244Supervizor (da/nu) 640.524865 345.89451 1.85179254 0.1065 -177.386 1458.4354 -177.38567 1458.435403Barbat (da/nu) -100.6697399 181.76215 -0.5538543 0.5969 -530.469 329.12944 -530.46892 329.1294362

Modelul de regresie multiplă cu 2 factoriV=427+15.3*E+81.44*N

sugerează că un începator la angajare (E=0, N=0) ar trebui sa castige 427 lei/lună, în fiecare an veniturile ar trebui să-i creasca cu 15.3 lei/lună dacănu își crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele40) a nivelului de expertiză veniturile ar trebui să-i crească cu 81.44 lei/luna.

Modelul de regresie multiplă cu 4 factoriV=1055+40.8*E+37.5*N+640.5*S-101*B

sugerează că un incepator la angajare (E=0, N=0) ar trebui să castige 1055 lei/luna, în fiecare an veniturile ar trebui să-i crească cu 40.8 lei/lună dacănu iși crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele40) a nivelului de expertiză veniturile ar trebui să-i crească cu 37.5 lei/lună. Când ar deveni supervizor, ar trebui să câstige în plus 670.5lei/lună. Dacă e barbat, castigă mai putin cu 101 lei/lună decât dacăar fi femeie.

INTERPRETAREA MODELULUI

Managerul care a construit modelul poate să-și facă o păreredacă sistemul de salarizare este echitabil și motivant: Abaterile individuale (erorile) față de model ar trebui minimizate, pentru

obținerea unei echităti acceptabile. Creșterea coeficientilor b2 si b3 ar aduce o stimulare pentru cresterea în

expertiză si dobândirea statutului de supervizor. Scăderea coeficientului b4, arelimina diferențele de tratament între sexe.

Pentru un nou angajat, introducerea în ecuația modelului a datelor sale personale conduce la stabilirea unui nivel de venituri în concordanță cu cele ale personalului existent.

Pentru evoluția în timp a veniturilor individuale, oricemodificare pentru un angajat ar trebui sa îl aducă maiaproape de valoarea furnizată de model.

Exemplu -UTILIZARI POSIBILE ALE MODELULUI

77Facult

atea d

e Farm

acie

Page 78: Cursuri biostatistica 2015

Sunt recomandate două tipuri de abordări ale modelării prinregresie multiplă:

Regresie cu pași înainte: se construiește un model de regresie simplă, apoi se introduc succesiv factorisuplimentari de regresie multiplă, supraveghind crestereasemnificației statistice și creșterea la fiecare pas a coeficientului de determinare ajustat R2

A. Când acestaîncepe să scadă cu creșterea numărului de factori, ultimulfactor introdus este eliminat ăi modelul ramâne în aceastăformî.

Regresie cu pași înapoi: se construiește cel mai complex model posibil și se elimină succesiv factorii care prindispariție fac să crească R2

A.

REGRESIA ÎN PAȘI

Câteva tipuri de cercetare utilizând regresia multiplă: Prețul unor produse legat de caracteristicile acestora Efectul timpului și duratei reclamelor asupra vânzarilor Consumul specific al unor vehicule în funcție de

caracteristicile lor Rezultatele școlare ale unor studenți funcție de diverse

caracteristici ale muncii depuse Costurile de mentenanță ale sftware-ului farmaceutic în

funcție de versiunea instalată și configurația sa Prețurile locuințelor în funcție de mai mulți factori Cheltuielile pentru o vacanță în funcție de mai mulți factori

EXEMPLE DE TIPURI DE PROBLEME DE REGRESIE MULTIPLĂ

ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)

(ANOVA)

ANALIZA DISPERSIONALĂ (ANOVA)

ANOVA unifactorială permite compararea mediilor a trei sau maimultor eşantioane (grupe) sau populații în vederea verificării dacăexistă sau nu diferențe semnificative între ele ca urmare a acțiuniiunui factor cauză (de exemplu tratament).Aplicarea analizei dispersionale impune:• condiția de independență (eşantioanele de efective n1, ..., nk sunt

selectate aleator şi independent din populațiile respective)• condiția de normalitate (populațiile din care se extrag

eşantioanele sunt distribuite normal)• condiția de homoscedasticitate (varianțele celor k populații sunt

egale între ele)

78Facult

atea d

e Farm

acie

Page 79: Cursuri biostatistica 2015

Analiza dispersională unifactorială Ipoteza nulă susţine egalitatea între mediile grupelor din colectivitatea

generală, alcătuite după variabila X:

Ipoteza alternativă susţine că cel puţin două medii ale grupelor nu sunt egale:

Se testează, deci, dacă diferentele intre mediile de grupă nu sunt prea mari pentru a fi puse doar pe seama întâmplării (a factorilor aleatori), iar dacă există cel puţin două medii semnificativ diferite, înseamnă că factorul de grupare X are o influenţă semnificativă asupra variabilei Y.

Mediile grupelor din colectivitatea generală sunt aproximate prin mediile grupelor din eşantion ( , ),

Analiza dispersională unifactorialăProcedeul presupune descompunerea varianței totale (VT) în două componente: varianța intergrupe (VE) şi varianța intragrupe (VR).

Analiza dispersională unifactorială

Varianţa dintre grupe (varianţa factorială, sistematică) arată influenţa factorului cauzal asupra variaţiei lui Y:

Varianţa din interiorul grupelor (varianța reziduală) exprimă influenţa factorilor aleatori asupra lui Y:

Varianţa totală reflectă influenţa tuturor factorilor (sistematici – X şi reziduali) asupra lui Y:

Analiza dispersională unifactorială

Pentru a asigura comparabilitatea varianţelor, ele sunt raportate la numărul gradelor de libertate, obţinându-se dispersii corectate: Dispersia corectată factorială (intergrupe)

Dispersia corectată reziduală (intragrupe)

79Facult

atea d

e Farm

acie

Page 80: Cursuri biostatistica 2015

Analiza dispersională unifactorială

Testul F (Fisher) este raportul între dispersia corectată factorială și cea reziduală

Presupuneri pentru aplicarea testului F: cele “r” grupe din eşantion sunt extrase aleator din cele “r”

grupe ale colectivităţii totale; Fiecare grupă din colectivitatea generală are o distribuţie

normală, iar abaterile medii pătratice ale acestora sunt egale:

Analiza dispersională unifactorială

Valoarea calculată a testului F se compară cu valoarea critică, corespunzătoare nivelului de semnificaţie α şi gradelor de libertate (r-1) şi (n-r): F α; r-1; n-r.

Regula de decizie este: Dacă Fcalc≤ F α; r-1; n-r , atunci se acceptă H0, deci mediile de grupă

nu diferă semnificativ unele de altele, iar eventualele diferenţe ce pot apare pot fi puse pe seama întâmplării. În acest caz, variabila Y este independentă de factorul de grupare X şi analiza dispersională este punctul final al analizei.

Dacă Fcalc> F α; r-1; n-r , atunci se acceptă H1, deci între mediile de grupă există o diferenţă semnificativă, care nu poate fi pusă pe seama acţiunii factorilor aleatori. În acest caz, variabila Y depinde semnificativ de factorul de grupare X şi trebuie aplicate în continuare metodele de analiză a legăturilor dintre variabile.

Aplicație

ANOVA

Source of Variation SS df MS F P-value F crit

Between Groups Ve 6.3705 ν1=r-1 2 3.185256 0.315492 0.732083 3.354131

Within Groups Vr 272.6 ν2=n-r 27 10.09615

Total Vt 278.97 ν=n-1 29

Nivel minim de semnificaţie ->prob. maximă cu care garantăm că H1 adev.

Varianța intergrupe

Varianța intragrupe

Varianța totală

Grade de libertate

Dispersie corec-tată sistematică

Dispersie corec-tată reziduală

Val. calc. a test F

Val. critică a test F

80Facult

atea d

e Farm

acie

Page 81: Cursuri biostatistica 2015

Concluzii

Modelele de analiză dispersională nu explică relaţia dintre variabile Verifică doar măsura în care valorile reale ale unei caracteristici se

abat de la valorile teoretice, precum şi măsura în care aceste variaţiisunt sau nu dependente de factorul/factorii de grupare.

Metoda analizei dispersionale poate fi utilizată atât înaintea, cât şidupă aplicarea metodelor corelaţiei şi regresiei statistice.

Testul F se poate utiliza şi pentru testarea validităţii modelului deregresie.

În general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluriale unei variabile categoriale (numite şi tratamente), dar, cum ceea ceeste valabil pentru o scală inferioară (nominală) este valabil şi pentruorice altă scală superioară (ordinală, de intervale, de rapoarte), analizase poate extinde.

81Facult

atea d

e Farm

acie