28
Recapitulare - Tipuri de date Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale Date ordinale – stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine Date nominale – codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine Date alfanumerice – nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri

Biostatistica MG - Cursul 5

  • Upload
    tranthu

  • View
    301

  • Download
    9

Embed Size (px)

Citation preview

Page 1: Biostatistica MG - Cursul 5

Recapitulare - Tipuri de date • Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea

arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale

• Date ordinale – stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine

• Date nominale – codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine

• Date alfanumerice – nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri

Page 2: Biostatistica MG - Cursul 5

Graficul Histogramă Poligonul frecvenţelor

Page 3: Biostatistica MG - Cursul 5

Tipuri de distribuţii

Distribuţie puternic asimetrică Distribuţie asimetrică

Distribuţie simetrică Distribuţie uşor asimetrică

Page 4: Biostatistica MG - Cursul 5

Curba Gauss - curba repartiţiei NORMALE

• Unul din cazurile cele mai importante este acela când repartiţia datelor respectă densitatea ideală - aşa numita repartiţie Gauss sau normală

Page 5: Biostatistica MG - Cursul 5

Curba Gauss

Page 6: Biostatistica MG - Cursul 5

Curba Gauss Coeficientul de inteligenţă

Media=100, Deviaţia standard=15

Page 7: Biostatistica MG - Cursul 5

Cursul 5 Corelaţia statistică

UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE

DIN CRAIOVA

Page 8: Biostatistica MG - Cursul 5

SUMAR

• Noţiunea de corelaţie statistică • Graficul Scatter

• Coeficientul de corelaţie Pearson - r • Interpretarea coeficientului de corelaţie

Karl Pearson (1856-1936) Francis Galton (1822-1911)

Page 9: Biostatistica MG - Cursul 5

Corelaţia - Definiţie • Este un termen general folosit pentru a defini

interdependenţa sau legătura dintre variabilele observate în populaţii statistice.

• Apare uneori cu un înţeles foarte larg, acoperind orice legătură statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de variabile.

• În sens restrâns este o măsură a gradului de legătură statistică dintre variabilele cantitative, sub numele de „coeficient de corelaţie”.

• Cel mai des folosit este coeficientul de corelaţie r al lui Pearson (coeficient de corelaţie liniară), care măsoară gradul de legătură între variabile.

Page 10: Biostatistica MG - Cursul 5

Graficul Scatter modalitate de vizualizare a relaţiei dintre 2 parametri

• Selectarea datelor • Meniul INSERT • Opţiunea Chart…

Graficul de tip scatter oferă informaţii privind Corelaţia

Omogenitatea Simetria

datelor reprezentate şi analizate

Page 11: Biostatistica MG - Cursul 5

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

VSH

2 or

e

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

Page 12: Biostatistica MG - Cursul 5

50

60

70

80

90

100

110

120

130

140

150

80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240

TA d

iast

olic

ă

TA sistolică

Corelaţia dintre TA sistolică si diastolică la pacienţi cu diferite afecţiuni hepato-renale

Page 13: Biostatistica MG - Cursul 5
Page 14: Biostatistica MG - Cursul 5
Page 15: Biostatistica MG - Cursul 5

2.5

3.0

3.5

4.0

4.5

5.0

5.5

115 120 125 130 135 140 145 150

K se

ric

Na seric

Corelaţia dintre sodiul şi potasiul seric la pacienţi cu diferite afecţiuni hepato-renale

Page 16: Biostatistica MG - Cursul 5

Coeficientul de corelaţie • Pentru două serii de date distribuite gaussian, cel

mai sintetic indicator al corelaţiei este coeficientul de corelaţie r al lui Pearson r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI

PRODUSUL DEVIAŢIILOR LOR STANDARD

sau

unde X=x1, x2,…,xn şi Y=y1, y2, ..,yn sunt valorile măsurate, iar

X̅ , Y ̅ sunt mediile de eşantionare ale seriilor respective.

Page 17: Biostatistica MG - Cursul 5

Coeficientul de corelaţie

• Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.

• Pătratul coeficientului de corelaţie, notat r2, reprezintă coeficientul de determinare între cei doi parametri şi are valori între 0 şi 1.

• Putem calcula intervalul de încredere de 95% pentru coeficientul de corelaţie Pearson - se consideră că r este semnificativ atunci când intervalul de încredere nu conţine valoarea 0.

Page 18: Biostatistica MG - Cursul 5

Interpretare

-1 …………………………….0……………………………….1

Corelaţie perfectă inversă-negativă

Corelaţie perfectă directă-pozitivă

Corelaţie nulă inexistentă

Semnul + sau – arată tipul (direcţia) relaţiei Valoarea numerică arată intensitatea relaţiei

Page 19: Biostatistica MG - Cursul 5

Interpretare

• În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una scade, şi cealaltă scade).

• În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două variabile corelate variază în sens contrar (când una creşte, cealaltă scade).

Page 20: Biostatistica MG - Cursul 5

IMC=greutate(kg)/ înălţime2(m)

y = 0.208x + 12.245 r = 0.670

15

20

25

30

35

40

45

50

40 60 80 100 120 140 160

IMC

Greutate

Corelaţia dintre greutate si IMC

y = -0.1173x + 48.37 r = - 0.239

15

20

25

30

35

40

45

50

135 145 155 165 175 185 195 205

IMC

Înalţime

Corelaţia dintre înalţime si IMC

Page 21: Biostatistica MG - Cursul 5

Interpretarea rapidă a coeficientului r

r є [0; 0.2] → corelaţie foarte slabă, inexistentă

r є [0.2; 0.4] → corelaţie slabă

r є [0.4; 0.6] → corelaţie rezonabilă

r є [0.6; 0.8] → corelaţie înalta

r є [0.8; 1] → corelaţie foarte înaltă - relaţie foarte strînsă între variabile sau eroare de calcul

Page 22: Biostatistica MG - Cursul 5

Exemple – seturi de date şi valori r

Dacă valoarea absolută a coeficientului de corelaţie este slabă (aproape de 0), nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile - legătura poate să existe, dar nu este liniară.

Page 23: Biostatistica MG - Cursul 5

OBSERVAŢII

• Pentru date care nu au o distribuţie gaussiană, dar care se pot ordona, fără a avea un număr mare de valori egale intre ele, putem folosi coeficientul ρ (rho) Spearman, obţinut prin testul neparametric Spearman de corelaţie a rangurilor.

• În cazul datelor ale căror ranguri egale depăşeşte 25% din numărul lor este indicate folosirea testului τ (tau) al lui Kendall.

Page 24: Biostatistica MG - Cursul 5

Teste statistice • Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice

ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt independente / valorile comparate nu diferă între ele

ipoteza H1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt dependente/ valorile comparate diferă între ele

• Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă probabilitate de a face o eroare dacă respingem ipoteza H0 a testului.

• Dacă p este mai mic decât pragul de semnificaţie α ales – de obicei α=0,05 - respingem ipoteza H0 şi admitem că este adevărată ipoteza H1.

• Interpretarea valorilor p se face la majoritatea testelor statistice astfel: p < 0.05, legătura statistică este semnificativă (S, încredere 95%). p < 0.01, legătura statistică este semnificativă (S, încredere 99%). p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%). p > 0.05, legătura statistică este nesemnificativă (NS).

Page 25: Biostatistica MG - Cursul 5

Semnificaţie statistică • Pentru a vedea daca valoarea lui r este semnificativă

statistic, deci dacă cei doi parametri sunt corelaţi, se poate calcula parametrul t, care, conform distribuţiei Student, se poate transforma într-o valoare care arată probabilitatea de eroare - p, considerând că avem N-2 grade de libertate (degrees of freedom - df , N = numărul de perechi de valori).

p < 0,05 - corelaţie semnificativă statistic între parametrii analizaţi

MS Excel ----- p=TDIST(t,df,nr_direcţii _ critice)

Page 26: Biostatistica MG - Cursul 5

ATENŢIE! • Ecuaţia de regresie este relaţia matematică care exprimă

dependenţa dintre două sau mai multe variabile. • Frecvent se foloseşte ecuaţia de regresie liniară =

dreapta de regresie: y = a·x +b

unde y este variabila dependentă iar x este variabila independentă.

Parametrul a (panta dreptei de regresie = „slope”) este denumit „coeficient de regresie”

– nu trebuie confundat cu „coeficientul de corelaţie”!!

• Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai mică eroare relaţia dintre variabile

• Estimarea parametrilor a („slope”) şi b („intercept”) se face uzual prin „metoda celor mai mici pătrate”

Page 27: Biostatistica MG - Cursul 5

y = 1.217 x + 10.456 r = 0.965

0

20

40

60

80

100

120

0 10 20 30 40 50 60 70 80 90 100

VSH

2 or

e

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

Page 28: Biostatistica MG - Cursul 5

Întrebări