142
INDICI DI TENDENZA INDICI DI TENDENZA CENTRALE E DI VARIABILITA CENTRALE E DI VARIABILITA

00 C - Epi - Biostatistica

Embed Size (px)

Citation preview

Page 1: 00 C - Epi - Biostatistica

INDICI DI TENDENZA INDICI DI TENDENZA CENTRALE E DI VARIABILITACENTRALE E DI VARIABILITA ’’

Page 2: 00 C - Epi - Biostatistica

Gli INDICI DI TENDENZA CENTRALE permettono di sintetizzare in un unico dato l’andamento generale di un fenomeno.

2 – GLI INDICI DI TENDENZA CENTRALE

Page 3: 00 C - Epi - Biostatistica

La distribuzione gaussiana (curva blu simmetrica) èl’espressione di una distribuzione normale di osservazioni che si discostano in maniera casuale e secondo un definito modello matematico da un valore centrale o “normale”.

3 – GLI INDICI DI TENDENZA CENTRALE

Page 4: 00 C - Epi - Biostatistica

MEDIA ARITMETICA PONDERATA

M. A. P. = (X1*f 1) + (X2*f 2) + (X3*f 3) +….(Xn * f n)

(f1+f2+f3+…fn)

Esempio:

Supponiamo che in una classe vi sono 10 ragazzi alti 180 cm., 5 ragazzi alti 175 cm. e 3 ragazzi alti 160 cm.

Se applicassimo la Media semplice otterremmo:

M = 180 + 175 + 160 / 3 = cm. 171

In realtà però non tutti i valori hanno la stessa frequenza (o peso). Bisogna quindi applicare la

M. A. P. = (180*10) + (175*5) + (160*3) / 10+5+3 = cm. 175

4 – GLI INDICI DI TENDENZA CENTRALE

Page 5: 00 C - Epi - Biostatistica

Le medie da sole non ci dicono se i valori esaminati sono molto discordanti

fra di loro o sono, piuttosto, vicini alla media stessa, presentando scarti piccoli.

Ad es. il numero 6 può derivare dalla media di 5+7=12 o di 1+11=12.

Il numero 6(media) nel I°caso deriva da numeri molto vicini alla stessa media,

mentre nel II° caso deriva da numeri molto discordanti (grande variabilità).

5 – GLI INDICI DI VARIABILITA’

Page 6: 00 C - Epi - Biostatistica

Σ ( x – m )2

n-1

DEVIANZA = E’ la sommatoria (Σ) del quadratodegli scarti fra ciascun valore (x) e la media (m).

Σ ( x – m )2

VARIANZA = E’ la vera media del quadrato degli scarti. Si ottiene dividendo la Devianza per il Numero n. di osservazioni – 1 (gradi di libertà).

DEVIAZIONE STANDARD(σ)= Esprime la media degli scostamenti dalla Media e permette di osservare la dispersione dei valori intorno alla stessa Media.

√Σ (x – m)2

n-1

ERRORE STANDARD(ER)= E’ una misura della variabilità dei valori nell’universo dal quale è estratto il campione: tanto più piccolo è l’ER quanto maggiore è il grado di certezza che la Media Campionaria si avvicini a quella reale della popolazione di riferimento.

σ

√ n

6 – GLI INDICI DI VARIABILITA’

Page 7: 00 C - Epi - Biostatistica

7 – DEVIANZA VARIANZA DEVIAZIONE STANDARD

Statura cm Scarti dalla Media Quadrato degli Scarti

Alunno X1 172Alunno X2 178Alunno X3 163Alunno X4 181Alunno X5 167Alunno X6 168Alunno X7 173Alunno X8 (n) 180

MEDIA =X1+X2+…Xn / n SOMMA ALG. SOMMATORIA172,8

172 - 172,8 =178 - 172,8 =163 - 172,8 =181 - 172,8 =167 - 172,8 =168 - 172,8 =173 - 172,8 =180 - 172,8 =

-0,85,3

-9,88,3

-5,8-4,80,37,3

0,0

-0,8 x -0,8 =5,3 x 5,3 =

-9,8 x -9,8 =8,3 x 8,3 =

-5,8 x -5,8 =-4,8 x -4,8 =0,3 x 0,3 =7,3 x 7,3 =

0,627,695,168,133,122,60,1

52,6

299,5

DEVIANZA = Σ (x – m ) 2 = 299,5

VARIANZA = DEVIANZA / n – 1 ovvero

Σ (x – m ) 2 / n -1 quindi 299,5 / 7 = 42,8

DEVIAZIONE STANDARD = √ Σ (x – m ) 2 / n -1 = √ 42,8 = 6,5

DEVIANZA

Page 8: 00 C - Epi - Biostatistica

Dati a distribuzione simmetrica: usare media e deviazione standaDati a distribuzione simmetrica: usare media e deviazione standard.rd.

Dati a distribuzione asimmetrica: usare mediana e percentiliDati a distribuzione asimmetrica: usare mediana e percentili

8 – DEVIAZIONE STANDARD

Page 9: 00 C - Epi - Biostatistica

99,73 %Proporzioni di valori compresi nell’intervallo di +/- 3 Dev. St. =

95,45 %Proporzioni di valori compresi nell’intervallo di +/- 2 Dev. St. =

68,27 %Proporzioni di valori compresi nell’intervallo di +/- 1 Dev. St. =

9 – DEVIAZIONE STANDARD

Page 10: 00 C - Epi - Biostatistica

ERRORE STANDARDERRORE STANDARD = DEVIAZIONE STANDARD = 6,5 = 2,3

√ n √ 8

L’ Errore Standard di una Media Campionaria quantifica il grado di certezza col quale la media, calcolata da un campione casuale, stima la vera media della popolazione dalla quale il campione èstato tratto: tanto più piccolo è l’ES quanto maggiore è il grado di certezza che la media del campione si avvicini a quella realedella popolazione di riferimento.

E dunque è legato a due fattori:

1) Al fatto che la variabilità del campione sia piccola (deviazione standard)

2) Al fatto che la numerosità del campione esaminato sia grande.

10 – ERRORE STANDARD

Page 11: 00 C - Epi - Biostatistica

I limiti fiduciali esprimono l’intervallo entro il quale può ricadere la vera media ignota della popolazione di riferimento.

Sono correlati all’Errore Standard: quanto più piccolo è l’ER, quanto più ristretti sono gli intervalli di confidenza dei limiti fiduciali.

Il calcolo dei L.F. è legato al livello di probabilità che si intende ottenere ( 95% o 99%).

Ad ogni livello di probabilità corrisponde un coefficiente che va moltiplicato per l’Errore Standard:

a) 1,96 per il livello di probabilità del 95%;

b) 2,57 per il livello di probabilità del 99%.

LF 95% = m +/LF 95% = m +/-- (1,96 * ES)(1,96 * ES)

Dove “m” è la media del campione, 1’96 è il coefficiente del livello di probabilità prescelto (95%) ed ES è l’errore standard.

Nell’esempio della statura degli alunni: LF 95% = 172,8 +/- (1,96 * 2,3)= 172,8 + / - 4,53 cioè LF s = 177,3 LF i = 168,2

11 – LIMITI FIDUCIALI (di una Media)

Page 12: 00 C - Epi - Biostatistica

PROVE DI SIGNIFICATIVITAPROVE DI SIGNIFICATIVITA ’’STATISTICASTATISTICA

Page 13: 00 C - Epi - Biostatistica

L'osservazione epidemiologica porta spesso a riscontrare delle differenze nelle medie, nelle frequenze e in altre caratteristiche di gruppi di "popolazioni" messi a confronto. Di fronte a queste evenienze è doveroso chiedersi se le differenze riscontrate siano dovute al puro caso o se scaturiscano da reali differenze delle "popolazioni" messe a confronto.

Se ad esempio si somministrano due tipi di vaccini diversi a due gruppi di popolazioni e si riscontra una migliore risposta in uno dei due gruppi è legittimo chiedersi se uno dei due vaccini è realmente più efficace o se, piuttosto:

1) le differenze siano dovute ad errori di campionamento;

2) le differenze siano dovute al caso.

Infatti le differenze potrebbero essere dovute ad errori di campionamento, nel senso che i due gruppi di popolazione potrebbero non essere omogenei in qualche caratteristica importante (ad esempio l'età), ovvero potrebbero scaturire dalla pura casualità. Nel primo caso occorre accertarsi della correttezza delle tecniche di campionamento (di cui si è già trattato), nel secondo caso ènecessario ricorrere alle "Prove di Significatività Statistica".

13 – LE PROVE DI SIGNIFICATIVITA’ STATISTICA

Page 14: 00 C - Epi - Biostatistica

14 - IPOTESI DI NULLITA’ E LIVELLI DI SIGNIFICATIVITA’

L'ipotesi che le differenze osservate siano dovute al puro caso èdefinita in epidemiologia "Ipotesi di Nullità". Dunque per poter accertare la significatività statistica di una osservazione occorre "rifiutare l'ipotesi di nullità". Per far ciò si confrontano i valori ottenuti attraverso le Prove di Significatività con appositi valori "critici" predeterminati. Se i valori ottenuti superano i valori critici la differenza osservata è statisticamente significativa e l'ipotesi di nullità è rifiutata.

Le Prove sono collegate a ben precisi Livelli di Significatività (di solito 5%), mentre la probabilità che le differenze osservate siano dovute al caso è espressa dal valore di "p". Una prova condotta con un "p < 0.01 sta a significare che la probabilità che la differenza osservata sia dovuta al caso èuguale a 1 su 100. Le Prove di Significatività più utilizzate sono riferite a:

a) Confronti tra Medie (T di Student, Analisi della Varianza)

b) Confronti tra Proporzioni (Test z)

c) Confronti tra frequenze (Chi quadro)

Page 15: 00 C - Epi - Biostatistica

15 - TEST “t” DI STUDENT (Confronto tra 2 Medie)

Il Test t di Student permette di verificare la significatività statistica della differenza osservata tra le medie campionarie di due gruppi. E’ espresso da:

t = differenza tra medie / errore standard differenza tra le medie.

Il valore ottenuto viene confrontato con un apposito valore critico, superato il quale la differenza osservata è da intendersi statisticamente significativa.

Il calcolo della Differenza tra le medie non rappresenta un problema (m1-m2). Piùcomplesso è il calcolo dell'Errore Standard della differenza tra le medie, che èespresso dalla radice quadrata della sommatoria delle due varianze dei due gruppi. Traducendo il concetto in formula si ha:

t = (m1 - m2) / RadQ { [(s1)2 / n1] + [(s2)2 / n2] }

dove m1 ed m2 sono le medie dei due gruppi messi a confronto, s1 ed s2 sono le deviazioni standard dei due gruppi ed n1 ed n2 rappresentano la numerosità dei due gruppi.

Dall'esame attento della formula si evince che il valore di t risulterà grande se:a) la differenza delle medie è elevata (m1-m2);b) la deviazione standard delle due medie è piccola;c) la numerosità dei due campioni è elevata.

Page 16: 00 C - Epi - Biostatistica

Il risultato ottenuto dovrà essere confrontato coi valori critici dell'apposita Tabella di Student, dove, in rapporto al numero di gradi dei gradi di libertà (n1-1 + n2-1), sono riportati i valori minimi che occorre raggiungere affinchè si possa affermare, con una probabilità superiore al 95% o, rispettivamente, al 99%, che la differenza riscontrata è "statisticamente significativa" (al livello del 95%), ovvero "altamente significativa" (al livello del 99%).

16 - TEST “t” DI STUDENT (La Tabella dei Valori Critici di t)

Gradi di p = 0.05 p = 0.01 Gradi di p = 0.05 p = 0.01libertà Liv. 95% Liv. 99% libertà Liv. 95% Liv. 99%

1 12,706 63,657 18 2,101 2,8782 4,303 9,925 19 2,093 2,8613 3,182 5,841 20 2,086 2,8454 2,776 4,604 21 2,08 2,8315 2,571 4,032 22 2,074 2,8196 2,447 3,707 23 2,069 2,8077 2,365 3,499 24 2,064 2,7978 2,306 3,55 25 2,06 2,7879 2,262 3,25 26 2,056 2,779

10 2,228 3,169 27 2,052 2,77111 2,201 3,106 28 2,048 2,76312 2,179 3,055 29 2,045 2,75613 2,16 3,012 30 2,042 2,7514 2,145 2,977 40 2,021 2,70415 2,131 2,947 60 2 2,6616 2,12 2,921 120 1,98 2,61717 2,11 2,898 infinito 1,96 2,576

ESEMPIO: Se i 2 gruppi sono composti rispettivamente da 4 e da 22 elementi, ed il risultato del "t" ottenuto è di 2,5, dovremo cercare i valori critici di confronto nella riga dei 24 gradi di libertà (cioè 4-1 più 22-1 = 24). Nella suddetta riga i valori critici sono:

Tabella dei Valori Critici di “t”

24 2,064 2,797

2,064 per un livello del 95%;

2,797 per un livello del 99%.

Pertanto il valore di "t" ottenuto (2,5) è > del valore del 95%.

Page 17: 00 C - Epi - Biostatistica

17 - TEST “t” DI STUDENT (Un Esempio)

Ripartiamo un campione di sangue tra due Laboratori (A e B) ed eseguiamo 10 conteggi di leucociti in ognuno. Quindi calcoliamo Medie, Varianze e Gradi di Libertà

LABO R ATO R IO "A" LABO R ATO R IO "B"

num ero num ero Scarti dalla Q uadrato num ero num ero Scarti dalla Q uadrato

conteggi leucociti M edia degli Scarti conteggi leucociti M edia degli Scarti

1 7.328 ## 1 6.8562 7.256 ## 2 7.6543 7.198 ## 3 6.8994 7.189 ## 4 7.0195 7.223 ## 5 6.7126 7.331 ## 6 7.5787 7.532 ## 7 6.9568 7.219 ## 8 6.7799 7.409 ## 9 7.397

10 7.347 ## 10 6.871

M edia 7.303 Som m a = M edia 7.072 Som m a =

"n" (N um erosità del C am pione) = "n" (N um erosità del Cam pione) =

M edia (som m a dei va lori / n) = M edia (som m a dei va lori / n) =

D evianza (som m a quadrato scarti) = Devianza (som m a quadrato scarti) =

Varianza (D evianza / n-1) = Varianza (Devianza / n-1) =

D ev.S tand.(radic.quadr.varianza) = Dev.S tand.(radic.quadr.varianza) =

D ifferenza tra le due M ed ie (Lab A e B ) =

G radi d i L ibertà (n.Lab.A-1 p iù n.Lab.B-1) =

25-47

-105-114

-8028

229-84106

44

6152.228

11.06713.042

6.432773

52.3497.090

11.1941.918

106.708

-216582

-173-53

-360506

-116-293325

-201

46.699338.608

29.9642.820

129.672255.935

13.47985.908

105.56040.441

1.049.085

10

7.303

106.708

11.856

109

10

7.072

1.049.085

1 1 6 .5 6 5

3 4 1

231

18

Page 18: 00 C - Epi - Biostatistica

18 - TEST “t” DI STUDENT (Un Esempio - 2/2)

A questo punto abbiamo i dati che ci servono per calcolare il "t" di Student e confrontarlo con i Valori Critici: la Differenza tra le due Medie, le due Varianze e i Gradi di Libertà: t = (m1 – m2) / RadQ { [(s1)2 / n1] + [(s2)2 / n2] };

t = (7.303 – 7.072) / RadQ [ (11.856 / 10) + (116.565 / 10) ] = 231 / RadQ(1.185,6 + 11.656,5) = 231 / RadQ 12.842,1 = 231 / 113,3 = 2,038.

A questo punto si può confrontare il valore di “t” ottenuto (2,038), con i valori critici della Tabella del t di Student nel rigo corrispondente a 18 gradi di libertà(cioè quelli derivanti dalla somma n-1 di A più n-1 di B, e dunque 10-1 più 10-1). Questi valori risultano essere 2,101 (95%) e 2,878 (99%). Pertanto si può concludere affermando che la differenza non è statisticamente significativa.

A (+ s) m1 (- s) (m1-m2) (+ s) m2 (- s)

(+ s) m1 (- s) B

(+ s) m2 (- s)

Nel Caso A la differenza tra ledue medie (m1-m2) è elevata(sì da lasciare un intervallo trail limite inferiore di m1 (-s) equello superiore di m2 (+s).Nel Caso B, pur essendouguale s è ridotta m1-m2.

Page 19: 00 C - Epi - Biostatistica

Differenza tra le medie e significativitDifferenza tra le medie e significativitàà ……

m1 m2+s - s +s - s(m1- s) > (m2+s)

(m1- m2)

(m1- m2)

(m1- s) < (m2+s)+s m1 - sm2 - s

+s

19 - TEST “t” DI STUDENT

Page 20: 00 C - Epi - Biostatistica

20 - ANALISI DELLA VARIANZA (Confronto tra più di 2 Medie)

Dal punto di vista concettuale l'Analisi della Varianza consiste nel mettere a confronto tra loro le due varianze fondamentali dell'analisi:

a) La Varianza "entro" i Gruppi;

b) La Varianza "tra" i Gruppi.

entro entro entrotra tra

La VarianzaVarianza entro gruppientro gruppi determina il grado di variabilità interna ai gruppi in studio. Le osservazioni hanno maggiore probabilità di risultare statisticamente significative quanto più ridotta è la variabilità interna ai gruppi (cioè fra i valori che compongono i gruppi e le loro medie). In caso contrario diventerebbe necessario incrementare il campione con un maggior numero di osservazioni.

La VarianzaVarianza tra gruppitra gruppi, invece, misura il grado di diversificazione tra le singole medie dei diversi gruppi di valori. Al contrario di prima, dunque, le differenze osservate hanno maggiore probabilità di risultare significative, quanto maggiore è lavarianza tra i gruppi.

Page 21: 00 C - Epi - Biostatistica

21 - ANALISI DELLA VARIANZA (Un Esempio – 1/8)

L'analisi della Varianza, dunque, consiste nel calcolare queste due Varianze e nel ricavare il rapportorapporto VarianzaVarianza "tra gruppi" /"tra gruppi" / VarianzaVarianza "entro gruppi""entro gruppi"che esprime il valore "F".

Se il valore Fvalore F del suddetto rapporto è alto e supera i Valori Critici di riferimento dell'apposita Tabella F, le differenze osservate risulteranno statisticamente significative.

Per spiegare le formule, ricorriamo ad un esempio.

Supponiamo di somministrare un diuretico a tre gruppi di persone:

il primo gruppo è costituito da 9 persone sane9 persone sane,

il secondo gruppo da 7 cardiopatici compensati7 cardiopatici compensati

il terzo gruppo da 55 nefropaticinefropatici.

Supponiamo, inoltre, che nelle 24 ore successive alla somministrazione si sia osservato un incremento della diuresi, secondo i valori di seguito riportati (in ml):

Page 22: 00 C - Epi - Biostatistica

22 - ANALISI DELLA VARIANZA (Un Esempio – 2/8)

Soggetti Sani Cardiopatici Nefropaticinumero Incremento numero Incremento numero Incremento

persone Diuresi persone Diuresi persone Diuresi

1 398 1 698 1 1882 361 2 627 2 2073 499 3 679 3 2184 328 4 593 4 1995 302 5 765 5 2076 383 6 743 Totale T 1.0197 407 7 7018 401 Totale T 4.8069 419

Totale T 3.498

Media M 389 Media M 687 Media M 204

La migliore risposta viene osservata a carico dei Cardiopatici, quella intermedia a carico dei Sani, quella peggiore a carico dei Nefropatici. A questo punto ci prefiggiamo di verificare se le differenze osservate sono significative.

Page 23: 00 C - Epi - Biostatistica

23 - ANALISI DELLA VARIANZA (Un Esempio – 3/8)

Innanzitutto, occorre calcolare la la Devianza Devianza "entro "entro gruppi"gruppi". Per far ciò occorre calcolare le singole Devianze dei tre gruppi (Somma del quadrato degli scarti dalla Media) e sommarle. Otteniamo i seguenti risultati:

persone Incremento Scarti dalla Quadrato

sane Diuresi Media degli Scarti

1 398 9 872 361 -28 7653 499 110 12.1734 328 -61 3.6805 302 -87 7.5116 383 -6 327 407 18 3368 401 12 1529 419 30 920

Media 389 Somma = 25.658

cardiopat. Incremento Scarti dalla Quadrato

Diuresi Media degli Scarti

1 698 11 1312 627 -60 3.5493 679 -8 574 593 -94 8.7565 765 78 6.1516 743 56 3.1847 701 14 208

Media 687 Somma = 22.036

nefropat. Incremento Scarti dalla Quadrato

Diuresi Media degli Scarti

1 188 -16 2502 207 3 103 218 14 2024 199 -5 235 207 3 10

Media 204 Somma = 495

48.18948.189

DEVIANZA ENTRO GRUPPIDEVIANZA ENTRO GRUPPI

TOT. Devianze

495Dev. Nefropat.

22.036Dev. Cardiopat.

25.658Dev. Sani

Page 24: 00 C - Epi - Biostatistica

24 - ANALISI DELLA VARIANZA (Un Esempio – 4/8)

A questo punto occorre calcolare la Devianza "tra gruppi"la Devianza "tra gruppi". Per far ciò occorre costruire la classica formula composta da due termini.

Il primo termine (o formula propriamente detta) è dato dalla somma dei quadrati delle medie (M) di ciascun gruppo, rispettivamente moltiplicate per la numerositàN del proprio gruppo:

11°° Termine = [(MTermine = [(M11))22* N* N1 1 ] + [(M+ [(M2 2 ))22 * N* N22 ] + + …… [([(MMnn ))22 * * NNnn ]

Il secondo termine (o fattore di correzione) è dato dal quadrato della somma semplice dei Totali T dei valori di ogni gruppo diviso la somma semplice della numerosità N di ogni gruppo:

22°° Termine = (TTermine = (T11 + T+ T2 2 + + …… TTnn))22 / (N/ (N11 + N+ N2 2 + + …… NNnn))

Si procede ora a sottrarre il 2° dal 1° termine e si ottiene la devianza tra gruppi:

Devianza Devianza ““Tra GruppiTra Gruppi”” = 1= 1°° Termine Termine –– 22°° TermineTermine

Page 25: 00 C - Epi - Biostatistica

25 - ANALISI DELLA VARIANZA (Un Esempio – 5/8)

ottenuti nei tre Gruppi

= (204)2 * 5

= (687)2 * 7

= (389)2 * 9

=

=

=

=

4.866.8904.866.890

207.672

3.299.662

1.359.556

Somma risultati

“Nefropatici”

“Cardiopatici”

“Persone Sane”1° Termine

4.138.9684.138.968== 86.918.329 / 21S T2 / S NNumNum././DenoDeno..

3.498=Totale T in ml“Persone Sane”NumeratoreNumeratore

4.806=Totale T in ml“Cardiopatici”

1.019=Totale T in ml“Nefropatici”

9.323=di tutti e tre i GruppiSomma Totali ml

86.918.329=dei Totali dei tre GruppiQuadrato somma

9=Numerosità N“Persone Sane”DenominatDenominat..

7=Numerosità N“Cardiopatici”

5=Numerosità N“Nefropatici”

di tutti e tre i Gruppi = 21

2° Termine

S Numerosità N

Page 26: 00 C - Epi - Biostatistica

26 - ANALISI DELLA VARIANZA (Un Esempio – 6/8)

Una volta calcolati 1° e 2° Termine è possibile calcolare la DevDev. Tra Gruppi. Tra Gruppi””:

D. D. ““TraTra”” = 1= 1°°TermineTermine––22°°Termine = 4.866.890Termine = 4.866.890––4.138.968 = 4.138.968 = 727.922727.922

Una volta calcolate le Devianze ("entro" e "tra”) è facile ottenere le VarianzeVarianze.

Per ottenere le Varianze basta dividere le Devianze per i rispettivi Gradi di Libertà:

I g.l. della I g.l. della DevDev..““entroentro”” èè la la SS di tutte le "ndi tutte le "n--1" dei 3 gruppi (91" dei 3 gruppi (9--1 + 71 + 7--1 + 51 + 5--1 = 18) 1 = 18)

I g.l. della I g.l. della DevDev."tra" ."tra" èè data dal numero di gruppi meno uno (3data dal numero di gruppi meno uno (3--1 = 2)1 = 2)

18

2

Gradi Libertà

2.6772.677

363.961363.961

Varianza (Dev./G.L.)

48.189Variabilità “Entro Gruppi”

727.922Variabilità “Tra Gruppi”

DevianzaCALCOLO DELLE VARIANZE

Ottenute le due Varianze si ricerca infine il “Rapporto FRapporto F” (tra le due Varianze):

F = VARIANZA TRA GRUPPI / VARIANZA ENTRO GRUPPIF = VARIANZA TRA GRUPPI / VARIANZA ENTRO GRUPPI

Applicando alla formula i numeri dell’esempio si ha:

F = 363.961 / 2.677 = 135,95 ; Confrontiamo il Valore con la Tabella F:

Page 27: 00 C - Epi - Biostatistica

27 - ANALISI DELLA VARIANZA (Un Esempio – 7/8)

1 2 3 4 5 100 500 Infinito1 161 200 216 225 230 253 254 254

4052 4999 5403 5625 5764 6334 6361 63662 18,51 19,00 19,16 19,25 19,30 19,49 19,50 19,50

98,49 99,00 99,17 99,25 99,30 99,49 99,50 99,503 10,13 9,55 9,28 9,12 9,01 8,56 8,54 8,53

34,12 30,82 29,46 28,71 28,24 26,23 26,14 26,124 7,71 6,94 6,59 6,39 6,26 5,66 5,64 5,63

21,20 18,00 16,69 15,98 15,52 13,57 13,48 13,465 6,61 5,79 5,41 5,19 5,05 4,40 4,37 4,36

16,26 13,27 12,06 11,39 10,97 9,13 9,04 9,026 5,99 5,14 4,76 4,53 4,39 3,71 3,68 3,67

13,74 10,92 9,78 9,15 8,75 6,99 6,90 6,888 5,32 4,46 4,07 3,84 3,69 2,98 2,94 2,93

11,26 8,65 7,59 7,01 6,63 4,96 4,88 4,8610 4,96 4,10 3,71 3,48 3,33 2,59 2,55 2,54

10,04 7,56 6,55 5,99 5,64 4,01 3,93 3,9112 4,75 3,88 3,49 3,26 3,11 2,35 2,31 2,30

9,33 6,93 5,95 5,41 5,06 3,46 3,38 3,3615 4,54 3,68 3,29 3,06 2,90 2,12 2,08 2,07

8,68 6,36 5,42 4,89 4,56 2,97 2,89 2,8718 4,41 3,55 3,16 2,93 2,77 1,98 1,93 1,92

8,28 6,01 5,09 4,58 4,25 2,68 2,59 2,5720 4,35 3,49 3,10 2,87 2,71 1,90 1,85 1,84

8,10 5,85 4,94 4,43 4,10 2,53 2,44 2,4225 4,24 3,38 2,99 2,76 2,60 1,77 1,72 1,71

7,77 5,57 4,68 4,18 3,86 2,29 2,19 2,1730 4,17 3,32 2,92 2,69 2,53 1,69 1,64 1,62

7,56 5,39 4,51 4,02 3,70 2,13 2,03 2,0135 4,11 3,26 2,86 2,63 2,48 1,62 1,56 1,55

7,39 5,25 4,38 3,89 3,58 2,00 1,90 1,8740 4,08 3,23 2,84 2,61 2,45 1,59 1,53 1,51

7,31 5,18 4,31 3,83 3,51 1,94 1,84 1,8150 4,03 3,18 2,79 2,56 2,40 1,52 1,46 1,44

7,17 5,06 4,20 3,72 3,41 1,82 1,71 1,6860 4,00 3,15 2,76 2,52 2,37 1,48 1,41 1,39

7,08 4,98 4,13 3,65 3,34 1,74 1,63 1,6070 3,98 3,13 2,74 2,50 2,35 1,45 1,37 1,35

7,01 4,92 4,08 3,60 3,29 1,69 1,56 1,5380 3,96 3,11 2,72 2,48 2,33 1,42 1,35 1,32

6,96 4,88 4,04 3,56 3,25 1,65 1,52 1,49100 3,94 3,09 2,70 2,46 2,30 1,39 1,30 1,28

6,90 4,82 3,86 3,51 3,20 1,59 1,46 1,43120 3,92 3,07 2,68 2,45 2,29 1,37 1,28 1,25

6,85 4,79 3,95 3,48 3,17 1,56 1,42 1,38Infinito 3,84 2,99 2,60 2,37 2,21 1,24 1,11 1,00

6,63 4,60 3,78 3,32 3,02 1,36 1,15 1,00

Nota: In grassetto i valori con p<0.05, in tondo i valori con p<0.01.

GRADI

LIBERTA'

VARIANZA

MINORE

denominatore

GRADI DI LIBERTA' VARIANZA MAGGIORE (numeratore) Tabella dei Valori Critici di FTabella dei Valori Critici di F

In alto sono riportati i gradi di libertàdella Varianza Maggiore, che sta al numeratore (nel nostro esempio è laVarianza "tra gruppi").

Di fianco a sinistra sono riportati i gradi di libertà della Varianza Minore, che sta al denominatore(nel nostro esempio èla Varianza "entro gruppi").

Il valore critico da confrontare con F va cercato nella casella individuata dalle coordinate dei gradi di libertà delle dueVarianze. Se ad esempio la VarianzaMaggiore (tra gruppi) ha gradi di libertà 2, mentre la Varianza Minore (entro gruppi) ha gradi di libertà 18, la casella sarà quella individuata da g.l. 2 verticalmente e g.l. 18 in orizzontale.

Nella casella vi sono due valori: quello in grassetto esprime il valore critico per p<0.05, l'altro per p<0.01.

Page 28: 00 C - Epi - Biostatistica

28 - ANALISI DELLA VARIANZA (Un Esempio – 8/8)

Come si vede nella Tabella dei Valori Critici di “F” i valori corrispondenti a 2 gradi di libertà al numeratore (G.L. della Varianza Tra Gruppi) e a 18 gradi di libertà al denominatore (G.L. della Varianza Entro Gruppi) sono di:

3,553,55 Per il livello del 95% (p<0.05)Per il livello del 95% (p<0.05)

6,016,01 Per il livello del 99% (p<0.01)Per il livello del 99% (p<0.01)

Siccome il risultato di "F" ottenuto (135,95) è superiore ad entrambi i valori critici della Tabella F, per i corrispondenti gradi di libertà, si può concludere affermando che le differenze osservate sono altamente significative.

Ciò sta a significare che la Varianza "tra gruppi" è molto più alta di quella "entro gruppi", ed è proprio per questo che la differenza delle medie osservate tra i gruppi è significativa (a fronte di una bassa variabilità all'interno di ogni gruppo, indice di buona omogeneità dei campioni).

entro entro entrotra tra

Page 29: 00 C - Epi - Biostatistica

29 - TEST “z” TRA PROPORZIONI

Analogamente al Test t (differenza tra medie) il Test z viene calcolato prendendo a riferimento la differenza tra due proporzioni (numeratore), dividendola per l'errore standard della differenza tra le due proporzioni (denominatore).

z = Differenza tra proporzioni / Errore Standard diff. tra proporzioni

Anche per questa prova, il valore ottenuto viene confrontato con un apposito valore critico (di solito la tabella dei valori di t), superato il quale la differenza osservata è da intendersi statisticamente significativa. E, dunque, maggiore è la differenza osservata tra le due proporzioni (ed al contempo minore è l'errore standard della differenza tra le due proporzioni), e maggiore sarà il valore di z e la significatività delle differenze. La formula del test z, pertanto, è la seguente:

z = (p1 – p2) / RadQ { [ p1 * (1-p1) / n1 ] + [ p2 * (1-p2) / n2 ] }

dove p1 e p2 sono le due proporzioni messe a confronto, n1 ed n2 sono le numerosità dei campioni delle due proporzioni ed infine 1-p rappresenta il complemento a uno della proporzione. In altri termini se p1, ad esempio, esprime la proporzione del 60 %, significa che il valore di p1 rapportato a 1 è 0,6, e che il complemento a uno (1-p1) è 0,4.

Page 30: 00 C - Epi - Biostatistica

a+b+c+d2024Totale

c + d13 (d)6 (c)Aspirina

a + b7 (b)18 (a)Placebo

TotaleNo Trombi

Si Trombi

CHI QUADRATO

30 - TEST DEL “CHI QUADRO”

Quando le differenze osservate riguardano delle Frequenze il Test di Significatività Statistica più adeguato è quello del Chi Quadrato.

Questo test indica la misura in cui le frequenze Osservate differiscono dalle frequenze Attese, ovvero dalle frequenze che ci aspetteremmo, se non ci fosse alcuna associazione tra l'intervento che ha determinato le frequenze Osservate(ad esempio un trattamento farmacologico) e le stesse frequenze Osservate.

Occorre quindi calcolare prima gli Attesi e poi applicare la formula del Chi Quadrato (che è espressa dalla somma del quadrato della differenza Osservati-Attesi diviso gli Attesi). Passiamo, dunque, al primo esempio:

Supponiamo di trattare alcuni pazienti con aspirina ed altri con un placebo. E supponiamo che alcuni di essi sviluppino trombi ed altri no.

Test c 2 con Casi Attesi da calcolare

Page 31: 00 C - Epi - Biostatistica

442024Totale

1913 (d)6 (c)Aspirina

257 (b)18 (a)Placebo

TrattatiNo Trombi

Si Trombi

CALCOLO TOTALI

31 - TEST DEL “CHI QUADRO”

I pazienti trattati con aspirina sembrano sviluppare meno trombi.

Per verificare se le differenze osservate sono significative, considerato che si tratta di un confronto tra due frequenze, occorre utilizzare il “Chi Quadrato”.

Ma prima di procedere, è necessario calcolare i “Casi Attesi” (cioè i casi che ci aspetteremmo se il trattamento non fosse efficace). Per far ciò è necessario calcolare i totali per ogni riga ed ogni colonna.

Ottenuti i totali è necessario ricavare le percentuali di ogni singolo totale per riga o per colonna rispetto al totale globale (44).

Calcolo dei Totali di Riga e di Colonna

Page 32: 00 C - Epi - Biostatistica

442024Totale

1913 (d)6 (c)Aspirina

257 (b)18 (a)Placebo

TrattatiNo Trombi

Si Trombi

CALCOLO PERCENT.

43%

57%

45%55%

Placebo 25 su 44 = 57%

Aspirina 19 su 44 = 43%

Trombi Si 24 su 44 = 55%

Trombi No 20 su 44 = 45%

32 - TEST DEL “CHI QUADRO”

Ad esempio, calcoliamo la percentuale di pazienti trattati con “Placebo su Totale”. Partendo dalla proporzione (25:44=y:100) si ottiene il valore di y=25*100/44=57%.

Ripetendo l’operazione con tutti i parziali (“Aspirina su Totale”, “Si Trombi su Totale”, “No Trombi su Totale”) si ottengono questi risultati: 43%, 55%, 45%.

Calcolo delle Percentuali dei Totali di Riga e di Colonna

Page 33: 00 C - Epi - Biostatistica

442024Totale

1910,36Aspirina

2513,64Placebo

TrattatiNo Trombi

Si Trombi

CALCOLO ATTESI

43%

57%

45%55%

Placebo 25*55/100= 13,64

Aspirina 19*55/100= 10,36

Trombi Si 24 su 44 = 55%

Trombi No 20 su 44 = 45%

33 - TEST DEL “CHI QUADRO”

Ora ipotizziamo che il trattamento con aspirina non abbia prodotto alcun effetto.

Se ciò fosse vero, e considerato che hanno sviluppato i trombi il 55% di 25 pazienti trattati con placebo, ci dovremmo aspettare che 13,64 pazienti trattati con placebo sviluppino trombi (e cioè 25*55/100=13,64).

Considerato, inoltre, che hanno avuto trombi il 55% di 19 pazienti trattati con aspirina, ci dovremmo aspettare che 10,36 pazienti trattati con aspirina sviluppino trombi (e cioè 19*55/100=10,36).

Calcolo Casi Attesi tra i “Si Trombi” (con le percentuali)

Page 34: 00 C - Epi - Biostatistica

442024 (a+c)Totale

19 (c+d)8,6410,3 (c)Aspirina

25 (a+b)11,3613,6 (a)Placebo

TrattatiNo Trombi

Si Trombi

CALCOLO DIFFER.

43%

57%

45%55%

A(a) = 24*25/44 = 13,64

A(c) = 24*19/44 = 10,36

Differ. Placebo 25 - 13,64

Differ. Aspirina 19 - 10,36

34 - TEST DEL “CHI QUADRO”

Calcolo Casi Attesi tra i “No Trombi”

I restanti pazienti dovrebbero rimanere indenni da trombi e risulterebbero dalle differenze tra il totale dei trattati ed i pazienti che avrebero sviluppato i trombi. Abbiamo così ricavato il numero di Casi Attesi nell’ipotesi in cui il trattamento non avesse alcun effetto. Riportiamo la Tabella di Confronto Osservati/Attesi:

Calcolo semplificato dei Casi Attesi tra i “Si Trombi” A(a) e A(c)

In realtà si possono calcolare gli attesi col prodotto dei marginali diviso il totale delle osservazioni: A(a) = (a+c)*(a+b)/(a+b+c+d) ; A(c) = (a+c)*(c+d)/(a+b+c+d)

Page 35: 00 C - Epi - Biostatistica

11,367Placebo – No Trombi

13,6418Placebo – Si Trombi

ATTESIOSSERVATI

CONFRONTO

OSSERVATI / ATTESI

8,6413Aspirina – No Trombi

10,366Aspirina – Si Trombi

OSSERVATI ATTESI

Trattati con Aspirina che hanno fatto Trombi

6 10,36

35 - TEST DEL “CHI QUADRO”

Adesso è possibile applicare la formula del Chi Quadrato:

C2 = S [(O – A)2 / A]

ATTESI/)2ATTESI-OSSERVATI(C2 = S

1,40=13,64/)213,64-18(Placebo – Si Trombi

1,68=11,36/)211,36-7(Placebo – No Trombi

1,84=10,36/)210,36-6(Aspirina – Si Trombi

2,20=8,64/)28,64-13(Aspirina – No Trombi

7,11=SOMMATORIA

Page 36: 00 C - Epi - Biostatistica

36 - TEST DEL “CHI QUADRO”

Ora si confronta il risultato di “Chi” ottenuto (7,11) con i Valori Critici della apposita Tabella del “Chi Quadarato” al corrispondente grado di libertà.

p<0.01 Gradi di p<0.05Liv. 99% Libertà Liv. 95%

6,635 18 28,8699,21 19 30,144

11,345 20 31,4113,277 21 32,67115,086 22 33,92416,812 23 35,17218,475 24 36,415

20,09 25 37,65221,666 26 38,88523,209 27 40,11324,725 28 41,33726,217 29 42,55727,688 30 43,77329,141 35 49,80230,578 40 55,758

32 45 61,65633,409 50 67,505

Liv. 95% Liv. 99%

16 26,296 69,95717 27,587 76,154

14 23,685 57,34215 24,996 63,691

12 21,026 49,58813 22,362 50,892

10 18,307 46,96311 19,675 48,278

8 15,507 44,3149 16,919 45,642

6 12,592 41,6387 14,067 42,98

4 9,488 38,9325 11,07 40,289

2 5,991 36,1913 7,815 37,566

1 3,841 34,805

Gradi di p<0.05 p<0.01Libertà

I gradi di libertà si calcolano moltiplicando il numero di Righe meno uno (in questo caso 2-1) per il numero di Colonne meno 1 (in questo caso 2-1). Nelle Tabelle 2x2 i gradi di libertà sono sempre 1

Con p<0.05 = 3,84

Con p<0.01 = 6,63

Pertanto il valore ottenuto (7,11) è superiore ad entrambi i Valori Critici e le differenze osservate possono ritenersi altamente significative.

Page 37: 00 C - Epi - Biostatistica

9982TOTALE CAUSE

1725TUMORI

ATTESIOSSERVATICHI QUADRATO C2= S (O-A)2/A

37 - TEST DEL “CHI QUADRO” con Casi Attesi già noti

A volte i Casi Attesi sono già disponibili. In tali casi non è necessario ricorrere al calcolo dei casi attesi e si può passare direttamente ad applicare la formula.

Supponiamo che il Registro Territoriale di Patologia (RTP) ha osservato in una cittadina della Provincia di Siracusa un eccessivo numero di morti per neoplasie (25) in un anno rispetto al numero di morti per tutte le cause (82). Calcolando il numero di morti attese sulla base dei tassi di mortalità specifica osservata nello stesso periodo (attraverso metodi di standardizzazione indiretta) ci si aspettano 17 morti attese per tumori e 99 per tutte le cause. Organizzando i dati in una tabella di contingenza si ha:

C2 = [ (25-17)2 / 17 ] + [ (82 – 99)2 / 99 ] = 6,7

Confrontando i Valori Critici sull’apposita Tabella del Chi Quadrato per gradi di libertà 1 (6,63 per p<0.01 e 3,84 per p<0.05), col valore ottenuto (6,7), si può concludere che le differenze osservate sono altamente significative (p<0.01).

Page 38: 00 C - Epi - Biostatistica

a+b+c+db+da+cTotale

c+ddcNo Esp.

a+bbaEsposti

TotaleSaniMalatiC2 delle Tab.2x2

322161161Totale

253133120No Esp.

692841Esposti

TotaleSaniMalatiC2 delleTab.2x2

38 - TEST DEL “C2” in Tabelle 2x2 (Sani-Malati / Esposti Si-No)

Il Test del Chi Quadrato, infine, rappresenta il test d’elezione nelle tabelle 2x2 dei confronti “Sani-Malati / Esposti-Non Esposti”.

C2 = { [ (a*d) – (b*c) ]2 * (a+b+c+d) } / [ (a+b)*(c+d)*(a+c)*(b+d) ]

C2 = {[(41*133)–(28*120)]2*(41+28+120+133)} /

[(41+28)*(120+133)*(41+120)*(28+133)] =

1.432.353.505/452.025.691 = 3

Page 39: 00 C - Epi - Biostatistica

MISURE DEI TEST MISURE DEI TEST DIAGNOSTICIDIAGNOSTICI

Page 40: 00 C - Epi - Biostatistica

40 - LE MISURE DEI TEST DIAGNOSTICI: L’ATTENDIBILITA’

Le misure di attendibilitLe misure di attendibilitàà e accuratezza dei test diagnosticie accuratezza dei test diagnostici

In Medicina è sempre necessario ricorrere all’impiego di test che ci consentano di distinguere i sani dai malati, le variazioni casuali da quelle significative, le misurazioni esatte dagli errori. E tutto ciò allo scopo di porre una corretta diagnosi non solo in sanità pubblica e nella medicina preventiva, oggetto dell’epidemiologia tradizionale (ad esempio un test di screening), ma anche in ambito clinico, prognostico e terapeutico, che poi rappresenta il campo d’azione della epidemiologia clinica (ad esempio un esame di laboratorio). Un buon test deve presentare 2 importanti caratteristiche: deve essere valido e riproducibile.

La RiproducibilitLa Riproducibilitàà (o attendibilità) riguarda l’assenza di variazione allorquando l’esame venga ripetuto più volte, coincide col concetto di stabilità dell’osservazione ed èinfluenzata, dunque, dalle divergenze nelle procedure di misurazione. Divergenze legate ovviamente, ai medici misuratori ovvero agli strumenti di misurazione o persino all’oggetto stesso della misurazione (l’esempio classico è quello legato alla variabilità della pressione arteriosa). Il test statistico utilizzato per la misurazione della riproducibilità di un test è l’Indice di Concordanza o Coefficiente Kappa di Cohen.

Page 41: 00 C - Epi - Biostatistica

41 - L’ANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA

Molto spesso in medicina ci si imbatte nell’analisi di misure derivanti dal giudizio soggettivo di più medici. E spesso si riscontrano giudizi assai discordanti. In tali casi si ricorre all’Analisi della Concordanza dei dati.

Supponiamo, ad esempio, che, in una campagna di screening mammografico, due radiologi debbano refertare, in doppio cieco, venti mammografie.

SISISI11

SINONO10

SINONO9

SINONO8

NONOSI7

SINONO6

SINONO5

NOSINO4

SINONO3

SINONO2

SISISI1

Concordanza

Radiologo B

Radiologo A

Mammografie

Concordanza

Radiologo B

Radiologo A

Mammografie

15--Concor.

-76Positivi

SISISI20

NONOSI19

SINONO18

SISISI17

SINONO16

NOSINO15

SINONO14

NOSINO13

SINONO12

Page 42: 00 C - Epi - Biostatistica

Ra-dio-lo-go B

Radiologo A

20(100%)

6(30%)

14(70%)

Totale

7(35%)

4(20%)

3(15%)

SI

13(65%)

2(10%)

11(55%)

NO

TotaleSINOPOSI-

TIVI

Le diagnosi concordanti sono in tutto 15 su 20 (75%). E di queste, le concordanze positive sono 4 e le negative 11. Le diagnosi discordanti sono 5 su 20 (25%). E di queste, 3 sono dovute alla diagnosi positiva del radiologo B e 2 del radiologo A.

42 - L’ANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA

L’Indice di Concordanza, o Concordanza Osservata (C.O.) è la proporzione di diagnosi concordanti sul totale:

C.O. = Diagnosi Concordanti / Diagnosi Totali * 100 = 15/20*100 = 75%

Page 43: 00 C - Epi - Biostatistica

Tuttavia, questo indice non tiene conto di quella parte di concordanza (tra le diagnosi dei due radiologi) che potrebbe derivare puramente dal caso.

Il Coefficiente Kappa rappresenta appunto l’indice aggiustato per la concordanza attribuibile all’effetto del caso. Spieghiamo come si sviluppa.

43 a - L’ANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA

La regola del cosiddetto “prodotto di probabilità”:

Concordanza Casuale su risposte “No” = 70% (No di A) * 65% (No di B) = 45,5%

Concordanza Casuale su risposte “Si” = 30% (Si di A) * 35% (Si di B) = 10,5%

In altri termini:

Il 70% di 65 è 45,5.

Ma anche il 65% di 70 è 45,5.

Cioè il 45,5% delle volte ci sarebbe stata ugualmente concordanza anche se le risposte “No” fossero state casuali (come quando si gioca ai dadi). Lo stesso vale per il “Si”

L’esempio è più comprensibile se pensiamo al 50% del 70% (che è 35%). Cioè 35 volte su 70 i “No” concordano, ma solo per caso

Page 44: 00 C - Epi - Biostatistica

Tuttavia, questo indice non tiene conto di quella parte di concordanza (tra le diagnosi dei due radiologi) che potrebbe derivare puramente dal caso.

Il Coefficiente Kappa rappresenta appunto l’indice aggiustato per la concordanza attribuibile all’effetto del caso. Spieghiamo come si sviluppa.

43 b - L’ANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA

La regola del cosiddetto “prodotto di probabilità”:

Concordanza Casuale su risposte “No” = 70% (No di A) * 65% (No di B) = 45,5%

Concordanza Casuale su risposte “Si” = 30% (Si di A) * 35% (Si di B) = 10,5%

Totale Concord. Casuale (C.C.) su risposte “No” e “Si” = 45,5% + 10,5% = 56%

Concord. Effettiva Osservata = C.O. – Concordanza Casuale = 75%-56% = 19%

Concord. Massima Possibile = Totale Diagnosi – C. Casuale =100%-56% =44%

A questo punto è possibile calcolare il Coefficiente Kappa con la seguente formula:

kappa = (C. Osservata – C. Casuale)/(C. Massima Possibile – C. Casuale), cioè:

k = (PO – PE) / (1 – PE)

I valori di kappa variano da 0 (nessuna concordanza a parte quella casuale) a 1.

Page 45: 00 C - Epi - Biostatistica

Nel caso dell’esempio preso in esame (lo screening), dunque, avremo:

kappa = (C. Osservata – C. Casuale)/(C. Massima Possibile – C. Casuale), cioè:

k = (PO – PE) / (1 – PE)

dove PO è la Proporzione dei casi su cui i due osservatori concordano (Concordanza Osservata, che nel nostro caso è 75%) e PE è la Proporzione di casi per i quali la concordanza è attribuibile al caso (Concordanza Casuale, che nel nostro caso è 56%). Ritornando all’esempio precedente, dunque:

k = (0,75 – 0,56)/(1 – 0,56) = 0,19/0,44 = 0,43

44 - L’ANALISI DI CONCORDANZA ED IL COEFFICIENTE KAPPA

E’ possibile confrontare il valore ottenuto (0,43) con una tabella convenzionale di valori di kappa elaborata da Landis e Koch nel 1977 (0,43 = Discreto).

Valore di kappa: 0,81-1,00 Grado di Accordo: Ottimo

Valore di kappa: 0,61-0,80 Grado di Accordo: Buono

Valore di kappa: 0,41-0,60 Grado di Accordo: Discreto

Valore di kappa: 0,21-0,40 Grado di Accordo: Debole

Valore di kappa: < 0,20 Grado di Accordo: Scarso

Page 46: 00 C - Epi - Biostatistica

45 - LE MISURE DEI TEST DIAGNOSTICI: L’ACCURATEZZA

La ValiditLa Validitàà (o accuratezza) riguarda, invece, il grado di conformità del valore misurato nei confronti di quello vero. Dunque la validità di un test rappresenta la sua capacità di classificare correttamente le persone osservate.

Caratteristiche di un Test

Riproducibilità

ValiditàInterna

Esterna

Indice K

Sensibilità, 1-b

Specificità, 1-a

Campionam.Nota: Tra queste anche i Valori Predittivi, l’Efficacia del Test, ed il Test Bias

Generalmente si distingue una Validità Esterna, che riguarda la rappresentatività del campione osservato rispetto alla popolazione da cui esso èestratto, ed una Validità Interna, costituita dal grado i conformità del risultato nei riguardi del campione osservato.

La prima è garantita dalle buone tecniche di campionamento (a cui si rimanda e che a loro volta prevedono ulteriori livelli di validità interna ed esterna), la seconda dai buoni risultati dei test di sensibilità e specificità, che sono le principali misure di accuratezza di un test diagnostico.

Page 47: 00 C - Epi - Biostatistica

46 - LE MISURE DEI TEST : RISULTATI DICOTOMICI

Le Misure di ValiditLe Misure di Validitàà

Sensibilità e Specificità sono le principali misure di accuratezza, o di validità, e possono fornire risultati espressi in termini di variabili di tipo dicotomiche (positivi o negativi) o continue. Queste ultime implicano la scelta di un livello soglia, detto cut-off point, che possa fungere da spartiacque tra i valori da considerare positivi o negativi.

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

Test Legati a Risultati di tipo dicotomicoTest Legati a Risultati di tipo dicotomico

Per il calcolo dei Test di Sensibilità e Specificità legati a risultati di tipo dicotomico si può ricorrere alla classica Tabella 2 x 2:

Page 48: 00 C - Epi - Biostatistica

47 - LE MISURE DEI TEST : SENSIBILITA’ e SPECIFICITA’

SensibilitSensibilitàà e Specificite Specificitàà

Appare sin troppo ovvio che un test ideale dovrebbe avere la capacità di selezionare solo veri positivi (a) o veri negativi (d).

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

La Sensibilità esprime la capacità del test di classificare solo veri positivi, mentre la Specificità esprime la capacità di classificare solo veri negativi. Pertanto le due principali misure di accuratezza sono espresse da:

Sen Spe

SensibilitSensibilitàà ((FF) = Veri Positivi (Malati +) / Totale Malati = a / (a+c)) = Veri Positivi (Malati +) / Totale Malati = a / (a+c)

SpecificitSpecificitàà (Y)(Y) = Veri Negativi (Sani = Veri Negativi (Sani --) / Totale Sani = d / (b+d)) / Totale Sani = d / (b+d)

E dunque, una bassa Sensibilità comporta molti Falsi Negativi (c), mentre una bassa Specificità implica molti Falsi Positivi (b)

Page 49: 00 C - Epi - Biostatistica

48 - LE MISURE DEI TEST : ERRORE ALFA ed ERRORE BETA

Tasso di errore falsoTasso di errore falso--positivo (positivo (aa) e falso) e falso--negativo (negativo (bb))

Partendo dalle formule della Sensibilità e della Specificità è possibile calcolare dunque il Tasso di errore falso-positivo (che coincide con l’errore di tipo alfa) ed il Tasso di errore falso-negativo (che coincide con l’errore di tipo beta).

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

L’errore di tipo alfa, dunque, è il complemento a 1 della Specificità: a = 1-Y

L’errore di tipo beta è, invece, il complemento a 1 della Sensibilità: b = 1-F

ab

Tasso Tasso ErrErr. Falso . Falso PosPos. (. (aa) = Falsi ) = Falsi PosPos. (Sani +) / Tot. Sani = b/(b+d). (Sani +) / Tot. Sani = b/(b+d)

Tasso Tasso ErrErr. Falso . Falso NegNeg. (. (bb) = Falsi ) = Falsi NegNeg. (Malati . (Malati --) / Tot. Malati = c/(a+c)) / Tot. Malati = c/(a+c)

Page 50: 00 C - Epi - Biostatistica

49 - LE MISURE DEI TEST : VALORI PREDITTIVI DEL TEST

Valori Predittivi del TestValori Predittivi del Test

La Sensibilità risponde alla domanda: “Quanti sono i Malati Positivi tra i Malati?”

La Specificità risponde alla domanda: “Quanti sono i Sani Negativi tra i Sani?”.

Ma supponiamo di farci altre due domande:

1. “Qual è la proporzione di realmente Malati tra tutti i Positivi al Test ?”

2. “Qual è la proporzione i realmente Sani tra tutti i Negativi al Test ?”

A queste due domande rispondono i Valori Predittivi del Test Positivo-Negativo.

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

Val.Val.PredPred.Test .Test PosPos.(PV+) = Veri .(PV+) = Veri PosPos. (Malati +)/Totale . (Malati +)/Totale PosPos. = a/(a+b). = a/(a+b)

Val.Val.PredPred.Test .Test NegNeg.(PV.(PV--) = Veri ) = Veri NegNeg. (Sani . (Sani --) / Totale ) / Totale NegNeg. = d / (c+d). = d / (c+d)

Page 51: 00 C - Epi - Biostatistica

50 - LE MISURE DEI TEST : VALORI PREDITTIVI e PREVALENZA

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

Valori Predittivi del Test e Prevalenza della Condizione in studValori Predittivi del Test e Prevalenza della Condizione in studioio

Dall’attento esame delle formule si comprende chiaramente come i Valori Pred. Del PV+ siano largamente influenzati dalla Prevalenza della condizione in studio (ad esempio la malattia). Pertanto più piccola è la prevalenza della malattia (che sta tutta al numeratore, nella lettera a) e più piccolo sarà il Valore Predittivo del Test Positivo, la cui formula è appunto a/(a+b) dove b sono i sani positivi.

La Prevalenza della Malattia è data dalla formula: P = (a+c) / (a+b+c+d)

Attraverso la seguente formula è possibile, anche, ricavare il Valore Predittivo Positivo anche senza conoscere il numero di persone sottoposte al test:

PV+ = PV+ = FF*P / *P / FF*P + (1*P + (1--YY)*(1)*(1--P)P) (vedi dopo Terorema di Bayes)

Page 52: 00 C - Epi - Biostatistica

51 - LE MISURE DEI TEST : EFFICACIA DEL TEST e TEST BIAS

a+b+c+db+da+cTotale

c+d(S-) d(M-) cTest Neg. -

a+b(S+) b(M+) aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

d (S-): Veri Negativi

c (M-): Falsi Negativi

b (S+): Falsi Positivi

a (M+): Veri Positivi

Efficacia del Test e Test Efficacia del Test e Test BiasBias

Vi sono, infine, altre due misure assai utili per saggiare la validità complessiva di un test: l’Efficacia ed il Test Bias.

L’Efficacia del test esprime la proporzione tra veri negativi (d) e veri positivi (a) sul totale dei soggetti esaminati. In un buon test (che esclude falsi positivi e negativi) l’Efficacia tende ad 1:

Efficacia Test = (a+d)/(a+b+c+d)

Il Test Bias esprime, invece, il rapporto tra i positivi al test ed i malati (cioèl’errore insito nel test). Un valore superiore ad 1 indica sovrastima e viceversa:

Test Bias = (a+b)/(a+c)

Page 53: 00 C - Epi - Biostatistica

52 - LE MISURE DEI TEST : ESEMPI

83016Neg.

32122Pos.

SaniMalatiMal.A

ESEMPI con RISULTATI DICOTOMICIESEMPI con RISULTATI DICOTOMICI

Supponiamo di sottoporre a screening 2 gruppi affetti da 2 differenti Malattie:

(d)(c)Neg.

(b)(a)Pos.

SaniMalati

9322Neg.

5313Pos.

SaniMalatiMal.B

0,14Prevalenza M

1,12Test Bias

0,95Efficacia T.

0,98Val. Pred. T.-

0,12Errore b

0,04Errore a

0,96Specificità Y

0,79

0,88

Val. Pred. T.+

Sensibilità F

0,02Prevalenza M

4,40Test Bias

0,95Efficacia T.

1,00Val. Pred. T.-

0,13Errore b

0,05Errore a

0,95Specificità Y

0,20

0,87

Val. Pred. T.+

Sensibilità F

(a+c)/Tot.Prev.

(a+b)/(a+c)T.Bias

(a+d)/Tot.Eff. T.

d/(c+d)PV (-)

c/(a+c)Err. b

b/(b+d)Err. a

d/(b+d)Spe. Y

a/(a+b)

a/(a+c)

PV(+)

Sen. F

Nella Malattia A, a maggior Prevalenza (0,14 contro 0,02), a parità di Sensibilità e Specificità, il PV(+) è maggiore (0,79 contro 0,20) ed il T.Bias è migliore (vicino 1)

Page 54: 00 C - Epi - Biostatistica

53 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES

Il Teorema di Il Teorema di Bayes Bayes (o delle probabilit(o delle probabilitàà a posteriori)a posteriori)

Thomas Bayes era un pastore inglese del Settecento. Un suo articolo (1), pubblicato postumo nel 1763, finì col rivoluzionare i principi dell’inferenza statistica tradizionale, tant’è che oggi si parla correntemente di inferenza bayesiana (2) e di statistici bayesiani. Il Teorema di Bayes rappresenta, in sintesi, una procedura per aggiornare la probabilità di un evento A sotto il condizionamento di un nuovo evento B.

(1) “Essay Towards Solving a Problem in the Doctrine of Chances” negli Annali della Royal Society.

(2) L’Inferenza bayesiana è un approccio all’inferenza statistica in cui le probabilità non sono interpretate come frequenze o proporzioni, ma come livelli di fiducia nel verificarsi di un dato evento

Il reverendo inglese, per descrivere il suo teorema, si fece artefice di una delle più sontuose e complesse formule statistiche della storia della medicina. Formula di fronte alla quale si arrendono molti clinici. In realtà, nella sua veste semplificata la formula è questa:

P(A|B) = P(B|A) * P(A) / P(B)

Dove P(A|B) è la Probabilità dell’evento A condizionata (segno “|”) dall’evento B, tale che può considerarsi un aggiornamento della Probabilità semplice P(A).

Page 55: 00 C - Epi - Biostatistica

LL’’EPIDEMIOLOGIA NELLA STORIAEPIDEMIOLOGIA NELLA STORIA

Thomas Bayes nacque a Londra nel 1702 e morì il 17 aprile 1761 aTunbridge Wells, Kent. È stato un matematico nonché pastore presbiteriano. È noto in statistica per il suo Teorema di Bayes sulla probabilitàcondizionata pubblicato postumo nel 1763: Essay Towards Solving aProblem in the Doctrine of Chances(1763, pubblicato postumo inPhilosophical Transactions of the RoyalSociety of London). È sepolto nel cimitero Bunhill Fields di Londra.

54 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES

Page 56: 00 C - Epi - Biostatistica

55 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES

Il Teorema di Il Teorema di Bayes Bayes e la sua applicazione ai Test diagnostici e la sua applicazione ai Test diagnostici --aa

Il Teorema di Bayes ha trovato nei secoli innumerevoli applicazioni. Una delle piùnote è stata proprio quella delle misure dei test diagnostici. Ecco la formula:

P(D+|T+) = P(T+|D+)*P(D+) / {[P(T+|D+)*P(D+)] + [P(T+|D-)*P(D-)]}

Dove “P” indica la Probabilità, “D+” il soggetto con la malattia, “D-” il soggetto senza malattia, “T+” il test con esito positivo, “T-” il test con esito negativo ed il segno della linea verticale “|” significa “condizionato da” (ciò che segue). In questo caso, dunque P(D+|T+) indica la Probabilità (di diagnosticare la Malattia) condizionata dall’esito positivo del Test diagnostico impiegato.

In realtà, al di là della sua apparente complessità, ad una più attenta lettura il Teorema di Bayes non èaltro che la formula del Valore Predittivo Positivo PV(+), cioè a/(a+b). Vediamo di capirne il motivo.a+b+c+db+da+cTotale

c+dD-T- dD+T- cTest Neg. -

a+bD-T+ bD+T+ aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

Page 57: 00 C - Epi - Biostatistica

56 - LE MISURE DEI TEST DIAGNOSTICI: TEOREMA DI BAYES

Il Teorema di Il Teorema di Bayes Bayes e la sua applicazione ai Test diagnostici e la sua applicazione ai Test diagnostici --bb

Infatti, al numeratore P(T+|D+) è la Sensibilità [a/(a+c)] e P(D+) è la Prevalenza della Malattia [(a+c)/Tot.]. Il prodotto tra Sensibilità e Prevalenza è il numero di “Veri Positivi” (la cella “a”), cioè il numeratore del PV(+).

Al Denominatore abbiamo di nuovo “a” (Sensibilità per Prevalenza) sommata al prodotto tra P(T+|D-), che è il Tasso di Errore Falso-Positivo (1-Specificità), e P(D-), che è la Prevalenza dei Non Malati (1-Prevalenza D+). Questo prodotto esprime il numero di “Falsi Positivi” (la cella “b”). Pertanto il denominatore è dato dalla somma di a+b, lo stesso denominatore del PV(+).

a+b+c+db+da+cTotale

c+dD-T- dD+T- cTest Neg. -

a+bD-T+ bD+T+ aTest Pos. +

TotaleSanoMalatoSensibilitàSpecificità

P(D+|T+) = P(T+|D+)*P(D+) / {[P(T+|D+)*P(D+)] + [P(T+|D-)*P(D-)]}Dunque la formula può essere scritta anche come segue:

P(D+|T+) = Sensibilità*Prevalenza/

/ [Sensibilità*Prevalenza+(1-Specificità)*(1-Prevalenza)]

Che si può scrivere pure: P(D+|T+) = F*P / F*P + (1-Y)*(1-P) ; E dunque:

P(D+|T+) = Veri Positivi/(Veri Positivi+Falsi Positivi);

E cioè: P(D+|T+) = a/(a+b) ;

Con la Formula di Bayes, pertanto, è possibile ricavare il Valore Predittivo Positivo del test anche senza conoscere il numero di persone da screenare. Conoscendo la Prevalenza della malattia si può decidere se conviene fare lo screening.

Page 58: 00 C - Epi - Biostatistica

57 - LE MISURE DEI TEST : VARIABILI CONTINUE

TEST LEGATI A RISULTATI CON VARIABILI CONTINUETEST LEGATI A RISULTATI CON VARIABILI CONTINUE

Nel caso in cui i risultati del test non sono espressi da variabili dicotomiche (malati e sani), ma da variabili quantitative continue (come i valori pressori o quelli glicemici) occorre stabilire un valore soglia (valore soglia (cutoffcutoff)) sotto il quale il risultato del test è da intendersi negativo e sopra il quale è da intendersi invece positivo. Questo valore è posto arbitrariamente sulla base di opportune valutazioni.

110 mmHg

150 mmHg

130 mmHg

Se scegliessimo un cutoff vicino a 110 ridurremmo al minimo i falsi negativi, ma aumenteremmo i falsi positivi. Se scegliessimo un cutoff vicino a 150 accadrebbe il contrario. Con un cutoff intorno a 130, falsi positivi e negativi si equivarrebbero. La scelta del cutoff èlegata, dunque, alle implicazioni delle false positività o negatività (nel Diabete è opportuno ridurre i falsi negativi, ecc)

Più Falsi Positivi Più Falsi Negativi

EsempioEsempio: Supponiamo di rilevare i valori pressori di un gruppo di soggetti sani e di un gruppo di soggetti infartuati (prima di intraprendere le terapie antipertensive) e di riscontrare nei primi una distribuzione gaussiana di valori intorno alla media di 110 mmHg e nei secondi una distribuzione intorno ai 150 mmHg. Utilizziamo ora il rilevamento della pressione come test di screening per la prevenzione dell’infarto.

Page 59: 00 C - Epi - Biostatistica

58 - LE MISURE DEI TEST : VARIABILI CONTINUE

TEST LEGATI A RISULTATI CON VARIABILI CONTINUETEST LEGATI A RISULTATI CON VARIABILI CONTINUE

Il Test idealeIl Test ideale: tutti i soggetti sani stanno al di sotto del punto di Cutoff e tutti i soggetti malati vi stanno al di sopra. Purtroppo nella pratica clinica questo non avviene quasi mai. E allora bisogna chiedersi dove andare a collocare il punto di Cutoff (si rimanda alla diapositiva precedente).

150 mmHg

130 mmHg

110 mmHg

Sani Malati

Cutoff

Page 60: 00 C - Epi - Biostatistica

59 - LE MISURE DEI TEST : LE CURVE DI R.O.C.

LE CURVE DI ROC per la determinazione del CUTOFFLE CURVE DI ROC per la determinazione del CUTOFF

Per scegliere un buon punto di cutoff è opportuno costruire una Curva di ROC (acronimo di Receiver Operating Characteristic). Sulle ascisse si riportano i valori dell’Errore Alfa, mentre sulle ordinate vanno disposti i valori della Sensibilità.

Curva della Pressione Sistolica

0

20

40

60

80

100

120

0 5 10 20 40 60 80 90 100

Tasso % di Errore Falso-Positivo (Errore Alfa o 1-S pecificità)

Sen

sibi

lità

(per

cent

uale

)

150 mmHg

140 mmHg

130 mmHg

120 mmHg 110 mmHg

SPIEGAZIONE

Riprendendo l’esempio dei valori pressori, si individuano più punti di cutoff (150, 140, 130, 120, 110 mmHg) e per ognuno di essi si calcolano la Sensibilitàe l’Errore Alfa. Poi si uniscono i punti per disegnare la curva. Il miglior punto di cutoff è quello più vicino all’angolo superiore sinistro del grafico (Sensibilità 100% ed Errore Alfa 0%). Nel nostro esempio 130 mmHg.

Page 61: 00 C - Epi - Biostatistica

60 - LE MISURE DEI TEST : LE CURVE DI R.O.C.

LE CURVE DI ROCLE CURVE DI ROC

Le curve ROC (che furono coniate per la prima volta dagli operatori radar inglesi) sono, dunque, la rappresentazione grafica del Rapporto tra Sensibilità (% di veri positivi) ed Errore Alfa (% di falsi positivi), detto Rapporto di Probabilità Positivo.

SPIEGAZIONE

La Curva ROC ideale è quella che sale quasi verticale verso l’angolo superiore sinistro per poi dirigersi verso l’angolo alto di destra orizzontalmente. E’ il caso della “Curva Eccellente” del grafico. Se invece la Sensibilità eguaglia sempre il tasso di Errore Alfa il risultato è la diagonale della “Curva inutile” del grafico. Il test migliore è quello che ha l’area maggiore sotto la curva. L’analisi delle Curve ROC sta diventando sempre più frequente in medicina.

100

50

0

100500

Page 62: 00 C - Epi - Biostatistica

61 - MISURE DEI TEST: VALUTAZIONE ECONOMICA

Valutazione economica di un Programma di ScreeningValutazione economica di un Programma di Screening

Impiegare un test diagnostico per realizzare un programma di screening di popolazione ha certamente un suo costo. Pertanto ènecessario chiedersi qual è l’efficacia complessiva della campagna di screening attraverso l’analisi dei costi e dei benefici legati all’impiego su larga scala del test diagnostico. Cerchiamo di capirecome realizzare questa valutazione ricorrendo ad un esempio pratico. ESEMPIO:

Nella città di Siracusa dovrà essere condotto un programma di screening mammografico. Su una popolazione bersaglio (età 50-69 anni) di circa 13.500 donne, tutte da invitare, si prevede un tasso di adesione intorno al 35% con 4.725 donne che si sottoporranno al test di 1° livello. Tutte le donne che risulteranno positive alla mammografia saranno sottoposte all’approfondimento diagnostico di 2° livello con stereotassi, agoaspirato ed ecografia. Considerato che la Sensibilità e la Specificità del test di 1° livello vengono stimate rispettivamente intorno al 95% e al 94% e che l’occorrenza della malattia viene stimata intorno al 4,23 per mille, e supponendo infine che il costo medio unitario del test di 1° livello sia di 40 euro e quello del test di 2° livello di 80 euro, cerchiamo di prevedere il costo complessivo della campagna e, soprattutto, il costo per caso di tumore diagnosticato precocemente.

Page 63: 00 C - Epi - Biostatistica

Valutazione economica di un Programma di Screening: soluzioneValutazione economica di un Programma di Screening: soluzione

Cominciamo col riportare tutti i dati disponibili in una tabella di riepilogo, per vedere poi come riempire la tabella 2x2 del test diagnostico.

40-Costo Test 1° Livello €.

4.725a+b+c+dTotale Pop. screenata

80

4,23

94

95

Dati

-Costo Test 2° Livello €.

(a+c)/TotPrevalenza P (x 1.000)

d/(b+d)Specificità Y (x 100)

a/(a+c)Sensibilità F (x 100)

FormuleDATI DISPONIBILI

a+b+c+db+da+cTotale

c+ddcTest -

a+bbaTest +

TotaleSan.Mal.Tab.2x2

20(a+c)Malati (4,23x4725/1000) 4.725b+d20Totale

c+ddcTest -

a+bbaTest +

TotaleSan.Mal.Tab.2x2

Come si può notare gli unici dati disponibili da poter collocare nella tabella 2x2 sono il numero totale di popolazione screenata (4.725), che va nella casella del “Totale Generale” (a+b+c+d), ed il “Totale dei Malati” (a+c) che è possibile ricavare conoscendo la Prevalenza della Malattia (4,23 x 1.000) e la Popolazione Generale con la formula: (a+c) = Prevalenza x Totale Generale.

62 - MISURE DEI TEST: VALUTAZIONE ECONOMICA

Page 64: 00 C - Epi - Biostatistica

Valutazione economica di un Programma di Screening: soluzioneValutazione economica di un Programma di Screening: soluzione

Un altro dato che è possibile ottenere è il numero di malati positivi al test (a), che si può ricavare dalla formula della Sensibilità [F=a/(a+c)], da cui: a= F x (a+c)

40-Costo Test 1° Livello €.

4.725a+b+c+dTotale Pop. screenata

80

4,23

94

95

Dati

-Costo Test 2° Livello €.

(a+c)/TotPrevalenza P (x 1.000)

d/(b+d)Specificità Y (x 100)

a/(a+c)Sensibilità F (x 100)

FormuleDATI DISPONIBILI

4.725b+d20Totale

c+ddcTest -

a+bbaTest +

TotaleSan.Mal.Tab.2x2

19(a)Veri Positivi (0,95 x 20) 4.725b+d20Totale

c+ddcTest -

a+bb19Test +

TotaleSan.Mal.Tab.2x2

Per poter sviluppare la tabella 2x2 occorre un altro dato fondamentale: il Totale dei soggetti positivi (a+b). Questo dato si può ricavare dal Valore Predittivo del Test Positivo, la cui formula è: VP+=a/(a+b) ; da cui (a+b)=a/VP+. Siccome conosciamo “a” (19 casi) occorre calcolare “PV+”. Tuttavia, poiché non conosciamo proprio il dato complessivo dei positivi (a+b), bisogna ricorrere al calcolo del VP+ ricavato dalla formula del Teorema di Bayes.

63 - MISURE DEI TEST: VALUTAZIONE ECONOMICA

Page 65: 00 C - Epi - Biostatistica

Valutazione economica di un Programma di Screening: soluzioneValutazione economica di un Programma di Screening: soluzione

La formula del PV+ ricavata dal Teorema di Bayes è la seguente:

PV+ = F*P / F*P + (1-Y)*(1-P)

Dove P è la Prevalenza della malattia, F e Y sono Sensibilità e Specificità. Quindi:

PV+ = 0,95x0,00423 / [0,95x0,00423 + (1-0,94)x(1-0,00423)] = 0,063 (6,3%).

A questo punto si possono ricavare i Positivi: (a+b) = a/PV+ = 19/0,063 = 301

40-Costo Test 1° Livello €.

4.725a+b+c+dTotale Pop. screenata

80

4,23

94

95

Dati

-Costo Test 2° Livello €.

(a+c)/TotPrevalenza P (x 1.000)

d/(b+d)Specificità Y (x 100)

a/(a+c)Sensibilità F (x 100)

FormuleDATI DISPONIBILI

4.725b+d20Totale

c+ddcTest -

a+bb19Test +

TotaleSan.Mal.Tab.2x2

301(a+b)Tot. Positivi (19/0,063) 4.725470520Totale

442444231Test -

30128219Test +

TotaleSan.Mal.Tab.2x2

A questo punto è possibile ricavare tutti gli altri valori della tabella 2x2 con una serie coordinata di sottrazioni dai quattro valori già noti.

64 - MISURE DEI TEST: VALUTAZIONE ECONOMICA

301

Page 66: 00 C - Epi - Biostatistica

Valutazione economica di un Programma di Screening: soluzioneValutazione economica di un Programma di Screening: soluzione

A questo punto è possibile calcolare il costo complessivo della campagna di screening che è dato dal prodotto tra costo unitario del test di 1° livello (40 euro) e numero totale di soggetti screenati (4.725), sommato al prodotto tra costo unitario del test di 2° livello (80 euro) ed il totale dei soggetti risultati positivi al primo livello (301), per un costo globale di €. 213.103. Il costo per caso diagnosticato precocemente è dato dalla divisione tra il costo globale (€. 213.103) ed il numero di Veri Positivi (19), per un costo di €. 11.216.

40-Costo Test 1° Livello €.

80

Dati

-Costo Test 2° Livello €.

FormuleDATI DISPONIBILI

4.725470520Totale

442444231Test -

30128219Test +

TotaleSan.Mal.Tab.2x2

€. 213.103--Totale

€. 24.103301€. 802° Liv.

€. 189.0004.725€. 401° Liv.

Costo TotaleN.EsamiC.Unit.COSTI

€. 11.21619€. 213.103Caso

C.PazienteCasiC.Tot.COST

Possiamo concludere affermando che il costo per caso diagnosticato si aggireràintorno agli 11.216 euro per paziente. Disponendo di dati di sopravvivenza si potrà stimare pure il costo per anni di vita guadagnati. Qualsiasi intervento di Sanità Pubblica deve sempre trovare le sue ragioni in motivazioni di ordine etico, scientifico e di economia sanitaria.

65 - MISURE DEI TEST: VALUTAZIONE ECONOMICA

Page 67: 00 C - Epi - Biostatistica

LL’’Analisi Decisionale in MedicinaAnalisi Decisionale in Medicina

I test diagnostici influenzano fortemente la decisione clinica. A volte però operare una scelta in medicina non è cosa molto agevole. Tuttavia, oggi, il clinico può servirsi delle tecniche della cosiddetta “Analisi decisionale”, uno strumento giunto da non molto tempo nel mondo della medicina e proveniente dalla scienza manageriale. Le fasi dell’Analisi decisionale sono:

1. Identificazione delle decisioni e delle loro implicazioni

2. Disegno dell’albero decisionale

3. Stima delle convenienze legate ai nodi delle decisioni

4. Stima delle probabilità legate ai nodi delle scelte

5. Calcolo della convenienza per ciascuna decisione

6. Identificazione della decisione più utile

Le varie fasi possono essere rappresentate sinteticamente nel grafico del cosiddetto “albero decisionale”. In questo grafico i nodi delle decisioni sono raffigurati con quadrati, mentre le implicazioni delle decisioni (cioè le conseguenze) sono rappresentate da cerchietti (i nodi delle probabilità). Ogni decisione, oltre a comportare delle conseguenze (probabilità di sviluppare la malattia), comporterà anche degli ipotetici benefici.

66 - MISURE DEI TEST: L’ANALISI DECISIONALE

Page 68: 00 C - Epi - Biostatistica

Fare Test

Trattare

Non Trattare

Sospetto della

Malattia “y”

Test Pos. Trattare

Test Neg. Non Tratt.

Malattia SI

Malattia NO

Malattia SI

Malattia NO

Malattia NO

Malattia SI

Malattia SI

Malattia NO

(Probabilitàclinica del 20%)

Beneficio atteso n.2

Beneficio atteso n.3

Beneficio atteso n.1

I benefici (o utilità) nell’analisi decisionale possono essere espressi in molti modi, anche in termini di tassi di mortalità o morbosità (con proporzionalitàinversa) o di anni di vita guadagnati o di costi evitati, e così via. Una volta stimati i benefici associati ai nodi delle decisioni e le probabilità associate ai nodi di probabilità, si possono calcolare i benefici attesi per ogni decisione (la media ponderata dei benefici pesati sulle differenti probabilità). La decisione ottimale èquella con un maggiore beneficio atteso.

67 - MISURE DEI TEST: L’ANALISI DECISIONALE

Page 69: 00 C - Epi - Biostatistica

INDICI DI CORRELAZIONE E INDICI DI CORRELAZIONE E REGRESSIONEREGRESSIONE

Page 70: 00 C - Epi - Biostatistica

69 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON

Frequentemente in medicina è possibile osservare fenomeni correlati tra di loro. Al crescere di una variabile ad esempio cresce parallelamente un'altra variabile collegata in qualche modo alla prima

DiastolicammHg

84 (Correlazione lineare positiva)8280 ° °78 ° ° ° °76 ° ° ° 74 ° ° ° °72 ° ° ° ° °70 ° ° ° °68 ° ° ° °66 ° ° ° ° 64 ° ° °62 ° ° ° °60 ° 5856545250 Sistolica

mmHg

90 95 100 120 130 140

Ad esempio la statura ed il peso corporeo di un neonato, oppure la pressione arteriosasistolica e diastolica, ecc.), oppure al crescere di una variabile si osserva contemporaneamente il decrescere di un'altra (ad esempio l'aumento dell'età e la diminuzione della forza muscolare negli anziani).

Page 71: 00 C - Epi - Biostatistica

Il calcolo statistico che permette di misurare la tendenza alla variazione congiunta di due fenomeni è il calcolo del "Coefficiente di Correlazione", che ècostituito da un valore che oscilla tra +1 e -1:

Quando il Coefficiente si avvicina a +1 c'Quando il Coefficiente si avvicina a +1 c'èè una correlazione positiva;una correlazione positiva;

Quando si avvicina a Quando si avvicina a --1 c'1 c'èè una correlazione negativa o inversa;una correlazione negativa o inversa;

Quando si avvicina allo 0 non c'Quando si avvicina allo 0 non c'èè alcuna correlazione tra i fenomenialcuna correlazione tra i fenomeni.

Forte Correlazione Positiva (r = 0,81)

y

x

Perfetta Correlazione Negativa (r = -1)

y

x

Correlazione Assente (r = 0)

y

x

Nella prima figura tutti i punti sono fortemente allineati (al crescere dei valori di x crescono i valori di y) nella seconda figura i punti sono perfettamente allineati (al crescere di x decresce y), nella terza non c'è alcuna correlazione.

70 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON

Page 72: 00 C - Epi - Biostatistica

Ecco la formula del Coefficiente di Correlazione r. I valori di x e y rappresentano le due variabili prese in esame (ad esempio pressione sistolica e diastolica):

r =r = CovarianzaCovarianza (x,y) /(x,y) / RadQRadQ [ Devianza x * Devianza y ][ Devianza x * Devianza y ]

Per calcolare il Coefficiente di Correlazione r, dunque, è necessario prima calcolare la Covarianza, che deriva dalla Somma dei prodotti fra gli scarti, dalle rispettive medie, di due serie di valori, denominati x e y.

Facciamo un esempio. Supponiamo di voler misurare il Coefficiente di Correlazione tra le due seguenti serie di valori: Numero di sigarette al dì (x) e kg di peso corporeo (y).

Serie X Serie Y ProdottiValori Scarti Valori Scarti degli scarti

(a) (c = a-mx) (b) (d = b-my) (c*d)

1 23 -4 50 -30 1202 32 5 91 11 553 19 -8 94 14 -1124 37 10 90 10 1005 24 -3 75 -5 15

Mediax Devianza x Mediay Devianza y Somma

(mx) (Σ scarti2) (my) (Σ scarti2) (Covarianza)

27 214 80 1342 178

71 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON

Page 73: 00 C - Epi - Biostatistica

Come si vede, occorre calcolare le due Devianze x e y (Sommatoria del quadrato degli scarti dalle rispettive medie) e quindi moltiplicare gli scarti di ogni singola coppia di valori x e y e poi sommare i prodotti ottenuti per ricavare la Covarianza. A questo punto è possibile applicare la formula:

r = Covarianza (x,y) / RadQ [ Devianza x * Devianza y ] , che equivale a scrivere:

r = r = SS [(x [(x –– mmxx)*(y )*(y –– mmyy)] /)] / RadQRadQ [[SS (x(x--mmxx))22] * [] * [SS (y (y –– mmyy))22]]

Serie X Serie Y ProdottiValori Scarti Valori Scarti degli scarti

(a) (c = a-mx) (b) (d = b-my) (c*d)

1 23 -4 50 -30 1202 32 5 91 11 553 19 -8 94 14 -1124 37 10 90 10 1005 24 -3 75 -5 15

Mediax Devianza x Mediay Devianza y Somma

(mx) (Σ scarti2) (my) (Σ scarti2) (Covarianza)

27 214 80 1342 178

72 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON

Page 74: 00 C - Epi - Biostatistica

Applicando alla formula i valori presi in esame si ha:

r = 178 /r = 178 / RadQRadQ ( 214 * 1342 ) = 0,3322( 214 * 1342 ) = 0,3322

n.coppie p = 0.05 p = 0.01 n.coppie p = 0.05 p = 0.01meno una Liv. 95% Liv. 99% meno una Liv. 95% Liv. 99%

1 0,99692 0,999877 16 0,4683 0,58072 0,95 0,99 17 0,4555 0,57513 0,8783 0,95873 18 0,4438 0,56144 0,8114 0,9172 19 0,4329 0,54875 0,7545 0,8745 20 0,4227 0,53686 0,7067 0,8343 25 0,3809 0,48697 0,6664 0,7977 30 0,3494 0,44878 0,6319 0,7646 35 0,3246 0,41829 0,6021 0,7348 40 0,3044 0,3932

10 0,576 0,7079 50 0,2732 0,354111 0,5529 0,6835 60 0,25 0,324812 0,5324 0,6614 70 0,2319 0,301713 0,5139 0,6411 80 0,2172 0,28314 0,4973 0,6226 90 0,205 0,267315 0,4821 0,6055 100 0,1946 0,254

Confrontando il valore ottenuto con i valori tabellaridi riferimento per gradi di libertà 4 (cioè un grado di libertà ogni coppia di valori meno uno) è possibile concludere che detto valore non raggiunge il valore minimo previsto per una significatività del 95% (0,8114 per p<0.05). Pertanto le due variabili non risultano correlate tra di loro (o il campione è piccolo o non c’è correlazione).

Tab. Livelli Significativita' del coefficiente r

La “Forza dellForza dell’’AssociazioneAssociazione” è data dal quadrato del Coefficiente di Correlazione (r2). Nell’esempio r2=0,332=0,11=11% (l’11% di y è spiegata da x)

73 - IL COEFFICIENTE DI CORRELAZIONE DI PEARSON

Page 75: 00 C - Epi - Biostatistica

74 - IL COEFFICIENTE DI REGRESSIONE

La regressione lineare è legata all’analisi di correlazione, sebbene abbia ben altri scopi. Essa tende a quantificare la relazione lineare che può esistere tra una variabile indipendente x ed una dipendente y.

La formula per indicare una retta è data da y = a +y = a + bxbx, dove “y” è la variabile dipendente (sulle ordinate) e “x” è la variabile indipendente (sulle ascisse), mentre “a” è l’intercetta sull’asse delle y (cioè il valore di y quando x è pari a zero) e “b” è il coefficiente di regressione (cioè l’inclinazione della retta, che ci dice quale sarà l’aumento di y per ogni incremento unitario di x).

y (Ordinate ) Variabile Dipendente Variabile…InaspettataFrequenza polso

b y = a + bxInclinazione

Perché aumentala temperatura...?

aintercetta

Temperatura CorporeaIntercetta Variabile Indipendente (Ascisse ) x

a intercetta

Come si può

notare

l’intercetta “a”

sull’asse della

“y” può

assumere

valori positivi o

negativi (come

in questo caso)

Page 76: 00 C - Epi - Biostatistica

Conoscendo Covarianza e Devianza è possibile predeterminare il valore che può assumere una variabile quando l'altra, ad essa correlata, assume un valore noto.

Ad esempio, è possibile stimare l'incremento della frequenza del polso (variabile dipendente y) conoscendo l'aumento della temperatura corporea (variabile x). Per stimare l’incremento di y all’aumentare di x occorre conoscere l’intercetta a (valore di solito già noto), ma soprattutto occorre conoscere il Coefficiente di Regressione b (cioè il valore dell’inclinazione della retta).

75 - IL COEFFICIENTE DI REGRESSIONE

y (Ordinate ) Variabile Dipendente Variabile…InaspettataFrequenza polso

b y = a + bxInclinazione

Perché aumentala temperatura...?

aintercetta

Temperatura CorporeaIntercetta Variabile Indipendente (Ascisse ) x

a intercetta

Si parla di Coefficiente di Regressione b y/x, quando si vuole misurare di quanto aumenta y per ogni aumento noto di una unità di x. Ecco la formula:

b b y/xy/x == covarianzacovarianza (x,y) / devianza (x)(x,y) / devianza (x) ; che equivale a scrivere:

b b y/xy/x = = SS [(x [(x –– mmxx)*(y )*(y –– mmyy)] / [)] / [SS (x(x--mmxx))22]]

Si parla di Coefficiente di Regressione b x/y, quando si vuole misurare di quanto aumenta x per ogni aumento noto di una unità di y. Ecco la formula:

b b x/yx/y == covarianzacovarianza (x,y) / devianza (y)(x,y) / devianza (y) ; che equivale a scrivere:

b b x/yx/y = = SS [(x [(x –– mmxx)*(y )*(y –– mmyy)] / [)] / [SS (y(y––mmyy))22]]

Page 77: 00 C - Epi - Biostatistica

Ricorriamo ad un esempio. Misuriamo la frequenza del polso di un paziente nel corso di un rialzo febbrile. Attraverso 5 misurazioni successive la frequenza (misurata in numero di battiti al minuto) e la temperatura corporea (misurata in gradi centigradi) aumentano in modo strettamente correlato tra di loro, così:

76 - IL COEFFICIENTE DI REGRESSIONE

Serie X = Temperatura Serie Y = Frequenza ProdottiValori Scarti Valori Scarti degli scarti

(a) (c = a-mx) (b) (d = b-my) (c*d)

1 36,0 -1,4 50 -10,0 14,22 36,7 -0,7 55 -5,0 3,63 37,5 0,1 60 0,0 0,04 38,3 0,9 65 5,0 4,45 38,6 1,2 70 10,0 11,8

Mediax Devianza x Mediay Devianza y Somma

(mx) (Σ scarti2) (my) (Σ scarti2) (Codevian)

37,4 4,7 60,0 250,0 34,0

Page 78: 00 C - Epi - Biostatistica

Calcoliamo, adesso, il Coefficiente di Correlazione r (Cov.x,y/RadQ Dev.x*Dev.y), la Forza dell’Associazione r2 ed il Coefficiente di Regressione by/x (Cov.x,y/Dev.x):

In conclusione, dunque, possiamo affermare che:

1 ) Esiste una fortissima correlazione lineare positiva, visto che r è quasi uguale ad 1, raggiungendo il valore di 0,99;

2) L’associazione è molto forte, visto che il 98% della variazione della frequenza (y) è spiegata dalla variazione della temperatura (x);

3) C’è un aumento della frequenza (y) di 7,22 battiti al minuto per ogni incremento di un grado centigrado di temperatura.

77 - IL COEFFICIENTE DI REGRESSIONE

Serie X = Temperatura Serie Y = Frequenza ProdottiValori Scarti Valori Scarti degli scarti

(a) (c = a-mx) (b) (d = b-my) (c*d)

1 36,0 -1,4 50 -10,0 14,22 36,7 -0,7 55 -5,0 3,63 37,5 0,1 60 0,0 0,04 38,3 0,9 65 5,0 4,45 38,6 1,2 70 10,0 11,8

Mediax Devianza x Mediay Devianza y Somma

(mx) (Σ scarti2) (my) (Σ scarti2) (Codevian)

37,4 4,7 60,0 250,0 34,0

CorrCorr. r =. r = CovarianzaCovarianza(x,y)/(x,y)/RadQRadQ[[DevianzaDevianzaxx**DevianzaDevianzayy]=34/]=34/√√(4,7*250)=0,99(4,7*250)=0,99

Forza dellForza dell’’Associazione rAssociazione r22 = 0,99= 0,9922 = 0,98 = 98%= 0,98 = 98%

CoeffCoeff. Regressione. Regressione bbyy/x/x == covarianzacovarianza (x,y) / devianza (x) = 34/4,7 = 7,22(x,y) / devianza (x) = 34/4,7 = 7,22

Page 79: 00 C - Epi - Biostatistica

L’analisi di Regressione Lineare è nota anche come “Metodo dei Minimi Metodo dei Minimi QuadratiQuadrati” e consente di predire il valore di y (la frequenza) dai valori che prende la x (temperatura), con la classica formula y = a +y = a + bxbx.

Nell’esempio di prima il valorevalore bb (7,22) è già calcolato.

Quando l’oggetto dell’analisi non è più la relazione tra una variabile indipendente ed una dipendente (Analisi Bivariata), bensì la relazione tra più variabili contemporaneamente (dipendenti e indipendenti) ecco l’Analisi Multivariata.

78 - IL COEFFICIENTE DI REGRESSIONE

Possiamo ricavare il valore di valore di ““aa”” partendo dai valori medi di “y” (60) e di “x”(37,5), essendo noto “b” (7,22), con la seguente equazione: a = y - bx = 60 -(7,22*37,5) = -210,8.

Adesso possiamo stimare il valore che assumerà y quando x raggiungerà un valore noto (ad esempio 40 gradi):

y = a +y = a + bxbx = = --210,8 + (7,22*40) = 210,8 + (7,22*40) = --210,8 + 288,9 = 78,1.210,8 + 288,9 = 78,1.

Page 80: 00 C - Epi - Biostatistica

LL ’’ ANALISI MULTIVARIATA E I ANALISI MULTIVARIATA E I MODELLI DI REGRESSIONEMODELLI DI REGRESSIONE

Page 81: 00 C - Epi - Biostatistica

80 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Quasi maimai una malattia risulta correlata ad un solo fattore di rischioun solo fattore di rischio.

Ed allora occorre studiare in modo contemporaneo le associazionistudiare in modo contemporaneo le associazioni tra la malattia ed i diversi fattori etiologici ad essa correlati, ivi compresi gli eventuali fattori di confondimento in grado di inficiare i risultati dello studio.

EsempioEsempio: i fattori di rischio associati alle patologie cardiovascolari. Se, ad esempio, volessimo stimare quale sia la forza dell’associazione tra l’infartomiocardico acuto ed il fattore di rischio dell’ipertensione arteriosa, dovremmo tener presente l’esistenza di ameno altri cinque fattori che risultano certamenteassociati alla stessa malattia, comportandosi come “fattori di confondimento” nei confronti dell’ipertensione: il fumo, l’ipercolesterolemia, l’obesità, l’età ed il sesso.

Per poter quantificare il contributo indipendente di ciascuno di questi sei fattori al rischio complessivo di infarto del miocardio, è necessario esaminare tutti e sei fattori contemporaneamente, ricorrendo all’Analisi Analisi MultivariataMultivariata.

Nella ricerca biomedica, infatti, sono molte le variabilivariabili che, generalmente, influenzano gli outcome (malattia o altro esito) che vogliamo studiare. Ed a a seconda dellseconda dell’’obiettivo dello studioobiettivo dello studio, queste variabili saranno o i fattori o i fattori di rischiodi rischio di cui vogliamo valutare l’effetto o i fattori dio i fattori di confondimentoconfondimento di cui vogliamo controllare l’effetto.

Page 82: 00 C - Epi - Biostatistica

Il Controllo dei Fattori diControllo dei Fattori di ConfondimentoConfondimento è uno dei problemi piùdelicati nella impostazione di uno studio epidemiologico. Le principali strategie per il controllo del confondimento sono:

81 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

1.1. La La RandomizzazioneRandomizzazione: quando non ci limitiamo ad osservare la distribuzione naturale dei fattori di esposizione (Studi Osservazionali), ma siamo noi a poter somministrare il fattore di esposizione (ciò avviene solo negli Studi Sperimentali e consente di eliminare confondenti noti e non noti);

2.2. Il Il MatchingMatching: solo negli Studi Caso-Controllo, quando scegliamo controlli che hanno tutte le caratteristiche note (confondenti) uguali ai casi, tranne il fattore di esposizione che intendiamo studiare (possiamo eliminare solo confondenti noti);

3.3. LL’’AggiustamentoAggiustamento: quando il controllo del confondimento non avviene nelle fasi preliminari dell’impostazione dello studio prima della raccolta dei dati (come randomizzazione e matching), ma nelle fasi successive alla raccolta ed in particolare durante la fase dell’analisi dei dati (condotta su piùvariabili).

Page 83: 00 C - Epi - Biostatistica

A sua volta l’Aggiustamento può essere condotto attraverso tre metodiche:

La StandardizzazioneLa Standardizzazione (diretta o indiretta: è l’esempio classico del caso in cui si voglia annullare l’effetto del fattore di confondimento dell’età);

LL’’Analisi StratificataAnalisi Stratificata (Mantel Haenszel: utilizzata nel caso in cui in uno studio caso-controllo si voglia calcolare l’OR aggiustata per il confondente noto);

La Regressione multiplaLa Regressione multipla (lineare, logistica, ecc.) che, rispetto alle prime due, presenta il vantaggio di poter aggiustare per molte più variabili per volta.

Il Confondimento … e le

?? RANDOMIZZAZIONE

? MATCHING

? AGGIUSTAMENTO

1. Standardizzazione2. Analisi Stratificata3. Regressione Multipla

Il Il Confondimento Confondimento e le soluzionie le soluzioni

82 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 84: 00 C - Epi - Biostatistica

STANDARDIZZAZIONE STANDARDIZZAZIONE DIRETTADIRETTA

STANDARDIZZAZIONE STANDARDIZZAZIONE INDIRETTAINDIRETTA

Si applicano i tassi specifici per etàdella popolazione in osservazione

alle classi di età di una Popolazione Standard.

Si applicano i tassi specifici per etàdi una Popolazione Standard

alle classi di età di una popolazionein osservazione.

PIRAMIDE DELLA POPOLAZIONE DI CARLENTINI (SR) PIRAMIDE DELLA POPOLAZIONE DI PEDAGAGGI (SR)

Età maschi femmine Età maschi femmine

>90 22 38 >90 1 3

80-89 80-89 30 39

70-79 70-79 46 72

60-69 60-69 78 73

50-59 50-59 65 92

40-49 40-49 68 71

30-39 30-39 99 95

20-29 20-29 99

10-19 10-19 64 73

0-9 0-9 68 74

Numero di Persone 0 Numero di Persone 0

110

1.082 1.019

1.371 1.367

1.465 1.489

1.220 1.237

1.187 1.328

791 875

982 948

233 250

422 528

83 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 85: 00 C - Epi - Biostatistica

LL’’Analisi StratificataAnalisi Stratificata. Le metodiche di analisi multivariata fondate sull’analisi stratificata risultano facilmente comprensibili. Riprendiamo l’esempio della associazione tra consumo di caffè e sigarette e la mortalità cardiovascolare.

31>5

291-5

270

Mortalità per Cardiopatia Coronarica

in maschi di 55-64 anni (morti/1000/anno)Caffè

(tazze al dì)

Esaminate singolarmente entrambe le variabili sembrano associate all’aumento della patologia coronarica. Tuttavia ognuna di esse potrebbe comportarsi da confondente rispetto all’altra. E allora, per conoscere quale è il reale contributo di ognuna di esse sull’aumento del rischio occorre aggiustare i dati ricorrendo alla analisi stratificata.

43>2

291-2

150

Mortalità per Cardiopatia Coronarica

in maschi di 55-64 anni (morti/1000/anno)Sigarette

(pacch. /dì)

84 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 86: 00 C - Epi - Biostatistica

16105>5

131061-5

14940

>21-20Caffè

(tazze al dì)

Sigarette(pacchetti al dì)

Mortalità per Cardiopatia Coronarica stratificata per caffè e sigarette al dì

0 = 27

1-5 = 29

>5 = 31

0 = 15

1-2 = 29

>2 = 43

Numero di morti/1000/anno per Cardiopatia Coronaric a tra Maschi di 55-64 anni d’età(IL TOTALE E’ SEMPRE 87)

LL’’Analisi StratificataAnalisi Stratificata. Leggendo i dati del fumo stratificati nei tre livelli di rischio del caffè (lettura orizzontale) i casi aumentano uniformemente con l’aumentare del numero di sigarette (4-9-14 nel primo strato di non bevitori; 6-10-13 nel secondo strato di bevitori; 5-10-16 nel terzo strato di superbevitori).

Leggendo invece i dati del caffè stratificati per i tre livelli delle sigarette (lettura verticale) non c’è aumento (4-6-5 nel primo strato di non fumatori; 9-10-10 nel secondo strato di fumatori; 14-13-16 nel terzo strato di superfumatori).

85 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 87: 00 C - Epi - Biostatistica

Pertanto, mentre l’associazione tra fumo e malattia coronarica è di tipo causale, quella tra caffè e coronaropatie è solo un’associazione spuria. In altri termini, l’associazione tra caffè e malattia è solo apparente ed è dovuta alla contemporanea presenza di un altro fattore (il fumo), che agisce come “fattore di confondimento” rispetto al caffè (visto che spesso chi beve molto caffè èanche un forte fumatore). In questo caso è stato possibile annullare l’effetto del fattore confondente (fumo) rispetto al fattore di esposizione studiato (caffè) suddividendo i bevitori di caffè in tre strati di bevitori differenti tra loro (non fumatori, fumatori e superfumatori), ma omogenei al loro interno rispetto alle abitudini al fumo.

Tutto ciò è stato possibile perché eravamo di fronte solo a due variabili (caffsolo a due variabili (caffèè e e fumo),fumo), ciascuna delle quali era suddivisa suddivisa in 3 categorie di rischioin 3 categorie di rischio (0, 1-5, >5 per il caffè e 0, 1-2 e >2 per il fumo), così da determinare solo 9 sottogruppi9 sottogruppi (3*3=9).

Ma si pensi alle difficoltà a cui andremmo incontro se ci trovassimo di fronte a piùvariabili ed a più categorie di rischio.

86 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 88: 00 C - Epi - Biostatistica

Tornando all’esempio iniziale dei 6 fattori di rischio (FR) collegati all’infarto miocardico (IMA), potremmo trovarci di fronte alla seguente situazione:

VARIABILIFR di IMA

ModerataModerata>2 p./dì40-443°

ElevataElevata45-494°

50-545°

Si

No

Ipercolest

Lieve

No

Obesità

≥55

35-39

<35

Età

1-2 p./dì

0

Fumo

Lieve

No

Ipertens.

Femmine2°

Maschi1°

SessoCATEGOR.

E dunque, 2 categorie per il sesso, 6 per le fasce d’età, 3 per i fumatori, 4 per i livelli di ipertensione, 2 per la presenza o meno di ipercolesterolemia e 4 per i livelli di obesità esaminati. Col metodo della Stratificazione dovremo suddividereil campione di popolazione studiato in tutte le possibili combinazioni. Per l’esattezza dovremmo suddividere il campione in 1.152 sottogruppi1.152 sottogruppi (e cioè2*6*3*4*2*4=1.152). Se disponessimo dunque di un campione di 1.000 soggetti, avremo una media di 0,8 persone per ogni sottogruppo: … inattendile!

87 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 89: 00 C - Epi - Biostatistica

Le metodiche fondate sulla Stratificazione, dunque, presentano gli svantaggi di non poter aggiustare i dati per più di una o due variabili di confondimento per volta (anche perchè possono essere influenzate dalla presenza di sottogruppi di dimensioni numeriche molto limitate) e di non poter presentare dati molto sintetici.

I Vantaggi dei Modelli di RegressioneVantaggi dei Modelli di Regressione (Lineare Multipla, Logistica, ecc.) risiedono nel fatto che trattasi di un modello in grado di studiare sinteticamente le relazioni tra diverse variabili (causali e/o confondenti) ed un outcome, elaborandole simultaneamente e senza essere influenzata dalla presenza di sottogruppi di dimensioni limitate.

88 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 90: 00 C - Epi - Biostatistica

La scelta tra i Modelli di RegressioneLa scelta tra i Modelli di Regressione

I Modelli di Regressione più utilizzati in Epidemiologia sono quattro. La loro scelta dipende dalla variabile di esito (y) e dal disegno dello studio:

Tassi di Rischio e Hazard Ratio

Studi di SopravvivenzaDicotomicaDI COX

Tassi di Incidenza e Rischi Relativi

Studi di CoorteDicotomicaDI POISSON

Proporzioni e OddsRatio

Studi Caso-Controllo, ecc.DicotomicaLOGISTICA

Condizionate dall’uso di variabili quantitative y

Condizionate dall’uso di variabili quantitative y

QuantitativaMULTIPLA

Stime principaliApplicazioni principaliVariabile yREGRESS.

La Regressione Logistica si può utilizzare anche in Studi Trasversali e negli Studi di Coorte in cui non è necessario ricorrere al calcolo persona-tempo. La Regressione di Poisson si utilizza soprattutto negli Studi di Coorte che presuppongono l’impiego del calcolo persona-tempo. La Regressione di Cox tiene conto del tempo in cui si verificano gli eventi ma non delle persone-tempo.

89 - DALLA ANALISI BIVARIATA A QUELLA MULTIVARIATA

Page 91: 00 C - Epi - Biostatistica

Per comprendere meglio le metodiche di Analisi Multivariata basate sul concetto di Regressione, è necessario fare un passo indietro e tornare alla Regressione Lineare Semplice (che in realtà fa parte delle metodiche di Analisi Bivariata).

Regressione Lineare Semplice: y = a + bx

Intercetta (valore y quando x=0): a=y–bxCoefficiente di Regressione (inclinazione o incremento di y quando x aumenta di 1): b y/x = S [(x – mx)*(y – my)] / [S (x-mx)

2]

90 – LA REGRESSIONE LINEARE SEMPLICE

y (Ordinate ) Variabile Dipendente

Inclinazione b

a intercetta

Variabile Indipendente (Ascisse ) x

La Regressione Lineare Semplice, esprime l’andamento di una retta in cui la variabile quantitativa dipendente y sulle ordinate varia in funzione della variabile indipendente x sulle ascisse, secondo l’equazione y=a+bx, dove a rappresenta la costante dell’intercetta sull’asse delle y (valore di y quando x è uguale a zero), e b rappresenta il coefficiente di regressione.

La retta di regressione viene calcolata attraverso il “metodo dei minimi quadrati”, capace di tracciare la retta che minimizzi la somma dei quadrati delle distanze tra questa e tutti i punti del grafico (corrispondenti alle osservazioni).

Page 92: 00 C - Epi - Biostatistica

Quando l’oggetto dell’analisi non è più la relazione tra una variabile dipendente y (ad esempio la malattia) ed una variabile indipendente x (ad esempio il fattore di rischio), come nel caso della Regressione Lineare Semplice, bensì la relazione simultanea tra una variabile dipendente y (ad esempio la malattia) e piùvariabili indipendenti x (ad esempio i fattori di rischio e/o fattori diconfondimento) si entra nell’ambito dell’Analisi Multivariata e si parla, in questo caso, di Regressione Lineare Multipla.

Con la Regressione Lineare Multipla, dunque, è possibile studiare l’associazione di ogni singola variabile x (fattore di esposizione) con la variabile y (la malattia), al netto degli effetti di tutte le altre variabili x (fattori di confondimento).

Fatt. Rischio/ Confondenti

Fatt. Rischio/ Confondenti

Malattia

91 – LA REGRESSIONE LINEARE MULTIPLA

Page 93: 00 C - Epi - Biostatistica

La equazione della Regressione Lineare Multipla, in analogia con quella della Regressione Semplice (y=a+bx), è data da:

REGRESSIONE LINEARE MULTIPLAREGRESSIONE LINEARE MULTIPLA: :

y = a + by = a + b11xx11 + b+ b22xx22 + b+ b33xx33 + + …… ++ bbnnxxnn

Ogni singolo coefficiente di regressione (b1, b2, b3, … bn) indica quanto ogni singola variabile indipendente (x1, x2, x3, … xn) influenzi la variabile dipendente y (in aumento o diminuzione a seconda del segno + o - del coefficiente).

92 – LA REGRESSIONE LINEARE MULTIPLA

INTERCETTA aINTERCETTA a : valore di y quando x: valore di y quando x11, x, x22, x, x33, , xxnn sono = 0 :sono = 0 :

a = y a = y -- bb11xx11 -- bb22xx22 -- bb33xx33 -- …… -- bbnnxxnn

COEFF. DI REGRESSIONE bCOEFF. DI REGRESSIONE b11: coincide con l: coincide con l’’incremento di y incremento di y quando xquando x11 aumenta di una unitaumenta di una unitàà e tutte le altre variabili (xe tutte le altre variabili (x22, x, x33, , …… xxnn) rimangono costanti (stesso ragionamento per b2, b3, ecc):) rimangono costanti (stesso ragionamento per b2, b3, ecc):

bb11 y/xy/x = = SS [(x[(x11 –– mmx1x1)*(y )*(y –– mmyy)] / [)] / [SS (x(x11--mmx1x1))22]]

NB: Al numeratore la Covarianza al denominatore la Devi anza

Page 94: 00 C - Epi - Biostatistica

Ricorriamo, ancora una volta ad un esempio. Supponiamo di studiare la variazione del tasso di incidenza decennale della patologia cardiovascolare (y) rispetto a quattro differenti variabili x (Sesso, Età, Fumo e Pressione Arteriosa) in un campione di 489 soggetti. Per ognuna delle variabili x abbiamo queste categorie di esposizione:

VARIABILIEsempio:

…2 = 15-29 sig./dì…-3°

…3 = ≥30 sig./dì…-4°

Var. numericaVariabileVariabile n.VariabileTipo di

Continua

… in anni

Età x2

Categorica

1 = <15 sig./dì

0 = No Fumatore

Fumo x3

Continua

… in mm Hg

Pressione x4

DicotomicaVariabile:

0 = Femmine2°

1 = Maschi1°

Sesso x1CATEGORIE

Il calcolo dell’intercetta “a” e dei coefficienti di regressione (b1, b2, b3, b4) relativi alle quattro variabili (x1, x2, x3, x4) risulta di estrema complessità. Pertanto si ricorre solitamente al computer e ad appositi programmi (Epi-Info…)

93 – LA REGRESSIONE LINEARE MULTIPLA

Page 95: 00 C - Epi - Biostatistica

La trasformazione delle variabili dicotomiche e categoriche in numeri consente di inserire, nell’apposito software, semplici dati numerici.

CAMPIDATA BASE

. . .. . .. . .. . .. . .

1402391489° Sogg.

48

45

Età x2

3

0

Fumo x3

115

120

Pressione x4

02° Soggetto

11° Soggetto

Sesso x1RECORDS

94 – LA REGRESSIONE LINEARE MULTIPLA

Così, se ad esempio dovessimo inserire un record relativo ad un maschio di 45 anni, non fumatore, con una pressione di 120 mm Hg, dovremo inserire nei quattro campi (sesso, età, fumo e pressione) i seguenti numeri: 1, 45, 0, 120.

Ed allo stesso modo se dovessimo inserire il record di una donna di 48 anni, fumatrice oltre le 30 sigarette al dì, con un pressione sistolica di 115 mm Hg, dovremo inserire nei quattro campi (sesso, età, fumo e pressione) i seguenti numeri: 0, 48, 3, 115. E così via per tutti i 489 soggetti reclutati nello studio.

INPUT (Immissione Dati al Computer)

Page 96: 00 C - Epi - Biostatistica

Oltre ai dati sulle variabili indipendenti x (fattori di rischio e/o confondenti), nel data base dovranno essere inseriti anche i dati relativi alla variabile dipendente y (la presenza o assenza della malattia cardiovascolare) per ogni record (o soggetto). Al termine dell’elaborazione, il computer calcola i coefficienti di a (intercetta) e di b1, b2, b3, b4 , nonché i valori di P (livelli di probabilità):

OUTPUT (Risultati elaborati dal Computer)

<0.050b4 = 0,001-X4 Press.

<0.001b2 = 0,003-X2 Età

<0.001b3 = 0,014-X3 Fumo

b1 = 0,069

-

Coefficiente b

<0.001

-

P

-X1 Sesso

0,0597-

Coefficiente aVARIABILI

95 – LA REGRESSIONE LINEARE MULTIPLA

Page 97: 00 C - Epi - Biostatistica

I valori ottenuti ci consentono di raggiungere due OBIETTIVIOBIETTIVI:

1.1. Valutare lValutare l’’effetto di ogni singola esposizione aggiustataeffetto di ogni singola esposizione aggiustata per l’effetto dei confondenti: cioè la possibilità di stimare il “Rischio” associato ad una singola variabile (ad esempio x1) ed aggiustato per tutte le altre variabili (x2, x3, x4).

2.2. Costruire modelli predittiviCostruire modelli predittivi: cioè la possibilità di stimare l’Incidenza Cumulativa, o la percentuale del “Rischio” di ammalarsi, da parte di un singolo soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, x4).

AGGIUSTARE

e

PREDIRE

96 – LA REGRESSIONE LINEARE MULTIPLA

Page 98: 00 C - Epi - Biostatistica

OBIETTIVO DELLOBIETTIVO DELL’’AGGIUSTAMENTOAGGIUSTAMENTO

Ritornando al nostro esempio, per quanto riguarda il primo obiettivo possiamo valutare la percentuale di rischio associata ad ognuna delle quattro variabili (sesso, età, fumo e pressione arteriosa) aggiustata per le altre.

A tal fine è necessario moltiplicare ogni singolo coefficiente b ottenuto per la categoria di esposizione:

� 0 e 1 per il sesso;

� 0, 1, 2 e 4 per il fumo;

� il numero di anni per l’età;

� il numero di millimetri di Hg per la pressione

97 – LA REGRESSIONE LINEARE MULTIPLA

Page 99: 00 C - Epi - Biostatistica

VARIABILE: SESSO MASCHILE

Riguardo alla variabile sesso maschile (x1=1), che è una variabile dicotomica, il coefficiente b1 ottenuto (0,069) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cioè “aggiustando” per età, fumo e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 6,9 % nei soggetti maschili rispetto a quelli femminili.

Infatti per x1 (sesso) uguale a 1 (maschio) con coefficiente b1 di 0,069 si ha:

1 * 0,069 = 0,069 = 6,9 %1 * 0,069 = 0,069 = 6,9 % (cioè il 6,9 % in più rispetto alle donne dove il calcolo darà ovviamente 0).

98 – LA REGRESSIONE LINEARE MULTIPLA

Page 100: 00 C - Epi - Biostatistica

VARIABILE: ETA’ di 40 ANNI

Riguardo alla variabile età di 40 anni (x2=40), che invece è una variabile continua, il coefficiente b2 ottenuto (0,003) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cioè “aggiustando”per sesso, fumo e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 12 % nei soggetti di 40 anni.

Infatti per x2 (età) uguale a 40 con coefficiente b2 di 0,003 si ha:

40 * 0,003 = 0,12 = 12 %.40 * 0,003 = 0,12 = 12 %.

4040

99 – LA REGRESSIONE LINEARE MULTIPLA

Page 101: 00 C - Epi - Biostatistica

VARIABILE: FUMO ≥ 30 SIGARETTE

Riguardo alla variabile fumo ≥ 30 sigarette al dì (x3=3), che è una variabile categorica, il coefficiente b3 ottenuto (0,014) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cioè “aggiustando”per età, sesso e pressione arteriosa) il rischio di ammalarsi (di cardiopatia) aumenta del 4,2 % nei fumatori oltre le 30 sigarette al giorno rispetto ai non fumatori.

Infatti per x3 (fumo) uguale a 3 (≥ 30 sigarette al dì) con coefficiente b3 di 0,014 si ha:

3 * 0,014 = 0,042 = 4,2 %3 * 0,014 = 0,042 = 4,2 % (cioè il 4,2 % in più rispetto ai non fumatori dove il calcolo darà 0).

100 – LA REGRESSIONE LINEARE MULTIPLA

Page 102: 00 C - Epi - Biostatistica

VARIABILE: PRESSIONE di 140 mm Hg

Riguardo alla variabile pressione arteriosa di 140 mm Hg (x4=140), che è una variabile continua, il coefficiente b4 ottenuto (0,001) sta a significare che, mantenendo costanti tutte le altre variabili indipendenti del modello (e cioè“aggiustando” per sesso, età e fumo) il rischio di ammalarsi (di cardiopatia) aumenta del 14 % nei soggetti con 140 mm Hg di pressione arteriosa.

Infatti per x4 (pressione arteriosa) uguale a 140 con coefficiente b4 di 0,001 si ha:

140 * 0,001 = 0,14 = 14 %.140 * 0,001 = 0,14 = 14 %.

Il valore di Pvalore di P calcolato dal computer, infine, è assai prezioso, perché ci consente di valutare la significativitàstatistica dei valori ottenuti.

101 – LA REGRESSIONE LINEARE MULTIPLA

Page 103: 00 C - Epi - Biostatistica

OBIETTIVO DEL MODELLO PREDITTIVOOBIETTIVO DEL MODELLO PREDITTIVO

Il secondo degli obiettivi della Regressione Lineare Multipla è quello di costruire modelli predittivi, cioè di poter stimare l’incidenza (ad esempio decennale, ventennale, ecc.), ovvero la percentuale del “Rischio” di ammalarsi dopo un certo lasso di tempo (ad esempio 10 anni) da parte di un soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, x4).

102 – LA REGRESSIONE LINEARE MULTIPLA

Nel nostro esempio possiamo supporre di voler stimare il rischio di incidenza decennale per malattie cardiovascolari (y), di un soggetto di sesso maschile(x1), di anni 45 (x2), non fumatore (x3), con una pressione arteriosa di 150 mm Hg (x4). Applichiamo i valori all’equazione della Regressione Lineare Multipla:

y = a + b1x1 + b2x2 + b3x3 + b4x4 , da cui:

y = 0,0597 + (0,069*1) + (0,003*45) + (0,014*0) + (0,001*150)

y = 0,0597 + 0,069 + 0,135 + 0 + 0,15 = 0,4137 = 41,37 %

Il soggetto con le suddette caratteristiche, dunque, avrà un rischio di ammalarsi (incidenza decennale) del 41,37 %.

Page 104: 00 C - Epi - Biostatistica

ASSUNTIASSUNTI

In conclusione, dunque, in un modello di Regressione Lineare Multipla:

1. La relazione tra y ed x deve essere “Lineare” (l’incremento di y per x1 che passa da 1 a 2 è sempre uguale all’incremento di y per x che passa da 10 a 11);

2. Non deve esserci “Interazione” tra le variabili indipendenti (gli effetti di x1, x2, xn sono indipendenti. Se c’è Interazione occorre studiarla con l’Analisi Stratificata);

3. Le variabili indipendenti x possono essere parametri numerici continui (1, 2, 3, ecc.), variabili dicotomiche (Si o No), o variabili categoriche (fasce d’età, ecc.);

4. Ma la variabile dipendente y è sempre numerica continua (in realtànell’esempio, solo per motivi didattici si è riportata una variabile dicotomica).

Quando la variabile dipendente y esprime, invece, una variabile dicotomica(Malati o Sani) e non numerica continua, occorre far ricorso alla Regressione Logistica

103– LA REGRESSIONE LINEARE MULTIPLA

Page 105: 00 C - Epi - Biostatistica

L’evenienza che la variabile dipendente in studio (y)variabile dipendente in studio (y) non sia continua, ma dicotomicadicotomica (assenza o presenza della malattia o dell’esposizione), è cosa assai frequente nelle indagini epidemiologiche.

E’ per questo che la Regressione Logistica è il modello di Analisi Multivariata in atto più utilizzata dagli epidemiologi, ed in particolare in tutti i maggiori studi fondati su outcome dicotomici (Malati/Sani, Casi/Controlli, Esposti/Non Esposti, Esito/Non Esito): gli Studi TrasversaliStudi Trasversali, CasoCaso--ControlloControllo e di CoorteCoorte.

Così come la Multipla, anche la Regressione Logistica presenta alcune caratteristiche:

VANTAGGIVANTAGGI

1. Possibilità di studiare le relazioni tra diverse variabili causali e/o confondenti, ed un outcome, ad esempio la malattia, elaborandole simultaneamente e senza essere influenzati dalla presenza di sottogruppi di dimensioni limitate

2. Possibilità di presentare dati molto sintetici e di mettere in evidenza eventuali “interazioni”

104 – LA REGRESSIONE LOGISTICA

Page 106: 00 C - Epi - Biostatistica

OBIETTIVI OBIETTIVI

1. Valutare l’effetto di ogni singola esposizione aggiustata per l’effetto dei confondenti, cioè la possibilità, di stimare gli Odds Ratio (OR) di ogni singola variabile x1, aggiustati per tutte le altre variabili x2, x3, xn

2. Costruire modelli predittivi, cioè la possibilità di stimare l’Odds Ratio, ovvero il rischio di ammalarsi, da parte di un singolo soggetto (variabile y) partendo dai valori noti delle sue variabili indipendenti (x1, x2, x3, xn).

105 – LA REGRESSIONE LOGISTICA

ASSUNTIASSUNTI

1. La relazione tra y ed x deve essere “Lineare” (l’incremento di y per x1 che passa da 1 a 2 è uguale all’incremento di y per x che passa da 10 a 11);

2. Non deve esserci “interazione” tra le variabili indipendenti (gli effetti di x1, x2, xn sono indipendenti. Se c’è interazione occorre l’Analisi Stratificata);

3. Le variabili indipendenti x possono essere parametri numerici continui (1, 2, 3, ecc.), variabili dicotomiche (Si o No) o variabili categoriche (fasce d’età);

4. La variabile dipendente y è sempre dicotomica (unica sostanziale differenza rispetto alla Regressione Lineare Multipla).

Page 107: 00 C - Epi - Biostatistica

da 0 a + Infinito

Variabile Continua

Odds = P/(1-P)

da 0 a 1

-- ++

++

da – Inf. a + Inf.

Trasformazione diOdds in Logaritmodi Odds (Log Odds)

Variabile ContinuaOdds = eY

Restituzionedel Valore di

Odds

YYRisultato

Restituzionedel Valore di

“P”

Variabile Dicotomica

P = Odds/

(1+Odds)

Log Odds = LogeOdds

Trasformazione di “P” in OddsPPLA REGRESSIONE LA REGRESSIONE LOGISTICA ed IL LOGISTICA ed IL GIOCO DELLGIOCO DELL’’OCAOCA

Il procedimento logico della Regressione Logistica viene rappresentato in questa immagine come il percorso di una sorta di “Gioco dell’oca”.

La 1° tappa è la trasformazione di “y” da dicotomica a continua (con gli Odds).

La 2° è la trasformazione degli Odds di “y” nei corrispondenti logaritmi.

La 3°, ottenuto il risultato di “y”, è la restituzione del valore di Odds

La 4° è la restituzione del valore di “p”.

106 – LA REGRESSIONE LOGISTICA

Page 108: 00 C - Epi - Biostatistica

1a 1a -- Trasformazione di y da dicotomica a continua (con gliTrasformazione di y da dicotomica a continua (con gli OddsOdds))

Al fine di poter applicare gli stessi principi e le stesse metodiche della Regressione Lineare Multipla (dove y è sempre una variabile numerica continua), nella Regressione Logistica, in via preliminare, occorre ridurre la variabile dicotomica y ad una variabile continua.

La suddetta trasformazione è possibile attraverso il ricorso agli Odds.

LL’’OddsOdds (termine inglese, diffuso tra gli scommettitori di difficile traduzione in italiano) di un evento è espresso dal rapporto tra la probabilità del verificarsi dell’evento (P) e la probabilità che esso non si verifichi (1-P): OddsOdds = P/(1= P/(1--P)P).

Tutto ciò è necessario perché la distribuzione di una Probalitdistribuzione di una Probalitàà (che è una variabile dicotomica) oscilla sempre tra 0 e 1, senza mai superare l’unità.

Una probalitprobalitàà PP di 0,4 , ad esempio, indica che quell’evento ha il 40% di probabilità di verificarsi, mentre la probabilità che non si verifichi è del 60% (cioè 0,6 , il complemento a 1 di P).

107 – LA REGRESSIONE LOGISTICA

Page 109: 00 C - Epi - Biostatistica

1b 1b -- Trasformazione di y da dicotomica a continua (con gliTrasformazione di y da dicotomica a continua (con gli OddsOdds))

La distribuzione del relativo Oddsdistribuzione del relativo Odds, invece, è una variabile continua perché non va da 0 a 1, ma da 0 a più infinito. Facciamo qualche esempio:

Per una Probabilità P 0,1: Odds = P/(1-P) = 0,1/(1-0,1) = 0,1/0,9 = 0,11

Per una Probabilità P 0,5: Odds = P/(1-P) = 0,5/(1-0,5) = 0,5/0,5 = 1

Per una Probabilità P 0,9: Odds = P/(1-P) = 0,9/(1-0,9) = 0,9/0,1 = 9

Per una Probabilità P 0,99: Odds = P/(1-P) = 0,99/(1-0,99) = 0,99/0,01 = 99

E dunque, ancora, per un P uguale a 0,999 il relativo Odds sarà di 999, e cosìvia di seguito fino a +∞.

In questo modo abbiamo trasformato la variabile dipendente y da un valore dicotomico ad un valore numerico continuo.

108 – LA REGRESSIONE LOGISTICA

Page 110: 00 C - Epi - Biostatistica

2a 2a –– Trasformazione degli Trasformazione degli OddsOdds di y nei corrispondenti Logaritmidi y nei corrispondenti Logaritmi

La semplice trasformazione degli esiti P della variabile dicotomica y nei relativiOdds consente di trasformare y in una variabile continua, ma solo per i valori positivi (da 0 a +∞). Per trasformare y in una variabile continua copresa da -∞a +∞ occorre utilizzare non gli Odds, bensì i Logaritmi naturali degli Odds.

Il LogaritmoLogaritmo di un numero reale positivo “n” rispetto alla base “e”, reale positiva e diversa da uno, èl’esponente “z” che occorre attribuire alla base “e” per ottenere “n”, e si scrive: z = z = LogLogeenn

Dunque in una equazione (data da: n = n = eezz ) il Logaritmo di “n” è proprio l’esponente “z”.

E quindi il calcolo del Logaritmo è in un certo senso l’operazione inversa dell’elevamento a potenza.

Nei cosiddetti Logaritmi Naturali di un numero “n” si assume per base “e” il cosiddetto “Numero di Eulero”, che equivale ad e = 2,71828e = 2,71828.

Eulero

109 – LA REGRESSIONE LOGISTICA

Page 111: 00 C - Epi - Biostatistica

2b 2b –– Trasformazione degli Trasformazione degli OddsOdds di y nei corrispondenti Logaritmidi y nei corrispondenti Logaritmi

Ecco qualche esempio.

Per Odds 0,11: Log Odds = Log e Odds = Log 2,71828 0,11 = -2,21

Per Odds 1: Log Odds = Log e Odds = Log 2,71828 1 = 0

Per Odds 9: Log Odds = Log e Odds = Log 2,71828 9 =+2,20

SpiegazioneSpiegazione: Nel primo esempio su riportato, il Logaritmo Naturale dell’Odds0,11 (scaturente a sua volta da una P di 0,1 , come si ricorderà) rappresenta l’esponente che occorre dare alla base “e” (per la quale si assume il numero diEulero 2,71828) al fine di ottenere il valore di Odds (0,11), secondo l’equazione:

OddsOdds = e = e Log Log OddsOdds (da cui appunto: Log Log OddsOdds = Log = Log ee OddsOdds).

In questo caso, dunque, se il Logaritmo Naturale di Odds 0,11 è -2,21, l’equazione inversa (Odds = e Log Odds) sarà:

OddsOdds = 2,71828 = 2,71828 --2,212,21 = 0,11= 0,11.

110 – LA REGRESSIONE LOGISTICA

Page 112: 00 C - Epi - Biostatistica

2c 2c –– Trasformazione degli Trasformazione degli OddsOdds di y nei corrispondenti Logaritmidi y nei corrispondenti Logaritmi

Attraverso la trasformazione logaritmica degli Odds, siamo riusciti ad avere anche valori negativi. Più in particolare:

1. Per tutti i valori di Odds inferiori a 1 (e cioè 0,11 , come nel caso del primo esempio) i corrispondenti Logaritmi naturali assumeranno valori negativi fino a -∞;

2. Per il valore di Odds uguale a 1 il corrispondente Logaritmo naturale assumerà il valore di 0;

3. Per tutti i valori di Odds superiori a 1 i corrispondenti Logaritmi naturali assumeranno valori positivi fino a +∞.

Pertanto, con la trasformazione degli esiti dicotomici P della variabile y, prima nei rispettivi Odds e poi nei corrispondenti Logaritmi naturali di Odds, siamo riusciti a trasformare la variabile dipendente y da una variabile dicotomica ad

una variabile numerica continua compresa da meno infinito a più infinito.

111 – LA REGRESSIONE LOGISTICA

Page 113: 00 C - Epi - Biostatistica

3 3 –– Elaborazione della retta di regressioneElaborazione della retta di regressione

A questo punto possiamo elaborare l’equazione della retta di regressione:

Regressione Logistica: Regressione Logistica:

y = logy = log oddsodds = a + b= a + b11xx11 + b+ b22xx22 + b+ b33xx33 + + …… ++ bbnnxxnn

In pratica è pressocchè impossibile calcolare i parametri dell’intercetta “a” e dei coefficienti di regressione b1 , b2 , b3 , bn , senza l’ausilio di un computer e di un apposito software.

Tuttavia, una volta ottenuti con l’elaborazione informatica i suddetti dati, l’interpretazione dell’equazione è del tutto simile a quella della Regressione Lineare Multipla, con l’unica differenza che i risultati (di “y”) saranno espressi in termini di “Log Odds” (o “Logit”).

Pertanto, ai fini di riportare nuovamente i valori di y dal formato di “Log Odds” a quello di Probabilità “P” (ovvero di “Rischio” di malattia, ad esempio) ènecessario ripercorrere i precedenti passaggi in senso inverso. Vediamo come.

112 – LA REGRESSIONE LOGISTICA

Page 114: 00 C - Epi - Biostatistica

4a 4a –– Restituzione del valore di P dai risultati Log Restituzione del valore di P dai risultati Log Odds Odds di ydi y

Una volta ottenuti i risultati dell’equazione della variabile dipendente “y”, in termini di “log odds”, occorre calcolare l’Odds. Partendo dall’equazione:

y = log odds = log y = log odds = log ee oddsodds

è possibile ricavare l’odds attraverso la seguente formula:

odds = antilog y = e odds = antilog y = e yy == 2,71828 2,71828 yy

dove “antilog” sta per “antilogaritmo” .

LL’’AntilogaritmoAntilogaritmo (antilog) di un Logaritmo naturale (log) consente di ritrovare il Numero “n”(incognito) da cui si è generato il Logaritmo naturale, e si calcola elevando la base “e” del numero di Eulero (2,71828) per il valore stesso del Logaritmo (che funge da esponente), con la formula:

n = antilog di log = e n = antilog di log = e loglog

113 – LA REGRESSIONE LOGISTICA

Page 115: 00 C - Epi - Biostatistica

4b 4b –– Restituzione del valore di P dai risultati Log Restituzione del valore di P dai risultati Log Odds Odds di ydi y

In questo caso si tratta dell’antilogaritmo del risultato di “y”, ottenuto, appunto, sotto forma di logaritmo (“log odds”).

L’antilogaritmo di “y” (cioè l’odds) si ottiene elevando a potenza il valore della base “e” del numero di Eulero (2,71828) per lo stesso valore “y” ( esponente).

Una volta ricavato l’odds si può calcolare la probabilità “P”, partendo da:

odds = P / (1odds = P / (1--P)P) da cui si ottiene: P = odds / (1+odds)P = odds / (1+odds)

RiassumendoRiassumendo, pertanto, una volta ottenuto il valore di “y”in formato logaritmico, è possibile ritornare al suo originario formato dicotomico della proporzione (P):

- Dato il risultato logaritmico di “y” (y = log y = log oddsodds)), si ha

- Odds = e log odds = 2,71828 y ; e ricavato Odds si ha la P:

- P=Odds/(1+Odds)

P

114 – LA REGRESSIONE LOGISTICA

Page 116: 00 C - Epi - Biostatistica

5 5 -- Calcolo degli OR delle singoli variabili x (aggiustate)Calcolo degli OR delle singoli variabili x (aggiustate)

Per quanto riguarda, invece, i valori delle variabili indipendenti (x1, x2, x3, xn) èpreferibile calcolare gli Odds Ratio (OR), cioè i “Rischi Relativi Approssimati” di ogni singola variabile, aggiustati per tutte le altre (cioè mantenendo costanti tutte le altre variabili).

Analogamente al calcolo della Probabilità “P” del valore di “y”, già illustrato, il valore dell’Odds Ratio di ogni variabile x si ricava dall’antilogaritmo del corrispondente coefficiente di regressione “b”.

115 – LA REGRESSIONE LOGISTICA

In altri termini, se volessimo calcolare l’OR della variabile x1 dovremmo calcolare l’antilogaritmo del corrispondente coefficiente di regressione b1 , e dunque dovremmo elevare a potenza la base “e” del numero di Eulero per il coefficiente b1 (che si comporta da esponente), secondo il seguente schema:

OR xOR x11 = antilog b= antilog b11 = e = e b1b1 == 2,71828 2,71828 b1b1

Lo stesso ragionamento vale per tutte le altre variabili indipendenti prese in esame (x2, x3, xn), i cui OR saranno stimabili dagli antilogaritmi dei rispettivicoefficienti “b”.

Page 117: 00 C - Epi - Biostatistica

6a 6a -- Utilizzo del Computer ed EsempiUtilizzo del Computer ed Esempi

Immaginiamo che il R.T.P. di Siracusa conduca uno Studio Caso-Controllo, tra un campione di donne siracusane abitanti nell’area del polo petrolchimico di Priolo (il 50% con bambini malformati ed il rimanente 50% con bambini sani), riguardante i principali fattori di rischio associati, secondo la letteratura medica, alla probabilità (P) di avere un figlio affetto da malformazione congenita.

116 – LA REGRESSIONE LOGISTICA

In questo caso la variabile dipendente “y” è la probabilità “P” di avere un figlio malformato, mentre le variabili indipendenti “x”, prese in esame, riguardano alcune abitudini di vita delle gestanti durante la gravidanza: fumo di sigaretta, uso di estroprogestiici, consumo di alcolici, di acqua mineralecommercializzata (cioè non proveniente dalle falde idriche locali) e pesce.

Page 118: 00 C - Epi - Biostatistica

6b 6b -- Utilizzo del Computer ed EsempiUtilizzo del Computer ed Esempi

I dati, raccolti con questionari, sono inseriti nel PC, ed ecco i risultati:

1,53-6,343,47b2 = 1,244-0= No

1= SiX2 Estroprog.

0,92-2,611,58b3 = 0,457-0= No

1= ≤ 1 bicch./dì

2= > 1 bicch./dì

X3 Alcolici

0,36-0,980,49b4 = - 0,713-0= No

1= SiX4 Acqua Min.

0,69-3,24

0,53-2,91

-

Lim. Fi.

-

-

- 4,793

Coefficiente a

B5 = 0,307

b1 = 0,058

-

Coefficiente b

1,36

1,06

-

OR

0= No

1= ≤ 1 pasto/sett.

2= > 1 pasto/sett.

X5 Pesce

0=Non Fumatore

1= ≤ 1 pacch./dì

2= > 1 pacch./dì

X1 Fumo

-

CategorieVARIABILI

Gli OR di ogni variabile “x” sono gli antilogaritmi dei rispettivi coefficienti “b”:

OR xOR x11 (fumo) = antilog b(fumo) = antilog b11 = e = e b1b1 == 2,71828 2,71828 b1b1 = 2,71828 = 2,71828 0,0580,058 = 1,06= 1,06

117 – LA REGRESSIONE LOGISTICA

Page 119: 00 C - Epi - Biostatistica

6c 6c -- Utilizzo del Computer ed EsempiUtilizzo del Computer ed Esempi

I valori di ORI valori di OR (che, grazie all’uso della Regressione Logistica, risultano giàaggiustati nell’esempio riportato) rappresentano, come è noto, il maggior rischio di avere figli malformati, se si è esposti a quel fattore di rischio.

Negli esempi riportati, il fumo appare svolgere un ruolo ininfluente visto che il suo OR si attesta intorno all’unità (1,06), mentre un maggior rischio sembra essere collegato all’uso di progestinici in gravidanza, visto che il suo OR supera abbondantemente l’unità (3,47), ed in minor misura anche al consumo di alcolici (1,58) e di pesce fresco (1,36). L’aver consumato, invece, acque minerali commercializzate (e dunque di converso, non aver consumato le acque delle falde locali) sembra aver rappresentato un fattore protettivo, visto che il suo OR si attesta al di sotto dell’unità (0,49).

L’elaborazione al computer ci ha restituito anche i Limiti FiducialiLimiti Fiduciali collegati ai singoli OR. I dati più significativi sono quelli legati agli estroprogestinici (visto che entrambi i limiti, superiore e inferiore, stanno al di sopra di 1), ed al consumo di acque minerali (visto che entrambi i limiti, superiore e inferiore, stanno al di sotto di 1). Le altre variabili presentano, invece, OR dotate di Limiti Fiduciali ampi che stanno “a cavaliere” dell’1, e dunque non sono significativi.

118 – LA REGRESSIONE LOGISTICA

Page 120: 00 C - Epi - Biostatistica

6d 6d -- Utilizzo del Computer ed EsempiUtilizzo del Computer ed Esempi

Ma oltre alla stima degli OR è possibile anche risalire a SStime predittive di time predittive di rischiorischio per il singolo individuo. Immaginiamo, infatti, di voler conoscere la probabilità “P” di avere figli malformati in una donna del luogo con le seguenti caratteristiche: fuma più di un pacchetto di sigarette al giorno (x1=2), fa uso di estoprogestinici (x2=1), non assume alcolici (x3=0), beve solo acqua minerale (x4=1) e consuma più di due pasti a settimana di pesce fresco (x5=2). E dunque:

119 – LA REGRESSIONE LOGISTICA

y (log odds) = a + b1x1 + b2x2 + b3x3 + b4x4 + b5x5

Y (log odds) = - 4,793 + (0,058*2)+(1,244*1)+(0,457*0)+(0,713*1)+(0,307*2)

Y (log odds) = - 4,793 + (0,116)+(1,244)+(0)+(0,713)+(0,614) = - 2,106

Ottenuto il valore di “y” sotto formato logistico (log odds) ricaviamo prima l’odds:

Odds = e y = 2,71828 -2,106 = 0,122

E quidi ricaviamo la probabilità “P”:

P = odds / (1+odds) = 0,122/(1+0,122) = 0,122/1,122 = 0,109 = 10,9 %

In conclusione, dunque, abbiamo potuto stimare che il rischio di avere un figlio malformato nella donna con quelle caratteristiche è del 10,9 %

Page 121: 00 C - Epi - Biostatistica

DEFINIZIONE:DEFINIZIONE:

La Regressione di Poisson, così come la Regressione Logistica, è indicata nell’analisi di esiti dicotomici e presenta tutte le principali caratteristiche della Logistica, ma, a differenza di questa (che è usata soprattutto negli Studi Caso-Controllo, dove l’esito è una Proporzione), si usa quando lsi usa quando l’’esito esito (variabile y) (variabile y) èè una Frequenza, in genere un Tasso di una Frequenza, in genere un Tasso di IncidenzaIncidenza (che tiene conto degli Anni-Persona). Pertanto in epidemiologia si usa solitamente negli Studi di CoorteStudi di Coorte. Pertanto, mentre la Regressione Logistica consente la stima degli OR (Odds Ratio), quella di Poisson si lascia preferire nella stima dei RR (Rischi Relativi)stima dei RR (Rischi Relativi).

ASSUNTI:ASSUNTI:

1. Il tasso di incidenza è uguale per tutti i soggetti con le stesse caratteristiche

2. Gli eventi si distribuiscono nel tempo senza aggregati (epidemie)

3. Gli eventi si verificano casualmente nel tempo

120 – LA REGRESSIONE DI POISSON

Page 122: 00 C - Epi - Biostatistica

FORMULE:FORMULE:

Così come nella Regressione Logistica l’equazione è: Log (odds) = a + b1x1 + b2x2+ b3x3 + … + bnxn , nella Regressione di Poisson l’equazione è:

Equazione di Poisson : Log m = a + b1x1 + b2x2 + b3x3 + … + bnxn ;

Dove m è il numero medio di eventi ed è espresso da m = l T , dove a sua volta lè il tasso di incidenza e T è il tempo di osservazione.

Pertanto per ricavare il Tasso di Incidenza m dal suo Logaritmo Naturale occorre calcolarne il corrispondente Antilogaritmo m = e (a + b1x1 + b2x2 + b3x3 + … + bnxn ), cioè:

Tasso di Incidenza : m = e (a + S bx) ;

Dove “e” è il Numero di Eulero e l’esponente è la somma di “a” e dei prodotti bx.

In analogia all’ OR della Logistica (dato da ORx1 = e b1), il RR nella Poisson sarà:

Rischio Relativo : RRx1 = e b1 .

Dove RRx1 è il RR collegato ad un determinato fattore x1 mentre e b1 è il Numero di Eulero elevato al coefficiente di regressione (b1) di x1. Analogamente ll’’esponenziale di a (e esponenziale di a (e aa)) è il Tasso di Incidenza tra i Non EspostiTasso di Incidenza tra i Non Esposti.

121 – LA REGRESSIONE DI POISSON - NO

Page 123: 00 C - Epi - Biostatistica

LL ’’ ANALISI DI SOPRAVVIVENZAANALISI DI SOPRAVVIVENZA

Page 124: 00 C - Epi - Biostatistica

123 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE

4

1

nInterv.

(anni)

35,0

26,9

e°xSper. Vita

(anni)

…………5

89,7

254,4

qxProb. Morte x1000

74.563

100.000

lxN. Vivi

6.692

25.437

dxN.

Morti

910,3

745,6

pxProb. Vita

x1000

1

0

xEtà

(anni)

LE TAVOLE DI MORTALITALE TAVOLE DI MORTALITA’’ : D: Definizioneefinizione

Diversi studi epidemiologici si fondano sul confronto della sopravvivenza tra gruppi esposti a differenti fattori di rischio (studi di coorte) o a differenti trattamenti medici (trial clinici). Quando questi studi sono condotti su di una intera popolazione si è soliti ricorrere alle Tavole di Mortalità, che rappresentano una descrizione descrizione minuziosa di mortalitminuziosa di mortalitàà e speranza di vita per ogni singolo anno di ete speranza di vita per ogni singolo anno di etàà.

In realtà le Tavole di mortalitTavole di mortalitàà completecomplete includono ogni singola età da zero fino all’età massima osservata tra gli individui della data popolazione. Le Tavole di Tavole di MortalitMortalitàà ridotteridotte, invece, raccolgono gli anni per fasce quinquennali d’età(tranne che per i primi 5 anni di vita). In questo caso alle tradizionali 6 colonne se ne aggiunge una 7° con l’intervallo di anni racchiuso in ogni singola fascia.

Page 125: 00 C - Epi - Biostatistica

FEDCBA

5

4

3

2

1

37,5

35,0

26,9

e°xSper. Vita

(anni)

58,3941,73.96067.8712

……………

89,7

254,4

qxProb. Morte x1000

74.563

100.000

lxN. Vivi

6.692

25.437

dxN.

Morti

910,3

745,6

pxProb. Vita

x1000

1

0

xEtà

(anni)

LE TAVOLE DI MORTALITALE TAVOLE DI MORTALITA’’ : D: Descrizioneescrizione

1. La 1° Colonna (x) = E’ l’età per singoli anni

2. La 2° Colonna (lx) = Sono i Vivi all’età esatta x (partendo da 100.000)

3. La 3° Colonna (dx) = Sono i Morti tra l’età esatta x e l’età successiva x+1

4. La 4° Colonna (px) = E’ la Probabilità di Sopravvivere tra l’età x e l’età x+1

5. La 5° Colonna (qx) = E’ la Probabilità di morire tra l’età x e l’età x+1

6. La 6° Colonna (e°x) = E’ la speranza di vita all’età x

La Speranza di VitaLa Speranza di Vita

E’ il numero medio di anni che resta da vivere ad un soggetto che ha raggiunto l’etàx. Il suo calcolo comporta l’uso dei tassi di mortalità di tutte le età successive

124 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE

Page 126: 00 C - Epi - Biostatistica

FEDCBA

97

96

95

94

12

11

10

9

8

7

6

5

4

3

2

1

0,6555,6444,45993

0,7571,4428,6122192

37,0---56.09110

37,77,9992,144956.5409

38,39,9990,156757.1078

39,114,4985,684558.7846

38,714,4985,683257.9397

La fascia 11-91 anni è raccolta in un unico rigo2.072.69811-91

0,3750,0250,03494

0,01.000,00,01195

39,4

39,4

38,8

37,5

35,0

26,9

e°xSper. Vita

(anni)

58,3941,73.96067.8712

40,4959,62.58463.9113

22,5977,51.38161.3274

19,4

89,7

254,4

qxProb. Morte x1000

59.946

74.563

100.000

lxN. Vivi

1.162

6.692

25.437

dxN.

Morti

980,6

910,3

745,6

pxProb. Vita

x1000

5

1

0

xEtà

(anni)

Tavole di MortalitTavole di Mortalitàà: : Le FormuleLe Formule

lx = lx-1 – dx-1

Excel (b3=b2-c2)

dx = lx – lx+1

Excel (c3=b3-b4)

px = lx+1/lx *1000

Excel (d3=b4/b3*1000)

qx = dx / lx *1000

Excel (e3=c3/b3*1000)

e°x =(lx+1+lx+2+…)/lxExcel (f3=b4+b5+…/b3)

125 - ANALISI DI SOPRAVVIVENZA IN UNA POPOLAZIONE

Page 127: 00 C - Epi - Biostatistica

126 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)

S(t)Proporz. Vivi da diagn.

H

pProporz. Vivi in

interval.

GFEDCBA

2

1

qProporz. Morti in interval.

n’Vivi ad inizio

aggiustati

nVivi ad inizio

interval.

dMorti

durante interval.

wTroncati durante interval.

tAnni dalla

diagn.

Negli studi di Follow up di un singolo risultato dicotomico come la morte un serio problema è rappresentato dal fatto che alcuni soggetti possono essere persi o esclusi. Per gli studi di follow up pertanto si ricorre a due metodi (quello Attuariale e quello di Kaplan-Meier) in cui le Tavole di Mortalità sono depurate dai casi persi.

IL METODO ATTUARIALE : DefinizioneIL METODO ATTUARIALE : Definizione

Il Metodo Attuariale si è sviluppato inizialmente per calcolare i rischi ed i premi delle compagnie di assicurazione. In questo metodo ai singoli anni di età della popolazione (presenti nelle Tavole di Mortalità) vengono sostituiti gli intervalli di anni trascorsi dalla diagnosi (colonna t). Inoltre viene introdotta una colonna coi soggetti persi (troncati) al follow up (w) ed un’altra coi “vivi aggiustati” (n’) cioèdepurati del numero di soggetti persi. L’ultima colonna è quella che indica le Proporzioni di Sopravvissuti a determinati intervalli di tempo dalla diagnosi (St).

Page 128: 00 C - Epi - Biostatistica

0,54

0,74

S(t)Proporz. Vivi da diagn.

0,74

0,74

pProporz. Vivi in

interval.

3

2

1

0,26

0,26

qProporz. Morti in interval.

53,5

91

n’Vivi ad inizio

aggiustati

60

98

nVivi ad inizio

interval.

14

24

dMorti

durante interval.

13

14

wTroncati durante interval.

tAnni dalla

diagn.

IL METODO ATTUARIALE IL METODO ATTUARIALE -- DESCRIZIONE:DESCRIZIONE:

t = Intervallo di tempo trascorso dalla diagnosi (1°anno=da 0 a 1; 2°anno=da 1 a 2; ecc.)

n = Pazienti vivi ad inizio intervallo (differenza dei vivi del precedente intervallo meno i morti ed i troncati del precedente intervallo; ad esempio nel 2° anno: 60 = 98-24-14)

d = Pazienti morti nell’intervallo preso in esame (ad esempio nel 2° anno: 14)

w = Pazienti troncati, cioè persi prima della fine dell’intervallo di follow up (ritirati, ecc.)

n’ = Vivi ad inizio intervallo (cioè Esposti) aggiustato per l’effetto di persi al follow up. E’ la differenza tra n (vivi ad inizio intervallo) e ½ di w (troncati). Ad esempio: 91=98-0,5*14

q = Probabilità di morire nell’intervallo. Deriva da d (morti) diviso n’ (aggiustati). 0,26=24/91

p = Probabilità di sopravvivere nell’intervallo. Deriva da 1 – q (Prob. Morte). 0,74=1-0,26

S(t) = Probabilità di sopravvivere da inizio diagnosi. Si calcola moltiplicando q per tutte le q precedenti. Ad es. alla fine del 2° anno: 0,54 = 0,74*0,74 (perché c’è un solo anno prima)

127 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)

Page 129: 00 C - Epi - Biostatistica

-

0,47

0,47

0,50

0,54

0,74

S(t)Proporz. Vivi da

diagn. a fine int.

H

-

1,00

0,94

0,93

0,74

0,74

pProporz.

Vivi duranteinterval.

GFEDCBA

7

6

5

4

3

2

1

-

0,00

0,06

0,07

0,26

0,26

qProporz.

Morti durante interval.

27,5112333°

16,571204°

960125°

-

53,5

91

n’Vivi ad inizio

aggiustati (n-0,5w)

6

60

98

nVivi ad inizio

interval.

0

14

24

dMorti

durante interval.

4

13

14

wTroncati durante interval.

tAnni dalla

diagn.

n = (n-1) – (d-1) – (w-1) ; Excel (B3 = B2 – C2 – D2) ;

n’ = n – 0,5*w ; Excel (E3 = B3 – 0,5*D3) ;

q = d / n’ ; Excel (F3 = C3 / E3) ;

p = 1 – q ; Excel (G3 = 1 – F3) ;

S(t) = (p) * (p-1) * (p-2) * … ; Excel (H3 = G3 * G2 *…)

METODO ATTUARIALECalcolo del Rischio di Sopravvivenza S(t): Le

Formule

128 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)

Page 130: 00 C - Epi - Biostatistica

Varianza di S(t)

t d / ( n' * (n'-d) ) = …1° (0-1) 24 / ( 91,0 * 67,0 ) = 0,0039362° (1-2) 14 / ( 53,5 * 39,5 ) = 0,0066253° (2-3) 2 / ( 27,5 * 25,5 ) = 0,0028524° (3-4) 1 / ( 16,5 * 15,5 ) = 0,003915° (4-5) 0 / ( 9,0 * 9,0 ) = 0

S(t)2 * SommaRisultato Finale 0,22 * 0,017323 = 0,003884

METODO ATTUARIALE METODO ATTUARIALE -- Calcolo di Calcolo di VarianzaVarianza, ES e LF95% di S(t), ES e LF95% di S(t)

Var(St) = (St)2 * S [di / n’i * (n’i – di)] ; pertanto coi dati dell’esempio:

ES = RadQ [Var(St)] ; LF95% = (St)* +/- 1,96 * ES ; (ES=s) quindi:

ES=RadQ(0,0038)=0,06; e dunque LF95% St= 0,47 +/- 0,12 (da 35% a 59%)

(Formula di Greenwood)

129 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.A.)

NO

Page 131: 00 C - Epi - Biostatistica

METODO di KAPLAN MEIER (del METODO di KAPLAN MEIER (del ““prodotto limiteprodotto limite””) : Definizione ) : Definizione

Il Metodo Attuariale continua ad essere usato quando si ha un numero elevato di soggetti in studio, sebbene oggi il Metodo di Kaplan-Meier sia diventato lo studio di sopravvivenza pipiùù usato in medicina (specie nei piccoli campioni)usato in medicina (specie nei piccoli campioni).

Il metodo fu illustrato per la prima volta da Kaplan e Meier nel 1958 e differisce dal metodo Attuariale perché calcola una nuova riga della tabella di vita calcola una nuova riga della tabella di vita ogni volta che si verifica una morteogni volta che si verifica una morte, sicchè gli intervalli non sono pochi e regolari come nel metodo Attuariale, bensì molti ed irregolari, visto che le morti si distribuiscono nel tempo in maniera irregolare.

Infatti nel Metodo di Kaplan e Meier gli intervalli non raccolgono più morti e non si mostrano uniformi (come ad esempio gli intervalli di un anno per volta del metodo Attuariale), poiché gli intervalli dipendono dal tempo intercorso gli intervalli dipendono dal tempo intercorso tra una morte e ltra una morte e l’’altra (e dunque non contengono morti e sono di altra (e dunque non contengono morti e sono di durata variabile)durata variabile). Ogni morte, pertanto, tronca l’intervallo precedente e dàinizio ad un nuovo intervallo che si attesta ad un tasso di sopravvivenza piùbasso. E’ per questo che il Grafico della curva di il Grafico della curva di KaplanKaplan--Meier Meier si presenta si presenta come una scala dagli scalini irregolaricome una scala dagli scalini irregolari.

130 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)

Page 132: 00 C - Epi - Biostatistica

0,929

1,000

S(t)Probabil.Sopravv. al tempo

t

H

3 <8

0 <3

Int. ptInterval. tra due morti

GFEDCBA

3

2

1

0,929

1,000

ptProbabil. Sopravv. in interv.

t

13

14

nt-dtVivi dopo aver tolto

i morti

14

14

ntVivi

prima della

morte

1

0

dtMorti al tempo t

0

0

wtPersi al follow

up nello interval.

3

0

tMesi alla

morte

Metodo KAPLAN-MEIER – Descrizione:

t = Tempi completi di sopravvivenza dall’inizio dello studio (0) per ogni deceduto

nt = Numero di pazienti vivi al tempo t.

dt = Num. decessi osservati al tempo t, di solito 1 (o più di 1 con pari tempo t)

wt = Soggetti persi al follow up (si tolgono dal num. di vivi della riga successiva)

nt-dt = Pazienti rimasti dopo aver tolto i morti da nt (escludendo i tempi troncati)

pt = Probabilità condizionata di sopravvivenza al tempo t (del singolo intervallo t)

Int. pt = Intervallo di tempo intercorrente tra due morti successive

S(t) = Probabilità non condizionata di sopravvivenza al tempo t (o cumulativa)

131 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)

Page 133: 00 C - Epi - Biostatistica

----5---8

0,519

0,623

0,701

0,857

0,929

1,000

S(t)Probabil.Sopravv. al tempo

t

H

25 >25

21 <25

14 <21

8 <14

3 <8

0 <3

Int. ptInterval. tra due morti

GFEDCBA

7

6

5

4

3

2

1

0,833

0,889

0,818

0,923

0,929

1,000

ptProbabil. Sopravv. in interv.

t

1211138

9021114

821921

5

13

14

nt-dtVivi dopo aver tolto

i morti

6

14

14

ntVivi

prima della

morte

1

1

0

dtMorti al tempo t

0

0

0

wtPersi al follow

up nello interval.

25

3

0

tMesi alla

morte

n = (n-1) – (d-1) – (w-1) ; Excel (B3 = B2 – C2 – D2) ;

n - d = n – d ; Excel (E3 = B3 – C3) ;

p = (n –d) / n ; Excel (F3 = (B3-C3) / B3) ;

S(t) = (p) * (p-1) * (p-2) * … ; Excel (H3 = F3 * F2 *…)

Metodo KAPLAN-

MEIER: Le Formule

NB: Tra i persi al follow up il primo esce a 8 mesi, altri due a 21 mesi e altri 5 vanno oltre i tempi dello studio con mesi: 29, 34, 37, 42, 49 (Tot. 241).

132 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)

Page 134: 00 C - Epi - Biostatistica

Il Grafico con Excel

E’ possibile costruire con Excel il Grafico di Kaplan-Meier. Occorre prima organizzare i dati come illustrato nella tabella di destra. Poi si seleziona l’opzione “Dispers.(xy)”dei Grafici di Excel.

t St0 1,0003 0,9298 0,857

14 0,70121 0,62325 0,519

t St0 1,0003 1,0003 0,9298 0,9298 0,857

14 0,85714 0,70121 0,70121 0,62325 0,62325 0,519

Studio di Sopravvivenza con Metodo di Kaplan Meier

0,000

0,200

0,400

0,600

0,800

1,000

1,200

0 5 10 15 20 25 30

Tempo dal Ricovero

Pro

porz

ione

di S

opra

vvis

suti

Rappresentazione Grafica del Metodo KAPLAN-MEIER (con Excel)

133 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)

Page 135: 00 C - Epi - Biostatistica

Elaborazioni Statistiche del Metodo KAPLAN-MEIER

TASSO di RISCHIO h

Detto anche tasso stimato di fallimento, è dato dal rapporto tra i decessi osservati ed il numero totale di tutti i tempi di sopravvivenza (troncati o no):

h = S (d) / S (td+tw)

Esempio: h = 6 / [(3+8+14+14+21+25) + (241)] = 0,0184 per mese

VARIANZA STIMATA di h

Var(h) = h2 / S (d)

Esempio: Var(h) = 0,0184 2 / 6 = 0,00005646

ERRORE STANDARD di h

ES(h) = RadQ [Var(h)]

Esempio: ES(h) = RadQ 0,00005646 = 0,0075 per mese

STIMA del TEMPO MEDIO di SOPRAVVIVENZA

T.M.S. = 1/h (reciproco del Tasso di Rischio)

Esempio: T.M.S. = 1/0,0184 = 54,3 mesi

134 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.KM)

NO

Page 136: 00 C - Epi - Biostatistica

135 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)

TEST del LOGTEST del LOG--RANK (applicato al Metodo di RANK (applicato al Metodo di KaplanKaplan--MeierMeier))

Il Test Log-Rank (che, nonostante il nome, non si occupa né di logaritmi, né di dati classificati) è usato per saggiare la significatività statistica in studi di sopravvivenza condotti col Metodo di Kaplan-Meier comparando i risultati di gruppi trattati e gruppi di controllo. La logica è quella del Chi Quadro. Dunque occorre preliminarmente calcolare i Casi Attesi, cioè il numero di Decessi (d) che ci aspetteremmo qualora non ci fosse differenza nell’efficacia del trattamento riservato al Gruppo A (in studio) ed al Gruppo B (di controllo).

nn-ddTotale

n2n2-d2d2Gruppo B

n1n1-d1d1Gruppo A

TrattatiSoprav.Morti Calcolo degli Attesi Calcolo degli Attesi

Il Calcolo degli Attesi, come in ogni tabella 2x2 è uguale al prodotto dei marginali diviso il totale delle osservazioni (vedi Test C quadro):

A(A(d1) = d*) = d*n1/n ; A(/n ; A(d2) = d*) = d*n2/n /n

Calcolo della Calcolo della Varianza Varianza di di d1

Per inciso il Calcolo della Varianza sarà: Var(Var(d1) = [d*(n) = [d*(n--d)*d)*n1*n*n2]/[(n]/[(n--1)*1)*n2] ]

Page 137: 00 C - Epi - Biostatistica

TEST LTEST L--R: SviluppoR: Sviluppo

Supponiamo dunque di confrontare il gruppo A (trattati) ed il gruppo B (di controllo) entrambi di 14 soggetti e di osservare al tempo t (3, 8, 14, 21 e 25 mesi) i decessi (dt) della Tabelle (con nt depurati dai persi al follow up).

Il Calcolo degli Attesi va fatto per ogni strato di t:

t t …… : A(: A(d1) = d*) = d*n1/n/n

t3: A(d1) = 3*14/28= 1,50

t3: A(d2) = 3*14/28= 1,50

t8: A(d1) = 2*13/25= 1,04

t8: A(d2) = 2*12/25= 0,96

nn-ddTot.

n2n2-d2d2B

n1n1-d1d1A

ntSopr.dt

t…

1138

21114

1921

6

14

14

nt

1

1

0

dt

25

3

0

t

1128

11014

2821

6

14

14

nt

1

2

0

dt

25

3

0

t

Gruppo A (in studio)

Gruppo B (controllo)

28253Tot.

14122B

14131A

ntSopr.dt

t 3

25232Tot.

12111B

13121A

ntSopr.dt

t 8

Ecc., ecc. … … …

Calcolo Attesi

136 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)NO

Page 138: 00 C - Epi - Biostatistica

TEST LTEST L--R: SviluppoR: Sviluppo

Calcolando separatamente i Casi Attesi di A e di B (per ogni intervallo t) per poi sommarli otteniamo i valori riassunti nelle Tabelle.

Il calcolo è semplificato dal fatto che i gruppi hanno la stessa numerosità ed i decessi sono stati rilevati agli stessi tempi t. In realtàciò non accade quasi mai ed il calcolo è più difficile (si ricorrere al PC)

6,70Somma Attesi A

1,042*13/258

1,573*11/2114

1,593*9/1721

2*6/12

3*14/28

-

Calcolo Attesi

1,00

1,50

-

25

3

0

t

Gruppo A in studio Gruppo B controllo

6,30Somma Attesi B

0,962*12/258

1,433*10/2114

1,413*8/1721

2*6/12

3*14/28

-

Calcolo Attesi

1,00

1,50

-

25

3

0

t

6,00Somma Osser. A

Casi Osservatit 0-25

7,00Somma Osser. B

Casi Osservatit 0-25

Calcolo del LOGCalcolo del LOG--RANK col RANK col CC22

Allora se C2=S(O-A)2/A la formula è C2= S(OA-AA)2/AA + S(OB-AB)2/AB e cioè:

C2= [Sd1–SA(d1)]2/SA(d1) + [Sd2–SA(d2)]2/SA(d2)

Dove Sd1 e Sd2 sono il numero totale di decessi Osservati nei 2 gruppi OA e OB, mentre SA(d1) e SA(d2) sono la somma di tutti i decessi Attesi in AA e in AB

137 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)NO

Page 139: 00 C - Epi - Biostatistica

Calcolo del LOGCalcolo del LOG--RANK col RANK col CC22 -- Esempio:Esempio:

Applicando alla formula i dati dell’esempio, pertanto, avremo:

C2= [ 6,00 - 6,70 ]2 / 6,70 + [ 7,00 - 6,30 ]2 / 6,30 = 0,15

Il risultato, come per qualsiasi test di significatività statistica, va confrontato con i relativi valori critici tabellari per stabilire se le differenze osservate sono o meno statisticamente significative. Nel caso in specie la differenza osservata non èsignificativa.

Calcolo del LOGCalcolo del LOG--RANK con la RANK con la ““deviata normale standarddeviata normale standard””

Il calcolo del test di Log-Rank si può effettuare anche con la formula della deviata normale standardizzata (Approssimata Z), che si scrive:

Z = S d1– A(d1)/RadQ [S Var(d1)]

che, riprendendo le formule di A(d1) e di Var(d1), si può scrivere pure:

Z = S (d1– d*n1/n) / RadQ {[S d*(n-d)*n1*n2]/[n-1)*n2]}

dove con la sommatoria S si intende la somma di tutti gli strati corrispondenti agli intervalli di tempo t presi in esame. Per il calcolo del Log-Rank si ricorre di solito ad appositi software statistici.

138 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (T.LR)NO

Page 140: 00 C - Epi - Biostatistica

139 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)

MODELLO di COX (dei Rischi Proporzionali) e Analisi MODELLO di COX (dei Rischi Proporzionali) e Analisi MultivariataMultivariata

I Metodi di Analisi della Sopravvivenza finora illustrati (Metodo Attuariale e di Kaplan-Meier) consentono di valutare un solo fattore per volta (Analisi Bivariata).

Quando vogliamo indagare l’effetto simultaneo di più fattori sulla sopravvivenza dei soggetti in studio occorre ricorrere alla Analisi Multivariata (Modello di Cox).

La Regressione di Cox si utilizza negli studi di sopravvivenza quando l’esito y da valutare è una variabile dicotomica (Morti/Sopravvissuti) e le variabili indipendenti x sono più di una. Essa consente di stimare hazard ratio (rapporti di rischio) e non rischi relativi.

Partendo dalla formula della Regressione Lineare Multipla:

y = a + b1x1 + b2x2 + b3x3 + … + bnxn ; assumiamo che:

� y è uguale al Logaritmo del Rischio al tempo t ; y = Ln h(t)

� a è una costante uguale al Log. del Rischio quando le x valgono 0 ; a=Ln h0(t)

� x1 , x2 , ecc., sono le variabili indipendenti che influenzano y

� b1 , b2 , ecc., sono gli incrementi medi di y ad ogni incremento unitario delle x

Page 141: 00 C - Epi - Biostatistica

MODELLO di COXMODELLO di COX

Pertanto la formula del Modello di Cox va scritta come segue:

Equazione di Cox : Ln h(t) = Ln h0(t) + b1x1 + b2x2 + b3x3 + … + bnxn

dove Ln h(t) sta per Logaritmo Naturale (su base “e”) della “funzione rischio” al tempo t. Inoltre h0(t) è la cosiddetta “funzione rischio basale”, che è una funzione arbitraria del tempo che non va esplicitata.

Dunque, per ottenere la “funzione rischio” dal suo logaritmo naturale occorre calcolarne il corrispondente antilogaritmo (vedi capitolo su Regressione Logistica):

h(t) = h0(t) * e (b1x1 + b2x2 + b3x3 + … + bnxn) ; che equivale a scrivere:

Tasso di Rischio : h(t) = h0(t) * e (S bx)

Dove “e” è la base del numero di Eulero (2,71828) ed il suo esponente è la sommatoria di tutti i prodotti bx (b1x1 + b2x2 + b3x3 + … + bnxn).

In quest’ultima equazione, pertanto, h(t) esprime il rischio o tasso di evento (per esempio di mortalità) in funzione dei diversi fattori x1 , x2 , x3 , … xn , mentre h0(t) esprime la parte di evento influenzata solo dal trascorrere del tempo.

140 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)

NO

Page 142: 00 C - Epi - Biostatistica

MODELLO di COXMODELLO di COX

Inoltre, analogamente al Modello della Regressione Logistica, dove l’esponenziale dei coefficienti di regressione b rappresenta l’Odds Ratio (ovvero il Rischio Relativo Approssimato, che stima il rapporto tra le incidenze di esposti e non esposti), per cui si ha:

ORx1 = e b1

nel Modello di Cox l’esponenziale dei coefficienti di regressione b rappresenta il rapporto di rischio o “hazard ratio” (HR) ed esprime (così come il Rischio Relativo o l’Odds Ratio) l’aumento del rischio di morte corrispondente all’incremento unitario del fattore di rischio x in esame:

Rapporto di Rischio (o Hazard Ratio) : HRx1 = e b1

Dove HRx1 è l’ Hazard Ratio relativa ad un determinato fattore x1 mentre e b1 è il Numero di Eulero (2,71828) elevato al coefficiente di regressione (b1) di x1.

Così come per la Regressione Logistica i software statistici calcolano di solito le principali funzioni utili: i coefficienti b, l’ Errore Standard di b (ESb), gli HR (e b) ed i relativi Intervalli di Confidenza.

141 - ANALISI DI SOPRAVVIVENZA IN UN FALLOW UP (M.Cox)