16
Universitatea "AL. I. Cuza" Iaşi Facultatea de Economie şi Administrarea Afacerilor Proiect Modele de durată

Proiect Modele de Durata

Embed Size (px)

Citation preview

Page 1: Proiect Modele de Durata

Universitatea "AL. I. Cuza" Iaşi Facultatea de Economie şi Administrarea Afacerilor

Proiect Modele de durată

Specializarea: Statistică şi actuariat în Asigurări de Sănătate

Iaşi 2010

Page 2: Proiect Modele de Durata

1. Elemente pentru caracterizarea funcţiei de supravieţuirea) Conceptul de supravieţuire

Pentru a definii funcţiile de supravieţuire si hazard, trebuie mai întâi definit conceptul de supravieţuire. În cazul supravieţuirii biologice, moartea este lipsită de ambiguitate, dar pentru fiabilitatea mecanică, eşecul nu pot fi bine definit, deoarece pot exista sisteme mecanice, în care eşecul este parţial, o chestiune de grad sau nelocalizat în timp. Chiar şi în problemele biologice, unele evenimente (de exemplu, atac de cord sau insuficienţă a unor organe) pot avea aceleaşi ambiguitate. Teorie subliniată de mai sus îşi asumă evenimente bine definite la momente specifice; alte cazuri pot fi mai bine tratate de alte modele, care în mod explicit iau în considerare evenimente ambigue.

Teoria de supravieţuire presupune că moartea sau eşecul se întâmplă doar o singură dată pentru fiecare subiect. Studiul evenimetelor recurente este relevant în sistemele de fiabilitate, precum şi în multe domenii ale ştiinţelor sociale şi de cercetare medicală.

b) Funcţia de supravieţuireFuncţia de supravieţuire este prin definiţie o completare a funcţiei de repartiţie:

Convenţional este notată cu S şi reprezintă o funcţie descrescătoare, S(0)=1 (dacă P(T=0)=0, ceea ce presupunem) şi lim de t→∞ din S(0)=0. Dacă durata medie de supravieţuire (media) există, atunci ea se exprimă doar cu ajutorul lui S:

Un alt termen pentru funcţia de supravieţuire este cel de funcţie complementară cumulativă de distribuţie. Fie T o variabilă continuă aleatoare cu funcţia cumulativă de distribuţie F(t) pentru intervalul [0,∞). Funcţia de supravieţuire va fi :

Fiecare funcţie de supravieţuire R(t) este monoton descrescătoare, iar R (u) <R (t) pentru u> t. Timpul, t = 0, poate reprezinta originea, de obicei începutul unui studiu sau de începerea funcţionării unor sistem. R (0) poate reprezenta probabilitatea ca sistemul să nu reuşească imediat după operaţie.

Funcţia de supravieţuire reprezintă probabilitatea ca momentul morţii să fie mai târziu de o perioadă de timp specificată. Funcţia de supravieţuire este numită, de asemenea, funcţie de urmaş sau funcţe de fiabilitate în probleme de supravieţuire mecanice.

Funcţia de supravieţuire trebuie să fie necrescătoare: S (u) ≤ S (t) în cazul în care u> t. Acest lucru reflectă faptul că noţiunea de supravieţuire la o vârstă mai târzie este posibilă numai în caz de supravieţuire la toate vârstele tinere. Având în vedere această proprietate, funcţia de distribuţie pe durata de viaţă şi de densitate a evenimentului (F şi F de mai jos) sunt bine definite. Funcţia de supravieţuire tinde de obicei către 0, S (t) → 0 AS t → ∞, deşi limita ar putea fi mai mare decât zero, dacă viaţa veşnică este posibilă. Varianţa se calculează în cayul funcţiei de supravieţuire după următoarea relaţie de calcul:

Page 3: Proiect Modele de Durata

Pentru o funcţie de supravieţuire, valoarea Y pe grafic începe la 1 şi uniform scade la zero. Funcţia de supravieţuire ar trebui să fie în raport cu funcţia cumulativă de distribuţie.

c) Variabile şi parametriiT- timpul sau durata până la producerea unui eveniment, numit şi timpul de

supravieţuire (survival time), T este o variabilă aleatoare pozitivă (T≥0), definită cu precizie, pentru care se

stabileşte cu exactitate mărimea duratei de la începutul studiului şi până în momentul în care se produce evenimentul. Termenul de eveniment face referire fie la un eşec, respectiv moarte, apariţia unei boli, fie la un eveniment pozitiv.

d) Metode pentru estimarea funcţiei de supravieţuire

Abordarea neparametricăi. Metoda actuarială (life-table sau actuarial method)

S(t)=q1*q2*q3*......*qi

unde: qi = P(T>ti T≥ti) reprezintă proporţia persoanelor care nu au cunoscut evenimentul la momentul ti sau probabilitatea condiţionată de a supravieţui momentului ti, ştiind că indivizii sunt în viaţă până la momentul ti.

1-qi reprezintă rata de mortalitate mi din momentul ti;mi=di/ni reprezintă proporţia indivizilor care au cunoscut evenimentul în momentul t i,

dacă cenzurile se produc la sfârşitul intervalului de timp. Dacă cenzurile se produc la începutul intervalului, atunci rata de mortalitate estimată este egală cu:

În situaţia în care cenzurile se produc în timpul intervalului, rata de mortalitate estimată va fi egală cu:

În acest caz, estimăm rata de mortalitate utilizând mărimea ni-(wi/2), care reprezintă volumul real al eşantionului.

ii. Estimatorul Kaplan-Meier Estimatorul Kaplan-Meier de asemenea cunoscute ca estimatorul de produs limită. În

cercetarea medicală, poate fi utilizat pentru a măsura fracţiunea de pacienţi care trăiesc pentru o anumită perioadă de timp după tratament. Un economist ar putea măsura intervalul de timp în care oameni rămân fără loc de muncă după o concediere. Un avantaj important al curbei Kaplan-Meier este că metoda poate lua în considerare date "cenzurate" - pierderi din eşantion, înainte de rezultatul final (de exemplu, dacă un pacient se retrage dintr-un studiu). Atunci când nu există trunchieri sau cenzura nu are loc, curba Kaplan-Meier este echivalentă cu o distribuţie empirică.

Estimatorul Kaplan-Meier este o estimarea neparametrică de risc maxim de S (t). Acesta este un produs de forma:

Page 4: Proiect Modele de Durata

unde ni reprezintă numărul de personae supuse riscului de a cunoaşte evenimetul în ti

sau ansamblul persoanelor care, imediat înainte de momentul t i nu cunoscuseră evenimentul şi nu ieşiseră de sub observaţie

wi desemnează numărul persoanelor cenzurate (de exemplu ieşite de sub observaţie).Estimatorul Kaplan-Meier este o statistică pentru care sunt necesari mai mulţi estimatori pentru a-i aproxima varianţa. Una dintre cei mai comuni estimatori este Greenwood's:

iii. Estimatorul Nelson-AalenEstimatorul Nelson-Aalen reprezintă o alternativă pentru folosirea estimatorului

Kaplan-Meier pentru a estima funcţia de supravieţuire şi funcţia hazardului cumulate, principala diferenţă fiind faptul că se porneşte de la determinarea funcţiei hazardului cumulate şi se continuă cu estimarea funcţiei de supravieţuire.

Ambii estimatori oferă aceleaşi estimaţii pentru eşantioane de volum mare, însă pentru cele de volum mic, estimările sunt diferite, estimatorul Nelson-Aelen oferind rezultate mai bune pentru funcţia hazardului cumulate.

Pentru hazardul cumulate se utilizează următoarea relaţie de calcul:

Funcţia de supravieţuire se calculează astfel:

Varianţa estimatorului Nelson-Aalen era următoarea formulă de calcul:

Abordarea parametricăEstimarea parametrică constă în alegerea formei unei distribuţii, ca de exemplu:

distribuţia exponenţială, distribuţia Weibull, distribuţia log-normală, distribuţia Gamma şi distribuţia Gompertz-Makenham.

În cazul distribuţiei Weibull, funcţia de supravieţuire se calculează astfel:

Conform distribuţiei log-normală, funcţia de supravieţuire are următoarea formă:

unde ф este funcţia de repartiţie a legii normale standarde N(0,1).

Expresia funcţiei de supravieţuire prin distribuţia Gompertz-Makeham este de forma:

e. Intervalul de încredere pentru durata medie, mediana, de supravieţuire

Page 5: Proiect Modele de Durata

Media este calculată pe ansamblul perioadei cuprinsă între momentul t0 şi momentul maxim de-a lungul căreia a fost observat evenimentul. De remarcat este faptul că această perioadă nu cuprinde ieşirile de sub observaţie care vor avea loc după acest moment maxim. Media şi mediana se calculează foarte uşor cu ajutorul programului SPSS.

f. Teste de comparare a distribuţiilor funcţiilor de supravieţuire la nivelul a două subpopulaţii

De regulă putem folosi două metode pentru a compara funcţii de supravieţuire şi pentru a testa dacă există diferenţe semnificative. Prima metodă se bazează pe calcularea intervalelor de încredere pentru fiecare funcţie de supravieţuire (ex. Life table, product limit methods). Ambele metode furnizează estimaţii pentru erorile standard ale funcţiei de supravieţuire. O altă posibilitate este de a calcula statistici test specifice pentru a compara două sau mai multe funcţii de supravieţuire.

2. Elemente pentru caracterizarea funcţiei hazarduluiîn cazul modelului Cox

a) Conceptul de hazardHazardul reprezintă: - este o mărime latentă care măsoară un potenţial instantaneu de producere a unui

eveniment;- manieră intuitivă în cazul unui eveniment repetabil;- numărul mediu aşteptat de evenimente, dacă se menţin aceleaşi condiţii pe întreaga

perioadă;- densitate condiţionată a cărei valoare estimată poate fi mai mare ca 1.

Inversul hazardului reprezintă durata medie anterioară producerii evenimentului, dacă se menţin aceleaşi condiţii de producere a evenimentului.

b) Funcţia hazarduluiFuncţia de hazard (sau rata de risc, rata de default, rata de deces, risc instantaneu, etc)

este prin definiţie:

Putem deduce că funcţia de hazard determină în întregime legea lui T rezultând următoarea relaţie:

Funcţia hazardului cumulat se notează în general (H fiind crescător):

sau

În anumite teste de competenţă H(T) urmează o lege exponenţială de parametru 1:

Page 6: Proiect Modele de Durata

O particularitate a funcţiei de hazard este că aceasta este crescătoare doar dacă este singură dacă durata de viaţă reziduală în funcţie de u este stochastic decrescătoare ca funcţie de u. Astfel, se utilizează funcţia de hazard pentru a specifica un model de durată.

c) Variabile şi parametriiModelul Cox este o sub-categorie a modelelor de supravieţuire, în care efectul unui

tratament în conformitate cu studiul are un efect multiplicativ asupra ratei de risc al subiectului. De exemplu, un medicament poate să reducă la jumătate o probabilitate imediată de accident vascular cerebral.

Modele de supravieţuire cuprind din două părţi: funcţia de bază de pericol, de multe ori notate Λ 0 (t), descriind modul de pericol (risc), modificări în timp, la nivelul iniţial al variabilelor concomitente, precum şi parametrii de efect, care descriu modul în care variază în funcţie de pericol, ca răspuns la covariabilele explicative. Sir David Cox a observat că dacă ipoteza hazardelor cumulate se aplică, atunci este posibil să se estimeze parametrul the efect (s) fară luarea în considerare a funcţiei de control.Modelul Cox cunoscut şi dub numele de model semiparametric, are următoarele componente:

i. componenta neparametrică, datorată absenţei ipotezei asupra formei funcţiei riscului h0(t) sau asupra distribuţiei duratei T0;

ii. componenta parametrică, care exprimă efectele predictorilor asupra hazardului predictorii fiind parametrizaţi sub formă liniară.

d) Metode de estimareModelu Cox sau semiparametric cu hazarduri proporţionale este estimate prin

maximizarea unei funcţii de verosimilitate parţială, care este independentă de funcţia de referintă h0(t) şi de parametrii acesteia.

Statisticile Wald şi Score Test sunt folosite pentru a testa semnificaţia unui subansamblu de parametri după o lege Chi pătrat, pentru un număr de grade de libertate egal cu numărul coeficienţilor b sau a numărul de variabile explicate.

În cazul în care nu se poate realiza cu exactitate un calcul al verosimilităţii, se recurge la aproximarea Breaslow. Potrivit acesteia, atunci când mai multe durate se termină la momentul ti, se defineşte contribuţia fiecărei dintre ele utilizând acelaşi numitor.

e) Proprietăţile modeluluiModelul Cox indică rata hazardului sau riscul de default de a cunoaşte evenimentul

studiat în funcţie de o combinaţie liniară de factori explicativi şi permite cunatificarea şi testarea efectelor proprii ale predictorilor, asupra riscului de tranziţie către o altă parte.

Acest model se deosebeşte prin faptul că nu presupune o ipoteză asupra formei distribuţiei duratelor, lucru care a întărit încrederea în acest model.

Principalele caracteristici ale modelului Cox:i. oferă posibilitatea de a estima coeficienţii β fără nici o ipoteză asupra formei lui

h0 ;ii. caracterizat de curbele LLS, logaritmul antilogaritmului funcţiei de

supravieţuire, paralele pentru diversele combinaţii ale valorilor variabilelor explicative (fapt care facilitează o identificare geometrică pentru curbele estimate).

3) Pentru un eşantion de 104 pacienţi cu afecţiuni cardiace s-a înregistrat timpul până la producerea primului infact:

Page 7: Proiect Modele de Durata

a) Să se estimeze funcţia de supravieţuire pentru durata producerii a primului infarct pentru aniii 2, 4, 6, 8, 10, 12 şi 14 pentru persoanele cu afecţiuni cardiace.

Anii Număr persoane cu infarct

Număr de cenzuri ni

mi qi=1-mi

SD(ti)

0-2 2 3 105 0,019 0,981 0,9812-4 1 2 100 0,01 0,99 0,9714-6 4 8 97 1,041 0,959 0,9316-8 3 10 85 0,035 0,965 0,8988-10 2 21 72 0,028 0,972 0,87310-12 2 21 49 0,041 0,959 0,83812-14 3 21 26 0,115 0,885 0,742

b) Să se determine varianţa estimatorului pentru anii 2, 4, 6, 8, 10, 12 şi 14 considerând volumul eşantionului ni-wi/2 în loc de ni în formula varianţei.

4) Se dă următorul set de date pentru durată : 3, 4, 5+, 6, 6+, 8+, 11, 14, 15, 16+,unde « + » semnifică o durată cenzurată la dreapta :

a) Să se estimeze funcţia de supravieţuire şi varianţa estimatorului Kaplan-Meier

ti ni di wi mi 1-mi S(ti)0 10 0 0 0 1 11 10 0 0 0 1 12 10 0 0 0 1 13 10 1 0 0,1 0,9 0,94 9 1 0 0,1 0,9 0,815 8 0 1 0 1 0,816 8 1 1 0,125 0,875 0,717 7 0 0 0 1 0,718 7 0 1 0 1 0,719 7 0 0 0 1 0,7110 7 0 0 0 1 0,7111 7 1 0 0,142 0,858 0,6

wi/2 ni- wi/2 V[S (t)]1,5 103,5 0,000181 99 0,000094 93 0,000205 80 0,00039

10,5 61,5 0,0004210,5 38,5 0,0010010,5 15,5 0,00085

Page 8: Proiect Modele de Durata

12 6 0 0 0 1 0,613 6 0 0 0 1 0,614 6 1 0 0,166 0,834 0,515 5 1 0 0,2 0,8 0,416 4 0 1 0 1 0,4

[S(ti)]2 di/ni(ni-di) V[S(ti)]1 0 0,141 0 0,141 0 0,14

0,81 0,01 0,110,66 0,01 0,090,66 0 0,090,50 0,02 0,070,50 0 0,070,50 0 0,070,50 0 0,070,50 0 0,070,36 0,02 0,050,36 0 0,050,36 0 0,050,25 0,03 0,030,16 0,05 0,020,16 0 0,02

=0,14

b) Să se estimeze funcţia hazardului cumulat şi varianţa sa cu ajutorul estimatorului Nelson-Aalen.

ti ni di di/ni H(t) di/ni2 2(H(t))

3 10 1 0,1 0,1 0,01 0,014 9 1 0,11 0,21 0,012 0,0226 8 1 0,125 0,335 0,015 0,03711 7 1 0,143 0,478 0,02 0,05714 6 1 0,166 0,644 0,027 0,08415 5 1 0,2 0,844 0,04 0,124

=0,124

Page 9: Proiect Modele de Durata

c) Să se estimeze funcţia de supravieţuire folosind estimaţiile Nelson-Aalen de la subpunctul b.

S(t)0,90,810,720,620,530,43

5) Aplicaţie pentru modelul Cox

Fenomenul observat îl constituie durata până la apariţia infecţiei de la inserţia unui cater, pentru pacienţii care se confruntă cu insuficienţă a rinichilor şi folosesc echipament portabil pentru dializă.

Caterele pot fi îndepărtate şi pentru alte motiv decât cel legat de infecţie, caz în care observaţia este cenzurată. Fiecare pacient are două două consultaţii.

a) Estimarea unui model simpluDorim să explicăm hazardul de apariţie a unei infecţii în funcţie de următoarele

variabile explicative: vârstă; sex- sexul persoanei (1-masculin; 2-feminin); tip_boală (0-nefrita glomerulară; 1-nefrita acuta; 2-rinichi polichistic; 3-altele).

Variabila dependentă (răspuns) este caracterizată prin două variabile: timp-durata până la infecţie; status- statusul pacientului bolnav de insuficienţă renală abservat: 1-Eveniment:

infecţie; 0-Episod cenzurat.

În programul SPSS se utilizează următoarele funcţii: Analyze→ Survival →Cox Regression.

Page 10: Proiect Modele de Durata

Case Processing Summary

N Percent

Cases available in analysis Eventa 76 100.0%

Censored 0 .0%

Total 76 100.0%

Cases dropped Cases with missing values 0 .0%

Cases with negative time 0 .0%

Censored cases before the

earliest event in a stratum

0 .0%

Total 0 .0%

Total 76 100.0%

a. Dependent Variable: timp

Block 0: Beginning Block

Block 1: Method = Enter

Omnibus Tests of Model Coefficientsa,b

-2 Log Likelihood

Overall (score) Change From Previous Step Change From Previous Block

Chi-square df Sig. Chi-square df Sig. Chi-square df Sig.

507.727 6.044 3 .109 5.578 3 .134 5.578 3 .134

a. Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 513.305

b. Beginning Block Number 1. Method = Enter

Omnibus Tests of

Model Coefficients

-2 Log Likelihood

513.305

Variables in the Equation

B SE Wald df Sig. Exp(B)

varsta .001 .008 .009 1 .922 1.001

sex -.562 .273 4.248 1 .039 .570

tip_boala -.120 .107 1.264 1 .261 .887

Page 11: Proiect Modele de Durata

Data on the recurrence times to infection, at the point of insertion of the catheter, for kidney patients using portable dialysis equipment. Catheters may be removed for reasons other than infection, in which case the observation is censored. Each patient has exactly 2 observations.

The data set has been used by several authors to illustrate random effects ("frailty") models for survival data. However, any non-zero estimate of the random effect is almost entirely due to one outlier, subject 21.

patient id follow-up time status: 0 = censored, 1 = infection age sex (1 = male, 2 = female) disease type

o 0 = Glomerulo Nephritis o 1 = Acute Nephritis o 2 = Polycystic Kidney Disease o 3 = Other

estimate of the frailty, as listed in the reference below

Covariate Means

Mean

varsta 43.697

sex 1.737

tip_boala 1.553