Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
GoBack
1 / 22
Regresion logıstica
Guillermo Ayala GallegoUniversidad de Valencia
4 de febrero de 2009
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
2 / 22
Puede que sea el procedimiento estadıstico masutilizado.Con aplicaciones frecuentes en Medicina yBiologıa, Ciencias Sociales, Marketing, . . .El 11 de enero de 2009 salıa en 93919 artıculos enla base de datos PubMed.
Modelo de regresion logıstica
3 / 22
Y es una respuesta binaria.X (una sola) variable explicativa y
π(x) = P (Y = 1|X = x) = 1 − P (Y = 0|X = x).
El modelo de regresion logıstica asume
π(x) =exp{α + βx}
1 + exp{α + βx}
o equivalentemente
logit(π(x)) = logπ(x)
1 − π(x)= α + βx
Interpretacion del parametro β
4 / 22
eβ es un cociente de los odds de X = x + 1 dividido por losodds de X = x.El parametro α no suele tener un interes especial.
¿Es apropiado el modelo?
5 / 22
Una posibilidad es considerar para cada x el numero deobservaciones que comparten la covariable.Si yi es el numero de unos y ni el numero de pruebas entonces
logyi + 1
2
ni − yi + 1
2
ha de ser aproximadamente lineal.Si x es muy numerica (muchos valores distintos) entoncesalguna tecnica de suavizado parece mejor.
Inferencia
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
6 / 22
La basamos en la distribucion asintotica de losestimadores maximo verosımiles.En un modelo con un solo predictor el contrastebasico serıa
H0 : β = 0; H1 : β 6= 0
Podemos usar los tres tests ya considerados:cociente de verosimilitudes, Wald y el score test.
Inferencia
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
7 / 22
Para obtener el intervalo de confianza para π(x0)tenemos que, puesto que logit(π(x0)) = α + βx0,entonces
var(α+βx0) = var(α)+x2
0var(β)+2x0cov(α, β).
De donde el intervalo de confianza para α + βx0
serıaα + βx0 ± 1,96SE,
y el intervalo para π(x0) lo obtenemos mediante latransformacion inversa
π(x0) = exp(logit)/(1 + exp(logit)).
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
8 / 22
Los cangrejos herradura hembra: ¿depende el quetenga satelite de la anchura del caparazon?notaR/notaR022.pdf.Unos datos del IBV: notaR/notaR032.pdf.
Bondad de ajuste: datos agrupados y no
agrupados
9 / 22
Una posibilidad es comparar nuestro modelo con modelos mascomplejos (con interacciones o terminos cuadraticos).Si el modelo mas complejo no ajusta sensiblemente mejor puedeque nuestro modelo no sea demasiado malo.Si todas los predictores son categoricos entonces podemosestimar la probabilidad de uno y cero, lo multiplicamos por elnumero de sujetos en este setting y tenemos los valores
ajustados. Podemos comparar lo ajustado y lo observado con eltest ji-cuadrado de Pearson o el test del cociente deverosimilitud. Si el numero de settings se mantiene fijo yaumentamos la muestra la distribucion nula asintotica es unaji-cuadrado donde el numero de grados de libertad es ladiferencia entre el numero de setting menos el numero deparametros del modelo.
Bondad de ajuste: datos agrupados y no
agrupados
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
10 / 22
¿Y si los predictores son continuos, esto es,tenemos datos no agrupados?Una posibilidad es categorizar los predictores.Asignamos el valor medio de los predictores a losindividuos de la categorıa.Estimamos la probabilidad de uno y cero usandoen estos valores medios y reproducimos lo quehacemos para datos agrupados.
Test de Hosmer y Lemeshow (1980)
11 / 22
El procedimiento anterior con muchos predictores produce tablascon muchas celdas.Vamos a agrupar usando las probabilidades de exito utilizandodatos no agrupados.Formamos grupos aproximadamente iguales: el primer grupotendrıa los que tienen mayor probabilidad de exito, el segundogrupo los siguientes y ası sucesivamente.El valor observado es el numero de individuos en el grupo.El valor esperado es la suma de las probabilidades estimadaspara todas las observaciones del grupo.
Test de Hosmer y Lemeshow (1980)
12 / 22
Si yij denota el resultado binario para la observacion j del grupoi (i = 1, . . . , g, j = 1, . . . , ni y πij denota su probabilidadajustada entonces el estadıstico del test de Hosmer Lemeshowserıa
g∑
i=1
(
∑
j yij −∑
j πij
)2
∑
j πij(1 −∑
j πij)/ni
La distribucion asintotica no es una ji-cuadrado ya que notenemos pruebas de Bernoulli.Si el numero de settings es igual al tamano muestral entonces ladistribucion nula es aproximadamente ji-cuadrado con g − 1grados de libertad.notaR/notaR035.pdf
Modelos logit con predictores
categoricos
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
Representacion tipoANOVAUna formulacionalternativa convariables dummy
Regresion logısticamultiple
Modelos logit paratablas decontingencia
13 / 22
Representacion tipo ANOVA
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
Representacion tipoANOVAUna formulacionalternativa convariables dummy
Regresion logısticamultiple
Modelos logit paratablas decontingencia
14 / 22
Supongamos un solo factor X con I categorıas.Tendrıamos una tabla I × 2 donde el conteo de laprimera columna yi es el numero de exitos de lasni pruebas.Tenemos yi con distribucion binomial conparametros πi y ni e independientes.El modelo logit con un solo factor serıa
logπi
1 − πi
= α + βi.
Un valor mayor de βi supone un mayor valor de laprobabilidad πi.
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
Representacion tipoANOVAUna formulacionalternativa convariables dummy
Regresion logısticamultiple
Modelos logit paratablas decontingencia
15 / 22
Tenemos un parametro redundante.Las opciones habituales son
•∑
i βi = 0.• βI = 0. En este caso:
◦ α es el logit de la categorıa I.◦ βi es la diferencia de los logit entre la
categorıa i y la categorıa I, el logaritmodel odds ratio.
Es un modelo con I parametros, tantos comoobservaciones binomiales. Es un modelo saturado.
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
Representacion tipoANOVAUna formulacionalternativa convariables dummy
Regresion logısticamultiple
Modelos logit paratablas decontingencia
16 / 22
Si el factor (X) no tiene efecto:
β1 = . . . = βI = 0,
o equivalentemente
π1 = . . . = πI .
Una formulacion alternativa con variables
dummy
17 / 22
Consideramos xi = 1 para las observaciones de la fila i en latabla I × 2 y cero en otro caso para i = 1, . . . , I − 1El modelo logit lo formulamos como
logit(πi) = α + β1x1 + . . . + βI−1xI−1.
Esta formulacion es equivalente con la hipotesis βI = 0.La categorıa que elegimos para asumir que su β es nulo esarbitraria.Independientemente de la restriccion α + βi y por lo tanto πi
son los mismos.notaR/notaR026.pdf.
Regresion logıstica multiple
18 / 22
Si π(x) = P (Y = 1|x) con x = (x1, . . . , xp) asumimos
logit[π(x)] = α + β1x1 + . . . + βpxp.
O equivalentemente
π(x) =exp(α + β1x1 + . . . + βp)
1 + exp(α + β1x1 + . . . + βp).
Fijadas todas las demas variables, un cambio en una unidad dexi se traduce en un cambio en el logaritmo de los odds de βi obien un cambio multiplicativo en los odds de exp(βi).
Modelos logit para tablas de contingencia
multiples
19 / 22
Consideremos X,Z predictores binarios e Y la respuesta binaria:x1 = z1 = 1 y x2 = z2 = 0.Consideremos el modelo
logit(P (Y = 1)) = α + β1xi + β2Z
donde estan los efectos principales pero no hay interaccion.El modelo indicado corresponde con una asociacion homogeneaentre X e Y, esto es, no depende del valor de Z.Si β1 = 0 ademas X e Y son independientes en cada tablaparcial, esto es, son condicionalmente independientes dado ZLa escala logit es la aceptada genericamente para no interaccionentre variables categoricas.Podemos trabajar en otra escala y la no interaccion en unaescala no implica la no interaccion en la otra.
Modelos logit para tablas de contingencia
multiples
20 / 22
Consideremos X,Z predictores categoricos e Y la respuestabinaria.El modelo de no interaccion, de independencia condicional o deasociacion homogenea corresponde con
logit(P (Y = 1)) = α + βXi + βZ
k
donde estamos representando los efectos de X mediante los(I − 1) parametros βX
i y los efectos de Z mediante los βZk .
La independencia condicional se corresponde con
H0 : βX1
= βX2
= . . . = βXI .
SIDA Y AZT
21 / 22
Tenemos una muestra de personas afectadas de sida en dondecomo respuesta consideramos si desarrollan sıntomas de SIDA ycomo predictores la raza y si se les administra AZT de modoinmediato o cuando las celulas T muestran debilidad inmune.
logit(P (Y = 1)) = α + βAZTSi + βRaza
Blanco
α es el log odds de desarrollar sıntomas de SIDA para negrosque no se les administro inmediatamente AZT.βAZT
Si es el incremento en los log odds para los que usaninmediatamente AZT.βRaza
Blanco es el incremento de los odds para los blancos.notaR/notaR027.pdf.
Los cangrejos herradura atacan de nuevo
Modelo de regresionlogıstica
Interpretacion delparametro β
¿Es apropiado elmodelo?
Inferencia
Inferencia
Bondad de ajuste:datos agrupados yno agrupados
Bondad de ajuste:datos agrupados yno agrupados
Test de Hosmer yLemeshow (1980)
Test de Hosmer yLemeshow (1980)
Modelos logit conpredictorescategoricos
Representacion tipoANOVAUna formulacionalternativa convariables dummy
Regresion logısticamultiple
Modelos logit paratablas decontingencia
22 / 22
Consideramos el modelo
logit(π) = α + β1c1 + β2c2 + β3c3 + β4x,
π = P (Y = 1),x= anchura en centımetros,c1 = 1 para color medio claro y 0 en otro caso,c2 = 1 para color medio y 0 en otro caso,c3 = 1 para color medio oscuro y 0 en otro caso.notaR/notaR028.pdf.