Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
REGRESIÓN LOGÍSTICA MULTINOMIAL
Dr. Carlos Alfonso Risco Dávila
Profesor Asociado a DE. del D.A.E.
I. INTRODUCCIÓN
Supongamos que una corporación grande realiza un
estudio para escoger un plan de salud para sus
funcionarios y partir de tres opciones ofrecidas por la
empresa prestadora de servicios. De esta forma, la
variable en análisis es El tipo de plan de saludescogido, que posee naturaleza nominal y sus tres
niveles son denotados por A, B y C. Las variables
independientes utilizadas para escoger el plan de salud
son: la edad del funcionario, el tamaño de su familiay el sueldo mensual. El objetivo de este estudio es
modelar las opciones del plan de salud como una
función de las variables involucradas y presentar los
resultados en términos de proporciones de escoger los
diferentes planes.
I. INTRODUCCIÓN…
I. INTRODUCCIÓN…
La Regresión Logística Multinomial modela una relación
entre variables predictoras y una variable de respuesta
categórica. Por ejemplo, una variable categórica con
tres o más modalidades sin ordenamiento natural de los
niveles; como sabor (amargo, dulce y ácido), color
(rojo, azul, negro), materia de estudio (matemáticas,
ciencias, artes). A diferencia de la regresión lineal, que
predice los valores reales de la variable de respuesta,
la regresión logística modela la probabilidad asociada
con cada nivel de la variable de respuesta, al encontrar
una relación lineal entre variables predictoras y una
función de enlace de estas probabilidades; en este
caso particular la función es el logit.
II. FORMULACIÓN Y ESTIMACIÓN
Cuando se estudia los modelos de regresión logística
binaria se utiliza una variable aleatoria binaria, o sea,
que podía asumir por ejemplo, apenas los valores 0 y 1.
Así el modelo era parametrizado en términos del logit
de Y= 1 versus Y= 0.
Si consideramos una colección de r+1 variables
independientes denotadas por X= (X0, X1,…., Xr), donde
x=(x0, x1,…, xr) con x0=1 y una v.a. Y de naturaleza
nominal que puede asumir los niveles 0,1,…, q.
Un abordaje análogo a la regresión logística binaria es
describir el logit comparándose Y= k con Y= 0 para
kϵ{1, …, q}. El valor 0 entonces es denominado
categoría de referencia.
Si denotamos las funciones logit como:
𝑔𝑘 ≡ 𝑔𝑘 𝐱 = 𝑙𝑛 𝑃(𝑌= 𝑘 𝐱𝑃(𝑌= 0 𝐱= 𝛽𝑘0𝑥𝑘0 + 𝛽𝑘1𝑥1 +⋯+ 𝛽𝑘𝑟𝑥𝑟= 𝐱´𝜷𝒌, para kϵ{1, …, q}. (1)
donde 𝜷𝒌 = 𝛽𝑘0… , 𝛽𝑘𝑟 ´ y 𝑥𝑘0 = 1.
II. FORMULACIÓN Y ESTIMACIÓN…
Si asuminos n observaciones independientes de Y,
denotadas por y1,…, yn, asociadas a los valores de
xi=(xi0,…, xir), para iϵ{1,…,n}, el logit, dado en (1), se
presenta como
𝑔𝑘1 ≡ 𝑔𝑘1 𝐱𝟏 = 𝛽𝑘0𝑥10 + 𝛽𝑘1𝑥11 +⋯+ 𝛽𝑘𝑟𝑥1𝑟 + 𝜀1𝑔𝑘2 ≡ 𝑔𝑘2 𝐱𝟐 = 𝛽𝑘0𝑥20 + 𝛽𝑘1𝑥21 +⋯+ 𝛽𝑘𝑟𝑥2𝑟 + 𝜀2⋮𝑔𝑘𝑛 ≡ 𝑔𝑘𝑛 𝐱𝐧 = 𝛽𝑘0𝑥𝑛0 + 𝛽𝑘1𝑥𝑛1 +⋯+ 𝛽𝑘𝑟𝑥𝑛𝑟 + 𝜀𝑛, (2)
donde 𝑥𝑖0 = 1, para iϵ{1,…,n} y los errores, εi siguen
las siguientes suposiciones, para todo i ϵ{1,…,n}
II. FORMULACIÓN Y ESTIMACIÓN…
Definición 1. Las variables aleatorias Y1,…, Yn
satisfacen un modelo logístico multinomial si una
muestra de tamaño uno de cada Yi se puede expresar
como
𝑖 𝐸 𝜀𝑖 𝐱𝒊 = 0.𝑖𝑖 𝑉𝑎𝑟 𝜀𝑖 𝐱𝒊 = 𝑉𝑎𝑟 𝑌𝑖 𝐱𝒊 .𝑖𝑖𝑖 𝐶𝑜𝑣 𝜀𝑖 , 𝜀𝑙 = 0, 𝑠𝑖 𝑖 ≠ 𝑙.
𝜋𝑘𝑖 ≡ 𝜋𝑘𝑖 𝐱 = exp(𝑔𝑘𝑖)1+exp(𝑔𝑘𝑖) , (3)
II. FORMULACIÓN Y ESTIMACIÓN…
Donde gki está obtenida por la expresión (1), para la cual
xij es variable conocida y βkj es parámetro desconocido,
los errores εi poseen las suposiciones dadas en (2) y𝜋𝑘𝑖(𝐱) representa P(Yi=k/x), con iϵ{1,…,n}, jϵ{0,…,r} y
kϵ{0,…,q}.
Proposición 1: Una expresión general para las
probabilidades condicionales en un modelo con q+1
categorías es dada por
𝑃 𝑌 = 𝑘 𝐱 = 𝑒𝑥𝑝[gk(𝐱)] k=0q 𝑒𝑥𝑝[gk(𝐱)] ,
II. FORMULACIÓN Y ESTIMACIÓN…
Si k=0, 1, 2.
𝑃 𝑌 = 1 𝐱 = 𝑒𝑥𝑝[g1(𝐱)]1+exp g1 𝐱 +exp g2 𝐱 ,
II. FORMULACIÓN Y ESTIMACIÓN…
𝑃 𝑌 = 2 𝐱 = 𝑒𝑥𝑝[g2(𝐱)]1+exp g1 𝐱 +exp g2 𝐱 ,
𝑃 𝑌 = 0 𝐱 = 11+exp g1 𝐱 +exp g2 𝐱