Upload
others
View
16
Download
0
Embed Size (px)
Citation preview
Modelos Multivariantes 2
Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística
Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 199-223.
LECTURA OBLIGATORIA
Modelos Multivariantes 3
LA CORRELACIÓN LINEAL
COEFICIENTE DE CORRELACIÓN de PEARSON
Es una medida del grado de asociación entre dos variables de intervalo o razón
Una manera útil de examinar la relación entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIÓN
Y
X
Tendencia lineal
A valores altos de Y le corresponden valores altos de X
rxy > 0, directa
rxy = 0, ausencia de relación
rxy < o, inversa
Modelos Multivariantes 4
COVARIANZA Y CORRELACIÓN
La correlación es una medida estandarizada de la Covarianza
-1 < rxy < + 1: es una medida tanto de la dirección como de la
fuerza de la relación
Permite que se compare la relación entre pares de variables independientemente de las unidades en que se midan
yx
ii
xySSn
YYXXr
)(
))((
n
YYXXYXCov
ii ))((),(
Modelos Multivariantes 5
REGRESIÓN LINEAL SIMPLE
¿QUÉ ES? Un tipo de análisis que permite conocer en qué
medida una VD o criterio puede ser explicada o predicha a partir de una VI o
predictora, siendo ambas de intervalo o razón
EJEMPLO :
V.D. Aciertos en un Test (Y)
V.I. Horas de estudio (X)
X
Y
50 60 70 80 90 100
100
50
60
70
80
90
Horas de estudio
Aciertos test
Modelos Multivariantes 6
Para ello tenemos que calcular la Ecuación de la recta (Y=a+bX), donde:
a= valor de la intersección con el eje Y
b= la pendiente de la recta
Debe minimizar el error o la desviación no explicada
Mínimos cuadrados =ei ; mínimo 2)ˆ( ii YY2
i
e
Método de MÍNIMOS CUADRADOS
Podríamos intentar ajustar una línea a ojo, por la mitad del diagrama de dispersión, para obtener una relación lineal entre X e Y
Pero vamos a hacerlo siguiendo un procedimiento matemático, definiendo una recta en el plano X,Y, con unos parámetros concretos.
Tenemos que buscar la ecuación que minimice los errores de predicción.
Modelos Multivariantes 7
Los valores de a y b que minimizan la suma del cuadrado de los
errores son:
XbYa
2)ˆ( ii YY
x
yxy
S
Srb
Método de MÍNIMOS CUADRADOS
En el caso de que…
b= 0.93
Predeciríamos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicaría que a más horas de estudio menos aciertos.
Modelos Multivariantes 8
Interpretación de los coeficientes
a indica el valor pronosticado de Y cuando X es cero (“intercepto”)
b representa la cantidad de cambio que pronosticaríamos en Y para un cambio de una unidad en X (pendiente de la recta)
La ecuación de regresión (Y’=6.16+0.93X) puede utilizarse para generar pronósticos de Y a partir de X
Además se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mínima
mínimoeYYSC iiierror
22ˆ
Ningún otro valor de a y b daría este
SCerror tan pequeño
Modelos Multivariantes 9
Desviación total= Desviación debido a X + Desviación debido al error
SCtotal = Scexplicada por la regresión + Scno explicada por la regresión
Variación Total
Variación. explicada por la regresión
Variación.no explicada por la
regresión = +
FUENTES DE VARIACIÓN
22
i
2 )ˆ()Y ()( iii YYYYY
Modelos Multivariantes 10
La predicción más sencilla sería asignarle la media global. La parte explicada por el modelo es justamente la cantidad en que se reduce la desviación total debido a nuestro conocimiento de otras variables y su relación con la VD (ecuación de regresión)
Y
X
Y
total
)( YYi
explicada
)ˆ( YYi
y=a+bX explicada no
)ˆ( ii YY
GRÁFICAMENTE
Modelos Multivariantes 11
Varianza explicada
Se le llama también coeficiente de determinación (R2)
Es una proporción entre la variación explicada por la ecuación
de regresión, con respecto a la variación total
2
2
2
)(
)ˆ(
totalSC
explicada SC
alvariac.tot
licadavariac.exp
i
iixy
YY
YYR
2
2
2
)(
)ˆ(
totalSC
error SC
alvariac.tot
orvariac.err1
i
ixy
YY
YYR
Modelos Multivariantes 12
EJEMPLO
El objetivo del responsable de MKT de una estación de esquí es determinar cuáles son las variables que mejor explican que un sujeto esquíe mucho o poco en su estación
Trató de explicar el nº de días que los esquiadores iban a su estación durante una temporada (V1). Para ello registró
Edad de los esquiadores (V2)
Años de práctica (V3)
Ingresos económicos (V4)
Satisfacción general (V5)
Nº de personas con las que esquía (V6)
Modelos Multivariantes 13
Prestar especial atención a varios elementos: Fijar bien los objetivos Todas las variables deben ser métricas (de ESCALA) Especificar correctamente el modelo: Especificar la VD y las VI No omitir variables relevantes ni incluir irrelevantes Utilizar herramientas adecuadas para recoger (medir) los datos
Garantizar que se cumplen una serie de Supuestos: NORMALIDAD DE LAS Vs
LINEALIDAD (relación lineal entre predictores y criterio)
Ausencia de MULTICOLINEALIDAD
INDEPENDENCIA de los errores
NORMALIDAD de los errores
¡OJO AL DISEÑO!
Modelos Multivariantes 14
EL ANÁLISIS EN SPSS
VARIOS MÉTODOS
A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones son fundamentalmente dos:
MÉTODO INTRODUCIR (ENTER). Construye la ecuación utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 está inflado.
MÉTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso, si cumplen unos criterios de selección. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor nº de predictores posible. Hacia delante vs. hacia atrás.
15
INTERPRETACIÓN DE RESULTADOS
ANOVAd
101,995 1 101,995 46,689 ,000a
50,245 23 2,185
152,240 24
117,619 2 58,809 37,370 ,000b
34,621 22 1,574
152,240 24
127,987 3 42,662 36,940 ,000c
24,253 21 1,155
152,240 24
Regresión
Residual
Total
Regresión
Residual
Total
Regresión
Residual
Total
Modelo
1
2
3
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), INGRESOS ECONÓMICOSa.
Variables predictoras: (Constante), INGRESOS ECONÓMICOS, AÑOS PRACT ICANDO
ESQUÍ
b.
Variables predictoras: (Constante), INGRESOS ECONÓMICOS, AÑOS PRACT ICANDO
ESQUÍ, SATISFACCIÓN GENERAL
c.
Variable dependiente: Nº DÍAS QUE ESQUÍA POR T EMPORADAd.
SIGNIFICACIÓN DEL MODELO (contraste global: F)
Se comprueba hasta qué punto la Variación Explicada por la Regresión es
significativa. Se trata de un cociente o proporción con relación a la varianza de error.
Cuanto más grande sea con los datos muestrales, menor probabilidad habrá de que
en la población ese cociente sea 0.
Modelos Multivariantes 16
Resumen del modelo
,819a ,670 ,656 1,478
,879b ,773 ,752 1,254
,917c ,841 ,818 1,075
Modelo
1
2
3
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), INGRESOS ECONÓMICOSa.
Variables predictoras: (Constante), INGRESOS ECONÓMICOS,
AÑOS PRACTICANDO ESQUÍ
b.
Variables predictoras: (Constante), INGRESOS ECONÓMICOS,
AÑOS PRACTICANDO ESQUÍ, SATISFACCIÓN GENERAL
c.
INTERPRETACIÓN DE RESULTADOS
INDICADORES DE BONDAD DE AJUSTE:
a) El cuadrado del Coeficiente de Correlación Múltiple (R2 )
b) El % de varianza explicada (R2x100). 84%
c) El R2 hay que corregirlo, porque R2 aumenta en función del
número de V.I. y con un “n” pequeño
81.01
)1( 22
.2
Pn
RPRR aj
17
LOS PARÁMETROS
“a” es la constante, el intercepto, valor de Y cuando X=0
P, indica la dirección de la relación y la intensidad de la relación
Si P > 0: un incremento en una unidad, de la variable asociada XP
implica un incremento en Y en unidades (Si se incrementa en un
punto la satisfacción se incrementará la estancia en 0.338 días)
Si P < 0: incremento en una unidad, de la variable asociada XP implica
una disminución en Y en unidades
INTERPRETACIÓN DE RESULTADOS
Modelos Multivariantes 18
Coeficientes a
,343 ,813 ,422 ,677
2,922E-03 ,000 ,819 6,833 ,000
9,728E-02 ,695 ,140 ,890
2,153E-03 ,000 ,603 4,924 ,000
,227 ,072 ,386 3,151 ,005
-2,244 ,982 -2,285 ,033
2,075E-03 ,000 ,581 5,526 ,000
,201 ,062 ,341 3,215 ,004
,388 ,129 ,268 2,996 ,007
(Constante)
INGRESOS ECONÓMICOS
(Constante)
INGRESOS ECONÓMICOS
AÑOS PRACTICANDO ESQUÍ
(Constante)
INGRESOS ECONÓMICOS
AÑOS PRACTICANDO ESQUÍ
SAT ISFACCIÓN GENERAL
Modelo
1
2
3
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: Nº DÍAS QUE ESQUÍA POR TEMPORADAa.
SIGNIFICACIÓN DE LOS PARÁMETROS (contraste particular: t)
Para comprobar si cada V.I. por influye significativamente sobre la V.D.,
comprobando si se trata de un predictor estadísticamente significativo
(“significativamente distinto de 0”) H0: BP = 0 H1: BP 0
pB
p
Se
Bt
INTERPRETACIÓN DE RESULTADOS
Modelos Multivariantes 19
b vs. Como las XP fueron medidas en escalas diferentes (años, euros, número
personas, etc.) los coeficientes “b” NO SON COMPARABLES ENTRE SÍ
Para saber qué predictor es más importante hay que normalizar los
coeficientes b.
Y
X
ppS
Sb
p
INTERPRETACIÓN DE RESULTADOS
Modelos Multivariantes 20
Razones por las que Bp puede no ser
significativo
Tamaño de la muestra inadecuado. Solución: ampliar el “n” (arma de doble filo)
Especificación incorrecta del modelo (la relación entre x e Y no es lineal). Solución: transformar las variables.
Poco recorrido de los valores de X e Y. Solución: Recurrir al Análisis Discriminante o a la Regresión Logística (“Grupos Polares”)
Existencia de multicolinealidad. VI en principio importantes no entran en la ecuación porque ya lo hicieron antes otras con las que guarda mucha relación. Puede derivar también en resultados contradictorios (B negativos cuando las correlaciones son positivas). Soluciones: prescindir de alguna variable, análisis de correlaciones previo, …
Modelos Multivariantes 21
¿QUÉ ES? Y - Y’ = e
¿A qué puede deberse? Variables relevantes omitidas en el modelo e inclusión de irrelevantes
Mala especificación del modelo (relaciones no lineales entre Xi e Y)
Errores en la medición (recogida de datos)
Comportamiento cambiante de los sujetos
EL ERROR EN LA REGRESIÓN
Modelos Multivariantes 22
X
Y
50 60 70 80 90 100
100
50
60
70
80
90
¿Cómo mejorar el ajuste del modelo?
Tratamiento de los Outliers Sujetos que estropean el ajuste del modelo
Se detectan en base a los residuos Brutos (no tipificados)
Tipificados (divididos por Se - nunca superior a 3, incluso 2)
Otros indicadores Distancia de Cook (valores >1 gran importancia de un sujeto en los parámetros del
modelo)
Distancia de Mahalanobis (valores altos, sujetos distintos al resto)
Modelos Multivariantes 23
Comprobación de supuestos
Normalidad de cada VI (Lilliefors)
Linealidad
Diagramas de dispersión particulares (de cada VI con la VD)
Ausencia de Multicolinealidad
TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo.
Independencia de los errores (residuos)
Estadístico Durbin-Watson
Normalidad de los residuos
Histograma, Gráfico de probabilidad normal, K-S