Upload
hoangnguyet
View
251
Download
0
Embed Size (px)
Citation preview
Material Preparado por Olga Susana Filippini y Hugo Delfino 1
Análisis de
Regresión y Correlación
Material Preparado por Olga Susana Filippini y Hugo Delfino 2
ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN
El término regresión fue introducido por Francis Galton. En un famoso
artículo Galton plantea que, a pesar de la presencia de una tendencia
en la que los padres de estatura alta tenían hijos altos y los padres de
estatura baja tenían hijos bajos, la estatura promedio de los niños
nacidos de padres de una estatura dada tendía a moverse o «regresar»
hacia la estatura promedio de población total. En otras palabras, la
estatura de los hijos inusualmente altos o de padres inusualmente bajos
tiende a moverse hacia la estatura promedio de la población. La ley de
regresón universal de Galton fue confirmada por su amigo Karl Pearson,
quien reunió más de registros de estaturas de miembros de grupos
familiares. Pearson encontró que la estatura promedio de los hijos de un
grupo de padres de estatura alta era menor que la estatura de sus
padres y la estatura promedio de los hijos de un grupo de padres de
estatura baja era mayor que estatura de sus padres, generándose un
fenómeno mediante el cual los hijos altos e hijos bajos «regresaban» en
forma similar hacia la estatura promedio de todos los hombres. En
palabras de Galton, se trataba de una «regresión hacia la mediocridad».
Material Preparado por Olga Susana Filippini y Hugo Delfino 3
Muchas veces las decisiones gerenciales
se basan en la relación entre dos o más
variables
• Ejemplos:
• Después de revisar la relación entre los gastos de
publicidad y las ventas, un gerente de marketing
podría tratar de predecir las ventas para
determinado nivel de gastos de publicidad.
• Se quiere estimar el consumo de un bien en
función de los ingresos de la familia.
Introducción
Material Preparado por Olga Susana Filippini y Hugo Delfino 4
• Después de revisar la relación entre la dosis de
fertilizante aplicado y el rendimiento de un cultivos
ventas, un agricultor podría tratar de predecir el
rendimiento del cultivo en qq/ha en función de la
cantidad de fertilizante a aplicar. Teniendo en
cuenta todos los gastos e ingresos esperados,
establecer el punto optimo de dosis de fertilizante a
utilizar.
• Un ingeniero en alimentos puede ver la relación
existente entre el tiempo y el número de bacterias
que se producen.
Ejemplos
Material Preparado por Olga Susana Filippini y Hugo Delfino 5
En general uno desea conocer la relación
existente entre las variables y cuantificarla.
La representación gráfica es eficaz para
obtener una información intuitiva sobre la
relación entre variables.
Diagrama de Dispersión: Es un gráfico que
muestra la intensidad y el sentido de la
relación entre dos variables de interés.
Introducción
Material Preparado por Olga Susana Filippini y Hugo Delfino 6
Los diagramas de dispersión no sólo muestran la
relación existente entre variables, sino también resaltan
las observaciones individuales que se desvían de la
relación general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
Diagrama de dispersión
Material Preparado por Olga Susana Filippini y Hugo Delfino 7
• Análisis de Correlación: Un grupo de
técnicas estadísticas usadas para medir la
intensidad de la relación entre dos
variables
• Análisis de Regresión: Es un
procedimiento estadístico que estudia la
relación funcional entre variables. Con el
objeto de predecir una en función de la/s
otra/s.
Conceptos básicos
Material Preparado por Olga Susana Filippini y Hugo Delfino 8
• Variable dependiente (Y): es la variable que se desea
predecir o estimar
• Variables independientes (Xi ). Son las variables que
proveen las bases para estimar.
• Regresión simple: interviene una sola variable
independiente
• Regresión múltiple: intervienen dos o más variables
independientes.
• Regresión lineal: la función es una combinación lineal
de los parámetros.
• Regresión no lineal: la función que relaciona los
parámetros no es una combinación lineal
Conceptos básicos
Material Preparado por Olga Susana Filippini y Hugo Delfino 9
Coeficiente de correlación lineal
• Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones
· Varía entre -1.00 y 1.00.
· Valores de -1.00 o 1.00 indican correlación perfecta.
· Valor igual a 0.0 indica ausencia de correlación.
· Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa
Material Preparado por Olga Susana Filippini y Hugo Delfino 10
Correlación Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Olga Susana Filippini y Hugo Delfino 11
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlación Positiva Perfecta
Material Preparado por Olga Susana Filippini y Hugo Delfino 12
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Ausencia de Correlación
Material Preparado por Olga Susana Filippini y Hugo Delfino 13
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlación Fuerte y Positiva
Material Preparado por Olga Susana Filippini y Hugo Delfino 14
Coeficiente de correlación (r) Pearson
)(*)(
)(aCovarianci
YVarXVar
XYr
2222 )()()()(
))(()(
YYnXXn
YXXYnr
Material Preparado por Olga Susana Filippini y Hugo Delfino 15
Test de hipótesis del coeficiente de correlación
1. Hipótesis: H0: la correlación en la población es 0. H1: la
correlación en la población no es 0.
2. Nivel de significación: = 0.05.
tr n
r
2
1 23. Estadística de la prueba: se distribuye
como un t de Student con n-2 grados de libertad.
4. Regla de decisión: Rechazamos H0 si, y solo si, el valor de
t calculado es mayor que el valor t teórico, o el valor p es
menor que el fijado . En caso contrario, se acepta H0.
5. Conclusión: Si rechazo H0 concluyo que hay evidencias de
correlación entre las variables. En caso contrario no
Material Preparado por Olga Susana Filippini y Hugo Delfino 16
Modelo de Regresión
Un modelo de regresión, es una manera de
expresar dos ingredientes esenciales de una
relación estadística:
• Una tendencia de la variable dependiente Y
a variar conjuntamente con la variación de
la o las X de una manera sistemática
• Una dispersión de las observaciones
alrededor de la curva de relación
estadística
Material Preparado por Olga Susana Filippini y Hugo Delfino 17
Modelo de Regresión
Estas dos características están implícitas en
un modelo de regresión, postulando que:
• En la población de observaciones
asociadas con el proceso que fue
muestreado, hay una distribución de
probabilidades de Y para cada nivel de X.
• Las medias de estas distribuciones varían
de manera sistemática al variar X.
Material Preparado por Olga Susana Filippini y Hugo Delfino 18
Representación gráfica del modelo de
Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades
de Y para distintos valores de X
Material Preparado por Olga Susana Filippini y Hugo Delfino 19
Análisis de Regresión
• Objetivo: determinar la ecuación de regresión
para predecir los valores de la variable
dependiente (Y) en base a la variable
independiente (X).
• Procedimiento: seleccionar una muestra a
partir de la población, listar pares de datos
para cada observación; dibujar un diagrama de
puntos para dar una imagen visual de la
relación; determinar la ecuación de regresión.
Material Preparado por Olga Susana Filippini y Hugo Delfino 20
Proceso de estimación de la regresión lineal simple
Modelo de regresión
y= 0+ 1x+
Ecuación de regresión
E(y)= 0+ 1x
Parámetros desconocidos
0. 1
Datos de la muestrax y
x1 y1
x2 y2
. .
. .
. .
xn yn
b0 y b1
proporcionan estimados
0 y 1
Ecuación estimada de
regresión
y=b0+b1xEstadísticos de la muestra
b0.b1
Material Preparado por Olga Susana Filippini y Hugo Delfino 21
Método de Mínimos Cuadrados
• Considera la desviación de yi con respecto a su valor esperado: yi – ( 0 + 1·xi)
• Se considera la suma de n desviaciones elevadas al cuadrado. Este criterio se denota como:
• Los estimadores de 0 y 1 son b0 y b1 que se obtienen minimizando las ecuaciones normales
n
i
ii XYQ1
2
10
2
10
10
iiii
ii
XbXbYX
XbbnY
Material Preparado por Olga Susana Filippini y Hugo Delfino 22
Posibles modelos en la regresión lineal simple
xx
Ey
Sección A
Relación lineal positiva
Línea de regresión
La pendiente 1
es positiva
*
x
Ey
Sección B
Relación lineal negativa
Línea de regresión
La pendiente 1
es negativa*
Sección C
No hay relación
Ey
Línea de regresión
La pendiente 1
es 0
*
Ordenada al origen 0*
Material Preparado por Olga Susana Filippini y Hugo Delfino 23
Estimación de la ecuación de
Regresión
• = b0 + b1xi, donde:
• es el valor estimado de y para distintos x.
• b0 es la intersección o el valor estimado de y
cuando x=0
• b1 es la pendiente de la línea, o el cambio promedio
de y para cada cambio en una unidad de x
• el principio de mínimos cuadrados es usado para
obtener b0 y b1 :
iy
iy
n
xb
n
yb
xxn
yxxynb
10
221)()(
))(()(
Material Preparado por Olga Susana Filippini y Hugo Delfino 24
Interpretación gráfica de coeficientes de
regresión
Material Preparado por Olga Susana Filippini y Hugo Delfino 25
Regresión Lineal simple en términos
matricialesYi= 0+ 1xi+ i donde i=1, .....,n
Y1= 0+ 1x1+ 1
.
.
Yn= 0+ 1xn+ n
En términos matriciales
Y=X +
1
0
i
n
i.
2
1
n
i
Y
Y
Y
Y.
2
1
n
i
X
X
X
X
1
..
1
1
2
1
Material Preparado por Olga Susana Filippini y Hugo Delfino 26
Regresión Lineal simple en términos
matriciales
En términos matriciales encontrar el estimador de mínimos
cuadrados implica resolver:
b= (X´X)-1 X´Y
Para producir las estimaciones
Los residuales se obtienen
Xb
Y
Y
Y
Y
n
i
ˆ
.
ˆ
ˆ
ˆ 2
1
XbYYYe ˆ
Material Preparado por Olga Susana Filippini y Hugo Delfino 27
• La prueba global es usada para investigar
si la combinación lineal de variables
independientes es significativa.
• Las hipótesis son :
H
H Al menos un coeficiente de regresión
es distinto de cero.
k
a
0 1 2 3 0: ...
:
Prueba de Hipótesis Global
La distribución estadística F es usada en esta prueba
,con k (número de variables independientes) y n-(k+1)
grados de libertad , donde n es el tamaño de muestra.
Material Preparado por Olga Susana Filippini y Hugo Delfino 28
• La prueba “t” de Student es utilizada paradeterminar cual variable independiente tienecoeficientes de de regresión distinto de cero. Sonllamadas pruebas parciales.
• Las variables con coeficiente de regresión cero soneliminadas.
• La estadística “t” se utiliza en este caso con n -(k+1) grados de libertad.
Prueba de Hipótesis Parciales
Material Preparado por Olga Susana Filippini y Hugo Delfino 29
Estimación de la variancia de los términos
del error ( 2)
Debe ser estimada por varios motivos
• Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.
• Para realizar inferencias con respecto a la función de regresión y la predicción de Y.
• La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma
que cuando se muestrea una sola población
• La variancia de cada observación Yi es 2, la misma que la de cada término del error
Material Preparado por Olga Susana Filippini y Hugo Delfino 30
Estimación de la variancia de los términos
del error ( 2)
Dado que los Yi provienen de diferentes distribuciones de
probabilidades con medias diferentes que dependen del
nivel de X, la desviación de una observación Yi debe ser
calculada con respecto a su propia media estimada
Por tanto, las desviaciones son los residuales
iiie=YY -
n
i
n
i
ii
n
i
iie eXbbYYYSC1 1
22
110
2
1
)()ˆ(
Y la suma de cuadrados es:
iY
Material Preparado por Olga Susana Filippini y Hugo Delfino 31
Material Preparado por Olga Susana Filippini y Hugo Delfino 32
Estimación de la variancia de los términos
del error ( 2)La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2
)1()1(
2
1
kn
e
kn
SCCM i
n
iee
Material Preparado por Olga Susana Filippini y Hugo Delfino 33
Análisis de Variancia en el análisis de
regresión
• El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.
• La variación de los Yi se mide convencionalmente en términos de las desviaciones
• La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado
)YY(ii
2)YY(ii
Material Preparado por Olga Susana Filippini y Hugo Delfino 34
Variación Total
Material Preparado por Olga Susana Filippini y Hugo Delfino 35
Desarrollo formal de la partición
Consideremos la desviación
Podemos descomponerla en
T R E
(T): desviación total
(R): es la desviación del valor ajustado por laregresión con respecto a la media general
(E): es la desviación de la observación con respecto ala línea de regresión
)YY(ii
)YY()YY(YYiiii
Material Preparado por Olga Susana Filippini y Hugo Delfino 36
Partición de la variación total
Material Preparado por Olga Susana Filippini y Hugo Delfino 37
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
SCtot SCreg SCer
(SCtot): Suma de cuadrados total
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, seobtienen los cuadrados medios del análisis de variancia.
222
)YY()YY(YYiiii
Material Preparado por Olga Susana Filippini y Hugo Delfino 38
Coeficiente de Determinación
• Coeficiente de Determinación, R2 - es la proporción
de la variación total en la variable dependiente Y
que es explicada o contabilizada por la variación en
la variable independiente X.
· El coeficiente de determinación es cuadrado del
coeficiente de correlación, y varia entre 0 y 1.
Para calcular el R2 se utilizó la siguiente fórmula:
2
2
2
)(
)ˆ(
yy
yyR
o
c
Material Preparado por Olga Susana Filippini y Hugo Delfino 39
• Linealidad.
• Independencia de los residuos.
• Homocedasticidad
• Normalidad
• No colinealidad.
Supuestos
Material Preparado por Olga Susana Filippini y Hugo Delfino 40
• La relación entre las variables
independientes y dependientes es lineal.
• ¿Cómo se prueba?
• Diagrama de dispersión entre las
variables
Linealidad
Material Preparado por Olga Susana Filippini y Hugo Delfino 41
Los diagramas de dispersión no sólo muestran la
relación existente entre variables, sino también resaltan
las observaciones individuales que se desvían de la
relación general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
Diagrama de dispersión
Material Preparado por Olga Susana Filippini y Hugo Delfino 42
• Los residuos son una variable aleatoria.
• No deben estar autocorrelacionados. Es
común que ocurra en series temporales.
• ¿Cómo diagnosticar?
• Durbin Watson
• Varia entre 0 y 4 alrededor de 2 significa
independencia de los residuos.
Independencia de los Residuos
n
i
i
ii
n
i
e
ee
DW
1
2
2
1
2
)(
Material Preparado por Olga Susana Filippini y Hugo Delfino 43
• Para cada valor de la variable independiente la
variación alrededor de la línea de regresión de
la variable dependiente es constante.
• ¿Cómo diagnosticar?
• Gráfico de dispersión entre las valores
pronosticados y los residuales (ambos
estandarizados)
Homocedasticidad
Material Preparado por Olga Susana Filippini y Hugo Delfino 44
Análisis de residuos
valores pronosticados
residuos
estandarizados
Los residuos deberían estar:
• Distribuidos aleatoriamente alrededor del 0, es decir
que haya aproximadamente la misma cantidad de
valores positivos y negativos.
• Variar entre -3 y +3.
Esto indica que el modelo que se especifico es correcto
Material Preparado por Olga Susana Filippini y Hugo Delfino 45
Análisis de residuos
valores pronosticados
residuos
estandarizados
Caso 1: Se requieren mas variables en el modelo.
Caso 2: La relación no es lineal entre las variables.
Caso 3: Hay heterocedasticidad.
Material Preparado por Olga Susana Filippini y Hugo Delfino 46
• Residuo:
• Residuo tipificado:
• Los residuos deben seguir una distribución
Normal.
• ¿Cómo probarlo?
• Histograma de los residuos.
• Gráfico de probabilidad normal
Normalidad de los Residuos
YYe ii eez i
i
Material Preparado por Olga Susana Filippini y Hugo Delfino 47
• Colinealidad lineal perfecta cuando una
variable se relaciona de forma perfectamente
lineal con otra.
• Colinealidad perfecta: no se pueden estimar los
parámetros.
• Colinealidad parcial: aumenta los residuos tipificados
y produce coeficientes de regresión inestables.
• ¿Cómo diagnosticar?
• FIV (Factores de Inflación de la Variancia)
No colinealidad
Material Preparado por Olga Susana Filippini y Hugo Delfino 48
Regresión múltiple
• Para dos variables independientes, la forma
general de la ecuación de Regresión múltiple es:
• X1 y X2 son las variables independientes .
• a es la intercepción con Y cuando X1 y X2 son
iguales a cero .
• b1 es el porcentaje de cambio en Y por cada
unidad de cambio en X1 manteniendo X2
constante. La misma interpretación se aplica a b2.
• b1. y b2. son llamados coeficientes de Regresión
Parciales.
Y a b X b X' 1 1 2 2
Material Preparado por Olga Susana Filippini y Hugo Delfino 49
Ecuación de regresión múltiple
Modelo de regresión
múltiple
y= 0+ 1x1+ 2x2+... + pxp +
E(y)= 0+ 1x1+ 2x2+... + pxp
Son parámetros desconocidos
0. 1 2... p
b0.b1 .b2....bp
proporcionan estimados
0. 1. 2..... . p
Ecuación estimada de
regresióny= b0.b1x1+b2x2+...
+bpxp
b0b1b2...bp son estadísticos de la
muestra
Proceso de estimación de la regresión múltiple
Datos de la muestrax1 x2 xp y
. . . .
. . . .
. . . .
Material Preparado por Olga Susana Filippini y Hugo Delfino 50
Modelo general
• La Regresión Múltiple General con k variables
independientes esta dada por:
• El criterio de Mínimos cuadrados es utilizado para
estimar los parámetros de la ecuación.
• Calcular b1, b2, etc.es muy tedioso. Hay software que
puede utilizarse para resolver el algebra matricial que
se usa en la estimación de los parámetros
Y a b X b X b Xk k' ...1 1 2 2
Material Preparado por Olga Susana Filippini y Hugo Delfino 51
Inferencia en el análisis de Regresión
• Estimación por intervalo de los parámetros
de la regresión, 0 y 1.
• En todo lo que sigue, asumiremos el
modelo de errores con distribución normal
• Yi = 0 + 1·Xi + i [1]
• donde 0 y 1 son parámetros, las Xi son
constantes conocidas y los i son errores
independientes con distribución N(0,1).
Material Preparado por Olga Susana Filippini y Hugo Delfino 52
Inferencias acerca de 1 - Distribución por muestreo de b1
• La distribución por muestreo de b1 se refiere a los distintos valores de b1
que se obtendrían con muestras repetidas cuando los niveles de la
variable independiente X se mantienen constantes de muestra en
muestra.
• E(b1) = 1
necesitamos estimar (b1) mediante s(b1)
Por lo tanto
21
XX
YYXXb
i
ii
2
2
1
2
XXb
i
)1,0(1
11 Nb
b
2
1
11nt
bs
b1
2;2
11
11
2;2
nnt
bs
btP
112;2
11112;2
11 bstbbstbPnn
21
2
XX
CMbs
i
E
Material Preparado por Olga Susana Filippini y Hugo Delfino 53
Inferencias acerca de 0 - Distribución por muestreo de b0
XbYb 10
.
• La distribución por muestreo de b0 se refiere a los distintos valores de b0
que se obtendrían con muestras repetidas cuando los niveles de la
variable independiente X se mantienen constantes de muestra en
muestra.
• E(b0) = 0
necesitamos estimar (b0) mediante s(b0)
Por lo tanto
2
22
0
2 1
XX
X
nb
i
2
2
0
2 1
XX
X
nCMbs
i
E)1,0(0
00 Nb
b
2
0
00nt
bs
b1
2;2
10
00
2;2
nnt
bs
btP
102;2
10102;2
10 bstbbstbPnn
Material Preparado por Olga Susana Filippini y Hugo Delfino 54
Estimación por intervalo de E(Yi) - Distribución por
muestreo de . iY
ii XbbY 10ˆ
• La distribución por muestreo de se refiere a los distintos valores de
que se obtendrían con muestras repetidas cuando los niveles de la
variable independiente X se mantienen constantes de muestra en
muestra.
• E( ) = E(Yi)
necesitamos estimar ( ) mediante s( )
Por lo tanto
iY iY
2
2
22 1ˆ
XX
XX
nY
i
ii
iY
2
2
2 1ˆ
XX
XX
nCMYs
i
iEiiYiY
i
ii
Y
YEY
ˆ
ˆ
h
hh
Ys
YEY
ˆ
ˆ
1ˆ
ˆ
2;2
12;2
n
h
hh
nt
Ys
YEYtP
1ˆˆˆˆ2;
2112;
21 iniiini YstYYEYstYP