Upload
laydy-hancco
View
216
Download
2
Embed Size (px)
DESCRIPTION
.
Citation preview
REGRESIÓN Y CORRELACIÓN 1
Supongamos que existen dos variables X y Y que pueden estar relacionadas. Por ejemplo: Se quiere estudiar el tiempo de reacción para un experimento realizado a distintas temperaturas ambiente.
Para distintas temperaturas se registran los tiempos de reacción (Temp en grados Farenheit y Tiempo en seg):
REGRESIÓN Y CORRELACIÓN 2
Temperatura Tiempo de reacción
75 118,7
74 117,4
73 116,0
71 112,5
77 122,8
73 114,4
70 109,9
74 117,7
72 114,7
72 113,1
75 117,6
74 115,3
73 116,1
71 111,6
77 122,9
73 116,3
70 111,4
74 115,4
72 112,4
72 113,5
REGRESIÓN Y CORRELACIÓN 3
X = temperatura ambiente
Y = tiempo de reacción
Para cada valor de X=xi Y tomará diferentes posibles valores.
Una forma de visualizar los datos es a través del DIAGRAMA DE DISPERSIÓN
REGRESIÓN Y CORRELACIÓN 4
REGRESIÓN Y CORRELACIÓN 5
Nos preguntamos:
a) Existirá relación entre X y Y?
b) Conociendo X se podrá predecir Y?
c) Será más altos los valores de Y para valores altos o bajos de X?
Para responder a) ANÁLISIS DE CORRELACIÓN
Para responder b) y c) ANÁLISIS DE REGRESIÓN
REGRESIÓN Y CORRELACIÓN 6
ANÁLISIS DE CORRELACIÓN
CÁLCULO DE COEFICIENTES
REGRESIÓN 7
7
ANÁLISIS DE REGRESIÓN
Busca relacionar el valor medio de Y como una función de X:
)x(fY x/y
REGRESIÓN
En el caso planteado se busca explicar Y, una variable cuantitativa continua a través de una sola variable: MODELO DE REGRESIÓN SIMPLE
Muchas veces es necesario incluir más de una variable para explicar Y : MODELO DE REGRESIÓN MÚLTIPLE
8
REGRESIÓN LINEAL
Un primer análisis sería ver si los valores medios de Y pueden suponerse alineados
MODELO DE REGRESIÓN LINEAL SIMPLE:
: ordenada al origen de la recta.
: pendiente de la recta.
xY
xX/y
9
REGRESIÓN LINEAL
Como en toda recta, la pendiente indica
la cantidad de unidades que aumenta o
disminuye Y por cada cambio de una
unidad en X
10
REGRESIÓN LINEAL
Podemos analizar la existencia y tipo de asociación entre las variables analizando el diagrama de dispersión
30 40 50 60
010
20
30
40
50
X
Y
30 40 50 60
010
20
30
40
50
X
Y
25 30 35 40 45 50 55
010
20
30
40
50
X
Y
20 30 40 50
010
20
30
40
50
X
Y
a) b)
c) d)
11
REGRESIÓN LINEAL
En un diagrama de dispersión queremos observar el patrón general de la relación entre las variables mirándolo desde los valores menores de X hacia los mayores:
12
REGRESIÓN LINEAL
Si a medida que X aumenta, en promedio también aumenta Y, se dice que existe una asociación positiva entre las variables.
Si a medida que X aumenta, en promedio Y disminuye, se dice que existe una asociación negativa entre las variables.
Si no puede determinarse alguna de las dos tendencias anteriores, significa que no hay una asociación lineal entre las variables.
13
COEFICIENTE DE CORRELACIÓN 14
Un coeficiente que mide la existencia de asociación lineal entre X e Y es el coeficiente de correlación lineal, cuya estimación indicamos con r:
14 14
ji
yijy
ji
xix
ji
yijyxix
r
,
2)(
,
2)(
,
))((
COEFICIENTE DE CORRELACIÓN
Propiedades del coeficiente de correlación:
I. -1< r < 1
II. r vale 1 cuando los puntos caen exactamente sobre una recta con pendiente positiva (asociación lineal directa, positiva o creciente)
III. r vale -1 cuando los puntos caen exactamente sobre una recta con pendiente negativa(asociación lineal inversa , negativa o decreciente)
15
COEFICIENTE DE CORRELACIÓN
IV. Cuanto más cercano es el valor de r a 1 o a -1 más fuerte es el grado de asociación lineal positiva o negativa, respectivamente.
V. Si r=0 indica que no existen tendencia lineal positiva ni negativa.
16
COEFICIENTE DE CORRELACIÓN
En los diagramas vistos anteriormente
En a) : r > 0
En b): r < 0
En c): r 0
En d): r 0
17
AJUSTE DE LA RECTA: el método de mínimos cuadrados
18
El experimentador fija valores x1,x2,…,xn para los cuales observa valores de la variable aleatoria Y.
Yij=observación sobre el j-ésimo individuo con x=xi
i=1,…,I j=1,…,ni
Si el diagrama de dispersión y el coeficiente de correlación indican un patrón lineal en los datos, se quiere hallar una recta que ajuste a los datos.
LA RECTA DE MÍNIMOS CUADRADOS 19
Se pretende que la recta ajustada represente las medias de los valores de Y para cada X, por lo cual los puntos observados se ubicarán en las proximidades de la recta, siendo posible que ninguna de las observaciones quede sobre ella.
LA RECTA DE MÍNIMOS CUADRADOS 20
Para ajustar una recta a los datos se utiliza el método de mínimos cuadrados:
El método de mínimos cuadrados estima la recta que hace mínima la suma de los cuadrados de las distancias verticales de cada punto observado a la recta. O sea, minimiza la diferencia entre el valor observado de Y y el que correspondería sobre la recta para el correspondiente valor de X.
LA RECTA DE MÍNIMOS CUADRADOS 21
LA RECTA DE MÍNIMOS CUADRADOS 22
Se plantea entonces buscar la ecuación de una recta, de manera que, si llamamos
(xi , yij) a las coordenadas de los punto observados
(xi , ) las coordenadas del punto sobre la recta que corresponde a x = xi ( por lo tanto, )
se minimice la suma de los cuadrados de las distancia de los yij a los :
I
i
in
jixijy
1 1
2
iy
ixiy ˆ
iy
LA RECTA DE MÍNIMOS CUADRADOS 23
Por lo tanto se deben hallar α y β , números reales
que minimicen la suma anterior, lo cual constituye
un problema de minimización de una función pero
según dos variables. Desarrollándolo resulta que:
LA RECTA DE MÍNIMOS CUADRADOS 24
Siendo:
xy ˆ..ˆ
I
i
xixin
I
i
in
j
yijyxix
1
2)(
1 1
))((
n
I
iixin
x
1
n
I
i
in
jijy
y
1 1
..
LA RECTA DE MÍNIMOS CUADRADOS
Si introducimos la siguiente notación:
n
I
iixin
I
iixin
I
i
in
j
xixxxS
2
1
1
2
1 1
2
I
i n
I
iijyin
in
j
yI
i
in
j
yijyyyS ij
1
2
1
11 1
2..
2
n
I
i
in
jijy
I
iixin
I
i
in
jijyix
I
i
in
j
yijyxixxyS
1 11
1 11 1..
25
LA RECTA DE MÍNIMOS CUADRADOS
Podemos escribir :
y la recta ajustada:
Observemos que con la notación anterior:
xy ˆ..ˆ
xxS
xyS
xy ˆˆˆ
yysxxs
xysr
26
LA RECTA DE MÍNIMOS CUADRADOS
Observaciones:
1. La recta de mínimos cuadrados contiene siempre al punto
2. Cualquier otra recta estimada a partir del mismo conjunto de datos generará una suma de cuadrados de residuos mayor que la correspondiente a la recta de mínimos cuadrados:
para cualquier
otro valor de o .
I
i
in
ji
xij
yI
i
in
ji
xij
y
1 1
2
1 1
2ˆˆ
27
.., yx
LA RECTA DE MÍNIMOS CUADRADOS 28
Ejemplo: Hallemos la recta estimada para el ejemplo anterior:
873
20
1462106946
2
2
12
1
,n
xn
xnS
I
iiiI
iiixx
9881231 11
1 1
,n
yxn
yxS
I
i
in
jij
I
iii
I
i
in
jijixy
68,18.73
988.123
S
Sˆxx
xy
332717368148115 ,,,,xˆ..yˆ
x,,xˆˆy 681337
LA RECTA DE MÍNIMOS CUADRADOS 29
LA RECTA SOLO ES VÁLIDA EN EL RANGO OBSERVADO DE X,
POR LO TANTO SÓLO DEBE GRAFICARSE ENTRE ESOS
VALORES
29
69 71 74 76 78
Temp(X)
109,3
112,8
116,4
120,0
123,5
Tie
mp
o(Y
)
Tiempo según Temperatura
INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS
30
En la recta de regresión es la ordenada al origen, o sea que representa el valor estimado de Y para x=0, siempre que x=0 se encuentre dentro del rango observado, sino, no corresponde su interpretación.
es la pendiente de la recta, o sea que representa la cantidad de unidades que cambia Y cuando X se incrementa en una unidad.
En el ejemplo: =1,68 indica que por cada cambio de 1 grado en la temperatura el tiempo de reacción aumenta 1,68 seg.
31
Una vez estimada la recta de cuadrados mínimos,
podemos utilizarla para predecir el valor de Y para un
x dado dentro de rango observado para X:
donde Yk : valor de Y correspondiente a xk
PREDICCIÓN UTILIZANDO LA RECTA ESTIMADA
kx
ky ˆˆˆ
PREDICCIÓN UTILIZANDO LA RECTA ESTIMADA
32
Ejemplo:
Para el ejemplo anterior, predecir el tiempo de reaccción esperado para una temperatura de 76 grados
3512076681337 ,,,ky
MODELO DE REGRESIÓN LINEAL SIMPLE
La recta de mínimos cuadrados puede considerarse simplemente como el ajuste una recta a un conjunto de datos. Sin embargo, en los problemas que nos incumben los datos son una muestra aleatoria de valores observados correspondientes a una población, y por lo tanto queremos ajustar la recta no solamente con un objetivo descriptivo, sino para hacer inferencias sobre la relación entre las variables a nivel poblacional.
33
MODELO DE REGRESIÓN LINEAL SIMPLE
Observemos que para ajustar la recta no hemos necesitado ningún supuesto sobre la distribución de las variables, sin embargo sí lo haremos para construir intervalos de confianza y realizar test de hipótesis.
34
MODELO DE REGRESIÓN LINEAL SIMPLE
Los valores de y hallados por el método de
mínimos cuadrados constituyen la estimación de los
valores que ajustarían una recta a los datos
poblacionales.
35
MODELO DE REGRESIÓN LINEAL SIMPLE
36
Supongamos ahora que las observaciones Yi son independientes, y provienen de una distribución normal con varianza σ2
Luego:
donde εij ~ N(0,σ) independientes
Veamos gráficamente qué representa el ajuste lineal al incorporar los supuestos:
ijixijy
MODELO DE REGRESIÓN LINEAL SIMPLE
37
7/12/07
XI
X1
X2
µI
µ2
µ1
Z
Y
X
µi= α + β Xi
.
. .
.
. .
. .
.
.
.
.
ESTAMOS AJUSTANDO UNA RECTA QUE PASE POR EL VALOR MEDIO
ESPERADO DE Y PARA CADA VALOR DE X:
MODELO DE REGRESIÓN LINEAL SIMPLE
38
PLANTEO DEL MODELO DE REGRESIÓN LINEAL SIMPLE:
Dados x1,x2,...,xI valores prefijados de una variable X
Yij= valor de Y en la j-ésima unidad correspondiente a xi
εij ~ N(0,σ) independientes i=1,...,I j=1,...,ni
son los parámetros del modelo
ijixijy
y
39
Los estimadores de α y β son los estimadores de
mínimos cuadrados.
es un estimador de :
Los estimadores de los errores son los residuos:
ESTIMADORES DE LOS PARÁMETROS
kkx
kY ˆˆˆ
kY
kx
kYE
kˆˆˆ)(ˆˆ
kx
kYE
k )(
iyiyiriˆˆ
40
ESTIMADORES DE LOS PARÁMETROS
Cómo estimamos ?
Como es la varianza de los errores sería natural estimarla usando los residuos (recordemos que les pedimos esperanza 0 en los supuestos):
A la suma de cuadrados del numerador la llamamos Suma de cuadrados residual, por lo cual:
2
2
21 1
2)ˆ(
21
2ˆ2ˆ
n
I
i
in
jiyijy
n
I
ii
resCM2n
resSC2ˆ
41
Los estimadores de α y β, son insesgados,o sea,
Más aún, bajo el modelo lineal, ~
es un estimador insesgado de , ya
que
CMres es un estimador insesgado de
Distribución y Propiedades de los estimadores
kx
kY ˆˆˆ
)ˆ( ; )ˆ( EE
k
kkx
kxE
kYE )ˆˆ()ˆ(
);(xxs
N
2
Significación de la Regresión 42
Aunque para estimar el modelo se estiman los dos
parámetros α y β, nos interesa realizar inferencias
sobre la pendiente: si β fuera 0, el modelo no
representaría una regresión significativa ya que
estimaría el valor de Y a través de un valor constante.
Luego , si β=0 no habría variación de la variable de
estudio debida a X.
Significación de la Regresión 43
De manera similar al modelo de ANOVA, podemos considerar que los valores observados de Y deben su variación por un lado al valor que toma X y por otro al error aleatorio.
En efecto, podemos descomponer la suma de
cuadrados total de la siguiente forma:
I
i
in
j
I
i
in
j
I
i
in
jyiyiyijyyijy
1 1 1 1 1 1
2)..ˆ(2)ˆ(2)..(
Significación de la Regresión 44
El primer sumando es la suma de los residuos que ya definimos como Suma de Cuadrados residual.
La segunda sumatoria mide la variación de los valores predichos sobre la recta respecto de la media general. Se la llama Suma de Cuadrados de la regresión
Observación: recordemos que es un punto de la recta de mínimos cuadrados, por lo tanto, si β=0, se esperará que las diferencias sean pequeñas. Por lo tanto, cuanto mayor sea β en valor absoluto, mayor se espera que sea la suma de cuadrados de la regresión.
..),( yx
2..)ˆ( yiy
Significación de la Regresión 45
Luego: SCtotal = Scres + SC reg
Utilizando la misma notación que en ANOVA,
llamamos Cuadrados Medios a las Sumas de
Cuadrados divididas sus grados de libertad.
n-1 n-2 1 Grados de libertad
Significación de la Regresión 46
PROPIEDADES:
1. Como ya mencionamos, E(CMres)=σ2 CMres es un
estimador insesgado para σ2
2. Además se puede demostrar que E(CMreg)=σ2+ β2Sxx
3. Luego, el estadístico bajo la hipótesis:
H0: β=0, sigue una distribución F1,n-2
resCMregCM
F
TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN
47
Yij= valor de Y en la j-ésima unidad correspondiente a xi i=1,...,I j=1,...,ni
εij ~ N(0,σ) independientes
H0: β=0 H1: β≠0
Se rechaza H0 si F>Fα,1,n-2
ijixijy
resCMregCM
F
TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN
48
Para el ejemplo del tiempo de reacción:
F0.05,1,18 = 4,41
Con una probabilidad de error del 5% concluimos que la regresión es significativa.
Fuente de variación
Grados de libertad
Suma de cuadrados
Cuadrados Medios
F
Regresión 1 208,306 208,306 227,224
Residuos 18 16,500 0,917
Total 19 1,0346
TEST DE ANOVA PARA LA SIGNIFICACIÓN DE LA REGRESIÓN
49
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Tiempo de reaccion 20 0,93 0,92 1,13 58,91 61,90
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF
const -7,33 8,15 -24,45 9,79 -0,90 0,3802
Temperatura 1,68 0,11 1,45 1,91 15,07 <0,0001 216,34 1,00
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo. 208,31 1 208,31 227,24 <0,0001
Temperatura 208,31 1 208,31 227,24 <0,0001
Error 16,50 18 0,92
Total 224,81 19
CON INFOSTAT
INTERVALO DE CONFIANZA PARA LA PENDIENTE
50
Recordemos que si el modelo lineal es válido:
~
Luego, se puede demostrar que si reemplazamos a σ por su estimador insesgado:
~ tn-2
Y por lo tanto podemos construir intervalos de confianza para β:
);(xxs
N
xxSresCM /
ˆ
INTERVALO DE CONFIANZA PARA LA PENDIENTE
51
Y con dicho intervalo podemos testear la significación de la regresión utilizando el Intervalo de confianza para β, o sea, tenemos otra forma de testear:
H0: β=0 H1: β≠0
Y también hipótesis más generales sobre β
xxSresCM
nt
2;2/ˆ
INTERVALO DE CONFIANZA PARA LA PENDIENTE
52
Para el ejemplo:
H0: β=0 H1: β≠0
11,0xxSresCM
1,22n;2/t 05,0ˆ
8,73
917,0
xxSresCM
nt
2;2/ˆ
INTERVALO DE CONFIANZA PARA LA PENDIENTE
53
xxSresCM
nt
2;2/ˆ
Lim Inf= 1,68 – 2,1 x 0,11=1,45 Lim Sup= 1,68 + 2,1 x 0,11=1,91
C( 1,45<β<1,91)=0,95
Observar que estos valores están en la tabla de la salida de Infostat
54
BANDAS DE CONFIANZA Y DE PREDICCIÓN
Bajo los supuestos del modelo, se puede mostrar que ~ Lo cual nos permitirá construir intervalos de confianza para μk (valor esperado de Y para x=xk ) , y al unir los extremos inferiore/superiores de dichos intervalos para distintos valores de k, construiremos una banda de confianza:
kY )
212;(
xxs
xk
x
nkN
55
BANDAS DE CONFIANZA Y DE PREDICCIÓN
56
BANDAS DE CONFIANZA Y DE PREDICCIÓN
También basándonos en la distribución de
podremos construir intervalos de predicción para el
valor de Y dado un valor de x.
Y al repetirlo para distintos valores de x, podremos
construir una banda de predicción
ky
57
BANDAS DE CONFIANZA Y DE PREDICCIÓN
69 71 73 75 77
Temp(X)
107,5
111,8
116,2
120,5
124,9
Tie
mp
o(Y
)Ajuste con Bandas de Confianza y de Predicción
58
BANDAS DE CONFIANZA Y DE PREDICCIÓN
Cómo las construimos?
Intervalo de confianza para el valor esperado de Y dado x=xk
La longitud de estos intervalos decrece a cero con el aumento del tamaño de la muestra. El intervalo más angosto se observa para y los intervalos se van ensanchando a medida que aumenta la distancia al promedio
xxsx
kx
resCMk
y2)(
n1
/2 2,-n tˆ
x
59
BANDAS DE CONFIANZA Y DE PREDICCIÓN
Intervalo de predicción para el valor de Y dado x=xk
Queremos hallar L1, L2 tal que P(L1< Yk < L2)=1-α
xxsx
kx
resCMk
y2)(
n11
/2 2,-n tˆ
Observando en el gráfico y comparando las fórmulas:
Los intervalos de predicción correspondientes a cada xk son más anchos que los de confianza
El error es mayor al predecir una respuesta individual que al estimar la media de una variable respuesta.
60
BANDAS DE CONFIANZA Y DE PREDICCIÓN
Para un mismo valor de x, el intervalo de confianza estima un
intervalo para el valor promedio de todos los posibles valores
de Y dado un x. Al construir un intervalo de predicción se está
estimando un intervalo que contenga a esos valores posibles
de Y, o sea, como es esperable, los valores de Y tienen mayor
dispersión que el promedio. En otras palabras, el intervalo de
predicción refleja también la variabilidad individual de Y
alrededor de su media verdadera
61
EJERCICIO RESUELTO CON INFOSTAT
Para evaluar la existencia de relación lineal entre la presión sanguínea de las mujeres con sus maridos se extrajo una muestra de 20 matrimonios de edad entre 25 y 34 años y se obtuvieron los siguientes datos:
Matrimonio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X:marido 136 121 128 100 110 116 127 150 180 172 156 98 132 142 138 126 124 137 160 125
Y: Mujer 130 112 128 106 127 100 98 142 143 150 135 115 126 130 132 146 127 128 135 110
A partir de los datos que se presentan en la salida analice:
62
a) Tiene sentido pensar en una relación lineal entre la presión arterial de la esposa en función de la presión de su esposo?
b) Si se ajusta un modelo lineal, cuál sería? c) Puede decirse que la regresión es significativa? Justifique de dos
formas distintas. d) Construya las bandas de confianza y de predicción al 95% e) Qué valor de presión se predice con el modelo para la esposa si
su marido tiene una presión igual a 130? f) Pueden asumirse válidos los supuestos sobre los residuos?
EJERCICIO RESUELTO CON INFOSTAT
63
EJERCICIO RESUELTO CON INFOSTAT
64
EJERCICIO RESUELTO CON INFOSTAT
65
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
95
110
124
138
153
Y: M
uje
r
Presión de la esposa según Presión esposo
66
EJERCICIO RESUELTO CON INFOSTAT
67
EJERCICIO RESUELTO CON INFOSTAT
68
EJERCICIO RESUELTO CON INFOSTAT
69
EJERCICIO RESUELTO CON INFOSTAT
70
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
95
110
124
138
153
Y: M
uje
rAjuste Presión
71
EJERCICIO RESUELTO CON INFOSTAT
72
EJERCICIO RESUELTO CON INFOSTAT
73
EJERCICIO RESUELTO CON INFOSTAT
94 116 139 162 184
X:marido
82
105
129
153
176
Y: M
uje
rAjuste con Bandas de Confianza y Predicción
74
Insertar fila
75
76
77
78
EJERCICIO RESUELTO CON INFOSTAT
79
EJERCICIO RESUELTO CON INFOSTAT
-2,3 -1,2 0,0 1,1 2,3
Cuantiles de una Normal(0,1)
-2,3
-1,2
0,0
1,1
2,3
Cu
an
tile
s o
bse
rva
do
s -
RE
(Y
: M
uje
r)QQplot de los residuos
80
EJERCICIO RESUELTO CON INFOSTAT
107 118 128 139 150
Predichos
-3,00
-1,50
0,00
1,50
3,00R
es. e
stu
de
ntiza
do
s_
Y: M
uje
r
Gráfico de Residuos