Upload
others
View
57
Download
0
Embed Size (px)
Citation preview
TEMA 2
MODELO DE REGRESIÓN LINEAL SIMPLE
1
Y
1. INTRODUCCIÓN A LA REGRESIÓN SIMPLE
Supongamos que la variable Y es una función lineal de otra variable X, donde la relación entre Y y X depende de parámetros !1 y !2 desconocidos.
!1
X X1 X2 X3 X4
Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamos estimar los parámetros desconocidos. Supongamos que tenemos una muestra de 4 observaciones de (X,Y)
Introducción a la Regresión Simple
2
!1
Y
X X1 X2 X3 X4
Si la relación entre X e Y fuera exacta, solo bastarían dos puntos para hallar una solución para los parámetros !1 y !2.
Q1 Q2
Q3 Q4
Introducción a la Regresión Simple
3
!1
Y
X X1 X2 X3 X4
P4
Sin embargo, las relaciones económicas no son exactas: muchos de los puntos que observamos no van a estar en la recta
P3 P2
P1
Q1 Q2
Q3 Q4
Introducción a la Regresión Simple
4
!1
Y
X X1 X2 X3 X4
P4
Para permitir divergencia entre la variable Y de la recta de interés, introducimos un término de perturbación al modelo, que no es observable: Y = !1 + !2X + u.
Por ejemplo, si Y es el gasto en ropa y X la renta, u puede representar los gustos: así dos individuos con el mismo ingreso pueden tener un gasto distinto en ropa.
P3 P2
P1
Q1 Q2
Q3 Q4
Introducción a la Regresión Simple
5
!1
Y
X X1 X2 X3 X4
P4
Cada valor de Y tiene entonces una parte “no aleatoria” !1 + !2X y una parte aleatoria, u. La primera observación la hemos descompuesto en estas dos partes.
P3 P2
P1
Q1 Q2
Q3 Q4 u1
Introducción a la Regresión Simple
6
!1
Y
X X1 X2 X3 X4
P4
En el mundo real, únicamente observamos los puntos P para cada X.
P3 P2
P1
Introducción a la Regresión Simple
7
Y
X X1 X2 X3 X4
P4
Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime a Y = !1 + !2X. Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de !1 y b2 es una estimación de !2.
P3 P2
P1
^
Introducción a la Regresión Simple
8
b1
Y
X X1 X2 X3 X4
P4
A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la variable Y en esa línea se le llama valores predichos o ajustados (son los puntos R).
P3 P2
P1
R1
R2 R3 R4
Introducción a la Regresión Simple
9
b1
(valor predicho) Y (valor real)
Y
X X1 X2 X3 X4
P4
X X1 X2 X3 X4
Observad que hay una discrepancia entre el valor de Y realmente observado (los puntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le llama residuo.
P3 P2
P1
R1
R2 R3 R4
e1 e2
e3
e4
Introducción a la Regresión Simple
10
b1
Y (valor real) Y
(residuo) (valor predicho)
P4
Es importante observar que los valores que toman los residuos son distintos a los valores del término de perturbación. Esto es debido a que la aproximación que hacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a estas variables.
P3 P2
P1
R1
R2 R3 R4
b1
Introducción a la Regresión Simple
11
!1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
La perturbación es la responsable de la desviación que existe entre el componente “no aleatorio” y las verdaderas observaciones.
P3 P2
P1
Introducción a la Regresión Simple
12
Q2 Q1 Q3
Q4
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
Los residuos son la diferencia entre el valor real y el valor predicho por la recta estimada en base a la “aproximación” de los parámetros desconocidos
P3 P2
P1
R1
R2 R3 R4
Introducción a la Regresión Simple
13
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
Entonces, es natural que cuando los residuos sean pequeños, el ajuste sea bueno y los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claro es que los dos conceptos representan cosas distintas.
P3 P2
P1
R1
R2 R3 R4
Introducción a la Regresión Simple
14
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de regresión, puesto que permiten descomponer el valor observado de Y en dos partes.
Introducción a la Regresión Simple
15
Q4
u4
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
Usando la relación téorica, o verdadera, Y se descompone en su parte no estocástica !1 + !2X y su parte estocástica u.
Introducción a la Regresión Simple
16
Q4
u4
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
Esta es una descomposición teórica dado que no conocemos los valores exactos de !1 o !2, ni los del término de perturbación. Esta descomposición se utilizará para buscar estimadores de los parámetros.
Introducción a la Regresión Simple
17
Q4
u4
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
P4
La segunda descomposición del valor real de Y se hace en función de la línea ajustada: es la suma del valor predicho de Y y de su residuo. Esta descomposición la utilizaremos para obtener fórmulas que nos permitan aproximar los valores desconocidos de los parámetros
Introducción a la Regresión Simple
18
e4
R4
!1 b1
Y (valor real) Y
X X1 X2 X3 X4
(valor predicho)
¿Por qué minimizamos la suma al cuadrado y no la suma directamente?
¿Por qué no..?
2 2 1
1
2 ... n
n
i i e e e SCR + + = = !
=
Minimizar la SCR (suma de cuadrados de los residuos), donde
CRITERIO DE MÍNIMOS CUADRADOS:
19
P4
La respuesta está en que los errores positivos y negativos se compensarían. El ajuste perfecto en este caso sería una línea recta en la media del valor de Y
P3 P2
P1 Y
X X1 X2 X3 X4
Y
20
P4
Cuando se eleva al cuadrado se anula la posibilidad de compensación.
Además, notad que cuando elevamos al cuadrado estamos dando más peso a los valores muy lejanos de Y, es decir, a aquéllos que tienen residuo grande. Estos empujarán la curva hacia ellos.
P3 P2
P1
X X1 X2 X3 X4
Y
Y
21
2. EL CRITERIO DE MÍNIMOS CUADRADOS
Y
X
Verdadero Modelo: Y="1 + "2X+u
El verdadero modelo no es observable. Lo que sabemos es que entre Y y X existe una relación lineal y, por lo tanto, utilizaremos los valores observados de estas variables para calcular una aproximación 22
El Criterio de Mínimos Cuadrados
Y
X
Supongamos que tenemos las observaciones: (1,3), (2,5), y (3,6).
Modelo verdadero: Y="1 + "2X+u
23
El Criterio de Mínimos Cuadrados
Y
b2 b1
X
¿Cómo determinamos b1 y b2 ?
Modelo verdadero: Y="1 + "2X+u Modelo Ajustado: !=b1 + b2X
24
Dada cualquier elección de b1 y b2, podemos definir los residuos como la diferencia entre el valor observado y el predicho.
Entonces, para obtener el mejor ajuste, lo que hacemos es minimizar estos residuos.
El Criterio de Mínimos Cuadrados
Y
b2 b1
X
25
SCR = e12 +e2
2 + e32 = (Y1 -b1-b2 X1)2 + (Y2 - b1-b2 X2)2 + (Y3 - b1-b2 X3 )2
Observad que los residuos dependen de los parámetros y que, por lo tanto, se pueden elegir los parámetros de
forma tal que hagan mínima dicha suma de residuos al cuadrado
= (2 -b1-b2 )2 + (5 - b1-2b2) 2 + (6- b1-3b2 ) 2
26
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 2 1
2 2 1
2 2 1
2 3
2 2
2 1
12 62 28 14 3 70
6 36 12 9 36
4 20 10 4 25
2 6 6 9
) 3 6 ( ) 2 5 ( ) 3 (
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b e e e SCR
+ - - + + =
+ - - + + +
+ - - + + +
+ - - + + =
- - + - - + - - = + + =
0 28 12 6 0 2 1 1
= - + # = $ $ b b
b SCR
0 62 28 12 0 2 1 2
= - + # = $ $
b b b
SCR
27
El Criterio de Mínimos Cuadrados
Y
b2 b1
X
Resolviendo las condiciones de primer orden, obtendríamos valores para los b1 y b2, lo que nos permitiría hacer el gráfico de la curva ajustada 28
Y
X
1.50 1.67
Modelo verdadero: Y="1 + "2X+u Modelo Ajustado: !=1.67 + 1.50 X
29
X Xn X1
Y
¿Qué pasa si tenemos n observaciones?
Modelo verdadero: Y=!1 + !2X+u
30
X Xn X1
Y
b1 b2
Dada nuestra elección de b1 y b2, la recta ajustada es la que se muestra en el gráfico.
31
El Criterio de Mínimos Cuadrados
X Xn X1
Y
b1
X b b Y
u X Y
2 1
2 1 ˆ : Ajustado
: Verdadero + =
+ + = ! !
b2
Definimos el residuo para la primera observación
32
El Criterio de Mínimos Cuadrados
Del mismo modo, definimos los residuos para el resto de observaciones. En la gráfica se señala el correspondiente a la última observación.
X Xn X1
Y
b1
X b b Y
u X Y
2 1
2 1 ˆ : Ajustado
: Verdadero + =
+ + = ! !
b2
33
! ! ! ! ! + - - + + =
+ - - + + +
+ + - - + + =
- - + + - - = + + =
i i i i i i
n n n n n n
n n n
X b b Y X b Y b X b nb Y
X b b Y X b Y b X b b Y
X b b Y X b Y b X b b Y
X b b Y X b b Y e e SCR
2 1 2 1 2 2
2 2 1
2 2 1 2 1
2 2 2
2 1
2
1 2 1 1 1 2 1 1 2 1
2 2
2 1
2 1
2 2 1
2 1 2 1 1
2 2 1
2 2 2
2 2 2
... 2 2 2
) ( ... ) ( ...
El Criterio de Mínimos Cuadrados
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 2 1
2 2 1
2 2 1
2 3
2 2
2 1
12 62 28 14 3 70
6 36 12 9 36
4 20 10 4 25
2 6 6 9
) 3 6 ( ) 2 5 ( ) 3 (
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b e e e SCR
+ - - + + =
+ - - + + +
+ - - + + +
+ - - + + =
- - + - - + - - = + + =
Definimos SCR, la suma de los cuadrados de los residuos, para el caso general. Los datos del ejemplo numérico se muestran para comparar.
34
! ! ! ! ! + - - + + =
+ - - + + +
+ + - - + + =
- - + + - - = + + =
i i i i i i
n n n n n n
n n n
X b b Y X b Y b X b nb Y
X b b Y X b Y b X b b Y
X b b Y X b Y b X b b Y
X b b Y X b b Y e e SCR
2 1 2 1 2 2
2 2 1
2 2 1 2 1
2 2 2
2 1
2
1 2 1 1 1 2 1 1 2 1
2 2
2 1
2 1
2 2 1
2 1 2 1 1
2 2 1
2 2 2
2 2 2
... 2 2 2
) ( ... ) ( ...
El Criterio de Mínimos Cuadrados
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 1 2 1 2 2
2 1
2 2 1
2 2 1
2 2 1
2 3
2 2
2 1
12 62 28 14 3 70
6 36 12 9 36
4 20 10 4 25
2 6 6 9
) 3 6 ( ) 2 5 ( ) 3 (
b b b b b b
b b b b b b
b b b b b b
b b b b b b
b b b b b b e e e SCR
+ - - + + =
+ - - + + +
+ - - + + +
+ - - + + =
- - + - - + - - = + + =
Llegad a esta expresión 35
El Criterio de Mínimos Cuadrados
! ! ! ! ! + - - + + = i i i i i i X b b Y X b Y b X b nb Y SCR 2 1 2 1 2 2
2 2 1
2 2 2 2
2 1 2 1 2 2
2 1 12 62 28 14 3 70 b b b b b b SCR + - - + + =
0 28 12 6 0 2 1 1
= - + # = $ $
b b b
SCR
0 62 28 12 0 2 1 2
= - + # = $ $
b b b
SCR
Calculamos la primera derivada respecto a b1.
0 2 2 2 0 2 1 1
= + - # = $ $ ! ! i i X b Y nb
b SCR
36
El Criterio de Mínimos Cuadrados
! ! ! ! ! + - - + + = i i i i i i X b b Y X b Y b X b nb Y SCR 2 1 2 1 2 2
2 2 1
2 2 2 2
2 1 2 1 2 2
2 1 12 62 28 14 3 70 b b b b b b SCR + - - + + =
0 28 12 6 0 2 1 1
= - + # = $ $
b b b
SCR
0 62 28 12 0 2 1 2
= - + # = $ $
b b b
SCR
0 2 2 2 0 2 1 1
= + - # = $ $ ! ! i i X b Y nb
b SCR
0 2 2 2 0 1 2
2 2
= + - # = $ $ ! ! ! i i i i X b Y X X b
b SCR
Ahora, la primera derivada respecto a b2. 37
0 2 2 2 0 1 2
2 2
= + ! - # = $ $ ! ! ! i i i i X b Y X X b
b SCR
Así, obtenemos una expresión para b2.
38
El Criterio de Mínimos Cuadrados
X Xn X1
Y
b1
X b b Y
u X Y
2 1
2 1 ˆ :
: + =
+ + = ! !
b2
Hemos elegido los parámetros de la recta ajustada de modo que minimicen la suma de cuadrados de los residuos.
Verdadero
Ajustado
39
Expresiones alternativas para b2
40