Upload
victor-cardenas-echazarreta
View
27
Download
3
Embed Size (px)
DESCRIPTION
Se describen los elementos para obtener y validar una regresión lineal simple con ejemplos sencillos que pueden ser enfocados a temas de Marketing como Inversión en Publicidad vs Ventas
Citation preview
Unidad I. Regresión lineal simple
H.A. para la toma de decisiones en MKTEscuela de Economía y Negocios
Universidad Anáhuac Cancún
Contenido:◦ 1.1 Objetivo del análisis de regresión◦ 1.2 Análisis de correlación◦ 1.3 Diagrama de dispersión◦ 1.4 Estimación por mínimos cuadrados ordinarios◦ 1.5 Evaluación del modelo◦ 1.6 Bondad de ajuste◦ 1.7 Significación de la pendiente: Intervalo de
confianza, prueba de hipótesis◦ 1.8 Interpretación de los coeficientes◦ 1.9 Estimaciones y pronósticos
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
ANTECEDENTES
Las ideas matemáticas sobre estos temas y su desarrollo surgieron de los trabajos de los científicos ingleses Francis Galton (1822-1911) y Karl Pearson(1857-1936), que las aportaron desde la Biología y la Física, asociadas a problemas relacionados con la evolución y la herencia.
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Ejemplo: Elabora el diagrama de dispersión de los siguientes pares de datos donde x = calif. De matemáticas en 4º. Sem y y = calif. De Estadística 5º. Sem de un grupo de 10 estudiantes de preparatoria.
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
Alumno Calif. En Matemáticas
Calif. En Estadística
1 8 8
2 9 5
3 8 7
4 9 7
5 5 4
6 5 6
7 10 10
8 9 9
9 7 6
10 10 7
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
4 5 6 7 8 9 10 110
2
4
6
8
10
12
Series1; 8
5
7 7
4
6
109
67
Diagrama de dispersión
Matemáticas
Esta
dís
tica
Vemos que a mayor calificación en Matemáticas, mayor calificación se obtuvo en Estadística, aunque no tengan una perfecta relación.
Podríamos ajustar una recta que pase lo más cerca de todos los datos. La recta de mejor ajuste.
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
La recta de mejor ajuste se le conoce como recta de mínimos cuadrados y se representará en la forma
ŷ = bx + adonde ŷ se le conoce como valor ajustado, ya que el valor real será y.
Veamos esto gráficamente.
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
<
<
xi xj
yi
yj
ŷi
ŷj
X
Y
Variable independiente
Vari
ab
le d
ep
en
die
nte ŷ = bx + a Recta de mínimos cuadrados
Error de estimación = yj - ŷj
Error de estimación = ŷi - yi
La recta de mejor ajuste es la que minimice los errores de estimación.
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
Mediante método de Cálculo Diferencial se tienen las siguientes fórmulas:
Escuela de Economía y Negocios Universidad Anáhuac Cancún
22 XnX
YXnXYb
XbYa
X = valores de la var. independienteY = valores de la var. Dependiente = Media de los valores de X = Media de los valores de Yn = número de puntos de datos (parejas)
XY
Unidad I. Regresión lineal simple
4 5 6 7 8 9 10 110
2
4
6
8
10
12
f(x) = 0.633333333333333 x + 1.83333333333333
Diagrama de dispersión
Matemáticas
Esta
dís
tica
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
La recta de mínimos cuadrados sirve para predecir, con cierta aproximación, los valores de la variable dependiente (y) en función de los de la variable independiente (x).Esto es, sirve para estimar los valores reales de y, no observados.
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
La predicción o estimación de un valor de y puede ser de dos tipos:
a) Interpolación, si el valor de x se encuentra entre los límites de los datos registrados.
b) Extrapolación, si el valor de x se ubica más allá de los datos observados (por debajo o por arriba).
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Unidad I. Regresión lineal simple
En la ecuación de la recta de regresión ŷ = bx + a
b, es la pendiente y se le llama coeficiente de regresión.
Si b > 0, entonces la relación entre los datos es directa.
Si b < 0, entonces la relación entre las variables es inversa.
El valor de b representa el cambio o incremento que sufre Y por una unidad de cambio en X (RAZÓN DE CAMBIO).
El valor a, se llama constante de regresiónEscuela de Economía y Negocios Universidad Anáhuac
Cancún
Unidad I. Regresión lineal simple
¿Cómo se verifica la recta de regresión?
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Existen varios métodos:1) Revisar el ajuste de forma gráfica2) Analizando la suma de los errores
individuales con los datos3) Calculando el error estándar de
la estimación.
Unidad I. Regresión lineal simple
Error estándar de la estimación de RMC
Escuela de Economía y Negocios Universidad Anáhuac Cancún
o Se representa como se
o Mide la variabilidad, o dispersión, de los valores observados alrededor de la RMC
o Se calcula con la siguiente fórmula
2
)( 2
n
YYse
Unidad I. Regresión lineal simple
Error estándar de la estimación de RMC
Escuela de Economía y Negocios Universidad Anáhuac Cancún
o Se también puede calcularse con la siguiente fórmula compacta:
2
2
n
XYbYaYse
Unidad I. Regresión lineal simple
Error estándar de la estimación de RMC
Escuela de Economía y Negocios Universidad Anáhuac Cancún
o Ejemplo 1: Estima el error estándar de estimación para las calificaciones de Matemáticas vs. Estadística y compara las rectas generadas con los intervalos de estimación.
Unidad I. Regresión lineal simple
Error estándar de la estimación de RMC
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Alumno Calif. En Mate (X)
Calif. En Est. (Y)
XY X2 Y2
1 8 8 64 64 642 9 5 45 81 253 8 7 56 64 494 9 7 63 81 495 5 4 20 25 166 5 6 30 25 367 10 10 100 100 1008 9 9 81 81 819 7 6 42 49 3610 10 7 70 100 49
TOTALES 80 69 571 670 505
MEDIA (X) 8 b 0.633 Se 1.452
MEDIA (Y) 6.9 a 1.833
El valor Se = 1.452indica que existe un error estándar de 1.452 puntos sobre las calificaciones pronosticadas de Estadística
Unidad I. Regresión lineal simple
Error estándar de la estimación de RMC(Interpretación)
Escuela de Economía y Negocios Universidad Anáhuac Cancún
ŷ = bx + a kSe
ŷ = bx + a
ŷ = bx + a + Se
ŷ = bx + a - Se
ŷ = bx + a + 2Se
ŷ = bx + a - 2Se
ŷ = bx + a + 3Se
ŷ = bx + a - 3Se
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Se nos da información sobre la porción de datos que
queda comprendida alrededor de la recta de regresión,
es decir:
o ŷ = bx + a Se abarca aprox. 68% de los datos
o ŷ = bx + a 2Se abarca aprox. 95.5% de los datos
o ŷ = bx + a 3Se abarca aprox. 99.7% de los datos
Error estándar de la estimación de RMC(Interpretación)
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
o Ejemplo 2: El director del Depto. De Salubridad de Chapel Hill está interesado en la relación que existe entre la edad de un camión de basura y los gastos anuales de reparación que debería esperar. Con el fin de determinar dicha relación, el director ha acumulado información referente a cuatro de los camiones que la ciudad posee actualmente.
Error estándar de la estimación de RMC(Interpretación)
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Ejemplo: Número del camión
Edad del camiónen años (X)
Gastos de reparacióndurante el último año
en cientos de dólares (Y)
101 5 7102 3 7103 3 6104 1 4
Tabla 1. Gastos anuales de reparación de camiones.
Determina el error estándar de la estimación de la RMC
Error estándar de la estimación de RMC(Interpretación)
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
1) Para cada valor X existe un grupo de valores Y, y estos valores Y se distribuyen en forma normal.
2) Las medias de estas distribuciones normales de valores Y se encuentran todas en la línea de regresión.
3) Las desviaciones estándares de dichas distribuciones normales son iguales.
4) Los valores Y son estadísticamente independientes. (En cada muestra seleccionada)
Condiciones básicas para la RMC
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Condiciones básicas para la RMC
X
Y
X1 X2 X3
Las tres medias quedan en la RMC
RMC Una desviación estándar
Es la misma d.e. estimada por Sy-x
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
• Si el tamaño de la muestra es grande• Si la dispersión con relación a la RMC tiene
una distribución casi normalEs útil establecer intervalos de confianza
para disminuir el error de predicción por la variación de los datos al alejarnos de .
Intervalos de Confianza y de Predicción
Hay dos tipos:Intervalo de confianza (valor medio Y para X)Intervalo de predicción (valores de Y para X)
Y
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
El intervalo de confianza para el valor medio de Y para un valor dado de X se obtiene como:
Intervalos de Confianza y de Predicción
n
XX
XXn
StY e 2
2
21)('
'Y Valor pronosticado para XX Valor para X
Media de los datos XXNúmero de observaciones
nError estándar de estimación
eSValor de t-Student con n-2 grados de libertad, dos colas
t
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Intervalos de Confianza y de Predicción
Tabla 1. Gastos anuales de reparación de camiones.
Determina un intervalo de confianza al 95% para todos los vehículos con una antigüedad de 4
años.
Número del camión
Edad del camiónen años (X)
Gastos de reparacióndurante el último año
en cientos de dólares (Y)
101 5 7102 3 7103 3 6104 1 4
Ejemplo:
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Intervalos de Confianza y de Predicción
Con la ecuación de regresión, estimamos el valor Y, el cual resultó de Y = 0.75(3) + 3.75 = 6.75
Con los n = 4 datos, los g.l. = 4-2 = 2, en la tabla al 95% para t es igual a 4.303
Y dado que el error de estimación fue Se = 0.8660, se obtiene el intervalo:
Ejemplo:
47.4
03.928.275.6
412
44
3441
)866.0(303.475.6 2
2
Unidad I. Regresión lineal simple
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Intervalos de Confianza y de Predicción
De lo anterior, para todos los camiones con 4 años de antigüedad se espera que generen un gasto de 6.75 cientos de dólares para su mantenimiento, con una variación de entre 4.47 hasta 9.03 cientos de dólares.
¿Y cuál será el intervalo de predicción para un camión que tiene exactamente 4 años de antigüedad?
Ejemplo:
Unidad I. Regresión lineal simple
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
El intervalo de predicción para un valor dado de X se obtiene con la misma fórmula, salvo por un “1” que se agrega sumando dentro del radical
Intervalos de Confianza y de Predicción
n
XX
XXn
StY e 2
2
211)('
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Intervalos de Confianza y de Predicción
Aplicando tal variación a los datos del ejemplo, se obtiene
Ejemplo:
38.2
12.1137.475.6
412
44
3441
1)866.0(303.475.6 2
2
Luego, para un camión en particular de 4 años, el costo de reparación puede variar desde 2.38 hasta 11.12 cientos de dólares, un intervalo muy grande porque es el estimado para un camión solamente, no para todos.
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Intervalos de Confianza y de Predicción
Diferencias:Intervalo de confianza (valor medio Y para X). Se refiere a todos los casos con un valor dado de X y se obtiene con la 1ª fórmula.
Intervalo de predicción (valores de Y para X). Se enfoca a un valor particular dado de X, por lo que el intervalo tendrá una mayor amplitud, al agregar el “1” en el radical.
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación¿Es suficiente la RMC y el error para dar mayor certidumbre en el análisis de la relación entre datos para obtener nuevas estimaciones ?El análisis de correlación es la herramienta estadística que podemos usar para describir el grado hasta el cual una variable (X) está linealmente relacionada con otra (Y).
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
El análisis de correlación utiliza dos medidas para describir la relación entre las variables:
• El coeficiente de determinación (r2), principal valor para medir la extensión o fuerza entre las variables X e Y.• El coeficiente de correlación (r)*, nos permite describir qué tan bien una variable (Y) está explicada por otra (X).
*Desarrollado por Karl Pearson (1900)
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
El coeficiente de determinación (r2), mide la extensión o fuerza entre las variables X e Y, analizando la variación de los valores Y alrededor de la línea de regresión y con relación a su propia media. Se calcula como:
2
2
2ˆ
1YY
YYr
Es una medida del grado de asociación lineal entre X y Yr2= Var.Tot.-Var.No Exp. Var. Tot.
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
También se calcula de forma práctica como:
22
2
2
YnY
YnXYbYar
Su interpretación es: r2 = 1, es una correlación perfecta r2 cercano a uno, Y está fuertemente relacionado con X. r2 = 0, NO existe correlación
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
Otra interpretación de r2 es la proporción o porcentaje de desviación explicada e inexplicada de Y con relación a X.
Por ejemplo: Si r2 = 0.576, significa que el 57.6% de la variación en Y es explicada por la variación en X.
Veamos más aplicaciones…
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
Ejercicio 1: Obtener el coeficiente de determinación de las calificaciones de Mate (X) y Estadística (Y). Describa sus resultados.
Ejercicio 2: Obtener el coeficiente de determinación del gasto en mantenimiento de camiones (Y) y la antigüedad del mismo (X). Describa sus resultados.
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de CorrelaciónEl coeficiente de correlación (r) permite analizar el tipo de relación entre X e Y.
-1.00 -0.50 0.50 1.000Correlación positivaCorrelación negativa
Ninguna correlación
Correlación negativa perfecta
Correlación positiva perfecta
Correlación negativa intensa
Correlación negativa
débil
Correlación negativa
moderada
Correlación positiva
débil
Correlación positiva intensa
Correlación positiva
moderada
Fuente: Mason (2001). Estadística para Admón. y Economía
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
Ejercicio 3: Resuelve el problema planteado al inicio del tema, sobre la inversión en Investigación y Desarrollo:a) Elabora el diagrama de dispersiónb) Calcula la recta de regresión y estima
las ganancias al invertir 9 mdd.c) Obtener el error de estimaciónd) Calcula un intervalo de confianza al
95%e) Calcula el coeficiente de
determinación y de correlación
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
Finalmente, un análisis práctico es la prueba de significancia del coeficiente de correlación, apoyando suposiciones sobre correlación NO nula para TODA la población, o viceversa.Se establecen las hipótesis nula y alternativaH0: 0H1: 0Y el estadísticode prueba es:
21
2
r
nrt
Con n-2 g.l. para t-Student con nivel de significancia α/2 (dos colas) ó α (una cola)
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Correlación
Ejemplo: Para las hipótesis nula y alternativaH0: 0H1: > 0Considere una muestra al azar de 12 datos con una correlación de 0.32. ¿Se puede concluir que la correlación en la población es mayor que cero? Aplica un nivel de significancia de 0.05
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Varianza para la Regresión Lineal
Una vez obtenido el Modelo de Regresión Lineal, se puede someter a un Análisis de Varianza para determinar si el modelo es significativo o no. Esto es, si influye la variable X sobre la variable Y.
H0: E(Y/X = x) = a (no depende de X)H1: E(Y/X = x) = a+bx (sí depende de X)
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Varianza para la Regresión Lineal
Estas hipótesis se probarán descomponiendo la suma de cuadrados del total como se indica )ˆ()ˆ()( yyyyyy iiii
222 )ˆ()ˆ()( yyyyyy iiii
Suma de cuadrados Total (SCT)
Suma de cuadrados Explicada
(SCE)
g.l. = n-1 g.l. = n-2 g.l. = 1
Suma de cuadrados deResiduos
(SCR)
Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model
Escuela de Economía y Negocios Universidad Anáhuac Cancún
Análisis de Varianza para la Regresión Lineal
Luego, la tabla ANOVA queda expresada
Fuente de variación
Suma de cuadrados
g.l. Cuadrado medio (Varianzas)
Fprueba
Por la recta SCE 1 Se2 = SCE/1 Se
2 / SR2
Residual SCR n – 2 SR2 = SCR/(n – 2)
Total SCT n – 1 Si Fprueba > Fcrítica, entonces H0 se rechaza y el modelo SÍ es significativo.
Calculemos con¡EXCEL!