54
Cátedra I Estadística II Autor I Gerardo Heckmann 227 AN ALI SI S DE ASOCIACION EN TRE VARI ABLES. REGRESI ON Objetivos Presentar el modelo de regresión lineal simple como herramienta para estimar medias condicionales y predecir los valores de una variable en función de la información disponible en otra. Vincular esta técnica con las demás técnicas de estimación, haciendo una extensión de los conceptos previos. Lograr que el alumno aprenda a estimar, evaluar y utilizar el modelo en casos prácticos, aplicando Excel. Explicitar al alumno los problemas éticos derivados del uso inapropiado de la herramienta. Presentar el modelo de regresión lineal múltiple. (*) Contenidos 1. Introducción 2. Propósito del análisis de regresión 2.1. Tipos de modelos de regresión 3. Modelo de regresión lineal simple 3.1. ¿Cómo se determinan los valores de b 0 y b 1 ? 3.2. Supuestos del modelo de regresión lineal 3.3. Estimación de máxima verosimilitud de β 0 y β 1 3.4. Estimación por mínimos cuadrados de β 0 y β 1 4. El poder explicativo de la regresión 4.1. Medida de variación: La suma de los cuadrados 4.2. El coeficiente de determinación 4.3. Error estándar de estimación 4.4. El análisis de la varianza (ANOVA) 4.5. Coeficientes de determinación (r 2 ) y de correlación (r) 4.6. En clave de síntesis 4.7. Test de correlación lineal 5. Análisis residual 6. Inferencia sobre la pendiente: Test t 6.1. Relalción entre el test t y el F 6.2. Intervalo de confianza para la pendiente 7. Predicción 7.1. Estimación de valores medios 7.2. Predicción de valores individuales 8. Transformaciones de variable 9. ¿Qué cuestiones te pueden traer problemas en el análisis de regresión? 9.1. Estrategias para evitar caer en problemas 9.2. En clave de síntesis: Los pasos en el análisis de regresión 10. Regresión múltiple __________ (*) Los temas desarrollados en el presente Capítulo corresponden al programa oficial de Estadística II.

Capitulo V heckmann - UNC

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

227

ANALISIS DE ASOCIACION ENTRE VARIABLES. REGRESION

Objetivos

• Presentar el modelo de regresión lineal simple como herramienta para estimar medias condicionales y predecir los valores de una variable en función de la información disponible en otra.

• Vincular esta técnica con las demás técnicas de estimación, haciendo una extensión de los conceptos previos.

• Lograr que el alumno aprenda a estimar, evaluar y utilizar el modelo en casos prácticos, aplicando Excel.

• Explicitar al alumno los problemas éticos derivados del uso inapropiado de la herramienta.

• Presentar el modelo de regresión lineal múltiple.

(*)

Contenidos

1. Introducción 2. Propósito del análisis de regresión

2.1. Tipos de modelos de regresión 3. Modelo de regresión lineal simple

3.1. ¿Cómo se determinan los valores de b0 y b1? 3.2. Supuestos del modelo de regresión lineal 3.3. Estimación de máxima verosimilitud de β0 y β1 3.4. Estimación por mínimos cuadrados de β0 y β1

4. El poder explicativo de la regresión 4.1. Medida de variación: La suma de los cuadrados 4.2. El coeficiente de determinación 4.3. Error estándar de estimación 4.4. El análisis de la varianza (ANOVA) 4.5. Coeficientes de determinación (r2) y de correlación (r) 4.6. En clave de síntesis 4.7. Test de correlación lineal

5. Análisis residual 6. Inferencia sobre la pendiente: Test t

6.1. Relalción entre el test t y el F 6.2. Intervalo de confianza para la pendiente

7. Predicción 7.1. Estimación de valores medios 7.2. Predicción de valores individuales

8. Transformaciones de variable 9. ¿Qué cuestiones te pueden traer problemas en el análisis de regresión?

9.1. Estrategias para evitar caer en problemas 9.2. En clave de síntesis: Los pasos en el análisis de regresión

10. Regresión múltiple __________

(*) Los temas desarrollados en el presente Capítulo corresponden al programa oficial de Estadística II.

Page 2: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

228

Page 3: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

229

1. Introducción

Antes de comenzar a hablar del modelo de regresión haremos un breve recordatorio del concepto de media condicional y su utilidad para mejorar las estimaciones.

El calificativo condicional indica que la media se refiere a un determinado grupo de

unidades estadísticas que cumplen con una condición. La denotamos con /y xµ . Es

decir, si por ejemplo estamos considerando el peso medio de los estudiantes de la Facultad, que tienen una altura de al menos 1.70 mts., nos estamos refiriendo a la media condicional del peso (y), dada la condición altura mayor a 1.70 mts. (x).

¿Qué implicancia tiene este concepto para las estimaciones? Si necesitara estimar el peso promedio de un estudiante de la Facultad, no tendría otro remedio mas que

informar una estimación del parámetro Pesoµ , seguramente en base a PesoX . Sin

embargo, mis estimaciones podrían ser sustancialmente mejores si descubriera alguna variable que incide fuertemente en el peso de las personas que me permitiera dividir a la población en grupos de unidades más parecidas entre sí, por ejemplo la altura. Hay muchas más variables que determinan el peso de una persona (la cantidad que come el estilo de vida que lleva, etc.), pero sin dudas las personas que tienen mucha altura tienen un promedio de peso mayor a las de baja estatura. Es decir, si cuento con la información de dos variables, en este caso del peso (y) y la altura (x), puedo estimar una media condicional y lograr una mejora en la calidad de la respuesta de mi sistema de estimación. En términos técnicos diremos que contamos con las distribuciones marginales del peso y de la altura, que combinadas nos entregan la distribución conjunta de ambas variables.

Conceptualmente esta es la base del análisis de regresión que a continuación se expone.

El Análisis de Regresión se utiliza principalmente para modelar relaciones entre variables y para pronóstico. Predice el valor de una variable dependiente (de respuesta) basado en el valor de al menos una variable independiente (explicativa). La teoría siempre debe asistirnos para plantear relaciones adecuadas entre variables. Así por ejemplo, siguiendo el razonamiento económico podemos plantear la relación entre el consumo y el nivel de ingresos de las familias, la cantidad demandada de un producto con su precio y cantidad de sustitutos, la cantidad de dinero en efectivo que disponen las empresas y el nivel de la tasa de interés, la satisfacción de los clientes y la calidad interna de la empresa, etc.

Al mismo tiempo, es una forma de cuantificar el efecto de las variables independientes sobre las dependientes. Esta es una aplicación muy frecuente en muchas disciplinas, en ese caso no nos interesa tanto predecir el valor de la variable de respuesta, sino que estamos interesados en conocer una estimación de la tasa de cambio de la variable de respuesta ante un cambio unitario en la variable explicativa. Por ejemplo, al economista le interesa estimar la elasticidad precio de la cantidad demandada de energía. Al gerente de marketing la tasa de respuesta de las ventas de un producto ante alternativas de medios publicitarios. 2.1. Tipos de modelos de regresión

La forma de la relación entre las variables condicionará el tipo de regresión al que nos enfrentamos. En este punto el diagrama de dispersión será un aliado fundamental de quien analiza. Este diagrama, también llamado scatter plot en la bibliografía

Page 4: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

230

estadística, especialmente en los manuales de software, consiste simplemente en graficar los valores de la variable explicativa (x) contra los de la variable de respuesta o independiente (y). En la Figura 1 se muestran patrones alternativos que podrían presentarse al realizar el diagrama de dispersión de los datos. En el primero apreciamos una relación lineal positiva. Es decir, los puntos se alinean a lo largo de una imaginaria línea recta de pendiente positiva. Cuando los valores de x crecen, también lo hacen los de y. En el segundo cuadrante de la figura apreciamos un diagrama que muestra una relación no lineal entre las variable. Los puntos parecen dar forma a una curva, de allí el carácter no lineal de la relación. También aquí cuando la variable x crece la y crece, pero ya no a una tasa constante como en la relación lineal. El comportamiento nos hace recordar el concepto de los rendimientos decrecientes o de el de las ventas de largo plazo según la teoría del ciclo de vida de los productos.

La relación lineal negativa del tercer cuadrante nos recuerda el vínculo inverso entre precio y cantidad en la función demanda. Por ejemplo, entre la tasa de interés y los prestamos demandados; sube la tasa, bajan las cantidades demandadas.

A veces, una relación entre variables que a priori resulta plausible termina no siéndolo al verificar el diagrama. La situación se plantea en el último cuadrante. Claramente aquí no puede encontrarse un patrón que vincule a ambas variables y decimos entonces que no hay relación.

Insistimos en la necesidad de contar con un sustento teórico para plantear las relaciones, puesto que podría ocurrir que por casualidad se registrase una relación entre variables que en realidad no es tal y que nos llevará a tomar decisiones inadecuadas en base a los resultados del análisis. Por ejemplo, tal vez en determinado período se registre una relación lineal positiva entre la cantidad de cerdos que se faenan en un frigorífico y los accidentes en una ruta, sin embargo sería muy extraño que los pobres chanchos tengan algo que ver y difícilmente solucionemos el problema de la ruta tomando medidas en el frigorífico a pesar de lo bien alineados que salgan los puntos en el diagrama de dispersión que vincule ambas variables. Figura 1: El diagrama de dispersión y los tipos de regresión

Como vimos la relación entre variables puede ser no lineal. Sin embargo, en esta asignatura nos limitaremos a tratar los casos de relaciones lineales. Es decir, aquellos en los que la relación entre las variables puede ser descripta por una función lineal.

Relación lineal positiva

Relación lineal negativa

Relación NO lineal

Sin relación

Page 5: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

231

El cambio unitario en una variable (x) afecta el cambio en la otra (y) a una tasa constante. Hay una dependencia fija de una variable en la otra. Si volvemos al concepto de media condicional de la Introducción, diremos que hemos encontrado un dispositivo (la recta) que nos permite vincular ambas variables, de manera que puedo calcular la media condicional de la variable de respuesta (la condición es un valor particular de la variable x). Generalizando este concepto con los vistos en la materia en las distintas estimaciones, también aquí se plantea una relación poblacional (una recta cuyos parámetros desconocemos) que debe ser estimada a partir de los datos disponibles de una muestra (estimación muestral de los parámetros desconocidos de la recta poblacional). La ecuación de regresión poblacional es una línea recta que describe la dependencia del valor promedio (media condicional) de una variable sobre la otra. Abajo, en la Fórmula 1, apreciamos el vínculo formal entre las variables a partir de los parámetros de la recta. También aquí los parámetros poblacionales se denotan con letras griegas mayúsculas. Como puede apreciarse a la ecuación de la recta se le ha

agregado un término de error aleatorio, iε , que registra las diferencias que se

producen entre los puntos graficados en el diagrama y la recta que hipotéticamente los vincula. Esas diferencias se atribuyen a la influencia de otras variables vinculadas a la variable de respuesta y que no fueron incluidas en la recta por solo haber lugar para una: la más importante (a nadie se le ocurre pensar que la única variable que determina la demanda de créditos es la tasa de interés, pero estamos de acuerdo que pesa mucho en esas decisiones). Estos conceptos se aprecian claramente en la Figura 2.

Fórmula 1: Quién es quién en la ecuación de regresión poblacional

Recta deRegresiónPoblacional (media condicional)

Constante Poblacional Pendiente Poblacional

Error Aleatorio

Variable Dependiente (Respuesta)

Variable Independiente(Explicativa)

i i iY Xβ β ε0 1= + +

Y XµRecta deRegresiónPoblacional (media condicional)

Constante Poblacional Pendiente Poblacional

Error Aleatorio

Variable Dependiente (Respuesta)

Variable Independiente(Explicativa)

i i iY Xβ β ε0 1= + +

Y Xµ

Figura 2: El quién es quién gráficamente:

Valores Observadosde

i i iY Xβ β ε0 1= + +

= Error Aleatorio

Y

XValor observado de Y i

YX iXµ β β0 1= +

β 0

β1

(Media Condicional)

Valores Observadosde

i i iY Xβ β ε0 1= + +

= Error Aleatorio

Y

XValor observado de Y i

YX iXµ β β0 1= +

β 0

β1

(Media Condicional)

Page 6: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

232

Como dijimos, la estimación de estos parámetros poblacionales desconocidos se hará en base a los pares de datos (x, y) que se obtengan en una muestra y será la base para elaborar pronósticos y tomar decisiones. La recta de regresión muestral provee una estimación de la recta poblacional y pronósticos del valor de Y. Cuantifica la relación entre las variables. En la Fórmula 2 se aprecia que si bien la relación planteada entre variables es también una recta, ahora no son parámetros los que figuran vinculando a las variables, sino sus estimadores, denotados con letras minúsculas. Incluso el término de error pasa a ser estimado. Una vez que dispongamos de los valores estimados de los parámetros podremos combinarlos en la recta de regresión muestral (también conocida como recta ajustada) para calcular el valor predicho de la variable de respuesta para valores alternativos de x. Fórmula 2: Quién es quién en la ecuación de regresión muestral

En la Figura 3, claramente se aprecia que no necesariamente la estimación coincidirá exactamente con la relación teórica poblacional (desconocida). Por eso precisamente es una estimación; tampoco esperábamos que coincidiera exactamente la media muestral con la media poblacional al hacer estimaciones en el Capítulo I. Figura 3: Los conceptos poblacionales y muestrales juntos

( )| 0E Y Xβ0 = = es el valor promedio de Y cuando el valor de X es cero.

( )1

|E Y X

∆=

∆ mide el cambio en el valor promedio de Y como resultado de un

cambio unitario en X.

β1

Valor Observado

Y

X

/Y X iXµ β β0 1= +

β0

i i iY Xβ β ε0 1= + +

ie

0 1i i iY b b X e= + +1b

0b0 1i iY b b X= +

β1

Valor Observado

Y

X

/Y X iXµ β β0 1= +

β0

i i iY Xβ β ε0 1= + +

ie

0 1i i iY b b X e= + +1b

0b0 1i iY b b X= +

0 1Y b b X= + =

0 1i i iY b b X e= + +Estimación de la constante

Estimación de la pendiente

Residuo

Recta de regresión muestral(Recta ajustada, Valor predicho)

Page 7: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

233

( )ˆ | 0b E Y X0 = = es el valor promedio estimado de Y cuando el valor de X es cero.

( )1

ˆ |E Y Xb

X

∆=

∆ es el cambio estimado en el valor promedio de Y como resultado de

un cambio unitario en X. 3.1. ¿Cómo se determinan los valores de b0 y b1?

Cuando uno observa el diagrama de dispersión de un par de variables que podrían vincularse con una relación lineal (como en el primer y tercer diagrama de la Figura 1), se advierte que podría haber muchas rectas que pasen entre los puntos y que podrían utilizarse para describir la relación lineal entre las variables, aunque sean mínimas las variaciones en la constante y la pendiente entre una y otra. Entonces: ¿cuál de todas ellas elegir?

Actividad 1: En la página del curso en http://e-conomicas.eco.unc.edu.ar, busca en sitios la página de ejercicios interactivos de la Cátedra de Estadística II y revisa el simulador “Regresión a Ojo”. Trata de resolver los ejercicios propuestos. Será divertido, te ayudará a fijar estos conceptos y a entrenar tu ojo para controlar los cálculos.

Venimos diciendo que la recta de regresión es el estimador de la media condicional. Tenemos que encontrar entonces, algún método objetivo que nos permita obtener estimadores con las propiedades deseables para todo estimador que explicitamos en el Capítulo I. Allí también se dijo que el método de máxima verosimilitud tiene la característica de determinar estimadores que cumplen con casi todas esas propiedades deseables. ¿Cómo podemos entonces aplicar esos conceptos para explicitar nuestro estimador de la media condicional y de su error estándar?

Como vimos en el Capítulo I, para aplicar Máxima verosimilitud se necesita conocer la distribución de la población de la que se obtiene la muestra. Esto nos obliga, en este punto, a hacer algunos supuestos que luego nos serán muy útiles para realizar inferencias. 3.2. Supuestos del modelo de regresión lineal

Recordemos que tenemos un término de error aleatorio, iε , que por ser el que recoge

el efecto aleatorio de las variables no incluidas en el modelo supondremos tiene distribución normal (esto es consecuencia del Teorema Central de Límite), con media cero y varianza constante (homocedasticidad). Como la variable Y es una combinación lineal de la variable X y el término de error, también tiene distribución normal para cada X. Finalmente exigiremos que los errores sean independientes entre sí. Es decir, que el error en una observación no tenga nada que ver con los de otra observación. En este sentido los errores son al azar, no tienen ninguna componente sistemática que los explique, de lo contrario habría que agregarla al modelo. En síntesis los supuestos del modelo de regresión lineal son: • Normalidad

o Los valores de Y se distribuyen normalmente para cada X o La distribución del término de error es normal

• Homocedasticidad (Varianza Constante) • Independencia de los Errores

Page 8: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

234

Podemos apreciar las consecuencias gráficas de estos supuestos en la Figura 4. Figura 4: Variación de los errores alrededor de la recta de regresión

3.3. Estimación de máxima verosimilitud de β0 y β1

Con los supuestos incorporados estamos en condiciones de plantear la función de verosimilitud para una observación:

β βσβ β σ

πσ

− − −=l

i i(y x )

i( , , ,y ) e2

0 12

12 2

0 1 2

1

2

expresión que también puede simplificarse tomando logaritmo (recordemos que estamos buscando una función que deberemos derivar para obtener un máximo y este paso nos ayuda, sin alterar el resultado).

β β σ π σ β βσ

= − − − − −i i iL( , , ,y ) ln ln (y x )2 2 20 1 0 12

1 1 12

2 2 2

ahora podemos obtener la distribución conjunta de la muestra completa (al ser independientes las observaciones, la distribución conjunta resultará del producto de n funciones como la anterior).

β β σ π σ β βσ

= − − − − −∑ i i

n nL( , , ) ln ln (y x )2 2 2

0 1 0 12

12

2 2 2

Para obtener los estimadores de β0 y 1β derivaremos la función respecto a cada uno

de los parámetros e igualaremos a cero (recordar que reemplazamos los parámetros por los estimadores al igualar a cero), obteniendo:

0 1

0

0 ( )i i

Ly b b x

β∂ = = ∑ − −∂

que nos lleva a la ecuación:

0 1i iy nb b x∑ = + ∑ (1)

La segunda ecuación se obtiene derivando respecto a 1β :

• Los valores de Y están normalmente distribuidos alrededor de la línea de regresión.

• Para cada valor de X, la “dispersión”, o varianza alrededor de la línea, es constante.

X1

X2

X

Y

f(e)

Recta de regresión estimada

• Los valores de Y están normalmente distribuidos alrededor de la línea de regresión.

• Para cada valor de X, la “dispersión”, o varianza alrededor de la línea, es constante.

X1

X2

X

Y

f(e)

Recta de regresión estimada

Page 9: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

235

0 1

1

0 ( )( )i i i

Ly b b x x

β∂ = = ∑ − −∂

resultando:

2

0 1i i i iy x b x b x∑ = ∑ + ∑ (2)

Estas ecuaciones se denominan ecuaciones normales y nos dan los estimadores de

β0 y 1β . Dividiendo por n la primera tenemos:

0 1Y b b X= + (3)

que nos indica que la recta de regresión siempre pasará por el punto ( , )X Y y que el

estimador de β0 es: 0 1b Y b X= − .

Dividiendo también por n la segunda y restando la expresión (3) multiplicada por X , tenemos:

22

1( )i i iy x xXY b X

n n

∑ ∑− = −

El primer término de la izquierda es la covarianza entre ambas variables y el que

multiplica a b1 es la varianza de x, de tal manera que el estimador de 1β es:

1 2 2 2

( , ) i i

x i

y x nxyCov x yb

S x nx

∑ −= =∑ −

El estimador de la varianza, Syx , se obtiene derivando L respecto a σ 2 :

2

0 12 2 4

20 ( )

2 4i i

yx yx

L ny b b x

S Sσ∂ −= = + ∑ − −

∂ (4)

de la Fórmula 2 de la página 178 sabemos que:

0 1i i ie y b b x= − −

Por lo tanto al despejar 2

yxS de (4) tenemos el estimador de σ 2 :

22 iyx

eS

n

∑=

en realidad este último es un estimador sesgado de la varianza, para corregir el sesgo alcanza con dividir por n-2 en lugar de dividir por n.

3.4. Estimación por mínimos cuadrados de β0 y β1

Ahora que ya conocemos los estimadores máximo verosímiles de los parámetros, también podemos plantearnos una alternativa para obtenerlos. Los estimadores b0 y b1

también pueden obtenerse encontrando los valores de b0 y b1 que minimizan la suma del cuadrado de los errores1/:

1/ La estimación de mínimos cuadrados es válida aún cuando no se cumpla el supuesto de nor-

malidad. En ese caso pueden hacerse estimaciones puntuales, pero no inferencias sobre los parámetros, ni intervalos de confianza.

Page 10: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

236

( )2

2 2

0 11 1

ˆ ( )n n

i i i i ii i

y y e y b b x= =

− = = ∑ − −∑ ∑ (5)

Esto se debe a que en la función de verosimilitud los parámetros β0 y β1 solo aparecen en el exponente de la función normal. Por lo tanto, maximizar esa función es equivalente a minimizar el exponente, que como se puede apreciar es igual a (5), de allí que también se los conozca como estimadores mínimo cuadráticos. Por supuesto los resultados son iguales a los ya derivados. De esta manera contamos con la expresión analítica de b0 que nos provee una

estimación de β0 y con la de b1, que nos provee una estimación de 1β .

Puede demostrarse que, teniendo en cuenta los supuestos acerca de normalidad y homocedasticidad de los errores, resulta (ver Anexo al final del Capítulo):

1 1 1ˆ( ) ( )E b E β β= = (insesgado)

2 2

1 1ˆ( ) ( ) /( ( ) )iV b V x xβ σ= = ∑ −

ob se comporta de manera semejante, resultando:

2 2

1 1( , /( ( ) )ib N x xβ σ ∑ −�

y

2

2

2 1

)( , ( )

( io o n

xb N

x xβ σ + Σ −�

Page 11: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

237

Estamos ahora en condiciones de aplicar estos desarrollos a un caso concreto. Por ejemplo, supongamos que queremos examinar la dependencia lineal de las ventas anuales de las sucursales de una empresa con su tamaño, medido en metros cuadrados. Disponemos de información muestral de 7 sucursales. Encontremos la ecuación de la recta que ajusta mejor los datos.

Sucursal Metros2 Ventas

(miles de $) 1 1.726 3.681 2 1.542 3.395 3 2.816 6.653 4 5.555 9.543 5 1.292 3.318 6 2.208 5.563 7 1.313 3.760

En Excel podemos hacer el diagrama de dispersión haciendo click en el icono de figuras y seleccionando XY (dispersión).

Figura 5: Diagrama de dispersión de los datos

0

2 00 0

4 00 0

6 00 0

8 00 0

10 00 0

12 00 0

0 1000 2000 3000 4000 5000 6 000

M t2

Ve

nta

s (

mil

es

$)

Salida de Excel

0

2 00 0

4 00 0

6 00 0

8 00 0

10 00 0

12 00 0

0 1000 2000 3000 4000 5000 6 000

M t2

Ve

nta

s (

mil

es

$)

Salida de Excel

Page 12: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

238

Con Excel también podemos conseguir todos los elementos que se requieren en las fórmulas de los estimadores: la media de x, la de y, la covarianza xy, te invitamos a explorar las funciones que incorpora Excel y a programar tus propias funciones. También Excel cuenta con una función Estimación.lineal que directamente hace todos los cálculos. Se ingresa a Excel, en Insertar se selecciona Función y se busca esta función. La Ayuda los guiará para aplicarla. Es muy importante recordar que se debe marcar el rango donde se pondrán los resultados y simultáneamente dar CTRL+MAYÚS+ENTRAR (fórmula matricial). Excel además incluye un complemento que hace el análisis completo con una excelente salida y figuras. Para utilizarlo debe estar habilitado este complemento. Para ello, se debe ingresar al menú Herramientas, Complementos, marcar Herramientas para análisis y Herramientas para análisis VBA. Cuando estén habilitadas se puede usar, en el menú Herramientas, Análisis de datos, Regresión. Para nuestro ejemplo la ecuación de la regresión lineal en la muestra resulta:

Y X

X

=b +bi 1 i0

=1636,415+1,487 i

De la salida de Excel:

Sobre el diagrama de dispersión podemos graficar esta recta. Para hacerlo recordemos que por dos puntos (x, y) pasa una recta, uno de los puntos que ya tenemos calculado es el par (0; 1636,4) correspondiente a la constante, el

segundo es el par ( , )X Y , por el que siempre pasa la recta de regresión.

Figura 6: La ecuación de regresión estimada

La recta de regresión estimada resultó:

Y =1636,415+1,487Xi i

La estimación de la pendiente (1,487) significa que por cada cambio unitario, positivo o negativo, en X, se estima un cambio promedio en Y de 1,487 unidades. Es decir, el modelo estima que por cada incremento de un metro cuadrado en el tamaño de la sucursal, las ventas esperadas anuales crecerán en $1487.

Coefic.Constante 1636,414726Var. X 1,486633657

0

2 0 0 0

4 0 0 0

6 0 0 0

8 0 0 0

1 0 0 0 0

1 2 0 0 0

0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 0 0 5 0 0 0 6 0 0 0

M ts .2

Ve

nta

s (

mil

es

$)

Page 13: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

239

En este caso la constante no tiene interpretación, porque reflejaría un volumen de ventas que puede lograrse sin ninguna superficie.

Actividad 2: Una cadena de hamburguesería invierte mensualmente en publicidad ya que considera que la presencia en el mercado es un elemento importante de fidelización de sus clientes. Ha observado que sus ventas están relacionadas con la inversión en publicidad que realiza, y desea determinar cuál es el modelo que relaciona ambas variables a fin de poder predecir niveles de ventas. La información conjunta de inversión en publicidad y ventas durante 12 meses es la siguiente:

Publicidad

(en miles de $) Ventas

(en miles de $)

4,00 5,20 4,70 3,90 4,20 4,00 6,40 4,80 5,30 5,70 5,90 7,80

31,80 43,00 35,60 29,00 35,00 33,00 52,00 38,70 42,00 39,00 45,00 65,00

En base a esta información: a) Represente los datos en un diagrama de dispersión, ¿qué interpretación

obtiene sobre este conjunto de datos? b) ¿Qué modelo de regresión simple propone ajustar? c) Estime las ventas mensuales (en promedio) si se invierten $5,3 miles en

publicidad. Interprete este resultado.

d) Determine el error estándar de la regresión yxS .

Hemos podido estimar la recta de regresión basados en un método que nos garantiza elegir objetivamente la recta que tiene mejores propiedades estadísticas. Sin embargo, podría ocurrir que a pesar de todos estos resguardos la recta encontrada no tenga buena capacidad para explicar el fenómeno que estamos estudiando. En nuestro ejemplo de las ventas de las sucursales, tal vez haya demasiada variabilidad en los puntos del diagrama de dispersión y entonces, a pesar que podremos siempre obtener una recta que los ajuste siguiendo el criterio mínimo cuadrático, tal vez no nos sirvan para mucho los resultados. En definitiva: es indispensable disponer de alguna medida de la bondad del ajuste obtenido, en términos de su poder explicativo. 4.1. Medida de variación: La suma de los cuadrados

Para avanzar en este objetivo comenzaremos por descomponer la variabilidad observada en el diagrama de dispersión. En la Figura 7, claramente podemos apreciar la recta horizontal que representa el valor de la media de Y. Como dijimos en la introducción esta media sería la mejor estimación que podríamos brindar si no contáramos con la posibilidad de estimar la media condicional. Disponer de un estimador de la media condicional (la recta de regresión ajustada), nos ayuda a

Page 14: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

240

mejorar nuestras estimaciones. Así, ahora un solo punto será estimado con la media

de Y, aquel en el que coinciden la recta ajustada con Y (¿a qué valor de X corresponde este punto?). El resto de los puntos serán estimados sobre la recta. Analicemos en la Figura 7 la situación del punto Xi. Sin posibilidad de estimar la media condicional,

hubiéramos predicho que al valor Xi de superficie le corresponde un valor igual a Y de ventas. Ahora que disponemos de la recta, podemos decir que al valor de superficie Xi

le corresponde un valor sobre la recta ajustada, mayor a la media Y de ventas, puesto

que ese valor Xi está a la derecha de la media X , siendo Y menor. A esa mejora en la

estimación, es decir a la diferencia entre la recta y la media Y , la llamamos entonces desvío debido a la regresión, a veces también se lo denomina desvío explicado por la regresión. Si se calcula este desvío para cada punto de las X, se los eleva al cuadrado y se suman, obtenemos la suma de cuadrados de la regresión (SCR):

2

iSCR = (Y - )Y∧

Sin embargo, en la Figura 7 vemos que el valor observado de ventas para Xi (el punto del diagrama) está por encima de la recta. A este desvío lo llamamos error, o desvío no explicado. Es la diferencia que el modelo no registra, que seguramente se debe al efecto residual de otras variables y es aleatorio. Si calculamos el error para cada punto de las X, lo elevamos al cuadrado y los sumamos, obtenemos la suma de cuadrados de los errores (SCE):

2

i iSCE = (Y -Y )∧

Por supuesto la suma de ambas sumas de cuadrados será equivalente a la suma del cuadrado de los desvíos totales (SCT):

2

iSCT = (Y - )Y∑

SCT = SCR + SCE

Suma de Cuadrados = total

Suma de Cuadrados + explicada

Suma de Cuadrados no explicada

Figura 7: descomposición de la variación

En los términos de un diagrama de Venn, la anterior descomposición quedaría representada como en la Figura 8.

Xi

Y

X

Y

SCT = ∑∑∑∑(Yi - Y)2

SCE =∑∑∑∑(Yi - Yi )2∧∧∧∧

SCR = ∑∑∑∑(Yi - Y)2∧∧∧∧

_

_

_

0 1i

iY b b X= +$

Xi

Y

X

Y

SCT = ∑∑∑∑(Yi - Y)2

SCE =∑∑∑∑(Yi - Yi )2∧∧∧∧

SCR = ∑∑∑∑(Yi - Y)2∧∧∧∧

_

_

_

0 1i

iY b b X= +$

Page 15: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

241

Figura 8: Diagramas de Venn y poder explicativo de la regresión

4.2. El coeficiente de determinación

Con esta descomposición de la suma de cuadrados podemos plantearnos una primera aproximación a nuestro objetivo de determinar la bondad del ajuste realizado en términos del poder explicativo de la resta ajustada. La idea es simple: qué proporción representa la suma de cuadrados explicada (SCR), en relación a la Suma de Cuadrados Total (SCT). A esta relación la llamamos coeficiente de determinación o “erre cuadrado” y lo denotamos con r2:

SCR Suma de Cuadrados de la Regresion2r = =SCT Suma de Cuadrados Total

Mide la proporción de la variación de Y que es explicada por la variable independiente X, en el modelo de regresión. La Figura 9 representa esta relación en términos de diagrama de Venn. Figura 9: Diagramas de Venn y poder explicativo de la regresión

4.3. Error estándar de estimación

En este punto resulta conveniente hacer una aclaración sobre la relación entre esta

descomposición de la suma de cuadrados y el estimador de la varianza YXS (error

estándar de estimación) que vimos al plantear los estimadores de máxima verosimilitud, corregido con n-2 grados de libertad. La relación es la siguiente:

Variaciones en las ventas explicadas por el término deError (SCE)

Ventas

Tamaños

Variaciones en las ventas explicadaspor los tamaños o variaciones en los tamaños usadas para explicar variaciones en las ventas (SCR)

Variaciones en el tamaño de los locales no utilizadas para explicar las variacionesen las ventas

Ventas 2

SCR

SCR

r

SCE

=

=+

SCR

SCE

Tamaños

Page 16: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

242

( )21

ˆ

2 2

n

ii

YX

Y YSCE

Sn n

=−∑

= =− −

Es la desviación estándar de la variación de las observaciones alrededor de la línea de regresión.

Volviendo a nuestro ejemplo de las ventas y la superficie de los locales, la salida de Excel incluirá los valores del coeficiente de determinación y del error estándar (Tabla 1): Tabla 1: Salida de Excel para el ejemplo de ventas y superficie de los locales

Es decir, en el ejemplo, 94% de la variación anual en las ventas puede ser explicada por la variabilidad en el tamaño de los locales, medido en mts2.

4.4. El análisis de la varianza (ANOVA) La descomposición de la suma de cuadrados también nos permitirá seguir avanzando más formalmente en la determinación de la calidad explicativa del modelo estimado (recta ajustada). Para ello inicialmente nos concentraremos en la cantidad de grados de libertad que cada una de las sumas de cuadrados tiene. Recordemos que llamamos grados de libertad al número de observaciones que pueden variar libremente después que alguna restricción, como la media muestral de todas esas observaciones ha sido calculada (por ejemplo si la media de tres observaciones es 5, dos de las observa- ciones pueden asumir cualquier valor, pero la tercera quedará condicionada por los valores que hayan asumido las dos primeras, de lo contrario la media no podrá ser 5). Si aplicamos este concepto a la Suma de Cuadrados Total (SCT), apreciamos que en una muestra de tamaño n hay precisamente n valores que intervienen en la suma. Cuando se fija la media, necesariamente solo n-1 de ellos podrá variar libremente. Es decir, la SCT tiene n-1 grados de libertad. Si este es el total de grados de libertad disponibles, la suma de sus partes (la SCE y la SCR) no pueden tener más. Determinar la dimensionalidad de estas partes no es simple y no es objeto de este curso. Solo diremos que, si llamamos p al número de pendientes a estimar en la regresión, la SCR tiene p grados de libertad y la SCE, por su parte, n-p-1 (en la regresión lineal simple

solo estimamos una pendiente, 1β , por lo tanto p = 1).

Con estos elementos podemos pasar a considerar la denominada Tabla de Análisis de la Varianza (ANOVA) que se presenta en la Tabla 2. Ella tiene el mismo “aspecto” que la correspondiente al Análisis de la Varianza del Capítulo III, pero es diferente la descomposición de la suma de cuadrados2/. En la primera columna de la

2/ En el Capítulo III se trataba de descomponer la variabilidad dentro y entre los grupos definidos

por una variable categórica. Ahora se trata de descomponer la variabilidad explicada y no explicada por la regresión.

Estadísticas de RegresiónR Multiple 0,9705572R cuadrado 0,94198129R cuadrado ajustado 0,93037754Error estándar 611,751517Observaciones 7

Syx

r2 = .94 Estadísticas de RegresiónR Multiple 0,9705572R cuadrado 0,94198129R cuadrado ajustado 0,93037754Error estándar 611,751517Observaciones 7

Syx

r2 = .94

Page 17: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

243

Tabla tenemos la Fuente de variación, en la segunda los grados de libertad de cada fuente de variación, en la tercera las sumas de cuadrados de cada una de esas fuentes y en la cuarta los Cuadrados Medios, que resultan de dividir las sumas de cuadrados por sus respectivos grados de libertad. En la quinta columna se calcula el cociente entre CMR/CME, como Test F. Al tratarse de sumas de cuadrados de desvíos, divididos por sus grados de libertad, inmediatamente reconocemos que estamos ante varianzas. Como ya vimos en el Capítulo I, el cociente de varianzas tiene distribución F. Los grados de libertad se corresponden con los grados de libertad de los CMR (numerador) y CME (denominador). Es decir, F(p, n-p-1). En síntesis, el estadístico de prueba es:

( )(1, 2)

1

2

n

SCR

FSCE

n

− =

y las hipótesis: H0 : β1 = 0 (No hay dependencia lineal) H1 : β1 ≠ 0 (Hay dependencia lineal)

Según el nivel de significación de la prueba concluiremos si se rechaza o no la 0H

Tabla 2: La tabla de ANOVA

En la Figura 10 se presenta la salida de Excel correspondiente al ejemplo de las ventas de los locales y la superficie. El valor observado del test F resulta 81.18, con un nivel de significación observado (p-value) de 0.00028. Es decir, cualquier nivel de significación α superior a este nivel observado nos lleva a rechazar la

0H . Al ser tan bajo, decidimos entonces rechazar la 0H y concluir que 1β es

significativamente distinto de cero. Esto significa que el poder explicativo del modelo ha superado una primera prueba: realmente la relación teórica que vincula a estas variables es plausible en esta aplicación. En la Figura 11 se presenta una síntesis de la prueba realizada.

SCTn-1Total

CME

=SCE/(n-p-1)SCEn-p-1Residuos

P-value del

Test FCMR/CME

CMR

=SCR/pSCRpRegresión

Significac. de la F

Test FCuadrados

MediosSCgl

ANOVA

SCTn-1Total

CME

=SCE/(n-p-1)SCEn-p-1Residuos

P-value del

Test FCMR/CME

CMR

=SCR/pSCRpRegresión

Significac. de la F

Test FCuadrados

MediosSCgl

ANOVA

Page 18: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

244

Figura 10: Salida de Excel para el ejemplo ventas/superficie de los locales

Figura 11: Síntesis del test F par el ejemplo ventas/superficie de los locales

4.5. Coeficientes de determinación (r2) y de correlación (r) Antes de seguir avanzando conviene que nos detengamos para establecer la relación que existe entre el análisis de regresión y el de correlación. En el análisis de regresión estamos interesados principalmente en la posibilidad de predecir una variable Y (dependiente o de respuesta) en base a los valores de una variable independiente, o explicativa, X. En cambio en el análisis de correlación, solo nos interesa medir la fuerza o grado de asociación entre dos variables. Sin embargo, ambos análisis están vinculados: la correlación se mide con el coeficiente ρ (Rho), que se estima mediante r, que resulta igual a la raíz cuadrada del r2 del análisis de regresión. Como ρ varía entre -1 y 1, y la raíz cuadrada tiene ambos signos, el r asume el signo del estimador de la pendiente b1. En la Figura 12 tenemos distintos ejemplos de los valores que asumen respectiva- mente r y r2, mientras más cercano el valor de r a los extremos de su rango de variación -1, 1, más fuerte la asociación. Si el signo es positivo, la asociación también

ANOVAgl SC CM F Signific. F

Regresión 1 30380456,12 30380456,12 81,179 0,000281Residual 5 1871199,595 374239,919Total 6 32251655,71

Test:

Decisión:

Conclusión:

H0: β1 = 0H1: β1 ≠ 0α ==== .05numerador gl = 1denominador gl ==== 7 - 2 = 5

Hay evidencia de que los metros cuadrados afectan las ventas anuales.

De la salida de Excel

Rechazar H0

0 6.61

Rech.

α = .05

1, 2nF −

ANOVAgl SC CM F Signific. F

Regresión 1 30380456,12 30380456,12 81,179 0,000281Residual 5 1871199,595 374239,919Total 6 32251655,71

Test:

Decisión:

Conclusión:

H0: β1 = 0H1: β1 ≠ 0α ==== .05numerador gl = 1denominador gl ==== 7 - 2 = 5

Hay evidencia de que los metros cuadrados afectan las ventas anuales.

De la salida de Excel

Rechazar H0

0 6.61

Rech.

α = .05

1, 2nF −

ANOVAgl SC CM F Significación F

Regresión 1 30380456,12 30380456 81,17909 0,000281201

Residual 5 1871199,595 374239,92

Total 6 32251655,71

SCR

SCEGL Regresión (explicada)

Grados de libertad

GL Error (residuos)

GL Totales

SCT

ANOVAgl SC CM F Significación F

Regresión 1 30380456,12 30380456 81,17909 0,000281201

Residual 5 1871199,595 374239,92

Total 6 32251655,71

SCR

SCEGL Regresión (explicada)

Grados de libertad

GL Error (residuos)

GL Totales

SCT

Page 19: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

245

lo es: cuando X sube, Y sube. Cuando el signo es negativo, la asociación es inversa: cuando X sube, Y baja. No hay asociación cuando r es cero. Figura 12: Correlación y regresión, distintos casos

Si solo nos interesa el análisis de correlación, no es necesario hacer los cálculos de regresión. El estimador r puede calcularse mediante:

2 2

( )( )( , )

( ) ( )

i i

x y i i

x X y YCov x yr

S S x X y Y

∑ − −= =∑ − ∑ −

4.6. En clave de síntesis: • El propósito del análisis de correlación es medir la fuerza de la asociación entre dos

variables numéricas (relación lineal). • Solo se refiere a la fuerza de la relación. No están implicados efectos causales. • El coeficiente de correlación poblacional ρ se usa para medir la fuerza de la

asociación entre variables3/. • El coeficiente de correlación muestral r es una estimación de ρ y se usa para medir la

fuerza de la relación lineal entre observaciones muestrales. • ρ y r no tienen unidad de medida. • Varían entre -1 y 1. • Mientras más cercano a -1, mas fuerte la relación lineal negativa. • Mientras más cercano a 1, mas fuerte la relación lineal positiva. • Mientras más próximo a 0, mas débil la relación lineal. En la Figura 13 podemos observar algunos ejemplos para diversos valores de r.

3/ Estadísticamente ρ es el coeficiente de correlación lineal entre dos variables aleatorias con

distribución conjunta normal bivariante que no se desarrolla en este curso.

0 1i iY b b X= +

r2 = 1, r2 = 1,

r2=0.8, r2 = 0,Y

X

Y

X

Y

X

^

Y

X

r = +1 r = -1

r = +0.9 r = 0

0 1i iY b b X= +^0 1i iY b b X= +^

0 1i iY b b X= +^0 1i iY b b X= +

r2 = 1, r2 = 1,

r2=0.8, r2 = 0,Y

X

Y

X

Y

X

^

Y

X

r = +1 r = -1

r = +0.9 r = 0

0 1i iY b b X= +^0 1i iY b b X= +^

0 1i iY b b X= +^

Page 20: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

246

Figura 13: Ejemplos de observaciones para diversos valores de r

4.7. Test de correlación lineal

También en el análisis de correlación podemos hacer una prueba estadística para determinar si hay o no correlación entre dos variables X,Y.

Las hipótesis del test son:

H0 : ρ = 0 (sin correlación) H1 : ρ ≠ 0 (con correlación) El estadístico de prueba tiene distribución t con n-2 grados de libertad:

( )( )( ) ( )

2

2 1

2 2

1 1

donde

2n

i ii

n n

i ii i

rt

r

n

X X Y Yr r

X X Y Y

ρ

=

= =

−=1−

− −∑

= =− −∑ ∑

En nuestro ejemplo de los Locales podríamos preguntarnos: ¿Hay alguna evidencia de correlación lineal entre las ventas anuales y la superficie del local, al nivel del 5% de significación?

r = .6 r = 1

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

r = .6 r = 1

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

Estadísticas de la regresiónR múltiple 0,9705572R cuadrado 0,94198129R cuadrado A justado0,93037754Error es tándar 611,751517Observaciones 7

De la salida de Excelr

H 0: ρ = 0 (No hay asociación)

H 1: ρ ≠ 0 (Hay Asociación)

α ==== 0.05gl = 7 - 2 = 5

Estadísticas de la regresiónR múltiple 0,9705572R cuadrado 0,94198129R cuadrado A justado0,93037754Error es tándar 611,751517Observaciones 7

De la salida de Excelr

H 0: ρ = 0 (No hay asociación)

H 1: ρ ≠ 0 (Hay Asociación)

α ==== 0.05gl = 7 - 2 = 5

Page 21: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

247

Actividad 3: Un economista desea estudiar el efecto del ingreso familiar disponible en el gasto familiar para consumo en esta ciudad. Para esta investigación ha tomado una muestra de familias a partir de la cual obtuvo un modelo de ajuste lineal. Los resultados obtenidos son:

gs . en consumo

567,00 1023,50 1480,00 1936,50 2393,00

ing res o fam ilia r

446,50

850,75

1255,00

1659,25

2063,50

gs

. en

co

ns

um

o

D iagram a de dispe rs ión

gs . en consumo

Análisis de regresión Estadística de la regresión R múltiple R cuadrado 0,85 R cuad. Ajustado 0,85 Error Estándar 150.73 Observaciones 33 ANOVA

gl SC CM F Significac. F

Regresión 1 4086175,39 4086175,39 179,86 0,0001 Residual 31 704280,85 22718,74 Total 32 4790456,24

Coeficientes

Constante 76,00

Ventas 0,78

0 2.5706-2.5706

.025

Rech. Rech.

.025

Valor(es) críticos:

Conclusión:Hay evidencias de una relación lineal al 5% de significación

Decisión:Rechazar H0

2

.97069.0099

1 .9420

52

rt

r

n

ρ−= = =−1−

El valor del estadístico t es exactamente el mismo que el del estadístico t para el testdel coeficiente de la pendiente

0 2.5706-2.5706

.025

Rech. Rech.

.025

Valor(es) críticos:

Conclusión:Hay evidencias de una relación lineal al 5% de significación

Decisión:Rechazar H0

2

.97069.0099

1 .9420

52

rt

r

n

ρ−= = =−1−

El valor del estadístico t es exactamente el mismo que el del estadístico t para el testdel coeficiente de la pendiente

Page 22: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

248

A partir de estos resultados:

a) Establezca la ecuación de regresión lineal estimada. b) Interprete el significado de la pendiente b1 en este problema. c) Interprete el coeficiente r2. d) Obtenga e interprete el coeficiente r. e) ¿A qué conclusión llega al aplicar el test F?

Una vez estimada la ecuación de regresión, es posible contar con los errores observados para cada par de valores X, Y. Recordemos que el error estimado, ei, no es otra cosa que la diferencia entre el valor de Y estimado por el modelo y el verdaderamente observado:

i i i i 0 1e = Y -Y Y ib b X∧

= − −

Calculados estos errores, estamos en condiciones de realizar el análisis residual. Los propósitos de este análisis son dos: • Examinar la linealidad • Evaluar violaciones de los supuestos del modelo. El primer propósito es muy simple de lograr. Alcanza con graficar los errores estimados versus los valores de X, como se muestra en la Figura 14. Si en la figura resultante se aprecia una forma en los residuos, concluiremos que la recta no era el mejor modelo para ajustar los datos y viceversa si los errores no presentan patrón alguno. Esté análisis gráfico de la linealidad complementa al test F que hemos presentado. Figura 14: Análisis Residual de linealidad

Normalmente el software estadístico trabaja con residuos estandarizados (RE). Es decir, con el residuo dividido por su error estándar:

( )( )

2

2

1

1 donde

1

iii i n

YX i ii

X XeRE h

nS h X X=

−= = +

− −∑

No Lineal Lineal�

X

e eX

Y

X

Y

X

No Lineal Lineal�

X

e eX

Y

X

Y

X

Page 23: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

249

De esta manera (Tabla 3), al estar el residuo estandarizado por la distancia al valor medio de X, la magnitud de los residuos queda expresada en unidades que reflejan la variación alrededor de la recta de regresión.

Tabla 3: Análisis de los residuales para el ejemplo ventas/superficie de los locales

Observación Pronóstico Ventas

Residuos Residuos estándares

1 4202,34442 521,344417 -0,93355583 2 3928,80382 533,803824 -0,95586652 3 5822,7751 830,224897 1,48665885 4 9894,66469 351,664688 -0,62971542 5 3557,14541 -239,14541 -0,42823052 6 4918,90184 644,09816 1,15336728 7 3588,36472 171,635283 0,30734216

El segundo propósito del análisis residual (evaluar violaciones de los supuestos del modelo) es de vital importancia y siempre debe realizarse. El procedimiento es similar.

Recordemos que los supuestos del modelo de regresión lineal son:

• Normalidad o Los valores de Y se distribuyen normalmente para cada X o La distribución del término de error es normal

• Homocedasticidad (Varianza Constante) • Independencia de los Errores

El supuesto de normalidad se analiza con la figura de probabilidad normal (a veces se lo denomina QQ-Plot). Como sabemos, si el error es normal, también lo es la Y estima- da ¿recuerda por qué? Aquí se representan los pares formados por Y estimada y el correspondiente valor teórico en la distribución normal. Si los puntos están aproxima- damente sobre una recta el supuesto se cumple.

La Figura 15 corresponde al ejemplo de las ventas y la superficie.

Figura 15: Verificación del supuesto de normalidad en el ejemplo ventas/superficie

Gráfico de probabilidad normal

0

2000

4000

6000

8000

10000

12000

0 20 40 60 80 100

Muestra percentil

Ven

tas

La normalidad de los errores se controla mediante la misma figura que usamos para la linealidad (recordar la Figura 14), solo que ahora además de controlar que no haya un patrón, nos preocupamos porque los errores estén distribuidos al azar a lo largo de la figura. La Figura 16 muestra los resultados para nuestro ejemplo.

Page 24: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

250

Figura 16: Figura de los residuos vs. las superficies

Mtrs2. Gráfico de los residuales

-1000

-500

0

500

1000

0 1,000 2,000 3,000 4,000 5,000 6,000

Mtrs2.

Res

iduo

s

También podrían utilizarse para este análisis las figuras de cajas, como el que se muestra a continuación. En la medida en que la figura refleje simetría (coinciden media mediana y modo en cero, línea central de la caja, y los extremos a ambos lados de la caja son aproximadamente parecidos) tenemos verificado el supuesto de normalidad de los errores.

20N =

Error for VENTAS wit

40

30

20

10

0

-10

-20

-30

-40

La homocedasticidad (varianza constante) también se controla en la figura de resi- duos. La Figura 17 nos ilustra. Si en el diagrama se aprecia que la dispersión de los datos es mayor en un extremo que en otro de la variable X (se produce una especie de bocina) estamos ante un caso de heterocedasticidad. Si se distribuyen uniforme- mente a lo largo de la recta los residuos son homocedásticos. Recordar que es conveniente trabajar con residuos estandarizados.

Figura 17: Análisis Residual de Homocedasticidad

Heterocedasticidad � Homocedasticidad

RE

X

RE

X

Y

X X

Y

Heterocedasticidad � Homocedasticidad

RE

X

RE

X

Y

X X

Y

Page 25: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

251

El supuesto de independencia de los errores no tiene mucho sentido analizarlo cuando no interviene la variable tiempo como la variable X. Si este fuera el caso, es decir si estamos analizando una serie de tiempo, debemos asegurarnos que en la figura de errores no haya patrones. (Figura 18). Figura 18: Análisis gráfico de la independencia de los errores

También podemos hacer una prueba sobre la pendiente usando la distribución t de Student. Al igual que en el test F, la pregunta que intentamos responder es: ¿Hay dependencia lineal entre X e Y ? Las hipótesis son: H0 : β1 = 0 (ausencia de dependencia lineal) H1 : β1 ≠ 0 (dependencia lineal) El estadístico de la prueba es:

1

1

1 1( 2)

2

1

donde

( )

YXn b

nb

ii

b St S

SX X

β−

=

−= =−∑

Si lo aplicamos a nuestro ejemplo de las ventas de las sucursales, nos pregun- taríamos ¿Afecta el tamaño del local las ventas anuales? En la Figura 19 tenemos los resultados, en base a la salida de Excel. Figura 19: ¿Afecta el tamaño del local las ventas anuales?

No Independiente Independendiente�e e

TiempoTiempo

Sin Patrón ParticularPatrón Cíclico

No Independiente Independendiente�e e

TiempoTiempo

Sin Patrón ParticularPatrón Cíclico

H0: β1 = 0

H1: β1 ≠ 0

α ==== .05

gl ==== 7 - 2 = 5

Valor(es) Críticos:

Test Estadístico:

Decisión:

Conclusión:Hay evidencia de que el tamaño del local afecta las ventas.

t0 2.5706-2.5706

.025

Rech. Rech.

.025

Salida Excel

Rechazar H0

Coef. Error Est. t P-valueConstante 1636,4147 451,4953 3,6244 0,01515Mts2 1,4866 0,1650 9,0099 0,00028

1b 1bS t

Page 26: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

252

6.1. Relación entre el test t y el F En ambas pruebas las hipótesis son: H0 : β1 = 0 (No hay dependencia lineal) H1 : β1 ≠ 0 (Hay dependencia lineal) Y están vinculados, puesto que uno es el cuadrado del otro:

( )22 (1, 2)n nt F− −=

Compruébelo en nuestro ejemplo.

6.2. Intervalo de confianza para la pendiente Cuando rechazamos la hipótesis nula llegamos a la conclusión que la pendiente es significativamente distinta de cero, pero ¿a cuánto es igual? Adquiere interés entonces hacer una estimación por intervalos a partir de la estimación puntual que nos brinda b1. El procedimiento es simple, sigue la regla general de construcción de intervalos de confianza: al estimador puntual lo rodeamos de cierta cantidad de veces la desviación estándar. Esa cierta cantidad de veces queda determinada por el nivel de confianza con el que queremos trabajar y la distribución del estimador, en este caso tn-2. Es decir, el intervalo tiene la estructura:

En la salida de Excel este intervalo ya está construido. La Tabla 4 nos muestra el resultado para nuestro ejemplo de las ventas de las sucursales según su tamaño. Verifique el resultado buscando en la Tabla de la distribución t y reconstruyendo el intervalo. Tabla 4: Salida de Excel para el ejemplo de las sucursales

Con 95% de confianza, el intervalo para la pendiente es (1,062; 1,911). No incluye al 0 ¿Por qué?

La salida también incluye el intervalo para la constante 0β , aunque para nuestro

ejemplo no tenga interés interpretarlo, puesto que sería el intervalo de ventas que se obtendrían sin superficie alguna. Sin embargo en otras aplicaciones la constante si puede tener sentido. Por ejemplo, en economía, el concepto de consumo autónomo se corresponde exactamente con el concepto de la constante en el modelo de regresión, es aquel consumo que se hace independientemente de la disponibilidad de ingresos.

b ± t S1 n-2 b1

L. I. 95% L.S. 95%Constante 475.810926 2797.01853Var. X 1.06249037 1.91077694

Page 27: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

253

7. Predicción

Al hablar de los propósitos de la regresión lineal al comienzo del capítulo, nos propo- níamos encontrar un mecanismo para mejorar nuestras estimaciones a partir de la posibilidad de estimar medias condicionales y al mismo tiempo disponer de una herramienta de previsión de valores de la variable de respuesta, o dependiente, ante valores de la variable independiente, quizás aun no asumidos o futuros.

Ambos propósitos se logran pasando por la ecuación de la recta estimada el valor de X y calculando el correspondiente valor estimado de Y. Es decir, ambos propósitos llegan al mismo valor numérico en la estimación puntual. Sin embargo, la precisión de ambas estimaciones no es igual. 7.1. Estimación de valores medios

Cuando nos proponemos estimar una media condicional la precisión es mayor. Como lo muestra la Figura 20, la precisión depende de la distancia del valor particular de X que queremos considerar a la media.

Figura 20: Estimación de una media condicional

En nuestro ejemplo de los locales. Si queremos estimar la media de ventas anuales que corresponde a un local con 2000 mts2, tenemos:

La ecuación de la recta de regresión estimada es:

�i

Y = 1636, 415 +1, 487 Xi

Sustituyendo X por 2000 y resolviendo calculamos la estimación puntual: $ 4610,45. El cálculo del intervalo de confianza, para el 95%, se presenta a continuación en la Figura 21.

Figura 21: Estimación de medias condicionales. Ejemplo

Intervalo de confianza para:

La media de Y dado un particular X i

2

22

1

( )1ˆ

( )

ii n YX n

i

i

X XY t S

nX X

=

−± +−∑Valor t de una

tabla con gl=n-2

Error estándar de estimación

La amplitud del intervalo varía de acuerdo a cuán distante de la media está el XiX

| iY X Xµ =Intervalo de confianza para:

La media de Y dado un particular X i

2

22

1

( )1ˆ

( )

ii n YX n

i

i

X XY t S

nX X

=

−± +−∑Valor t de una

tabla con gl=n-2

Error estándar de estimación

La amplitud del intervalo varía de acuerdo a cuán distante de la media está el XiX

| iY X Xµ =

Encontrar el intervalo de 95% de confianza para las ventas promedio anuales de un local de 2000 mtrs2.

2

22

1

( )1ˆ 4610.45 612.66

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + = ±−∑

Predicción Ventas Y i = 1636.415 +1.487X i = 4610.45 ($000)∧∧∧∧

X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

Intervalo de confianza para | iY X Xµ =

Encontrar el intervalo de 95% de confianza para las ventas promedio anuales de un local de 2000 mtrs2.

2

22

1

( )1ˆ 4610.45 612.66

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + = ±−∑

Predicción Ventas Y i = 1636.415 +1.487X i = 4610.45 ($000)∧∧∧∧

X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

Intervalo de confianza para | iY X Xµ =

Page 28: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

254

Es decir, en promedio, las ventas de los locales de 2000 mtrs2 estarán entre $ 3997,79 y $ 5223,11, con 95% de confianza.

7.2. Predicción de valores individuales Cuando el objetivo es predecir la respuesta de Y ante un valor particular de X, la estimación es menos precisa. Como se aprecia en la Figura 22, ahora aparece un 1 adicional en la raíz que incrementa la dispersión de la estimación. Figura 22: Intervalo de predicción

En nuestro ejemplo. Si quisiéramos predecir, con 95% de confianza, las ventas que corresponderán a un local de 2000 mtrs2 (note que no estamos interesados en el promedio de ventas), tendríamos la situación de la Figura 23. Figura 23: Intervalo de predicción para Y. Ejemplo

Es decir, que podemos predecir que a un local de 2000 mtrs2 le corresponden ventas de entre $ 2922,77 y $ 6298,13, con 95% de confianza. Si comparamos ambos intervalos apreciamos que esta última estimación es menos precisa que la anterior. La relación entre ambas se aprecia gráficamente en la

Figura 24, en el que además se observa cómo al alejarse el valor de Xi de X , la precisión del intervalo es menor.

Interva lo de pred icción para la respuesta ind iv idua l Y i ante un particu lar valor X i

La ad ic ión de 1 increm enta la am plitud de l in terva lo respecto a l de la m edia de Y

2

22

1

( )1ˆ 1

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + +−∑

Interva lo de pred icción para la respuesta ind iv idua l Y i ante un particu lar valor X i

La ad ic ión de 1 increm enta la am plitud de l in terva lo respecto a l de la m edia de Y

2

22

1

( )1ˆ 1

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + +−∑

Encontrar el intervalo de predicción del 95% para las ventas anuales de un local de 2000 mtrs2.

Predicción Vtas.Yi = 1636.415 +1.487Xi = 4610.45 ($000)∧∧∧∧

X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

2

22

1

( )1ˆ 1 4610.45 1687.68

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + + = ±−∑

Intervalo de predicción para un Y individual

Encontrar el intervalo de predicción del 95% para las ventas anuales de un local de 2000 mtrs2.

Predicción Vtas.Yi = 1636.415 +1.487Xi = 4610.45 ($000)∧∧∧∧

X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

2

22

1

( )1ˆ 1 4610.45 1687.68

( )

ii n YX n

i

i

X XY t S

nX X

=

−± + + = ±−∑

Intervalo de predicción para un Y individual

Page 29: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

255

Figura 24: Comparación de intervalos

Actividad 4: Imagine que ha sido contratado por la Dirección de Transporte de un Municipio para analizar la demanda de viajes en transporte público de sus ciudadanos. El Departamento de Estadística del Municipio ha recolectado información de demanda de viajes en 17 barrios de la ciudad. La cantidad de viajes (Q) es medida en número de tramos (viajes en un solo sentido) por semana, per-capita. El precio (P) es el precio único, un cospel, por tramo. De otras fuentes se pudo obtener información sobre ingreso per-capita disponible (Y) en cada uno de estos barrios. El análisis estadístico de los datos se presenta en el Cuadro A y la salida de regresión en el Cuadro B. a) En estos 17 barrios, ¿cuál es el número medio de viajes por semana per-

capita? b) ¿Cuál es la desviación estándar del ingreso disponible per-capita? c) Las estadísticas descriptivas que acaba de considerar, ¿proveen informa-

ción de la distribución conjunta de las variables o de sus distribuciones marginales?

d) ¿Cuál es la correlación entre cantidad y precio en esta muestra y qué significa?

e) Considere la Regresión del Cuadro B. Si la Dirección de Transporte decidiera basarse sólo en la información de tarifa y número de viajes: • ¿Cuál sería la estimación puntual del efecto de un cambio unitario en la

tarifa sobre el número esperado de viajes? (en promedio, en el conjunto de los 17 barrios).

• ¿Cuál sería la estimación puntual del efecto de un cambio en un décimo de unidad (0.10) en la tarifa sobre el número de viajes? (en promedio, en el conjunto de los 17 barrios).

• De las dos estimaciones anteriores, ¿cuál le resulta más interesante a los efectos prácticos? ¿Por qué?

f) La Liga de Consumidores Unidos del Sur dispone de la misma información que la Dirección de Transporte y la utiliza para argumentar que la deman- da de transporte público es completamente inelástica (no reacciona a cambios en el precio, esto es, β1= 0). Los vecinos no pueden evitar o sustituir el uso del transporte público. De esta manera, afirma, el aumento del 20% en la tarifa que pretende imponer el Municipio significará un incremento en los costos de las familias de un 20%. Pruebe la afirmación de la Liga utilizando los resultados del Cuadro B. Explique. Use un error tipo I de 0,05 y 0,10.

g) Basada en el Cuadro B, la Dirección de Transporte quiere una estimación del número esperado promedio de viajes si se establece una tarifa de $ 1,20. ¿Cuál sería la estimación puntual para responder a esta inquietud?

h) El análisis microeconómico nos dice que la elasticidad precio de la demanda

Y

X

Intervalo de predicción para un valor indiv idual Y i

Un X dado

Intervalo para la m edia de Y

Y i = b 0 + b 1X i∧∧∧∧

X

Y

X

Intervalo de predicción para un valor indiv idual Y i

Un X dado

Intervalo para la m edia de Y

Y i = b 0 + b 1X i∧∧∧∧

X

Page 30: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

256

indica si un e incremento en precio se traducirá en mayor recaudación o no. La elasticidad precio es el incremento porcentual en precio/incremento porcentual en cantidades y se puede aproximar dividiendo el incremento en precios/precios (delta P/P) por el incremento en cantidades/cantidades (delta Q/Q), o equivalentemente multiplicando delta Q/delta P por P/Q. Recuerde que una función de demanda lineal no tiene elasticidad constan- te y que en general se mide la elasticidad en los promedios de las varia- bles. • Usando la información del Cuadro A y del Cuadro B, ¿cuál es la elastici-

dad precio en las medias de las variables? • Si lo que se busca es aumentar los ingresos de las empresas de trans-

porte ¿es la política de aumento de tarifas adecuada? Cuadro A

VARIABLE N MEDIA DESV. EST. VARIANZA MINIMO MAXIMO

Q 17 4.4824 1.4314 2.049000 1.5000 7.1000

P 17 1.1941 0.17667 0.031213 0.8500 1.5000

Y 17 19.706 1.8572 3.449300 17.200 22.300

Matriz de correlación entre las variables - 17 observaciones

Q 1.0000 P -0.41686 1.0000 Y -0.13772 0.94678 1.0000 Q P Y

Matriz de covarianzas - 17 observaciones

Q 2.0490 P -0.10542 0.31213E-01 Y -0.36614 0.31066 3.4493

Q P Y

Cuadro B

Estadística de la regresión

R múltiple -0.41686 R cuadrado R cuad. Ajustado Error Estándar 1.3438 Observaciones 17

Coeficientes Error Est. t

Constante 8,515 2.294 3.712 Ventas -3,378 1.902 -1.776

A veces las variables X e Y no presentan una relación lineal al hacer el diagrama de dispersión. En estos casos, conviene evaluar la posibilidad de trabajar con transfor- maciones de las variables y no con los valores originales. Es decir, en lugar de trabajar con la variable X, tal vez podamos trabajar con la variable lnX, o con X2, o con la raíz cuadrada de x. Lo mismo podría hacer con Y. La plausibilidad de trabajar con estas transformaciones debe analizarse a la luz de los diagramas de dispersión que produz-

Page 31: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

257

can para los pares de observaciones X, Y que dispongamos. Si la relación logra lineali- zarse con alguna transformación: ¡adelante!, pero ojo, no debemos olvidar, al interpretar los resultados, hacer las operaciones que correspondan para volver a la variable original. Es decir, si se trabajó con el ln X, la pendiente ya no mide el cambio en Y ante un cambio en X, sino en su logaritmo natural. Bastará tomar antilogaritmo del valor estimado para b1, para que todo vuelva a la normalidad.

Actividad 5: En la página del curso en http://e-conomicas.eco.unc.edu.ar, busca en sitios la página de ejercicios interactivos de la Cátedra de Estadística II y revisa el simulador “Transformaciones”. Allí tienes la posibilidad de ver el efecto de las distintas transformaciones en varias series de datos. No dejes de hacerlo, es muy simple y te ayudará a fijar este concepto.

1. La despreocupación por la falta de cumplimiento de los supuestos subyacentes o el no saber cómo evaluar los supuestos4/.

2. No conocer las alternativas a los mínimos cuadrados si no se cumple algún supuesto.

3. Utilizar el modelo de regresión desconociendo la materia de interés en el problema que se modela.

9.1. Estrategias para evitar caer en problemas

1. Comenzar con un diagrama de dispersión de X contra Y para observar la posible relación.

2. Hacer el análisis residual para chequear los supuestos. 3. Usar un histograma, diagrama de tallo y hoja, o una figura normal plot de los

residuos para descubrir posibles desvíos de la normalidad. 4. Si hay violación de algún supuesto, intentar alguna transformación de las variables

o usar métodos alternativos (ej. Regresión curvilínea o múltiple). 5. Si no hay violación de los supuestos se puede trabajar con los tests de significa-

ción de los coeficientes y construir intervalos. 9.2. En clave de síntesis: Los pasos en el análisis de regresión

1. Hacer el diagrama de dispersión de los datos.

2. Estimar 0β y 1β .

3. Calcular los errores estimados. 4. Probar los supuestos. 5. Calcular Sxy. 6. Ver el r2 y hacer las pruebas t y F. 7. Hacer estimaciones de la media condicional y de predicciones.

El modelo de regresión múltiple plantea la generalización del modelo simple anterior, con solo una variable explicativa o independiente, al caso de dos o más. Siempre considerando que la relación es de tipo lineal. Es decir:

4/ Recomendamos ver un interesante ejemplo de no cumplimiento de los supuestos en Berenson,

Levine y Krehbiel, pág. 493.

Page 32: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

258

En la Figura 25 tenemos una representación gráfica del modelo poblacional en el caso de dos variables independientes (bivariante). Figura 25: El modelo bivariante

El correlato muestral se presenta en la Figura 26 a continuación.

Figura 26: Los conceptos maestrales en el modelo bivariante

En el modelo de regresión múltiple las pendientes (bi) miden el cambio promedio estimado en Y por cada cambio unitario en Xi manteniendo el resto de las variables constantes (ceteris paribus).

0 1 1 2 2i i i k ki iY b bX b X b X e= + + + + +L

Constante

PoblacionalPendientes Poblacionales Error

Aleatorio

Variable dependiente

(Respuesta)

Variables Independientes

(Explicativas)

1 2i i i k ki iY X X Xβ β β β ε0 1 2= + + + + +L

Residuo

Modelo bivariante

X2

Y

X1µµµµY|X = ββββ0 + ββββ1X1i + ββββ2X2i

ββββ0

Yi = ββββ0 + ββββ1X1i + ββββ2X2i + εεεεi

Plano de respuesta

(X1i,X2i)

(Y observada)

εεεεi

Plano de respuesta

Modelo bivariante

Plano de regresión Plano de regresión muestralmuestral

X2

Y

X1

b0

Yi = b0 + b1X1i + b2X2i + ei

(X1i, X2i)

(Y observada)

^

ei

Yi = b0 + b1X1i + b2X2i

Page 33: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

259

Ejemplo: Si propusiéramos un modelo para explicar el consumo de combustible en función de la temperatura y la superficie aislada:

Combustible = β0 + β1 Temp. + β2 Aislam. ε

Los estimadores por mínimos cuadrados (o máxima verosimilitud) son b0, b1, b2 y S2y/x1x2 y resultará al estimar, que b1 = -2, entonces interpretaríamos que se espera que el consumo de combustible (Y) decrezca en 2 litros, galones o la unidad de medida que se use, por cada grado que suba la temperatura (X1), manteniendo constante la superficie de aislamiento (X2). Por su parte, la constante (b0), es el valor promedio estimado de Y cuando todas las Xi son iguales a cero. No nos proponemos aquí plantear el cálculo de los estimadores, puesto que implican operaciones matriciales y quedan fuera del alcance de este curso. El cálculo en Excel con el complemento Regresión nos alcanza. La interpretación del coeficiente de determinación no se altera, pero ahora también conviene revisar el valor del r2 ajustado. En lugar de simplemente resultar del cociente de la SCR/SCT, se hace el cociente de los respectivos cuadrados medios: CMR/CMT, de esta manera se tiene en cuenta el tamaño de la muestra y el número de parámetros que se estiman. El r2 ajustado es menor que el coeficiente de determinación r2. En regresión simple no hay problemas porque siempre podemos usar solo una variable explicativa, pero en la múltiple siempre existe la tentación de agregar más variables. En ese caso el coeficiente de determinación subirá, pero el ajustado tendrá en cuenta este efecto indeseable y bajará. La prueba F varía en interpretación respecto al modelo simple. Ahora las hipótesis son:

H0 : β1 = β2 = … = βp = 0 (ausencia de dependencia lineal) H1 : al menos una βi ≠ 0 (dependencia lineal) Es decir, ahora la prueba es mucho más dura (¡todas las pendientes iguales a cero!), y será raro no rechazar la hipótesis nula. La interpretación del p-value para decidir rachazar o no rechazar la H0 es la misma que en el modelo simple. Las pruebas t para cada uno de los coeficientes estimados son exactamente iguales que en el modelo simple, solo debemos recordar que los grados de libertad son n-p-1, donde p es el número de pendientes estimadas. Se analizan a partir de la salida de Excel con el p-value como en el modelo simple.

Actividad 6: Retomemos la Actividad 4 en la que ayudábamos a la Dirección de Transporte de un Municipio a tomar decisiones. Allí consideramos inicialmente un modelo simple en el que la cantidad de viajes demandados era función del precio. Sin embargo, sabemos que los determinantes de la demanda también incluyen el ingreso disponible. Supongamos que usted sospecha que la Liga de Consumidores Unidos del Sur no tiene datos sobre ingresos y que por lo tanto no dispone de una estimación más apropiada de la demanda, que incluya adecuadamente todos sus determinantes. En el Cuadro C se incluye la variable ingreso per capita (YPC) en el modelo. ¿Qué resultado se obtiene con estas nuevas estimaciones al probar la afirma- ción de “inelasticidad al precio” de la Liga? Explique el resultado conceptual- mente.

Page 34: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

260

Cuadro C

Estadística de la regresión

R múltiple R cuadrado R cuad. Ajustado Error Estándar 0.66516 Observaciones 17

Coeficientes Error Est. t

Constante -6.4350 2.454 -2.622 Precio -22.403 2.924 -7.661 YPC 1.9116 0.2782 6.872

Otras actividades del Capítulo:

Actividad 7: Retomando la Actividad 3, le presentamos a continuación los resultados obtenidos:

gs . en cons umo

567,00 1023,50 1480,00 1936,50 2393,00

ing res o fam ilia r

446,50

850,75

1255,00

1659,25

2063,50

gs

. en

co

ns

um

o

D iagram a de dispers ión

gs . en cons umo

Análisis de regresión lineal Variable N R² R²Aj gs. en consumo 33 0,85 0,85 Coeficientes de regresión y estadísticos asociados Coef. Est. E.E. LI(95%) LS(95%) T Valor p const 76,00 87,43 -102,31 254,32 0,87 0,3914 ing. Fam. 0,78 0,06 0,66 0,90 13,41 <0,0001 Tabla de análisis de la varianza FV SC gl CM F Va lor p Modelo 4086175,39 1 4086175,39 179,86 <0 ,0001 ingreso familiar 4086175,39 1 4086175,39 179,86 <0 ,0001 Error 704280,85 31 22718,74 Total 4790456,24 32

Page 35: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

261

gs . en consumo

567,00 1023,50 1480,00 1936,50 2393,00

ingres o fam iliar

446,50

850,75

1255,00

1659,25

2063,50

gs

. en

co

ns

um

o

(i ncluye recta de a juste)

Diagrama de dispers ión

gs . en consumo

RDUO_gs. en consumo

-323,01 -164,51 -6,01 152,49 310,99

Cuantiles de una Norm al(-1,3128E-14,22009)

-323,01

-164,51

-6,01

152,49

310,99

Cu

an

tile

s o

bs

erv

ad

os

(RD

UO

_g

s. e

n c

on

su

mo

)

n= 33 r= 0,992 (RDUO_gs. en consumo)

Q-Q plot

RDUO_gs. en consumo

RDUO_gs. en consumo

518,27 874,34 1230,41 1586,49 1942,56

PRED_gs . en cons um o

-354,71

-180,36

-6,01

168,34

342,69

RD

UO

_g

s. e

n c

on

su

mo

D iagram a de dispersión

RDUO_gs. en consumo

Page 36: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

262

RDUO_gs. en consumo

567,00 1023,50 1480,00 1936,50 2393,00

ingres o fam iliar

-354,71

-180,36

-6,01

168,34

342,69

RD

UO

_g

s. e

n c

on

su

mo

Diagrama de dispersión

RDUO_gs. en consumo

567,00 1023,50 1480,00 1936,50 2393,00

ing res o fam ilia r

374,56

806,04

1237,51

1668,99

2100,47

gs

. en

co

ns

um

o

(a l 99%)

Bandas de confianza

567,00 1023,50 1480,00 1936,50 2393,00

ingres o fam iliar

80,42

656,63

1232,84

1809,06

2385,27

gs

. en

co

ns

um

o

(a l 99%)

Bandas de predicción

Page 37: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

263

A partir de estos resultados: a) Realizado el análisis de residuos, determine lo adecuado del ajuste del

modelo. b) ¿Existe una relación significativa entre gasto en consumo e ingreso familiar

a un nivel de significación del 0,05?. En caso afirmativo se desea conocer la estimación de la pendiente poblacional.

Actividad 8: Una investigación a 12 estudiantes analizó el número de horas de estudio dedicadas los dos días inmediatamente previos al examen final de Estadística y los puntos obtenidos en el mismo. Se efectuó un análisis de regresión con los siguientes resultados:

Análisis de Regresión

Multiple R 0,18 R Square -------- Adjusted R Square -0,06 Standard Error 13,91 Observations 12

Anova

Df SS MS F Significance F Regression 1 67,60 -------- -------- 0,57 Residual -------- -------- -------- Total 11 2.002,92

Coefficients Standard

Error t Stat P-value Lower

95% Upper 95%

Constante 73,14 8,52 -------- 0,00 54,17 92,12 X Variable 1 0,36 0,60 -------- 0,57 -0,99 1,71

a) Complete la tabla con los datos faltantes.

b) Determine la ecuación de la recta estimada. ¿Qué significa el valor 73,14 de la Constante?

c) ¿Qué significa el valor 13,91 de error estándar? d) Indique la relación entre las horas de estudio y el puntaje obtenido en el

examen. e) El modelo planteado, ¿explica la variabilidad en los puntajes obtenidos en

el examen? f) A un nivel de significación del 5%, ¿existe evidencia de que la pendiente es

distinta de cero? Indicar el p-value de la prueba. g) Según el modelo, ¿cuánto tiende a aumentar el puntaje obtenido en el

examen con cada hora de aumento en las horas de estudio? h) ¿Es el modelo de regresión lineal planteado adecuado para este problema? Actividad 9: Un agricultor, que viene utilizando una determinada marca de fertilizante con el objeto de incrementar su producción, desea conocer cómo el mismo influye en el rendimiento del cereal que siembra. A tal fin aplicó distintas cantidades (en kg.) del fertilizante en 8 parcelas y computó el rendimiento (en tn.) luego de la cosecha:

Page 38: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

264

Se pide:

a) Construya el diagrama de dispersión para los datos de la muestra e interprete.

b) Identifique la variable de respuesta y la variable explicativa, con el objeto de plantear un modelo de regresión adecuado a los datos.

c) Estime el promedio de rendimiento del trigo cuando la cantidad de fertilizante aplicado sea 13 kg. Interprete el resultado obtenido. ¿Puede indicar el error de estimación?

d) Calcule los CMR. e) Estime, con una confianza del 99%, la cantidad de trigo en tn. cuando se

aplican 4 kg. de fertilizante. ¿Puede indicar el error de estimación? f) A un nivel del 5% ¿se puede decir que la producción de trigo aumenta en

forma significativa ante los mayores niveles de fertilizante? g) Calcule r y r2 e interprete ambos valores. h) Si no se utilizara fertilizante, ¿a cuánto ascendería la producción de trigo?

RDUO _ tr ig o

- 1 ,0 8 - 0 ,5 6 - 0 ,0 4 0 ,4 8 1 ,0 0

C u a n ti le s d e u n a N o rm a l(6 ,9 3 8 9 E -1 8 ,0 ,4 2 6 0 1 )

- 1 ,0 8

- 0 ,5 6

- 0 ,0 4

0 ,4 8

1 ,0 0

Cu

an

tile

s o

bs

erv

ad

os

(RD

UO

_tr

igo

)

n = 8 r = 0 ,9 7 7 ( RDUO _ tr ig o )

Q -Q p lo t

RDUO _ tr ig o

RDUO_tr igo

7,75 9,95 12,15 14,36 16,56

P R E D _ trig o

-1 ,18

-0 ,61

-0 ,04

0,54

1,11

RD

UO

_tr

igo

D ia gra m a de dis pe rs ión

RDUO_tr igo

Fertilizante (en kg.)

Producción de trigo (en tn.)

2 4 5 7

10 11 12 15

8 9

11 11 12 14 15 16

Page 39: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

265

Actividad 10: El Departamento de Investigación de Mercados de una empresa desea estudiar la elasticidad precio de su producto más demandado. A partir de un releva- miento muestral realizado se ajustaron dos modelos cuyos resultados se muestran a continuación:

PRECIO

140130120110100908070

VE

NT

AS

180

160

140

120

100

80

60

40

Independent: PRECIO Dependent Mth Rsq d.f. F Sigf b0 b1 b2 VENTAS LIN ,778 18 62,97 ,000 254,665 - 1,3350 VENTAS QUA ,846 17 46,72 ,000 506,470 - 6,1582 ,0221 Dependent variable.. VENTAS Method.. LINEAR Listwise Deletion of Missing Data Multiple R ,88187 R Square ,77770 Adjusted R Square ,76535 Standard Error 16,82310 Analysis of Variance: DF Sum of Squares Mean Square Regression 1 17822,250 17822,250 Residuals 18 5094,300 283,017 F = 62,97244 Signif F = ,0000 -------------------- Variables in the Equation ---- ---------------- Variable B SE B Beta T Sig T PRECIO -1,335000 ,168231 -,881874 -7,936 ,0000 (Constant) 254,665000 18,719053 13,605 ,0000

Page 40: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

266

Fit for VENTAS with PRECIO from LINEAR

1601401201008060E

rror

for

VE

NT

AS

with

PR

EC

IO fr

om L

INE

AR

30

20

10

0

-10

-20

-30

-40

20N =

Error for VENTAS wit

40

30

20

10

0

-10

-20

-30

-40

Dependent variable.. VENTAS Method.. QUADRATI Listwise Deletion of Missing Data Multiple R ,91981 R Square ,84606 Adjusted R Square ,82795 Standard Error 14,40557 Analysis of Variance: DF Sum of Squares Mean Square Regression 2 19388,700 9694,3500 Residuals 17 3527,850 207,5206 F = 46,71512 Signif F = ,0000 -------------------- Variables in the Equation ---- ---------------- Variable B SE B Beta T Sig T PRECIO -6,158250 1,761446 -4,068016 -3,496 ,0028 PRECIO**2 ,022125 ,008053 3,196851 2,747 ,0137 (Constant) 506,469625 93,041880 5,443 ,0000

Page 41: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

267

Fit for VENTAS with PRECIO from QUADRATIC

1601401201008060

Err

or fo

r V

EN

TA

S w

ith P

RE

CIO

from

QU

AD

RA

TIC 20

10

0

-10

-20

-30

20N =

Error for VENTAS wit

30

20

10

0

-10

-20

-30

A partir del análisis de los dos modelos de ajuste definidos para estos datos:

a) Especifique la ecuación correspondiente a cada uno. b) Determine qué modelo sería el adecuado para describir las ventas de este

producto en función del precio, justificando su respuesta. Actividad 11: Una consultora que se encarga de hacer investigaciones de mercado desea desarrollar un modelo para predecir el número de entrevistas llevadas a cabo por sus encuestadores en un día dado. Cree que la experiencia del encuestador (medida en semanas de trabajo) es el principal determinante del número de entrevistas que puede llevar a cabo. De 30 encuestadores seleccionados, se registró el número de entrevistas junto con el número de semanas de experiencia. Se realizó un ajuste a los datos obteniéndose los siguientes resultados:

SEMANAS

605040302010

EN

TR

EV

IS

14

12

10

8

6

4

2

Page 42: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

268

Descriptive Statistics

7,7667 2,5418 30

35,2000 13,7725 30

ENTREVIS

SEMANAS

Mean Std. Deviation N

Model Summary b

,917a ,842 ,836 1,0292Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), SEMANASa.

Dependent Variable: ENTREVISb.

ANOVAb

157,705 1 157,705 148,873 ,000a

29,661 28 1,059

187,367 29

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), SEMANASa.

Dependent Variable: ENTREVISb.

Coefficients a

1,807 ,523 3,452 ,002 ,734 2,879

,169 ,014 ,917 12,201 ,000 ,141 ,198

(Constant)

SEMANAS

Model BStd.Error

UnstandardizedCoefficients

Beta

Stand.Coeff.

t Sig.LowerBound

UpperBound

95% ConfidenceInterval for B

Dependent Variable: ENTREVISa.

Unstandardized Predicted Value

1210864

Uns

tand

ardi

zed

Res

idua

l

3

2

1

0

-1

-2

Page 43: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

269

Normal Q-Q Plot of Unstandardized Residual

Observed Value

3210-1-2-3

Exp

ecte

d N

orm

al V

alue

3

2

1

0

-1

-2

-3

a) ¿Qué tipo de ajuste se realizó a los datos? Indique la expresión matemática del modelo interpretando los coeficientes.

b) Prediga el número promedio de entrevistas efectuadas por un encuestador que tiene 30 semanas de experiencia.

c) A un nivel del 5%, ¿existe evidencia de que haya una relación lineal entre el tiempo de experiencia en semanas y el número de entrevistas llevadas a cabo?

d) ¿Qué porcentaje de la variabilidad en el número de entrevistas se explica por la cantidad de semanas de experiencia?

e) Determine el grado de asociación lineal entre ambas variables. Actividad 12: Un estudio a 10 personas observó su ingreso mensual (en pesos) y la cuenta de teléfono bimestral. Se obtuvieron los siguientes datos y luego se efectuó un análisis de regresión: Ingreso mensual (en pesos)

160

450

360

320

300

130

410

150

360

400

Gasto bimestral en teléfono (en pesos)

35

142

175

70

95

26

160

42

79

97

Análisis de Regresión Multiple R -------- R Square 0,69 Adjusted R Square 0,65 Standard Error 30,93 Observations -------- ANOVA Df SS MS F Significance F Regression 1 -------- -------- -------- 0,0029 Residual -------- 7.655,06 -------- Total -------- 24.804,90 Coefficients Standard

Error T Stat P-value Lower

95% Upper 95%

Intercept -21,40 -------- -0,75 0,47 -87,20 44,41 X Variable 1 0,37 0,09 -------- 0,00 0,17 0,58

a) Completar las tablas con los datos faltantes.

b) Escribir la ecuación del modelo e interpretar sus coeficientes. Graficarla sobre el diagrama de dispersión de los datos.

Page 44: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

270

c) Indique e interprete el valor del coeficiente de correlación entre el ingreso mensual y el gasto en teléfono.

d) ¿Cómo interpreta r2 ? e) ¿Existe evidencia que la pendiente de la línea es diferente de cero, a un

nivel de significación del 5%?. ¿Y a un nivel del 1%? f) Según el modelo, ¿cuánto tiende a aumentar el gasto en teléfono por cada

diez pesos de aumento en el ingreso mensual? g) ¿Es el modelo de regresión lineal adecuado para este problema? Actividad 13: Una organización de consumidores desea desarrollar un modelo para predecir el rendimiento de combustible (en km/litro) en función de la velocidad (en km/hora) que adquiere el automóvil cuando circula en autopista. Se diseña un experimento en el que un automóvil de prueba se maneja a velocidades que van de 16 km. a 120 km. por hora. El procesamiento de la información de este experimento es el siguiente:

VEL

140120100806040200

KM

40

30

20

10

0

KM

VEL

140120100806040200

40

30

20

10

0

Observed

Linear

Quadratic

Page 45: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

271

Dependent variable.. KM Method.. LINEAR Listwise Deletion of Missing Data Multiple R ,14278 R Square ,02039 Adjusted R Square -,01729 Standard Error 9,06525 Analysis of Variance: DF Sum of Squares Mean Square Regression 1 44,4664 44,466412 Residuals 26 2136,6499 82,178843 F = ,54109 Signif F = ,4686 -------------------- Variables in the Equation ---- ---------------- Variable B SE B Beta T Sig T VEL ,039077 ,053123 ,142783 ,736 ,4686 (Constant) 20,394198 3,998029 5,101 ,0000 Dependent variable.. KM Method.. QUADRATI Listwise Deletion of Missing Data Multiple R ,95855 R Square ,91881 Adjusted R Square ,91231 Standard Error 2,66147 Analysis of Variance: DF Sum of Squares Mean Square Regression 2 2004,0312 1002,0156 Residuals 25 177,0851 7,0834 F = 141,45961 Signif F = ,0000 -------------------- Variables in the Equation ---- ---------------- Variable B SE B Beta T Sig T

VEL 1,27169 ,075732 4,646637 16,792 ,0000

VEL**2 -,009063 ,000545 -4,602513 -16,633 ,0000

(Constant) -12,088879 2,278575 5,305 ,0000

Page 46: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

272

Normal Q-Q Plot of Error - QUADRATIC

Observed Value

6420-2-4-6

Exp

ecte

d N

orm

al V

alue

6

4

2

0

-2

-4

-6

Fit for KM with VEL from QUADRATIC

403020100

Err

or fo

r K

M w

ith V

EL

from

QU

AD

RA

TIC

6

4

2

0

-2

-4

-6

A partir del análisis de los dos modelos de ajuste definidos para estos datos: a) Especifique la ecuación correspondiente a cada uno. ¿Tuvo sentido ajustar

un modelo lineal? b) Determine qué modelo sería el adecuado para describir el rendimiento del

combustible a partir de la velocidad del automóvil, justificando su respuesta.

Actividad 14: Analice las siguientes gráficas de residuos. Indique si los patrones de compor- tamiento que observa se deben a un modelo de ajuste inadecuado o a la violación de algún supuesto del modelo de regresión planteado.

Page 47: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

273

0,05 5,27 10,50 15,72 20,95

X

-1,46

-0,45

0,56

1,56

2,57

resi

duo

Gráfica de residuos

0,05 5,27 10,50 15,72 20,95

X

-1,46

-0,45

0,56

1,56

2,57

resi

duo

Gráfica de residuos

0,55 3,02 5,50 7,97 10,45

día

-5,50

-2,75

0,00

2,75

5,50

resi

duo

Gráfica de residuos

Page 48: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

274

475,09 612,59 750,09 887,59 1025,09

predicho

-205,94

-118,77

-31,59

55,58

142,76

resi

duo

Gráfica de residuos

Actividad 15: Responde las siguientes aseveraciones con Verdadero o Falso. a) Un coeficiente de correlación cercano a 1 indica que un aumento en la

variable independiente siempre causa un aumento de 1 en la variable dependiente.

b) Una pendiente igual a 58,0 es significativamente distinta de cero. c) Un coeficiente de determinación cerca de cero indica que la regresión lineal

no es un buen modelo para la dependencia estadística de Y en X. d) Un coeficiente de determinación cerca de uno indica que la X causa a Y. e) Si b < 0 entonces a medida que los valores de X aumentan, los valores de

la variable Y siempre disminuyen. f) Un coeficiente de correlación cercano a -1 indica que un aumento en la

variable independiente está asociado a una tendencia creciente en el valor de la variable dependiente.

g) Se estima un modelo de regresión y obtenemos que:

Y = 0,1 X + 4 Y: Número de años en terminar un bachillerato nocturno X: Número de horas que trabaja a la semana

h) entonces podemos decir que por cada 10 horas que un estudiante trabaja a

la semana, el número de años en que tarda en terminar el bachillerato aumenta en 0,1 años.

Actividad 16: Una compañía de productos de consumo masivo desea medir la efectividad de los diferentes medios de propaganda en la promoción de sus productos. En especial, estudiar el efecto de dos tipos de medios de publicidad: en radio y televisión y en periódicos. Se seleccionó una muestra de 22 ciudades, cuya población es aproximadamente igual, para realizar un estudio durante un período de prueba de un mes. A cada ciudad se le asignó un nivel de gastos especifico para publicidad en radio y televisión y para publicidad en periódicos, medido en miles de pesos. A partir de los resultados del procesamiento efectuado a los datos se pide: a) Establezca la ecuación de regresión lineal múltiple. b) Interprete el significado de las pendientes en este problema. c) Prediga las ventas de productos cuando lo gastado en publicidad en radio y

TV es de $ 50.000 y los gastado en publicidad en periódicos es de $ 30.000.

Page 49: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

275

d) Interprete el coeficiente r2. e) ¿Existe una relación significativa entre el nivel de ventas de los productos

de consumo y las dos variables explicativas a un nivel de significación del 0,01?

f) Con una confianza del 95 % se desea conocer la pendiente poblacional entre el nivel de ventas y los gastos de publicidad en radio y TV.

Análisis de regresión lineal Variable N R² R²Aj ventas 22 0,81 0,79 Coeficientes de regresión y estadísticos asociados Coef. Est. E.E. LI(95%) LS(95%) T Valor p const 156,43 126,76 -108,88 421,74 1, 23 0,2322 radio y tv 13,08 1,76 9,40 16,76 7,43 <0,0001 periódicos 16,80 2,96 10,59 23,00 5,67 <0,0001 Tabla de análisis de la varianza FV SC gl CM F Valor p Modelo 2028032,69 2 1014016,34 40,16 <0,0001 radio y tv 1395773,24 1 1395773,24 55,28 <0,0001 periódicos 811093,02 1 811093,02 32,12 <0,0001 Error 479759,90 19 25250,52 Total 2507792,59 21

763,79 1020,48 1277,18 1533,87 1790,56

PRED_ventas

-306,78

-150,28

6,21

162,71

319,21

RD

UO

_ven

tas

Diagrama de dispersión

Page 50: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

276

-2 10 23 35 47

periódicos

-306,78

-150,28

6,21

162,71

319,21

RD

UO

_ven

tas

Diagrama de dispersión

-3,50 15,75 35,00 54,25 73,50

radio y tv

-306,78

-150,28

6,21

162,71

319,21

RD

UO

_ven

tas

Diagrama de dispersión

Actividad 17: El siguiente procesamiento corresponde a un análisis de regresión efectuado sobre un conjunto de empleados a fin de determinar qué variables influyen en la distribución de sueldos que paga una compañía. Se consideraron tres variables independientes: horas semanales trabajadas, años de educación superior y años de antigüedad en la empresa. En base a los resultados obtenidos: a) Especifique el modelo múltiple utilizado. b) Analice la información disponible e indique si todas las variables regresoras

consideradas deben incluirse en el modelo.

Model Summary b

,829a ,687 ,669 1981,7196Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), HORAS, EDUCAC, ANTIGa.

Dependent Variable: SALARIOb.

Page 51: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

277

ANOVAb

440613986,99 3 146871329,0 37,398 ,000a

200287831,19 51 3927212,376

640901818,18 54

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), HORAS, EDUCAC, ANTIGa.

Dependent Variable: SALARIOb.

Coefficients a

609,247 15237,891 ,040 ,968

888,082 98,069 9,056 ,000

1672,181 252,114 6,633 ,000

596,089 363,925 1,638 ,108

(Constant)

ANTIG

EDUCAC

HORAS

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: SALARIOa.

Actividad 18: Suponga que en el ejercicio referido al estudio del rendimiento de combustible se plantea un modelo múltiple en el que las variables independientes son: caballos de fuerza del motor y peso del automóvil. A partir de los resultados obtenidos se pide:

a) Establezca la ecuación de regresión lineal múltiple. b) Interprete el significado de las pendientes en este problema. c) Prediga el rendimiento promedio de un vehículo que tiene 60 caballos de

fuerza y pesa 1100 kg. d) Interprete el coeficiente r2. e) ¿Existe una relación significativa entre el rendimiento del combustible y las

dos variables independientes a un nivel de significación del 0,01? f) Basándose en estos resultados, ¿deben incluirse ambas variables en el

modelo?

Estadísticas de la regresiónCoeficiente de correlación múltiple 0,8657Coeficiente de determinación R^2 0,7494R^2 ajustado 0,7388Error típico 1,485Observaciones 50

ANÁLISIS DE VARIANZA

G L S C C M F Valor crítico de FRegresión 2 309,978 154,989 70,281 7,50524E-15Residuos 47 103,648 2,205Total 49 413,625

Coef. Error típico t Prob. Inf. 95% Sup. 95%Intercepción 20,678 0,945 21,878 2,8E-26 18,777 22,579caballos de fuerza -0,042 0,012 -3,600 0,00076 -0,065 -0,018peso -0,005 0,001 -4,903 1,2E-05 -0,008 -0,003

Page 52: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

278

Anexo

Propiedades de los estimadores en el modelo de regresión lineal simple. Demostración. Partiendo de la fórmula:

1 2

( )( )ˆ( )

i i

i

x x y y

x xβ ∑ − −=

∑ −

------------------------------------------------------------------------------------------------- Tener en cuenta que:

( )( ) ( ) ( ) ( ) 0i i i i i i ix x y y x x y x x x x y∑ − − = ∑ − −∑ − = ∑ − −

Llamando 2

( )

( )

ii

i

x xw

x x

−=∑ −

Se observa que:

2

2

10 1

( )i i i i

i

w w x wx x

∑ = ∑ = ∑ =∑ −

------------------------------------------------------------------------------------------------- Luego:

1 2

( )( )ˆ( )

i ii i

i

x x y yw y

x xβ ∑ − −= = ∑

∑ −

Por ser combinación lineal de variables normales, tiene distribución normal. A continuación se calcula su esperanza y su varianza:

1 1

0 1 0 1 1

ˆ( ) ( ) ( )

.0 1

i i i i

i i i

E w E y w x

w w x

β β

β β β β β

= ∑ = ∑ + =

= ∑ + ∑ = + =

(Insesgado) y

22

1 2ˆ( ) ( )

( )i i

i

V w V yx x

σβ = ∑ =∑ −

Luego:

2

1 1 2ˆ ( , )

( )i

Nx x

σβ β∑ −

Ahora:

0 1

1ˆ ˆ ( )ii i i i

yy x x w y xw y

n nβ β ∑= − = − ∑ = ∑ −

Page 53: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

279

------------------------------------------------------------------------------------------------- Por ser combinación lineal de variables normales, tiene distribución normal. Además:

0 1 1

0 1 1 0 1 1 0

ˆ ˆ( ) ( ) ( ( )

1( )

i

i

yE E y x E xE

n

x x x xn

β β β

β β β β β β β

∑= − = − =

= ∑ + − = + − =

(Insesgado) Luego:

2

2

0 0 2

1ˆ ( , ( ))( )i

xN

n x xβ β σ +

∑ −�

Con respecto al estimador de la varianza de la regresión: Por el supuesto de distribución normal.

2 22

22 2

( 2) xy in

n S e χσ σ −

− ∑= �

Luego, los estadísticos que se incluyen a continuación, tienen distribución 2nt −5/:

1 1

2

2

1 12

2

22

ˆ

ˆ( )

1( 2)

( )

2

i

n

xyxy

i

x xt

n SS

x x

n

β βσ

β β

σ

∑ − −=−

∑ −−

y de la misma manera:

0 02

2

2

ˆ

1

( )

n

xy

i

tx

Sn x x

β β−

+∑ −

5/ Se puede demostrar que los estadísticos del numerador y denominador son independientes.

Page 54: Capitulo V heckmann - UNC

Cátedra I Estadística II Autor I Gerardo Heckmann

280