Upload
others
View
18
Download
0
Embed Size (px)
Citation preview
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
1
VII – CORRELACIÓN Y REGRESIÓN En este y los capítulos siguientes examinaremos métodos para relaciónar variables unas a
otras. Este capítulo trata el concepto de correlación, una medida de la fortaleza de la
relación entre dos variables, y el siguiente capítulo describe un método para modelar esta
relación.
7.1 Diagramas de Dispersión
Supongamos que los datos se encuentran disponibles en forma de pares
(xi, yi), i= 1, 2,...n
Un ejemplo de tales datos es el siguiente; representa nivel de motivación y resultados de la
unidad de negocio
La primera acción que realizamos cuando tratamos con datos es hacer un diagrama de
dispersión (scatter diagram) y realizar una inspección visual. El diagrama nos da una
MOTIVACION VS RESULTADOS
4000
4500
5000
5500
6000
6500
0 500 1000 1500 2000 2500 3000
NIVEL DE MOTIVACION
RE
SU
LT
AD
OS
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
2
impresión de una relación positiva entre la motivación de los empleados y los resultados de
la unidad de negocio. Se puede ver que a mayor motivación, mayores resultados, no
obstante la relación no es exactamente lineal; los puntos no yacen sobre una línea recta.
Se dice que datos que muestran una forma “hacia arriba” se encuentran correlacionados
positivamente, mientras que “hacia abajo” seran correlacionados negativamente, y sin
relación a la vista, no tendrán correlación alguna.
Ejemplos:
Variables Correlación
Altura y peso Positiva
Tiempo bueno y malo negativa
Horas de estudio y notas positiva
Gasto en publicidad/% de mercado positiva
7.2 Relaciónes causales y no causales
Cuando dos variables se encuentran correlacionadas, una pregunta interesante que surge es
en que medida la correlación indica una relación causal. En el ejemplo anterior, es natural
deducir que las horas de estudio son el causante de la nota de exámen, debido a que mas
horas resulta en mayor análisis y mejor preparación para resolver situaciones, que redunda
en una nota mayor; en este caso la relación es causa. Pero consideremos helados y cremas
de protección solar; las dos se incrementan o disminuyen al mismo tiempo generalmente,
pero no existe una relación causal entre estas variables; no es la venta de helados lo que
provoca un incremento en las ventas de cremas de protección solar; ambas variables
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
3
responden al tiempo cálido (grados centigrados de temperatura), lo que se ubicaría como
variable causal en este caso.
Debe quedar en claro de esta situación que se debe tener cuidado en la interpretación de
relaciones correlacionadas.
7.3 Covarianza Poblacional y correlación
Con estos conceptos estamos en condiciones de definir parámetros de la distribución
poblaciónal, que representan la fuerza y dirección de la correlación entre las variables X e
Y.
La covarianza poblacional se define como
γ = E{ (X - µx) (Y - µy)} = E (XY) – E(X) E(Y)
Notese el paralelo con la definición de varianza, y si X = Y, la covarianza se transforma en
la varianza de X.
El coeficiente de correlación se define como
ρρ = γγ / σσx σσy,
entonces
ρρ = { E(XY) – E(X) E(Y) } / √√{ Var(X)* Var(Y)}
Puede ser demostrado que el coeficiente de correlación debe encontrarse en el rango de –1
a +1. Un ρ cercano a 1 representa una fuerte correlación positiva y uno negativo cerca de –
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
4
1 indica fuerte correlación negativa; cerca de cero sugiere que no existe relación entre las
variables (no estan relacionadas linealmente).
Una palabra de advertencia aquí; no obstante un coeficiente de correlación que difiere
bastante de cero sugiere fuerte asociación, un coeficiente cerca de cero no implica falta de
asociación. El nombre completo del parámetro es “coeficiente de correlación lineal”que
hace hincapie en el hecho que solo mide relaciones lineales.
Estamos ahora en condiciónes de dar una formula general para la varianza de la suma de
dos variables aleatorias. Esta es
Var (aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X, Y)
Casos particulares importantes son
Var (X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
Var (X - Y) = Var(X) + Var(Y) – 2 Cov(X, Y)
Procedemos ahora a estimar los equivalentes muestrales de la covarianza y del coeficiente
de correlación que nos proveen de importantes estimadores de estos parámetros; los
estadísticos muestrales poseen similares propiedades a su contraparte poblacional.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
5
7.4 Estadísticos de base
Procedemos ahora a describir un método para la representación cuantitativa de la
correlación. Empezamos por definir los principales estadísticos sobre los que correlación y
regresión estan basados. Todos los cálculos involucrados en correlaciónes y regresiónes
pueden ser expresados en terminos de estos. Existen tres elementos de información que un
usuario necesita; estos son:
El tamaño muestral n
La media muestral de los datos x mx = (x1 + x2 + ....xn) /n
La media muestral de los datos y my = (y1 + y2 + ....yn) /n
La suma corregida de cuadrados de los x’s Sxx = Σ (xi - mx)2
La suma corregida de cuadrados de los y’s Syy = Σ (yi – my)2
La suma corregida del producto cruzado Sxy = Σ {(xi – mx) (yi – my)}
Cálculos alternativos utiles son
Sxx = Σ (xi2) – n *mx
2
Syy = Σ (yi2) – n *my
2
Sxy = Σ (xi yi ) – n *mx my
Estas fórmulas son mas fáciles de calcular cuando se necesitan cálculos rapidos “a mano”.
No osbtante existen muchas funciónes de calculadoras y softwares que realizan estos y
muchos mas cálculos en forma programada.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
6
7.5 El Coeficiente de Correlación Muestral
Ahora describimos una medida formal de la fortaleza de asociación entre dos variables
aleatorias.
Consideremos corregir la primera observación de x e y por sus medias muestrales;
x1 – mx y y1 – my
Si x e y se mueven en direcciones similares (una relación positiva) entonces cuando x esta
por encima de su media, y también lo estará, y cuando x se encuentra por debajo, asi lo hará
y. En ambos casos, el producto de los valores corregidos sera positivo, y un argumento
similar muestra que el producto sera siempre negativo sin las variables se mueven en
sentido contrario. Como medida de esta relación computamos por consiguiente “la suma
corregida del producto cruzado” :-
Sxy = Σ (xi – mx) (yi – my)
El tamaño de esta cantidad dependera del número de datos utilizados, para evitar esto y
obtener una medida susceptible de comparación, dividimos por (n – 1) obteniendo asi la
covarianza muestral de x e y. Notese que dividimos por n- 1 en lugar de n al igual que en la
estimación de la varianza; de alli que la covarianza muestral sea un estimador insesgado de
la covarianza poblacional.
De aquí que la formula para la covarianza muestral es
cov = Sxy/ (n- 1)
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
7
Esta es una buena medida de la relación de x a y, pero adolece del defecto que su valor
depende de la unidad de medida que se haya escogido. Si, por ejemplo, estuviesemos
midiendo la relación entre peso y altura, obtendríamos una alta covarianza si la unidad de
medida fuesen miligramos y milimetros, mientras que de ser los valores medidos en millas
y toneladas, la covarianza sera baja. Para eliminar esta dependencia de la unidad de medida,
dividimos la covarianza por el producto de las desviaciones estandar muestrales. El
resultado es el estaditico denominado COEFICIENTE DE CORRELACIÓN
MUESTRAL de x en y y este estadístico es completamente independiente de la unidad de
medida empleada. De alli tendremos:
Correlación = c /(sx * sy), que es equivalente a
R = Sxy / √√(Sxx * Syy)
De manera tal que el coeficiente puede ser computado directamente de los valores S.
7.6 Prueba para la Correlación
Existe una prueba formal simple para testear la existencia de una no-cero correlación entre
dos variables, la cual es descripta y demostrada.
Si ρ representa el coeficiente de correlación de la población entre x e y, entonces deseamos
testear:-
H0: ρ = 0 v H1: ρ ≠ 0,
donde el estadístico de prueba sera
r * √(n –2)/ √(1 – r2), y la distribución bajo la hipotesis nula sera tn-2
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
8
REGRESIÓN
7.7 Introducción
Debemos esperar solo revisar lo que es un tópico muy grande en Análisis Estadístico, y
diversos libros y cursos han sido dedicados exclusivamente a Análisis de Regresión. En
este capítulo nos concentraremos básicamente en el modelo basico, Regresión Simple
Lineal, y no obstante el análisis del modelo puede ser realizado con una calculadora de
mano, para regresiones mas poderosas es aconsejable hacer uso de softwares especificos
debido a la complejidad de los cálculos involucrados, y aprovechar plenamente las
deducciones que un análisis como este le pueder otorgar al problema.
En general, el modelo de regresión relacióna el valor de un set de variables de interes y,
llamadas variables de “respuesta”, al set de variables x, llamados también variables
explanatorias o “regresor”. Puede haber un numero de razones para querer establecer una
relación tal, a saber:
(i) Encontrar e interpretar constantes desconocidas en una relación conocida
(ii) Entender las razones de una relación – es causal?
(iii) Predecir las variables de respuesta dados ciertos valores de los regresores.
Objetivos a ser alcanzados en un análisis de regresión son entonces:
(i) estimadores de los parámetros desconocidos
(ii) estimadores de las variaciónes del modelo postulado.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
9
(iii) estimadores de la precisión de nuestros estimadores.
(iv) algunos métodos de prueba de la adecuación de nuestro modelo, y sobre la
relevancia de las variables explanatorias.
Modelos
Existen diferentes vías alternativas de modelar las relaciones entre variables. Al relacionar
una variable y a una variable x, podemos encontrar los siguientes modelos posibles:
Modelo de Regresión Lineal Simple y = a + bx
Regresión cuadratica y = a + bx + cx2
Regresión Cubica y = a + bx + cx2 + dx3
Modelo de Potencia y = abx
Modelos similares pueden ser construidos para mas de una variable regresora, y esto es
usualmente conocido como regresión multiple.
Modelos de potencias (crecimiento) pueden generalmente ser reducidos a una foma lineal a
través de tomar logaritmos; por ejemplo, el modelo de potencia anterior se reduce a :-
y = A + Bx donde A = ln a, y B = lnb
Entonces, como escoger un modelo? En el caso de dos variables, la forma de la curva en un
diagrama de dispersión sugerirá generalmente un modelo. Para mas de dos variables,
podremos llegar a sugerir la forma de una relación a través de nuestra experiencia y el
conocimiento de la interacción de dos variables. Mas generalmente, sin embargo,
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
10
confiamos en datos para ajustar nuestro modelo, y debemos escoger un modelo basado en
el ajuste de los datos.
Una vista efectiva pero quizá sobresimplificada del procedimiento es el siguiente:-
Si tenemos n datos, entonces tendremos n valores para nuestra variable de interes, siendo
y1, y2, ..yn.
La volatilidad inicial de y es representada por su varianza muestral, a saber,
sy2 = Σ (y – my)
2 / (n –1), donde my es la media muestral
El proposito de ajustar el modelo es predecir y a partir de las variables explanatorias, y los
méritos relativos de los modelos pueden ser evaluados a través de la comparación de las
varianzas pronosticadas. Por ejemplo, sean u1, u2, ...un los predictores de y1, y2, ..yn una vez
que el modelo U ha sido ajustado a los datos. Entonces los “errores” del modelo serán
y1 - u1, y2 - u2, ..yn - un
para “buenos” modelos estos seran pequeños. Evaluamos su valor total a través del cálculo
de la varianza (la Varianza Residual) como
su2 = Σ (yi – ui)
2 / (n – p),
donde p es el número de parámetros del modelo que deben ser estimados usando los datos.
Similarmente, para un modelo alternativo V, tendremos la varianza residual
sv2 = Σ (yi – vi)
2 / (n – q),
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
11
donde q es el numero de estimadores que se utilizan al ajustar el modelo V.
El modelo U sera preferido a V si su2 < sv
2
Todos los modelos anteriores pueden ser ajustados y comparados de esta manera.
Esto nos posibilita el elegir entre modelos, pero no nos dice nada acerca de si el modelo es
bueno o no. Esto puede ser evaluado a través de considerar el porcentaje de reducción en
varianza que es alcanzado por el ajuste del modelo.
Para el modelo U es
100 (sy2 – su
2) / sy2
Si este es un porcentaje alto, entonces el modelo es bueno, y viceversa. Esta cantidad es
calculada por softwares, y es conocida como “factor R2 ajustado”. Una versión cruda, el R2,
tiene una interpretación similar, y es igual a
100 * (SCC para y – SC de residuos luego de ajustar el modelo)
SCC para y
Muchos ajustes de modelos, comparaciones y elecciones (incluyendo el modelo de series
de tiempo) estan basados en estas ideas. Ahora daremos una explicación mas detallada de la
estimación y ajuste de modelos para la versión de la regresión lineal simple; debe ser tenido
en cuenta que los conceptos generales de detallados aquí son aplicados a muchos modelos
mas complicados.
Empezamos por tener un vistazo detallado al Modelo de Regresión Lineal Simple; simple
significa que el modelo contiene una sola variable explicativa, lineal significa que la
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
12
atención se centra en una relación lineal en los coeficientes. Despues de analizar el modelo
con cierto detalle, sumarizaremos propiedades similares para el modelo de regresión
multiple.
7.8 El Modelo de Regresión Lineal Simple
Este es el modelo estadístico en el que se basa nuestro análisis. Expresa la forma en la que
creemos que los datos han sido generados.
Suponemos que existe una verdadera relación lineal entre las varaibles x e y para la
población de la forma:
y = αα + ββx
donde α y β son parámetros fijos de la población, pero desconocidos.
Si esto fuese cierto, entonces los puntos (x, y) yacerían exactamente en la linea recta, y
sabemos que esto no es asi. Entonces extendemos nuestro modelo a:
y = αα + ββx + εε
donde ε es una perturbación aleatoria de la línea. En otras palabras, cada observación casi
yace en la línea, pero “salta”hacia fuera de acuerdo a la perturbación ε.
Las desviaciónes aleatorias ε1, ε2, ...... εn correspondiente a los puntos de los datos se
suponen inicialmente normalmente distribuidos e independientes de la forma :-
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
13
ε ~ N {0, σ2}
Esto describe totalmente el modelo de regresión simple.
Notese que existen tres parámetros poblaciónales desconocidos en este modelo, a saber, los
parámetros lineales α y β, y el error estándar σ. Consideramos a continuación métodos de
estimación de estos parámetros.
7.9 Estimación de Parámetros – Método de Mínimos Cuadrados
En el capítulo 6 describimos brevemente el poderoso método de Mínimos Cuadrados para
al construcción de estimadores puntuales. Basicamente puede ser descripto de la siguiente
forma:
Si tenemos un set de datos y1, y2,.... yn tal que la media de los y’s es una función de
algunos parámetros,
θ = (θ1, θ2...), de manera que
E (y) = f(θ),
Entonces minimizando la función S{ y – f(θ)}2 con respecto a θ obtenemos valores para θ;
estos son los estimadores de mínimos cuadrados. Puede ser demostrado que si f es una
función lineal de los θ’s, entonces los estimadores generados por Mínimos Cuadrados
tendran óptimas propiedades, a saber seran los mejores estimadores lineales insesgados.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
14
Siguiendo el Método de Mínimos Cuadrados consideramos
ΣΣ { y – (αα + ββx)}2
y dado que los valores y’s son conocidos, la función depende unicamente de α y β.
Minimizamos la función a través de la diferenciación parcial con respecto a α y β,
igualamos a cero, obtenemos las ecuaciónes
ΣΣ { y – (αα + ββx)} = 0
ΣΣ [x { y – (αα + ββx)}] = 0
y resolviendo esto para α y β obtenemos los estimadores
b = Sxy / Sxx
a = my – b* mx
de forma que la linea recta que mejor ajusta los datos es y = a + bx
Solo queda el problema de estimar σ2. Para hacer esto, notamos que
σσ2 = Var (εε) = Var { y - (αα + ββx)}
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
15
de forma que seria natural estimar σ2 a través de Σ{ y - (α + βx)}2 / n, pero no es posible
dado que los parámetros α y β son desconocidos. En su lugar reemplazamos sus
estimadores a y b, pero al hacerlo perdemos dos grados de libertad debido a que
necesitamos estimar dos estimadores. Entonces estimamos σ2 por:-
s2 = ΣΣ { y – (a + bx) }2 / (n-2)
Este es un estimador bien definido y puede ser calculado a través de los datos, pero
calcularlo en este formato sería muy tedioso. Aplicación de algebra nos da un formato
alternativo para s2 que es mucho mas fácil de usar.
Consideremos la suma de cuadrados minimizada Σ { y – (a + bx) }2 , sustituyendo a = my –
b * mx nos da
ΣΣ { y – my + b *( x - mx ) }2 = Syy + b2 * Sxx – 2*b* Sxy
y sustituyendo para b = Sxy / Sxx nos da la suma de cuadrados minimizada como:-
Syy - Sxy2 /Sxx,
o equivalentemente,
Syy – b2 * Sxx.
Esto es conocido como la descomposición de la suma de cuadrados.
Entonces la mejor formula para la estimación de σ2 es,
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
16
s2 = { Syy - Sxy2 /Sxx} / (n-2)
Syy representa la volatilidad original de la variable y, que es lo que estamos tratando de
explicar,
Sxy2 /Sxx representa el monto de volatilidad que puede ser explicada utilizando los
x’s.
Syy - Sxy2 /Sxx representa el monto de volatilidad que no estamos en condiciónes de explicar
con la variable x, atribuida a los errores, la volatilidad RESIDUAL.
Una vía conveniente y convencional de presentar estos resultados es a través de una tabla
conocida como Tabla de Análisis de Varianza para la Regresión (ANOVA).
Tiene el formato
Fuente de la variación df Suma de Cuadrados Cuadrado Medio
Por la Regresión 1 Sxy / Sxx sr2
Residuos n-2 diferencia s2
Total n –1 SYY
Nota: La columna “Cuadrado medio” es siempre igual a la “Suma de Cuadrados” dividido
por los grados de libertad. Hay solo un grado de libertad para la regresión debido a que solo
consideramos una variable explicativa, x.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
17
Un método popular de medir el ajuste del modelo es el expresarlo el % de la volatilidad
total que es explicada por el modelo. Este es el estadístico R2 que puede ser visto como:-
R2 = 100 * Sxy2 /Sxx / Syy %
Si este porcentaje es alto, entonces el modelo “calza” bien; seria 100% si los datos se
encontrarán exactamente sobre la línea recta.
Notese que R2 = 100* r2 donde r es el coeficiente de correlación muestral; pero esto es
cierto unicamente para el caso de regresiónes lineales simples –i.e. de un solo regresor.
Para regresiónes multiples no se verifica.
También podemos llevar a cabo una prueba simple utilizando esta tabla, y esto es descripto
en la sección 13.5.
7.10 Prueba General de efecto de una variable
La Distribución F
En análisis de regresión, y en ajuste y calibración de modelos en general, se utiliza una
tabla standarizada y tabulada que juega un rol muy importante, la distribución F.
Si tenemos dos estimadores muestrales de la varianza poblaciónal, sx2, y sy
2 con grados de
libertad de νx , y νy entonces el ratio: -
sx2 / sy
2 se distribuye como F en (νx , νy) grados de libertad.
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
18
νx son llamados grados de libertad superiores; y νy grados de libertad inferiores. Todas las
tablas estadísticas contienen tablas F; es una variable positiva, con una distribución con
sesgo hacia la derecha (como la chi – cuadrada). Puede ser demostrado que cuando los
grados de libertad superiores son = 1, entonces la variable F tiene la misma distribución que
la variable t de Student al cuadrado. Esto es:-
F1,νν = (tνν)2
Prueba del efecto de una variable
Asi como la Tabla de Análisis de Varianza nos da los estimadores s2 de σ2, y una medida
de la bondad del ajuste, el R2, también la tabla nos da un rápida y fácil prueba de
significancia del modelo – i.e. si el modelo contribuye a la explicación de la volatilidad de
la variable y. De momento que estamos tratando únicamente con regresión de una variable,
esto es equivalente a testear el efecto de la variable x, y entonces es equivalente a testear en
que medida β = 0 o no. Para una situación de regresión multiple, este test puede ser
utilizado pata testear el efecto conjunto de todas las variables, y aun el efecto de un grupo
de variables; es, por consiguiente, una prueba de gran valor para la selección del modelo.
La Prueba se desarrolla de la siguiente manera:
Para probar H0 = la variable x no produce efectos (β = 0).
v
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
19
H1 = la variable x tiene efectos en y.
Computamos el estadístico de prueba como el ratio de los errores medios al cuadrado de la
variable x (sr2) a la varianza residual (s2). Estamos computando en que medida las varianzas
muestrales son diferentes o no.
sr2 / s2 , notese que esto es igual a (Sxy
2 /Sxx) / s2,
a los efectos de dessarrollar la prueba, comparamos este valor con el correspondiente de la
tabla F con los correspondientes grados de libertad (νx , νy).
Puede ser mostrado que si H0 es cierta (la variable x no tiene efecto en y) entonces sr2 es un
estimador independiente de s2 en cuyo caso el estadístico de prueba sigue una distribución
F; pero si H1 es cierta (la variable x tiene efectos sobre y) el estadístico de prueba se
distribuye siempre por encima de F, en el sentido que E(sr2) > s2. Por esta razon, la prueba
correcta para H0 es siempre una prueba de una cola.
7.11 Propiedades Muestrales
Se puede mostrar fácilmente que a, b, y s2 son estimadores insesgados de α, β, y σ2
respectivamente, y sus distribuciones muestrales son bien conocidas. Las distribuciones
muestrales de a y b son normales, entonces los métodos descriptos en los capítulos 7 y 9
pueden ser aplicados para computar intervalos de confianza para α y β o testear hipótesis
sobre ellos. Como veremos, estos métodos pueden también ser aplicados en el importante
caso de utilizar la recta de ajuste de la regresión para predecir un valor de respuesta. En
todas estas situaciones de inferencia, la cantidad clave es el error estandar del estimador, lo
que se detalla mas abajo. En la mayor parte de los casos sera necesario reemplazar σ2 en el
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
20
error estándar por s2 y utilizar la distribución t de Student; cuando se hace esto la varianza
muestral es siempre aquella computada de la Tabla de Análisis de Varianza con sus
correspondientes grados de libertad.
Para inferencias de σ2 la distribución de s2 es la chi-cuadrada, como en el capítulo 7, y esta
puede ser utilizada para determinar intervalos de confianza y testear hipotesis acerca de σ2.
Las distribuciones muestrales son:
b se distribuye como N (β , σ2/ Sxx)
a se distribuye como N {α , σ2( 1/n + mx2 / Sxx)}
(n – 2) s2 / σ2 se distribuye χ2n-2
de donde se puede apreciar que el error estándar de b es σ/ √Sxx , y
el error estándar de a es σ √(1/n + mx2 / Sxx).
Predicción
Si Y (desconocido) es el valor real de una observación futura correspondiente a un valor
futuro de X, entonces podremos establecer una distribución muestral para nuestro predictor
Y. Notese que (X,Y) no es un par de datos del conjunto original sobre los que se deriva la
linea de regresión. Entonces, si Y’ es nuestro valor predecido de Y, tenemos:-
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
21
Y’= a + bx
y la distribución muestral de Y’ sera
Y’ se distribuye como ~ N (Y, σ2( 1 + 1/n + (x -mx) 2 / Sxx)}
Notese que esta última distribución tiene una varianza que se incrementa a medida que la
distancia de x de la media también lo hace, reflejando asi la pérdida de certidumbre a
medida que nos movemos hacia fuera del punto central de los valores observados x.
Otras propiedades muestrales de interes son:
Cov (a, b) = - mxσ2 / Sxx, y la Cov (my, b) = 0,
y la distribución muestral del residuo,
ei = yi – a – bxi
puede ser mostrado que es
ei ~ N {0, σ2( 1 - 1/n - (x -mx) 2 / Sxx)}
esto se asemeja a la distribución muestral del valor pronosticado, pero es importanyte el
apreciar la diferencia entre
E = Y – (a + bX),
y
e = y – (a + bx)
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
22
Para el primer residuo el punto (X,Y) es un nuevo punto, y en consecuencia independiente
del set de datos original, y entonces de a y b. Para el segundo residuo, sin embargo, los
puntos pertenecen al set de datos originales, de manera que a y b son funciones de ellos, de
aquí que y esta correlacionado con a y b.
7.12 Pruebas e Intervalos de Confianza para parámetros del modelo
En cada caso el estadístico tiene la forma,
(est – valor hip.)/ SE
En cada caso, el intervalo de confianza tiene la forma
est ±± t * SE
i) Para testear que H0: β = β0 vs. H1: β ≠ β0 formamos el estadístico de prueba
(b - ββ0) √√Sxx/ s
y utilizamos la distribución t con (n-2) grados de libertad.
ii) Para testear H0: α = α0 vs. H1: α ≠ α0, ie. La intersección de la recta en el eje y es
cero formamos el estadístico de prueba
a / {s √√( 1/n + mx2 / Sxx)}
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
23
y nuevamente utilizamos una distribución t con (n – 2) grados de libertad.
iii) Un intervalo de confianza del 95% para el coeficiente de la pendiente es
b ±± t s/√√Sxx
iv) Un intervalo de confianza del 95% para la intersección es
a ±± t {s/√√(1/n + mx2 / Sxx)}
iv) Finalmente, un intervalo de confianza de 95% para una futura observación en x=X
esta dado por
a + bX ±± t {s/√√(1 + 1/n +(x - mx) 2 / Sxx)}
donde en cada caso t es el punto de la distribución de Student correspondiente a 2.5% de
probabilidad. Naturalmente, intervalos de confianza de 99% y 90% pueden ser obtenidos
utilizando el correspondiente t.
Notese que en el caso especial de la primera prueba en la que β0 = 0, la prueba esta basada
en la comparación
b√Sxx/s vs. tn-2
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
24
como vimos anteriormente, el test de ρ = 0 esta basado en la comparación
r√ (n –2) /√( 1 –r2) vs. tn-2
y el test para el efecto de la variable explicativa, de la Talba de Análisis de Varianza, esta
basado en la comparación de
(S2xy /Sxx)/ s
2 vs. F1, n-2
Ahora nótese que las tres pruebas estan testeando la misma hipotesis, y de hecho son
equivalentes; puede ser mostrado que :-
b√Sxx/s = r√ (n –2) /√( 1 –r2) = (S2xy /Sxx)/ s
2, y que
tn-2 = √F1, n-2
7.13 Prueba de supuestos, Robustez.
Observaciones alejadas
Una acción natural en el exámen de cualquier set de datos será mirar los residuos, ei = yi – a
– bxi. Diagramas de los mismos pueden revelar relaciones mas avanzadas en los datos. Un
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
25
método para detectar “outliers” es computar el residuo estandarizado para cada punto de los
datos – el ratio de cada ei a su error estándar,
σσ2( 1 - 1/n - (x -mx) 2 / Sxx)}
Residuos estandarizados mayores a 2 seran tratados con sospecha, y valores mayores que 3
sugerirán fuertemente un “outlier”.
Puntos de Influencia
Dejando de lado datos, y obsrevando su influencia en a y b proporciona información sobre
la influencia de dichos puntos.
Regresión robusta
Dejando de lado outliers y puntos de influencia, pueden, con cuidado, producir resultados
mas robustos, ie. resultados menos sensibles a perturbaciones.
Mínimos cuadrados ponderados
Cuando es sabido que la varianza de e cambia con los x’s en una forma sistematica tal que
Var(ei) = σ2i entonces todas las fórmulas de regresión se mantienen como antes pero todos
las sumas de datos son reemplazados por las sumas ponderadas, utilizando 1/ σ2i como
denominador o ponderador.
Por ejemplo
Σ xi es reemplazada por Σ (xi/ σ2i)
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos
26
Σ xi2 es reemplazada por Σ (xi
2 / σ2
i),
y n es reemplazada por Σ (1/ σ2i)