308
CAPITULO 1 EL MODELO DE REGRESIÓN LINEAL 1.1. EL ANÁLISIS DE REGRESIÓN 1.1.1 Interpretación El inglés Francis Galton 1 (1822 - 1911) fue el primero en introducir el término regresión. Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”. La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson, quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma similar hacia la estatura promedio de la población. En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida como la media de Y condicional en X, a través de una relación funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el siguiente capítulo, y las observaciones muestrales de X e Y. 1 Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Casas Econometria Moderna(2)[1]

Embed Size (px)

Citation preview

Page 1: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 11 EELL MMOODDEELLOO DDEE RREEGGRREESSIIÓÓNN LLIINNEEAALL

11..11.. EELL AANNÁÁLLIISSIISS DDEE RREEGGRREESSIIÓÓNN

1.1.1 Interpretación El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión.

Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”.

La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson,

quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma similar hacia la estatura promedio de la población.

En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida

como la media de Y condicional en X, a través de una relación funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el siguiente capítulo, y las observaciones muestrales de X e Y.

1 Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Page 2: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

10

Una interpretación más moderna de regresión indica que la misma es cualquier aproximación de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X, siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o independientes (X), con el objeto de estimar la media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la relación entre el estudio de Galton y la definición moderna del término regresión.

A menudo se confunden los términos regresión y correlación, los cuales están estrechamente

ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de correlación pretende medir el grado de asociación lineal entre dos variables a través del coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se analiza una regresión se trata de estimar o de predecir el valor promedio de una variable (llamada explicada, dependiente o endógena) utilizando valores fijos3 de las variables explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior, puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un análisis de regresión, será posible predecir valores de la variable dependiente utilizando realizaciones de las independientes.

1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión? El análisis económico toma en consideración diversas variables en conjunto. La relación

entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa que existe una relación negativa entre las dos variables y, para contrastar el modelo, se necesitará utilizar simultáneamente datos de ambas variables.

Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe

por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de la siguiente forma:

f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)

2El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento

de dichas variables. Formalmente:))((

),(

yx

XYCov

σσρ =

3 Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en otro capítulo. 4 Se puede expresar matemáticamente de la siguiente manera: )()(3 11

fn QQuu −=− ++ , donde un y Qf indican que el

producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural. 5 Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se utilizan en el estudio de las relaciones existentes entre éstas.

Page 3: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

11

Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución condicional mientras que la marginal no se utilizará, por el momento.

De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos

indica que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el ingreso permanente. La función anterior expresa únicamente una relación matemática, sin embargo, y tal como se indicó en la introducción del libro, uno de los objetivos de la econometría es formular un modelo econométrico a partir de un modelo económico, para luego proceder a la estimación y comprobación del mismo a partir de los datos muestrales. En consecuencia, se debe transformar la función anterior en un modelo econométrico, por ejemplo consideremos el siguiente modelo de regresión lineal6:

µβββββ +++++= YpwYdrC 43210 (1.2)(1.2)(1.2)(1.2)

donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada (el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación indica la relación exacta entre la variable explicada (C) y las demás variables llamadas explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los β son conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos7, cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la variable independiente.

El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el

valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una regresión puede interpretarse como la media condicional de Y dado X. Formalmente:

E (C /r, Yd, w, Yp ) = f (Xi) (1.3)

Un punto importante que debe notarse es que la estructura de la relación entre la variable

explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse como una aproximación lineal de Taylor de un problema no lineal.

1.1.3 Definiciones Básicas Una vez que hemos entendido el concepto de regresión como la modelación de la media

condicional de una distribución de probabilidades es deseable realizar algunas definiciones básicas que vamos a utilizar a lo largo del libro.

El modelo de regresión lo podemos plantear de manera general de la siguiente forma:

6 Este modelo será estudiado en el Capítulo III. 7 Formalmente:

i

iX

∂∂

= es decir, cada parámetro representa la derivada parcial de la variable dependiente con

respecto a cada variable explicativa.

Page 4: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

12

tktkttt xxxy µββββ +++++= .............33221

La variable Y que es aquella que condicionamos a los valores que adopte las demás variables

(X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de cada una de las variables explicativas se pueden agrupar de manera separada y el efecto conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo que estamos haciendo es separar a la variable explicada en dos conjuntos:

• La parte sistemática o determinística que viene representada por :

ktktt xxx ββββ ++++ .............33221

Esta es la parte que es sugerida por el investigador y establece una relación sistemática y de dependencia entre la variable explicada y las variables explicativas. Dado el concepto de media condicional de la regresión, la parte sistemática representa lo que en promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de media condicional, la predicción será aquel valor que esperamos tenga nuestra variable dependiente con mayor probabilidad.

• La parte aleatoria o estocástica que viene representada por el término de error ( µ ).

Dado que la economía busca estudiar el comportamiento económico de las personas no podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un contexto estocástico debido a que existen muchos factores no controlables como los estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los descubrimientos de nuevos productos y tecnologías que pueden afectar de manera inesperada cualquier relación que queramos estimar. Estos factores pueden ser importantes en un momento determinado pero no afectan de manera permanente a la variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño. Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las variables que afectan la producto de manera sistemática (incluidas en la parte explicada de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño, nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más probable.

Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera:

• Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del producto bruto interno.

• Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían

son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de

Page 5: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

13

vida de las personas a través de la medición de ingresos y acceso a servicios básicos como la salud, educación, nutrición. Etc.

• Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores.

Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos para realizar la recolección de la información a lo largo del tiempo. En el Perú son pocos los casos en donde se han construido estos paneles de datos. Sin embargo, empresas privadas han invertido en la construcción de estos paneles dado que proveen muy buena información acerca de cambios en los patrones de consumo e ingresos de las personas.

Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio

de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de los modelos que pretendamos estimar.

1.1.4 ¿Cómo obtener los parámetros?

Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los

valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los parámetros verdaderos (los β ´s) son desconocidos. Por ello, debemos desarrollar una estrategia que nos permita realizar una estimación adecuada de los mismos. En este punto es conveniente tener claro el concepto de estimación. Un estimador se define como cualquier fórmula o función de los datos que permite obtener estimaciones de los parámetros desconocidos. Así, se deduce que una estimación es el valor numérico que resulta de la aplicación de esta función a un conjunto de datos muestrales específicos.8

Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer

ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los parámetros desconocidos por los estimadores correspondientes. Como estos no son los verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con las siguientes expresiones:

Y = X β + u ⇒ Y = X β + e (1.4)

modelo modelo teórico empírico

En este caso hemos optado por expresar el modelo de manera general donde X es una matriz

que contiene todos los datos de las variables explicativas. Denotaremos al número de variables explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk. β es un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β )

8 Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para todas las muestras posibles.

Page 6: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

14

por su estimador ( β ). De igual manera ocurre con los errores teóricos ( µ ) y los errores empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los parámetros.

La estimación de los parámetros se deriva de un problema de predicción condicional. En

dicho problema se observa la realización de un vector aleatorio X y se desea predecir la realización de una variable aleatoria Y.

En este punto debemos introducir el concepto de función de pérdida, la cual recibe este

nombre debido a que la presencia de un estimador implica que existe un predictor que trata de explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un problema de minimización de la siguiente forma:

Min E [L (Y - P) / X] (1.5)

P Observado Estimado

Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida

esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la siguiente condición:

0 < u < v ⇒ 0=L(0)≤L(u)≤ L(v) (1.6) 0 = L(0) ≤ L(-u ) ≤ L(-v ) (1.7) Evidentemente, la idea es que la función de pérdida sea lo más pequeña posible, donde u y v

son los valores para el error de predicción (Y – P). Si la función de pérdida es fija, el valor del mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. En otras palabras, la estructura de la función es elegida por el investigador y lo que varía es el error de predicción para cada observación muestral de X e Y. En consecuencia, el valor del mejor predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. En este sentido, y recordando que la regresión es el valor esperado de la distribución condicional de Y dado X, deducimos que el mejor predictor se obtiene mediante una regresión. Algo que no debe perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de la elección del estimador. Por ello, deberá elegirse aquel estimador que haga mínima la diferencia dada una función de pérdida.

En la práctica, los mejores predictores son los que se estudian más detalladamente en el

análisis de regresión. Ellos describen brevemente la manera cómo varía Y ante cambios en los regresores (X). Sin embargo, existen distintas funciones de pérdida interesantes y, a su vez, muchas maneras de interpretar formalmente la posición de una variable aleatoria. A continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores que se derivan de ellas.

i) Pérdida cuadrática: La función de pérdida cuadrática es:

Page 7: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

15

L (u) ≡ u2 (1.8) En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se

obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios, como veremos en el siguiente capítulo.

ii) Pérdida absoluta: Cuya función de pérdida es la siguiente: L (u) ≡ u (1.9) Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X. iii) Pérdida discreta: Dada una constante positiva δ, la función de pérdida discreta sería:

L( * , δ ) L ( u ) ≡ 0 si u < δ (1.10)

L ( u ) ≡ 1 si u ≥ δ (1.11)

En este caso, el mejor predictor es el punto medio del intervalo de longitud 2δ que tiene la

más alta probabilidad de contener a Y. En la medida en que δ se aproxime a cero, el mejor predictor se aproximará a la moda de Y condicional en X.

En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La

media como regresión puede ser lineal en X mientras que la mediana puede no serlo, o ambas pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una regresión aumente con X mientras la otra decrezca, o viceversa .

En el problema de predicción descrito, la función de pérdida escogida determina la regresión

sujeta a análisis. Dicha función debe reflejar las pérdidas asociadas al error de predicción, en otras palabras, debe reflejar cuán cerca están las predicciones del modelo con respecto a las observaciones reales. En ello radica la importancia de escoger una adecuada función de pérdida aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la distribución, lo que implica que distintos predictores se comporten similarmente.

1.2 Métodos de estimación de los parámetros

Cuando se efectúa una regresión se puede seleccionar el método de estimación más

adecuado, dependiendo de la información previa a la que el investigador tiene acceso. Por ejemplo, si no se cuenta con información acerca de la forma de la regresión o no es de interés la estimación de un forma particular y sólo se quiere haceruna aproximación general de la función de densidad, se puede realizar una estimación no paramétrica, concepto que está fuera del alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresión paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios, el de Momentos Muestrales o el de Máxima Verosimilitud, los cuales se definirán a continuación y

9 El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge University Press.

Page 8: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

16

posteriormente se discutirán en detalle. Esos métodos son los más utilizados y responden a diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son arbitrarios. Su utilización generalizada obedece a que cumplen con una serie de propiedades deseables que facilitan su aplicación. i) Mínimos Cuadrados Ordinarios (MCO)

El método de Mínimos Cuadrados es uno de los más usados, eficaces y conocidos del

análisis de regresión debido al contenido de las propiedades estadísticas que posee. El principio sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la siguiente forma:

Min ∑=

n

iie

1

2 =∑ − 2)ˆ( βii xy (1.12)

La minimización de los errores al cuadrado presenta una ventaja con respecto a la minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada por los signos de los errores. Así, podemos tener errores positivos muy grandes y errores negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud considerable.

ii) Método de Momentos

El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a

los poblacionales. Recordemos que un momento es un estadístico que resume algunas características de una distribución de probabilidad, tal como un valor esperado o una desviación estándar. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la función de pérdida está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la elección de los parámetros será aquella que minimice esta distancia. Este método ha sido generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento para la estimación de cada parámetro de un modelo.

iii) Máxima Verosimilitud

Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a

determinada distribución. Para ello se plantea como supuesto que la variable Y tiene una distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil posible, si sólo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta.

1.3 Significado de la línea de regresión Cuando se define la regresión como la media condicional de Y dado los valores de las

observaciones de X, de hecho podemos representar geométricamente este concepto a través de una línea o curva de regresión.

De este modo, una curva de regresión llamada poblacional, es aquella que muestra el lugar

geométrico de las medias condicionales o esperanzas de la variable endógena para los valores fijos de la(s) variable(s) exógena(s). Esto se puede apreciar en la siguiente figura:

10 Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de la sumatoria de cada uno de los elementos del vector elevados al cuadrado.

Page 9: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

17

Figura 1.1

Línea de regresión poblacional La figura muestra cómo para cada X existen valores poblacionales de Y, y una media

condicional correspondiente. Precisamente, la línea o curva de regresión pasa por las medias condicionales de la variable Y, y denota alguna función de la variable dependiente X. Así, se define formalmente la regresión como:

E(Y/X ) = f (Xi) (1.13)

y, en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se puede tener la siguiente función lineal de X:

E( Y/X ) = β0 +β1Xi (1.14)

Los parámetros o coeficientes de regresión son los β de la ecuación anterior. Asimismo,

β0 es el llamado intercepto y β1 es el coeficiente de la pendiente. En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo

como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de regresión. En otras palabras, el valor de una variable explicada para una observación en particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente forma:

)/( iii XYEY −=µ (1.15)

Despejando la ecuación, queda:

Page 10: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

18

iii XYEY µ+= )/( (1.16)

y reemplazando la ecuación (1.14) en (1.16) resulta: iii XY µββ ++= 10 i=1,2, ... , n (1.17)

Como se mencionó en la sección anterior, µi es llamado perturbación estocástica o

estructural e introduce el elemento aleatorio a la ecuación de regresión, pudiendo tomar valores positivos o negativos para cada observación muestral.

Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las

observaciones de la población, dado que en la práctica solamente se cuenta con una muestra de valores de Y que corresponden a los valores fijos de X. Con dicha información muestral se deberá estimar la función de regresión anterior, de modo que cuando se reemplacen los valores estimados para β0 y β1 se hallará la siguiente ecuación, también llamada función de regresión muestral:

ii XY 10ˆˆˆ ββ += (1.18)

La ecuación muestra las estimaciones de los coeficientes de regresión. Esta función es una

aproximación a la ecuación de regresión poblacional, por eso se dice, en algunos casos, que iY sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el valor estimado de Y puede encontrarse bajo la línea de regresión poblacional, y por lo tanto presentar un error negativo. En este sentido, lo importante en el análisis de regresión consiste en diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los verdaderos valores de los parámetros, aún cuando nunca se llegue a conocerlos.

El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un

modelo de regresión lineal simple. Sin embargo, es importante advertir que en los procesos económicos, por lo general, se precisa de más de una causa para explicar de forma adecuada el comportamiento de una variable aleatoria, o bien se utilizan formas más complicadas que la lineal. A pesar de ello, es conveniente realizar una primera aproximación analizando la especificación más sencilla, de modo que luego se podrá comprender con menor dificultad el modelo de regresión lineal múltiple o general, cuyo estudio detallado será materia del Capítulo 3.

22 SSUUPPUUEESSTTOOSS DDEELL MMOODDEELLOO DDEE RREEGGRREESSIIÓÓNN LLIINNEEAALL El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de

regresión, sino también en hacer inferencia acerca de los verdaderos valores de los parámetros (β0, β1). En otras palabras, se desea saber cuán cerca están los estimadores de sus contrapartes poblacionales, o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y). Así y debido a que la función de regresión poblacional de Y, depende de las variables X y de µi, es necesaria una especificación de la forma como se generan las variables explicativas y los errores. En este sentido, los supuestos que se plantean a continuación resultan críticos para interpretar en forma válida los estimadores de una regresión lineal.

Page 11: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

19

Antes de proceder con la descripción de los supuestos, cabe mencionar que el modelo clásico de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss, por quien también recibe el nombre de Modelo de Gauss. Este matemático planteó diez supuestos, válidos tanto para el análisis de regresión simple como para el modelo de regresión lineal múltiple, o de más de un regresor. Primer supuesto: El modelo es estocástico

Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el

término de error (µi). La inclusión del término de error se debe a las siguientes razones:

• Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrón preestablecido de preferencias, hábitos de consumo, etc.

• Omisión de variables explicativas que deberían incluirse en el modelo. Pretender que las

variables independientes pueden explicar la estructura o predecir exactamente el comportamiento de la variable dependiente es una ilusión, debido a que en la realidad existen otros factores que afectan el comportamiento de la variable explicada que no son incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy difíciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la demanda a través de la utilidad que brinda el consumo de un determinado bien. De hecho, la cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al carácter subjetivo de la misma. En este sentido, la falta de información muestral conduciría a una mala medición o a la omisión de una variable relevante. Por otro lado, si dichas variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita su inclusión.

• Errores de medición en la variable endógena (Y). Esto ocurre frecuentemente debido a que

las estimaciones de Y se realizan sobre la base de muestras finitas, además de que dicha variable puede no ajustarse a la teoría económica que el investigador desea contrastar. Por ello, el investigador debe decidir con cuidado el papel que desempeña cada variable, es decir, debe definir adecuadamente las variables exógenas y la endógena.

• Agregación de variables. En muchos casos, la relación existente entre la variable endógena

y las exógenas es un intento por resumir un conjunto de observaciones individuales en un agregado económico. Por ejemplo, el gasto agregado intenta resumir un conjunto de decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales son probablemente distintas entre individuos, cualquier intento de relacionar el gasto agregado con el consumo agregado es una aproximación. Así, la diferencia se le atribuye al término de error.

Como ya se mencionó existe una distinción entre el error teórico o poblacional (µi) y el error

de estimación o empírico. El primero responde a la necesidad de introducir un elemento aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define como la diferencia entre el estimado de la variable dependiente )ˆX( β y la verdadera E (Y/X). Segundo supuesto: La esperanza matemática del término de error o perturbación es cero.

Esto se expresa de la siguiente manera:

E(µi) = 0 (1.19) Este supuesto indica que el valor de la media condicional del término de error para cualquier

variable explicativa X dada, es idéntico a cero. De este modo, este supuesto garantiza que las

Page 12: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

20

variables que no están incluidas en el modelo (y que por tanto están incorporadas en µi), no trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. En términos más sencillos, los valores negativos de µi se compensan con sus realizaciones positivas. Por ello, en promedio no presentan ningún efecto sobre la variable dependiente del modelo. Aquellas variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el intercepto del modelo.

Tercer supuesto: La varianza del error es constante (el error es homocedástico).

Formalmente: Var(µi) = σ2 i = 1,2,3,...,n (1.20) Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí

debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno de los errores proviene de una distribución de probabilidades. El valor que observamos del error para cada observación es la realización de la variable aleatoria ante la ocurrencia de un determinado evento. Entonces una forma de entender le presente supuesto es que implica que la varianza de cada una de las distribuciones de los distintos errores aplicables para cada observación es la misma. En otras palabras, y dados los valores de X, la varianza del error no cambia para distintas observaciones11. El siguiente gráfico ilustra los conceptos que hemos mencionado hasta el momento:

Figura 1.2

11 Evidentemente, cada término de error representa la realización de un proceso estocástico y lo que se asume a través de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión.

Page 13: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

21

Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores están fijos lo que se refleja en las líneas discontinuas que parten de los valores x1 y x2 . Ante estos valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la función de distribución de los errores.

Cuando no se verifica este supuesto, se dice que el término de perturbación es

heterocedástico, es decir, posee una dispersión diferente para cada observación. Formalmente:

Var(µi) = σi2 i = 1,2,3,..., n (1.21)

El subíndice i indica que la varianza del término de error no es constante ya que presenta un

valor distinto para cada observación de X. En consecuencia, no todos los valores de Y, que corresponden a distintos valores de X, serán de igual importancia y confianza como indicadores de la posición de la línea de regresión. Se dicen que son confiables cuando poseen menor dispersión, es decir, se mide la confiabilidad por la cercanía con la cual se distribuyen los valores de Y alrededor de sus medias, esto es, sobre la línea de regresión poblacional. Si analizamos con cuidado la expresión (1.12) notaremos que el error que se minimiza es la diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores observados sean indicadores confiables de la posición de la línea de regresión poblacional, esto es, E(Y/X).

Cuarto supuesto: Ausencia de autocorrelación entre los errores.

Formalmente: Cov(µi, µj) = 0 ∀ i ≠ j (1.22) Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de

error µi y µj, dadas las observaciones xi y xj. En este sentido, podemos definir el término autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal). En otras palabras, si disponemos de datos de series de tiempo, se dice que un error µt para un periodo de tiempo t, está correlacionado con los términos de error µt+1, µt+2, .. y µt-1, etc.

Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el

modelo de expectativas adaptativas. Supongamos que los agentes económicos realizan su pronóstico de la inflación futura basados en la inflación pasada, solamente. Formalmente:

)ˆˆ(ˆˆ 1eee PPvPP −+=+ (1.23)

Esta ecuación implica que la expectativa de la inflación de mañana es una combinación

lineal de la expectativa para el período actual y el error de predicción registrado en este periodo. En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al próximo a través del mecanismo descrito en (1.23), el pronóstico de la inflación evidenciará cierta inercia, es decir, estará autocorrelacionado con el error de predicción registrado en este periodo.

En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes

económicos utilizan eficientemente toda la información disponible, ya sea porque conocen y entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente conocen al modelo que explica la economía. Por lo tanto, al plantear sus expectativas de inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas. De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación

Page 14: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

22

alguna. Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo

planteado de forma matricial. El vector de errores del modelo es de dimensión Nx1 o Tx1, si se habla de información muestral de corte transversal o de series de tiempo, respectivamente. Por consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva, de dimensión NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresión:

==

)()()(

.........

...)()(

),(...),()(

)()'(

2,1,

21,2

1211

nnn

n

VarCovCov

VarCov

CovCovVar

VarE

µµµµµ

µµµµµµµµ

µµµ

En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal

principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelación, determina que los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos supuestos antes analizados, la matriz anterior se puede escribir como:

Var(µ)=σ2In (1.24) Esto usualmente se conoce como el supuesto general de que los errores del modelo son

esféricos.

Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí. Formalmente:

Cov(xi,µi) = 0 (1.25) Este supuesto implica que los errores y las variables independientes no presentan

correlación. Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no explicada. Por tanto, este supuesto implica que si no existe relación entre las variables explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada, podemos descomponer el espacio donde está definida la variable dependiente en dos subespacios que son ortogonales entre sí12. En otras palabras, cuando se especifica el modelo, se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la variable a explicar (Y).

Parte aleatoria µi

Yi =β0 +β1Xi +µi Parte determinística β0 +β1Xi

Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov.

12 Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. Si tomamos que Y representa un conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos subconjuntos disjuntos (es decir, que no presentan intersección).

Page 15: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

23

Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que analizaremos en los capítulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los errores del modelo son ruidos blancos.

Sexto supuesto: El modelo es lineal en los parámetros. Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y, o alguna transformación monotónica de la misma, se puede expresar como una función lineal de X o de alguna transformación de ella. Al respecto, consideremos las siguientes relaciones:

Y = α + βX +µ (1.26) Y = β0 + β1 X + β2 X

2 + β3 X3 +µ (1.27)

Y = β0 + β2

1 X1+ √β2 X2 +µ (1.28) La ecuación (1.26) muestra una relación lineal simple, mientras que la (1.27) es un modelo lineal en parámetros, más no en las variables. Por otro lado, la ecuación (1.28) no es lineal en parámetros, ni tampoco puede reducirse a una función que exprese una relación lineal. Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas las observaciones muestrales de la variable explicativa precio(P). El análisis de este modelo implica la estimación de los parámetros α y β, sin embargo, y de acuerdo al supuesto de linealidad, el modelo deberá ser transformado de la siguiente manera:

µβα ePQ = (1.29)

LnQ = lnα +βlnP +µ (1.30) La linealiadad en los parámetros es relevante para el análisis de regresión, por consiguiente, de ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es lineal en los parámetros. Sin que esto necesariamente implique que también lo sea en las variables explicativas (X). Séptimo supuesto: Los parámetros son constantes entre observaciones.

Conocido también como el supuesto de estabilidad temporal, éste implica que los

coeficientes del modelo de regresión lineal son constantes en el tiempo. Igualmente, se supone que el modelo es idéntico para todas las observaciones de la muestra. De hecho, este supuesto resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de la variable dependiente sobre la base de las independientes, sino principalmente si se busca que el modelo realice predicciones confiables. Así, si la estructura que modela la variable dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la misma para predecir, este procedimiento es conocido como extrapolación.

Octavo supuesto: Causalidad unidireccional.

El análisis de regresión supone la existencia de una relación causal desde las variables

independientes (X) hacia la variable dependiente (Y). Cabe mencionar que desde un punto de vista meramente estadístico, el modelo de regresión

no necesariamente tiene una connotación de causalidad. Es decir, de la misma manera como se

Page 16: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

24

puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X, se puede estimar una regresión de modo inverso.

En cambio, al plantear un modelo econométrico se debe tener cuidado al especificar las

variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar (considerada aleatoria). Así, el investigador debe decidir el papel que le otorga a las diferentes variables de modo que sólo exista una dirección en la relación de causalidad. A manera de ejemplo, recordemos que la teoría cuantitativa del dinero afirma que el volumen de transacciones en una economía es igual a la cantidad de dinero que rota en la misma. Formalmente:

P.Q=M.V (1.31)

donde: P= precio Q= producto M= dinero V= velocidad de circulación constante. En la ecuación anterior existe una relación causal que va de M hacia P, es decir, el nivel de

precios es explicado por la cantidad de dinero en la economía. Sin embargo, no se cumple lo contrario, puesto que el nivel de precios es una variable aleatoria (endógena), mientras que M es fija o determinística (exógena).

Sin duda, en términos estadísticos podríamos estimar una relación de este tipo, esto es, una

regresión de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificación no tendría ningún sustento teórico. En este sentido, el investigador debe decidir a priori cuál es la especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida, se supone una única dirección causal

Noveno supuesto: Las variables explicativas son linealmente independientes.

Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo

puede expresarse en términos de una combinación lineal exacta de las demás. Si alguna de las variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable dependiente se confunden con los de la segunda. Este problema es conocido como multicolinealidad, el cuál será abordado con detalle en el Capítulo (9)

Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias)

Si revisamos con cuidado el análisis hasta ahora expuesto, notaremos que este supuesto ha

estado implícito desde el inicio del capítulo. Este supuesto implica que de poderse repetir el proceso de muestreo numerosas veces, los valores observados de las variables exógenas no deben cambiar.

Cuando se trabaja con datos de series temporales, es común la aparición de valores

retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables económicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de regresión como variables explicativas, se dice que son predeterminadas o en términos más formales, que son realizaciones del proceso que gobierna el comportamiento de la variable explicada. Este caso específico se analizará en un capítulo posterior. 3. A MODO DE RESUMEN

Page 17: Casas Econometria Moderna(2)[1]

Econometría Moderna El Modelo de Regresión Lineal

25

En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión así como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en algunos casos, muy restrictivos y será interesante analizar cuáles son los efectos de la relajación de los mismos sobre los distintos estimadores que estudiaremos más adelante. Habiendo establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la exploración de los distintos caminos con los que contamos para a obtención de los parámetros desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mínimos cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con modelos lineales.

Page 18: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 22 EELL MMEETTOODDOO DDEE EESSTTIIMMAACCIIÓÓNN DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS

OORRDDIINNAARRIIOOSS:: MMOODDEELLOO DDEE RREEGGRREESSIIÓÓNN BBIIVVAARRIIAADDOO

22..11.. IINNTTRROODDUUCCCCIIÓÓNN

Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro

camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión. Recordemos que para obtener los parámetros partimos de un problema de predicción condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la pérdida esperada con respecto de una función de pérdida específica. Esta función depende de criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3):

En este capítulo, iniciaremos nuestro estudio sobre la estimación de los parámetros tomando

en cuenta el modelo de regresión bivariado, modelo de regresión simple o modelo lineal simple. Este modelo puede ser planteado de la siguiente manera:

iii XY µββ ++= 10 (2.1) En este caso, observamos que la variable dependiente sólo es explicada por una variable

independiente aparte de la inclusión del intercepto. Debe hacerse una aclaración en este caso porque muchos lectores pensarán que el intercepto podría ser considerado como una variable explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto promedio de aquellas variables no incluidas en el modelo. Su inclusión no implica que exista

Page 19: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

28

una relación sistemática entre las variaciones de una variable independiente y la dependiente por lo que su inclusión no es importante como variable explicativa sino para guardar cierta consistencia de los resultados.

El modelo presentado en la expresión anterior es un modelo teórico. Para poder iniciar el

proceso de estimación de los parámetros desconocidos debemos plantear nuestro modelo empírico, el cual toma la siguiente forma:

iii eXY ++= 10ˆˆ ββ (2.2)

En este caso, estamos reemplazando los parámetros desconocidos por sus estimadores y el

término de error es reemplazado por el error empírico (e). En este caso la primera parte de la expresión, expresada por:

ii XY 10ˆˆˆ ββ += (2.3)

será la parte predicha (o explicada) por el modelo. Esto representará nuestro estimado de la

media condicional de la distribución de Y.

22..22.. MMÉÉTTOODDOO DDEE EESSTTIIMMAACCIIÓÓNN DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS PPAARRAA UUNN MMOODDEELLOO DDEE

RREEGGRREESSIIÓÓNN LLIINNEEAALL SSIIMMPPLLEE Como ya se mencionó, en este modelo la variable endógena sólo se explica mediante una

variable exógena fija o no aleatoria. El criterio de mínimos cuadrados ordinarios implica resolver el siguiente problema de minimización:

Min ∑=

n

iie

1

2

Con respecto a 1 0 ββ y , siendo :

)1

ˆ0

ˆ(i

Xi

Yei ββ −−= (2.4)

Así, planteamos el problema de minimización de la forma:

10

210

ˆ,ˆ

)ˆˆ(

ββ

ββ ii XYMin −∑ − (2.5)

si derivamos con respecto a los parámetros, obtenemos las siguientes ecuaciones de primer orden:

∑−=−−∑−=∂∑∂

iiii eXY

e2)ˆˆ(2

ˆ)(

10

0

2

βββ

(2.6)

iiiii

iXeX

eXY ∑∑∑ −=−−−=

∂2)ˆ(2

)(1

0

1

2

ˆˆ

βββ

(2.7)

Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes

fórmulas:

Page 20: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

29

∑+∑ ∑= ii XY 10ˆˆ ββ (2.8)

∑+∑ ∑= 210

ˆˆiiii XXYX ββ (2.9)

Estas ecuaciones son llamadas ecuaciones normales de la línea de regresión. Más adelante

veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores mínimocuadráticos. Como vemos es un sistema de ecuaciones donde el número de incógnitas es igual al número de ecuaciones. Si el sistema está exactamente identificado, entonces existe una solución única.

Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo

utilizando para ello el método de Kramer. Si escribimos el sistema en forma matricial podemos expresarlo de la siguiente manera:

(2.10)

Aplicando el método de solución descrito, obtenemos las siguientes soluciones:

( )( )( )22

2

2

2

∑∑ −∑ ∑ ∑−∑=

∑∑∑∑∑∑∑

=ii

iiiii

ii

i

iii

ii

XXn

YXXXY

XX

Xn

XYX

XY

β (2.11)

( )( )( )22

2

∑−∑

∑ ∑∑−=

∑∑∑

∑∑∑

=ii

iiii

i

i

iii

i

XXn

YXYXn

XiX

Xn

YXX

Yn

β

Si se trabaja con el denominador y numerador de 1β , y los dividimos entre n, podemos llegar a las expresiones siguientes, las cuales resultan mucho más comprensibles en términos estadísticos:

( ) ( )n

XnX

n

XX i

ii

22

22 −∑=∑−∑ (2.12)

22 XnX i −∑=

2)XX( i∑ −= (2.13)

=

∑∑

∑∑∑

i

i

ii

i

YX

Y

XX

Xn

1

02 ˆ

ˆ

ββ

Page 21: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

30

YXnYXYXnYX iiiiii −∑∑ =∑∑− )/1( = YXnYXnYXnYX ii −+−∑ ∑−∑+∑−∑= iiii YXYXYXYX (2.14) Nótese que la última ecuación puede simplificarse como: .

( )( )∑ −− XXYY ii (2.15) Reemplazando las ecuaciones (2.13)y (2.15) en la expresión (2.11) se tiene:

( )( )( ) )(

),(ˆ21 XVar

YXCov

XX

XXYY

i

ii =∑ −

∑ −−=β (2.16)

La última ecuación muestra que el estimador de Mínimos Cuadrados se puede expresar en

función de los datos muestrales. Donde Y y X expresan las medias muestrales de la variable endógena y exógena, respectivamente. Para simplificar podemos definir las siguientes variables:

Esta notación se utilizará para representar las desviaciones con respecto a los valores medios

de X e Y, y también para estimar el modelo en desviaciones en un capítulo posterior. Esta representación resulta una herramienta interesante para demostrar algunas propiedades del estimador de MCO.

Por otro lado, el intercepto de la función de regresión muestral )ˆ( 0β puede representarse utilizando la primera ecuación normal y dividiendo ésta entre el tamaño muestral (n):

XY 10ˆˆ ββ −= (2.17)

Con esto se demuestra una propiedad importante del estimador mínimo cuadrático: si el

modelo tiene un intercepto, la línea de regresión pasa por los valores medios de Y y X. Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los

estimadores MCO como una función de estadísticos muestrales, sin necesidad de resolver las

ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( 1β ), para luego reemplazar dicho valor en la ecuación (2.17). Para ilustrar este método de estimación consideremos el siguiente ejemplo:

Ejemplo El gerente de ventas de una tienda de electrodomésticos desea conocer la relación existente

entre el número de artefactos vendidos y el número de representantes de ventas, para luego

(( )YYy

XXx

ii

ii

−=

−=

Page 22: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

31

hacer algunas predicciones acerca de las ventas del próximo año. Para tal fin el gerente observa las ventas efectuadas en diez días diferentes (ver la Tabla 2.1) Como se anotó en la sección (1.1.2) se debe plantear un modelo de regresión lineal y a su vez especificar el papel que desempeña cada una de las variables en función al estudio que se desea realizar. Por lo tanto, en este caso se define la variable explicativa (X) como el número de representantes de ventas y la variable explicada (Y) como el número de artefactos vendidos.

Tabla 2.1

DÍAS iX iY ii YX 2X iY iii YYe ˆ−=

1 1 3 3 1 7 -4 2 1 6 6 1 7 -1 3 1 10 10 1 7 3 4 2 5 10 4 8 -3 5 2 10 20 4 8 2 6 2 12 24 4 8 4 7 3 5 15 9 9 -4 8 3 10 30 9 9 1 9 3 10 30 9 9 1

10 2 9 18 4 8 1

Totales 20 80 166 46 80 0 Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones

normales halladas anteriormente, se tiene:

10ˆ20ˆ1080 ββ +=

10ˆ46ˆ20166 ββ +=

Si se despeja de la primera ecuación el intercepto y se reemplaza dicho valor en la segunda

se obtienen los siguientes estimadores MCO:

1ˆ6ˆ

1

0

==

ββ

Evidentemente, si utilizamos las ecuaciones obtenidas a través del método de Kramer,

también se deben obtener los mismos resultados. La comprobación queda para el lector. Se puede utilizar el ejemplo anterior para hallar la función de regresión muestral, es decir la

regresión de Y con respecto a X. Formalmente:

ii XY += 6ˆ

Si se sustituyen las observaciones muestrales de X en la ecuación anterior, obtenemos la

sexta columna de la Tabla 2.1 )ˆ( iY . Estos valores representan las estimaciones de la variable dependiente obtenidas a través de los parámetros calculados por el método MCO. Comparando estos valores con aquellos observados para la variable dependiente hallamos los errores correspondientes a cada observación de la muestra. Debido a que el modelo incluye un intercepto o término constante, se verifica que la suma de errores estimados es cero.

Page 23: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

32

Hasta aquí el lector ya debe estar apto para estimar una regresión bajo el método de Mínimos

Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresión, parámetros, línea de regresión, estimadores, estimación, errores estocásticos. En la siguiente sección, se detallarán las propiedades del estimador mínimo cuadrático, las que como se verá, resultan de suma importancia para el análisis de regresión.

Algo importante que debe recalcarse es que todo estimador es una función de los datos y

como éstos pueden cambiar en cada muestra tenemos que serán variables aleatorias. Alguien podría decir que si las X están fijas siempre tendremos la misma muestra pero pensando de dicha forma se dejaría de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de errores. Estos errores no son fijos y si tomamos una nueva muestra podrían variar lo que implicaría un nuevo valor de Y para cada realización de la muestra.

Si reemplazamos en nuestro estimador una muestra determinada (valores observados de

variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de la función de los datos (estimador) cuando utilizamos una muestra en particular. Es importante hacer esta distinción porque las propiedades que se analizarán más adelante se referirán a la variable aleatoria llamada estimador.

22..33.. PPRROOPPIIEEDDAADDEESS DDEELL EESSTTIIMMAADDOORR MMCCOO

Básicamente son dos la propiedades muestrales que nos interesan analizar del estimador

MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el centro de la distribución del estimador es igual al parámetro verdadero mientras que la segunda nos asegura que nuestro estimador será el de varianza mínima lo que nos dará una mayor seguridad porque el grado de imprecisión inherente será menor. Estas dos propiedades son aquellas que denominaremos de muestras pequeñas.

2.3.1 Insesgamiento del estimador MCO.

Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma:

( ) 0)ˆ( =− ββEE Esto quiere decir que el centro de la distribución del estimador de mínimos cuadrados

ordinarios coincide con el verdadero valor del parámetro. Si se cumple esta propiedad podemos usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que obtengamos provendrá de una distribución cuya media es el verdadero valor del parámetro por lo que el estimado será equivalente, en términos estadísticos al verdadero parámetro1.

Para verificar esta propiedad, recordemos la expresión del estimador MCO:

!( )( )

( )

( ; )

( )β1 2 2

=− −

−= =∑

∑∑∑

Y Y X X

X X

Cov X Y

Var X

x y

x

i i

i

i i

i (2.28)

Trabajando con el numerador:

1 Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero parámetro. De hecho podríamos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces este nuevo estimado también podremos utilizarlo e interpretarlo como equivalente, en términos estadísticos, al verdadero parámetro.

Page 24: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

33

( )( ) ( ) ( )X X Y Y X X Y Y X Xi i i i i− − = − − −∑ ∑ ∑

y dado que ya conocemos que ( )X Xi − =∑ 0 , podemos reexpresar el numerador de la

ecuación (2.28), de la forma2 :

x y x Yi i i i= ∑∑ (2.29)

Ahora, y por propiedades matemáticas de las sumatorias, se puede expresar la ecuación

(2.28) como:

ii

i yx

x∑

∑=

21β

= ∑ k yi i (2.30)

Siendo:

kx

xi

i

i

=∑ 2

(2.31)

Así, se dice que el estimador MCO es lineal, ya que es una función lineal de la variable

endógena (Y). Nótese que en la ecuación (2.30), !β1 es una combinación lineal ponderada de Y, donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden interpretar como constantes.

Digresión: Propiedades de ki : i. Las ki son no estocásticas, debido a que las X tampoco lo son.

ii. ki∑ = x

x

x

xi

i

i

i2 2

0∑∑ ∑

= =

Dado que xi representa la desviación de dicha variable respecto a su media, el numerador es

siempre cero. Además, se sabe que la suma de las desviaciones al cuadrado, para cualquier muestra dada, es un valor conocido y diferente de cero.

iii. ki2∑ =

( )x

x x

i

i i

2

2 2 21∑

∑ ∑=

iv.

( )k x

x

xi i

i

i

∑ ∑∑

= =2

21

2 Nótese que únicamente el término Y X Xi( )−∑ puede ser igualado a cero.

Page 25: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

34

Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la

eficiencia del estimador MCO, como se verá más adelante. Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo

de regresión lineal afirma que las observaciones de X son fijas, es decir, no varían si se utiliza otra muestra de igual tamaño. En cambio, no se debe olvidar que las observaciones de Y sí serían diferentes de repetir el proceso de muestreo, debido a que incluye un componente aleatorio µi cuyas realizaciones variarían al cambiar de muestra. Estos conceptos se utilizarán repetidamente en la demostración de las propiedades.

Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer

lugar, sustituyamos en (2.29) la ecuación del modelo teórico de regresión (1.17) para luego, y con la ayuda de las propiedades enunciadas en la digresión, demostrar la insesgabilidad de los estimadores

Resulta fácil comprobar que en la ecuación (2.30) resulta indiferente multiplicar las

ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . Así tenemos que:

! ( )β β β µ1 0 1= = + +∑ ∑k Y k Xi i i i i

= + +∑∑ ∑k k X ki i i i iβ β µ0 1

= + +

= + +

∑∑ ∑∑

β β µ

β β µ

0 1

0 10 1

k k X k

k

i i i i i

i i( ) ( ) (2.31)

En la ecuación (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado

que un estimador insesgado es aquél cuya esperanza matemática es idéntica al verdadero valor del parámetro que se desea estimar, se tomará esperanzas a la ecuación anterior.

( )E E E k k Ei i i i( ! ) ( ) ( )β β µ β µ1 1 1= + = +∑ ∑

= +∑β1 0ki ( )

E( ! )β β1 1= (2.33)

Por consiguiente, se comprueba que !β1 es un estimador insesgado de β1. Ahora y para

verificar el insesgamiento del estimador del intercepto (β0 ), dividamos la ecuación (1.17) entre el tamaño muestral (n) para calcular la esperanza de la expresion resultante:

Y X= + +β β µ0 1 (2.34)

E Y E X E X( ) ( ) ( )= + + = +β β µ β β0 1 0 1 (2.35)

Reemplazando las expresiones (2.33) y (2.35) en la ecuación de la línea de regresión

muestral3(2.17) se obtiene:

3 En adelante, de no indicar lo contrario, nos referiremos a la línea de regresión muestral o estimada, esto es, βiX .

Page 26: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

35

! !β β0 1= −Y X

E E Y E X( ! ) ( ) ( ! )β β0 1= −

E X E X( ! ) ( ) ( ! )β β β β0 0 1 1= + −

= + −β β β0 1 1X X

E( ! )β β0 0= (2.36) De esta manera queda comprobado que los estimadores mínimo cuadráticos de los

verdaderos parámetros, β0 y β1, son insesgados. 2.3.2. Varianzas y covarianzas de los estimadores de MCO

Nótese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria

de los mismos proviene de la variable endógena Y, la cuál es estocástica debido a la inclusión

del término de error en el modelo. Por consiguiente, los estimadores !β son una variable aleatoria que provienen de una distribución de probabilidad cuya esperanza matemática es el verdadero valor del parámetro lo que implica que es el valor con la mayor probabilidad de ocurrencia. Adicionalmente a lo anterior, es preciso disponer también de medidas de dispersión de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero valor del parámetro que se pretende estimar . De ese modo, y para efecto de contrastar si los regresores cumplen con ciertas condiciones teóricas mediante el análisis de inferencia

estadística, se hallará la expresión analítica de la varianza de cada uno de los estimadores !β y una medida de dependencia entre ellos, es decir la covarianza. Así, y partiendo de la expresión !β1 (2.32) tenemos:

!β β µ1 1= +∑ ki i

!β β µ1 1− = ∑ ki i (2.37)

Ahora, recordemos que la varianza puede expresarse en los siguientes términos:

[ ]Var E E( ! ) ! ( ! )β β β1 1 12

= − (2.38)

y dado que el estimador MCO es insesgado, tenemos que:

[ ]Var E( ! ) !β β β1 1 12

= − (2.39)

Sustituyendo la expresión (2.37) en (2.39), queda:

[ ]Var E ki i( ! )β µ12

= ∑

= + + +E k k kn n( ... )1 1 2 22µ µ µ

Page 27: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

36

= + + + + + + − −E k k k k k k kn n n n n n( ... ... )12

12

22

22 2 2

1 2 1 2 1 12 2µ µ µ µ µ µ µ

(2.40) La expresión anterior puede simplificarse si consideramos los supuestos de

homocedasticidad y no autocorrelación. Así tenemos que:

∑=

∑=∑

22

2222 )()(

i

iiii

k

EkkE

µσ

µµ

0)()( =∑=∑ jijijiji EkkkkE µµµµ

y, reemplazando las ecuaciones precedentes, se obtiene:

( )Var k

x

x X Xi

i

i i

( ! )( )

β σ µ σ µ σ µ12 2 2

2

2 22

21= = =−

∑∑ ∑∑ (2.41)

Nótese en la expresión anterior que la varianza de !β1depende directamente de la varianza del término de error y mantiene una relación indirecta con las observaciones de la muestra

tomada. En tal sentido, y dada σ µ2 , cuanto mayor sea la variabilidad de los valores de X,

menor será la varianza del estimador y de este modo la estimación de β1 será más precisa. Por otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de µ mayor será la del estimador. Por lo tanto, para garantizar una mayor precisión en la estimación debemos buscar que las variables explicativas presenten mucha variabilidad.

Por otro lado, para hallar la varianza del estimador del intercepto ( !β0 ) debemos partir de la ecuación de la línea de regresión (2.18) y reemplazar la especificación para la media de la variable endógena (2.34) para obtener:

! ( ) !β β β µ β0 10 1= + + −X X

! ( ! )β β β β µ0 10 1= − − +X (2.42)

Ahora, y dado que: !β β µ1 1− = ∑ ki i

la ecuación (2.42) se puede escribir como:

( )!β β µ µ0 0= − ∑ +ki i X

( )( ! )β β µ µ0 0− = − ∑ +ki i X (2.43)

Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la

pendiente:

Page 28: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

37

[ ] ( )( )Var E E ki i X( ! ) !β β β µ µ0 0 02 2

= − = − ∑ +

( ) ( )Var E ki i X X ki i( ! ) ( )β µ µ µ µ02 2 2 2= ∑ + ∑

− (2.44)

Dado que el valor esperado afecta únicamente a las variables aleatorias, la expresión

anterior, puede representarse como:

Var X E k k EX

nE k k k kn n n n n n n( ! ) ( ... ) ( ) ( ... ... )β µ µ µ µ µ µ µ µ µ0

212

12 2 2 2

1 12 2

1 1 2 12= + + + − + + + + + −

Por la demostración de la varianza de ( ! )β1 , sabemos que:

E k kn n( ... )12

12 2 2µ µ+ + = σ µ2

21

( )X Xi −∑

y además, por las propiedades de ki y por el supuesto de no autocorrelación entre los errores, se tiene que:

E k k k k k k En n n n n i i i j( ... ..... ) ( ) ( ) ( )1 12 2

1 1 2 12 2 0 0 0µ µ µ µ µ µ σ µ µ µ σ µ+ + + + + = + = + =− ∑ ∑

Ahora, y a partir del tercer y cuarto supuesto del modelo de regresión lineal sabemos que:

E En n

nnn n n( ) ( ... ... ) ( )µ µ µ µ µ µ µ µ σ µ

σ µ22 1

222 2

1 2 1 22

21 1= + + + + + + = =−

Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a:

Var XX X n

XX X ni i

( ! )( ) ( )

β σ µ σ µ σ µ02 2

2

22 2

21 1 1=−

+ =−

+

∑ ∑

(2.45)

Conociendo la especificación para la varianza de cada uno de los estimadores involucrados,

pasemos ahora a analizar su covarianza. Como sabemos, la definición de covarianza viene dada por:

[ ][ ]( )Cov E E E( ! , ! ) ! ( ! ) ! ( ! )β β β β β β0 1 0 0 1 1= − − (2.46)

dada la propiedad de insegabilidad, la ecuación anterior puede escribirse como:

[ ][ ]( )Cov E( ! , ! ) ! ( ) ! ( )β β β β β β0 1 0 0 1 1= − − (2.47)

Ahora, recuérdese que :

Page 29: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

38

! !β β0 1= −Y X

y tomando esperanzas: )ˆ()ˆ( 10 XEYE ββ −= 4 (2.48)

Restando las dos expresiones anteriores tenemos:

! ( ! )β β β β0 10 1− = − − X (2.49)

y sustituyendo la última expresión en (2.47), resulta:

[ ]Cov E X( ! , ! ) ( ! )β β β β0 1 12

1= − −

= − −XE( ! )β β12

1 (2.50)

Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los

estimadores MCO vendría dado por:

Cov XVar( ! , ! ) ( ! )β β β0 1 1= −

∑ −

−=2

2

)(

1

XXX

i

µσ (2.51)

Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores

MCO, se tiene:

Varx X Xi i

( ! )( )

β σ µ σ µ1

2

2

2

2= =

−∑ ∑

VarX

X X ni

( ! )( )

β σ µ02

2

2

1=−

+

Cov XX Xi

( ! , ! )( )

β β σ µ0 1

2

2= −

−∑

Nótese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales

excepto por el elemento ( σ µ2 ). Por ello, es preciso estimar mediante el método de Mínimos Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordará, la naturaleza aleatoria de la variable endógena proviene del término de error, por lo que la varianza de Y resulta igual a la varianza de µ .

4 Recuérdese que Y X= + +β β µ0 1 , donde µ = 0 dado que µi =∑ 0 . En este caso, la presencia de un término

independiente resulta también indispensable. Recuérdese que el componente aleatorio de un modelo de regresión

lineal es ortogonal al componente determinístico y, en este sentido, se verifica que: β µ0 0i∑ = . Así, E Y Y( ) = .

Page 30: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

39

2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov El cálculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple

es indispensable para conocer el grado de dispersión que presenta nuestro estimador. Sin embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberíamos tener alguna certeza que dicha varianza es la menor posible5. Eso es lo que analiza el Teorema de Gauss-Markov.

El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el

método de Mínimos Cuadrados Ordinarios resultan los mejores estimadores lineales e insesgados (MELI) pues poseen la mínima varianza entre todas las clases de estimadores lineales e insesgados.

Para verificar esta propiedad, recordemos que el estimador MCO !β1puede escribirse como:

! ( )β β β µ1 0 1= = + +∑ ∑k Y k Xi i i i i

Ahora, y con el objetivo de demostrar que este estimador es el de mínima varianza,

definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma:

~β1 = ∑v Yi i (2.55)

De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan

las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo estimador cumple con la propiedad de insesgamiento:

( )E E v Y v E Yi i i i(~

) ( )β1 = =∑ ∑

= + +∑v E Xi i i( )β β µ0 1

= + ∑∑β β0 1v v Xi i i

Así, para que el nuevo estimador sea insesgado se debe cumplir que:

vi∑ = 0 (2.56)

v Xi i∑ = 1 (2.57)

Nótese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas anteriormente. Ahora, reemplazando la ecuación (2.55) en la fórmula de la varianza del estimador, se tiene:

( )Var Var v Yi i(~

)β1 = ∑

( )= ∑v VarYi i2

5 En resumen lo que se busca es determinar si el estimador MCO es eficiente.

Page 31: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

40

Como se recordará la varianza de la variable endógena es igual a la del error ( 2µσ ) de modo

que la expresión anterior queda como:

∑= 221 )

~( ivVar µσβ (2.58)

Con el fin de escribir la expresión anterior en términos más conocidos, hagamos el siguiente artificio:

2

222 ∑ ∑∑

+−=

i

i

i

ii

x

x

x

xvµσ

+

−+

−=

∑∑∑ ∑∑ ∑ 22

222

2

22 1

2ii

i

i

ii

i

ii

xx

x

x

xv

x

xv µµµ σσσ

+

−+

−=

∑∑∑ ∑∑ ∑ 22

222

2

22 1

2ii

i

i

ii

i

ii

xx

x

x

xv

x

xv µµµ σσσ

El segundo término de la expresión anterior es igual a cero, por lo siguiente:

( ) ( )v

x

x

x

xv

x

x

x

x

v x

x

x

xi

i

i

i

ii

i

i

i

i

i i

i

i

i

= −

= −∑∑ ∑ ∑ ∑ ∑

∑ ∑∑

∑∑2 2 2

2

2 2 2

2

2 2

= − =∑ ∑

1 10

2 2x xi i

Este resultado se obtiene debido a que el estimador ~β1es insesgado y por tanto se cumplen

las condiciones (2.56) y (2.57). Resumiendo, la varianza de ~β1se expresa como:

+

−=

∑∑ ∑ 22

2

22

11

)~

(ii

ii

xx

xvVar µµ σσβ

Si analizamos la expresión anterior, notaremos que el segundo sumando es constante e igual

a la varianza de !β1(obtenida en la sección anterior). De este modo, la varianza mínima se obtendrá reduciendo al máximo el primer término de dicha expresión. Esto se logra definiendo:

vx

xki

i

ii= =

∑ 2

La expresión anterior nos indica que la varianza de ~β1 es mayor a la de !β1, ya que la única

forma de obtener un estimador de mínima varianza es utilizando las ponderaciones ki. Así, el estimador MCO posee la mínima varianza entre todos los demás estimadores lineales e

Page 32: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

41

insesgados existentes. Esta propiedad también puede verificarse para 0β utilizando un procedimiento similar.

Un gráfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un

supuesto útil para este fin será que tanto el estimador MCO ( !β1), como el estimador alternativo

(~β1) poseen una distribución conocida que para este caso será un distribución normal.

Figura 2.1 En la figura 2.1, las distribuciones muestrales de ambos estimadores están superpuestas con

el fin de escoger el mejor predictor o estimador. Ambas distribuciones están centradas en el verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador será aquel que posea mayor probabilidad de acercarse a β1 , lo que se cumple cuando la distribución de probabilidad del estimador está menos dispersa alrededor del valor de su media, es decir cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el estimador obtenido por el método MCO (aquel cuya distribución se presenta con una línea continua) es el mejor estimador lineal insesgado ya que posee la mínima varianza, y así su distribución presenta una mayor probabilidad asociada a su valor medio. Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es necesario que se cumplan del segundo al quinto supuesto de los mencionados en el capítulo 16. Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de dichos supuestos falla, ya no es válido el teorema por lo que el estimador MCO ya no será el de mínima varianza y deberá buscarse la forma de transformar los datos o incluir ciertas condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro estimador MCO. 22..44 OOTTRROOSS RREESSUULLTTAADDOOSS RREEFFEERRIIDDOOSS AALL EESSTTIIMMAADDOORR MMCCOO 1. La línea de regresión muestral a través del estimador MCO atraviesa los puntos que

representan las medias muestrales de X e Y.

Gráficamente:

6 Estos en esencia nos dicen que la esperanza matemática de los errores es igual a cero, que no existe ni autocorrelación ni heterocedasticidad y que los regresores fijos no están correlacionados con el término de error.

Page 33: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

42

Figura 2.2 Esta propiedad se obtiene a partir de dividir la línea de regresión entre el número de

observaciones (n):

XY 10ˆˆ ββ += (2.18)

el término de error desaparece debido a que el promedio de los mismos es cero y por tanto

su sumatoria también lo será.

2. En promedio, el valor estimado de la variable endógena es igual a la media del valor observado de dicha variable.

Este resultado se puede comprobar fácilmente, partiendo de la ecuación de la función de

regresión muestral y haciendo algunas operaciones algebraicas, tal como se detalla a continuación:

ii XY 10ˆˆˆ ββ += (2.19)

Si se reemplaza la ecuación (2.18) en (2.19), se tiene:

ii XXYY 11ˆˆˆ ββ +−=

)(ˆˆ1 XXYY ii −−= β (2.20)

Tomando sumatorias a la ecuación (2.20), se obtiene:

∑ ∑ −−= )(ˆˆ1 XXYnY ii β (2.21)

Se puede comprobar fácilmente que la suma de las desviaciones de una variable, (llámese

dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de modo que:

0)( =∑ − XX i (2.22)

Page 34: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

43

Así podemos reexpresar la ecuación (2.21) de la forma:

YnYi =∑ ˆ (2.23)

y, dividiendo entre el tamaño muestral:

YY =ˆ (2.24) El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es

decir que, en promedio, las estimaciones de la variable endógena (realizadas sobre la base de datos muestrales), representan a sus contrapartes poblacionales. 3. La media de los errores estimados es nula.

Recuérdese que el proceso de minimización que nos permitió estimar los coeficientes de

regresión generó dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la representación de esta propiedad7:

∑ =−− 0)ˆˆ( 10 iXiY ββ

ei∑ = 0

Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que:

∑ −−∑ = )ˆˆ( ii XiYe 10 ββ

∑ ∑−∑ = iYiYei ˆ

0=−=∑YY

n

ei ˆ (2.25)

debido a la igualdad propuesta en (2.24)8. 4. El error estimado no está correlacionado con el valor estimado o predicho de la variable

endógena. Lo anterior, garantiza que el método de MCO cumple con el supuesto de ortogonalidad entre

la parte explicada del modelo de regesión lineal simple y la parte no explicada. Formalmente:

7 De hecho, la presencia de un intercepto o término independiente resulta crucial para la validez de esta propiedad, tal como se verificará posteriormente. Nótese, además, que la comprobación de esta propiedad está basada en la ecuación normal del intercepto. 8 En este caso la presencia de un término independiente también resulta indispensable ya que, de otra forma, no sería posible realizar la sustitución propuesta en (2.20).

Page 35: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

44

i iY e!∑ = 0 (2.26)

Para demostrar esta propiedad basta reemplazar la función de la línea de regresión muestral

(1.18) en la expresión anterior:

∑ ∑+=∑ + eXeeX ii iiiββββ ˆ

1ˆ0)ˆ

1ˆ0(

00 1 =∑ ∑+= eXe iii ββ ˆˆ (2.27)

Nótese que en (2.27) los coeficientes de regresión (el intercepto y la pendiente) están

multiplicados por la primera y segunda ecuación normal, respectivamente. Como resultado del proceso de minimización se tiene que dichas ecuaciones son idénticas a cero, por lo que queda demostrado que la parte predicha o estimada del modelo no guarda relación alguna con la parte no explicada o estocástica.

22..55 EESSTTIIMMAACCIIÓÓNN MMCCOO DDEE σ µ2

Hasta el momento hemos estimado únicamente los parámetros del modelo propuesto pero

aún nos queda la estimación de una última magnitud: la varianza del error. Nótese que hasta el

momento cuando obtuvimos la varianza de los estimadores el término 2µσ ésta quedó expresado

en términos teóricos. Para poder estimar la varianza de los parámetros y la propia varianza de la variable dependiente necesitamos un estimador de esta magnitud.

Una de las formas más utilizadas para la estimación de la varianza del error parte del modelo

teórico y de su representación en promedios muestrales:

Y Xi i i= + +β β µ0 1

Y X= + +β β µ0 1

a partir de las cuales obtenemos:

Y Y X Xi i i− = − + −β µ µ1( ) ( )

y xi i i= +β µ1 (2.52)

Recuérdese que el residuo o error estimado puede expresarse como:

e Y Xi i i= − −! !β β0 1

= − − − = − − −Y Y X X Y Y X Xi i i i i i( ! ) ! ( ) ! ( )β β β1 1 1

e y xi i i= − !β1 De este modo, reemplazando (2.52) en la última ecuación se obtiene: iii xe µββ +−−= )ˆ( 11 Así, elevando al cuadrado y sumando a ambos lados, resulta:

Page 36: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

45

e x xi i i i i2

1 12 2

1 122∑ ∑ ∑ ∑= − − − − + −( ! ) ( ! ) ( ) ( )β β β β µ µ µ µ

y, tomando valores esperados se tiene:

[ ] [ ]E e E x E x Ei i i i i( ) ( ! ) ( ! ) ( ) ( )21 1

2 21 1

22∑ ∑ ∑ ∑= − − − − + −β β β β µ µ µ µ

(2.53)

Analizando la expresión anterior, el primer sumando se reduce a 2µσ , por ser un componente

de la varianza del estimador de β1 . Mientras que el segundo sumando se obtiene mediante el procedimiento siguiente:

[ ]E x E k xi i j jj

n

i ij

n

( ! ) ( ) ( )β β µ µ µ µ µ1 11 1

− − =

∑ ∑ ∑= =

Nótese que, [ ]E j iµ µ µ( )− = 0 , excepto cuando (i = j ). De esta manera, el término anterior

resulta:

[ ]k x Ex

xi i i i

i

i∑ ∑∑− = =µ µ µ σ µ σ µ( ) 2

2

22

Por último, trabajando con el tercer sumando se tiene:

( )( )µ µ µ µ µ µi i i− = − +∑ ∑2 2 22

( ) ( ) ( )= − + = −∑ ∑ ∑ ∑ ∑µ µµ

µ µi ii

i in n n2 2

2

2 22 1

y tomando esperanzas:

[ ]E ni( )µ µ− =∑ 2 222 )1( µµµ σσσ −=− n

De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que:

( ) 22222 )2()1(2 µµµµ σσσσ −=−+−=∑ nneE i (2.54)

Por consiguiente, y dado que el estimador MCO de σ µ2 debe cumplir con la propiedad de insesgamiento, se tiene que:

( )E Ee

n nE e

nn

ii( ! ) ( )σ µ σ µ σ µ2

22 2 2

2

1

2

1

22=

=

−=

−− =∑ ∑

Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple

viene dado por la siguiente expresión:

Page 37: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

46

2ˆ 1

2

2

−=∑

=

N

eN

ii

µσ (2.55)

22..66 MMEEDDIIDDAASS DDEE BBOONNDDAADD DDEE AAJJUUSSTTEE

Por lo revisado hasta el momento, sabemos que el criterio de Mínimos Cuadrados Ordinarios

garantiza que la línea de regresión obtenida es la que proporciona la menor suma de cuadrados de residuos de todas las que se podrían obtener si se trazan a través de los valores observados de X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las observaciones caen sobre la línea de regresión, mientras que en otros pueden no obtenerse tan buenos resultados. Así, se hace necesario considerar la bondad de ajuste de la línea de regresión dado el conjunto de observaciones. En otras palabras, se desea verificar qué tan bueno es el ajuste de la línea de regresión a los datos, o cuán cerca están las predicciones del modelo con respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una estructura que gobierna el comportamiento de la variable dependiente. Así, la bondad de ajuste nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable endógena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina coeficiente de determinación, conocido también como r- cuadrado (r2 o R2 en el caso de una regresión lineal simple o en el de una regresión múltiple, respectivamente).

2.6.1. ¿Cómo se calcula el coeficiente de determinación?

Para el cálculo del r2 se debe partir del modelo de regresión empírico, el cuál puede

escribirse de dos formas:

Y X ei i i= + +! !β β0 1

Y Y ei i i= +! Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuación

la expresión de la línea de regresión, del modo siguiente:

( ) ! ( )Y Y X X ei i i− = − +β1 y y ei i i= +! En la expresión anterior, resulta indiferente escribir ei o ( )e ei − , pues recuérdese que e = 0

por la primera ecuación normal. Luego, elevando dicha expresión al cuadrado y tomando sumatorias, se tiene:

y y e y ei i i i i2 2 2 2∑ ∑ ∑ ∑= + +! !

Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuación

anterior es igual a cero, de modo que:

y y ei i i2 2 2∑ ∑ ∑= +! (2.59)

Page 38: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

47

Podemos expresar la ecuación anterior de modo tal que resulte más conocida en términos estadísticos9:

( ) ( ! )Y Y Y Y ei i i− = − +∑ ∑ ∑2 2 2 (2.60)

Cada una de las expresiones anteriores están relacionadas con sus respectivas varianzas.

Según ello, podemos descomponer la varianza de la variable endógena en dos partes: una explicada por el modelo a través de la regresión lineal estimada y otra que el modelo no es capaz de explicar debido a su naturaleza estocástica. Pasemos ahora a definir los componentes de la expresión (2.59):

yi2∑ , suma total de cuadrados de la variable explicada(STC)

!yi2∑ , suma explicada de cudrados (SEC)

ei2∑ , suma residual de cuadrados (SRC)

Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento

de la variable endógena, nuestra medida de bondad de ajuste (r2 ) vendría dada por el cociente entre la SEC (variación de Y explicada por el modelo) y la STC (variación registrada para la variable explicada):

( )∑

∑−=

∑∑ −=

∑==

2i

2i

2i

2i

2i

2i

2i

i

i2

y

e1

y

ey

y

y

)Y(Var

)Y(Varr (2.61)

Algunas expresiones también útiles para calcular el r2 obtenidas mediante reemplazos de

algunas ecuaciones precedentes son las siguientes:

rx

y

x

y

Var X

Var Y

i

i

i

i

2 12 2

2 12

2

2 12= =

=∑

∑∑∑

!! ! ( )

( )

ββ β

( )r

x y

x y

i i

i i

2

2

2 2=

∑∑ ∑

Así, el coeficiente de determinación se interpreta como la proporción de la variación total de

Y que la regresión es capaz de explicar. En otras palabras, el r2 mide la efectividad que poseen las variables independientes X para explicar la variación que la variable dependiente experimenta a lo largo de la muestra. Por lo tanto, cuando r2 es muy cercano a 1 se dice que el modelo de regresión es capaz de explicar un alto porcentaje de las variaciones que registra la variable explicada. Por lo tanto, el ajuste de la línea de regresión obtenida por MCO es bastante bueno, en el sentido que los valores estimados de Y son casi idénticos a los observados y que los residuos son muy pequeños.

Existen algunos casos en los que el coeficiente de determinación no es una medida confiable,

por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el número de observaciones es

9 Una condición necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se podrá afirmar que 0=e ya que no habría una ecuación normal asociada a este término.

Page 39: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

48

reducido, quizá algún residuo alto puede hacer que el r2 sea insignificante y por tanto se concluya que la regresión es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando las observaciones de X e Y provienen de muestras de series temporales con tendencia similar. En tal situación, sucede que el coeficiente de determinación es cercano a uno, pues las variaciones que experimenta la variable dependiente son muy similares a las de la variable

independiente, y en consecuencia: y yi i2 2∑ ∑≈ ! . Basta con eliminar la tendencia para que el

resultado sea diferente, obteniéndose un coeficiente de determinación menor. En este caso, la regresión recibe el nombre de espúrea o ficticia, pues el modelo estimado en realidad no recoge la existencia de una relación de la variable dependiente y los regresores. Esto ocurre cuando las series de tiempo involucradas presentan ciertas características que distorsionan la distribución del error sobre la base de la cual se construyen las pruebas de inferencia.

La descomposición de la variación de Y, sobre la base de la cual se construye el r2, puede

ilustrarse de la siguiente manera:

Figura 2.3 La variación de la variable endógena es la suma de dos componentes

La figura 2.3 ilustra lo que hemos derivado de manera matemática. La línea continua sobre el

eje horizontal refleja el valor promedio de la variable dependiente Y. El término Yi refleja una observación de la misma variable. La distancia vertical entre este punto y la línea del promedio nos muestra la desviación total de Yi con respecto a su media (lo que equivale a la suma total de cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical la podemos descomponer en dos partes. La primera de ellas está relacionada con el segmento

que parte de la línea de regresión estimada y va hasta la línea del promedio )ˆ( YYi − . Esta es la desviación explicada por la regresión. El segmento restante representa aquella parte que no es

explicada por la regresión y por tanto se relaciona con el residuo ( ii YY ˆ− ).

Page 40: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo de Regresión Bivariado

49

2.6.2 Propiedades del coeficiente de determinación

1. Es un número no negativo. Para demostrarlo basta recordar que éste simboliza el cociente entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no se especifique un intercepto en el modelo, el r2 podría resultar negativo y por tanto no debería tomarse en consideración10. Por ello, es preciso hallar el coeficiente de determinación ajustado o corregido, el cuál se estudiará en el siguiente capítulo.

2. Puede tomar valores entre cero y uno, (0≤ r 2 ≤ 1) ¿Qué pasaría si r 2 fuese cero? No

existiría ninguna relación entre la variable endógena y la explicativa y, por tanto, el

estimador de la pendiente de la variable explicativa ( !β1 ) sería igual a cero y se obtendría una la línea de regresión horizontal al eje X.

3. No tiene unidades de medida. Recuérdese que es una proporción, siendo, por tanto, un

número puro. 22..77 AA MMOODDOO DDEE CCOONNCCLLUUSSIIÓÓNN:: En este capítulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo considera sólo una variable explicativa aparte del intercepto. El estimador MCO cumple con una serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrán la menor incertidumbre asociados a ellos. Dentro del largo camino que aún nos queda por recorrer en la exploración de las aplicaciones del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la lógica a partir del cual se deriva el estimador. Hasta aquí la herramienta más utilizada han sido las sumatorias. Sin embargo, un enfoque más completo se basa principalmente en el análisis matricial que es el que empezaremos a utilizar en los capítulos siguientes. Para ello se recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores así como la interpretación de las distintas operaciones con los mismos.

10 Recuérdese que sólo sí se incluye un intercepto se cumple que STC = SEC + SRC.

Page 41: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 33 EELL MMEETTOODDOO DDEE EESSTTIIMMAACCIIÓÓNN DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS

OORRIIDDIINNAARRIIOOSS:: MMOODDEELLOO LLIINNEEAALL GGEENNEERRAALL

33..11.. IINNTTRROODDUUCCCCIIÓÓNN En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos

sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las principales variables que explican a otra variable a la cual le hemos dado el nombre de variable dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k variables (Y y X1, X2,..., Xk) en notación matricial. Este modelo es conocido como el modelo de regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en el Capítulo 2.

Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se

estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable endógena (Y) y k variables exógenas (X). Formalmente:

ikikiiii XXXXY µ+β++β+β+β= ...332211 i = 1,2,......n (3.1)

La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de

una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes

Page 42: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

52

( kββ ,.....1 ) y µi el término de error correspondiente a la i-ésima observación. Por otro lado, la

inclusión de un intercepto en el modelo hace que X1 represente un vector de unos, si reemplazamos éste en la expresión (3.1) se obtiene el siguiente conjunto de ecuaciones:

1131321211 ... µ+β++β+β+β= kk XXXY

2232322212 ... µ+β++β+β+β= kk XXXY

..........................................................................

nknknnn XXXY µ+β++β+β+β= ...33221

En términos matriciales:

nY

Y

Y

.2

1

=

n,kn,

k,,

X...X

.........

.........

X...X

2

112

1

1

1

1

.

β

ββ

k

.2

1

+

µ

.

.1

(nx1) (nxk) (kx1) (nx1)

y en forma compacta: µβ += XY (3.2)

33..22.. LLAA EESSTTIIMMAACCIIÓÓNN MMCCOO PPAARRAA EELL MMOODDEELLOO DDEE RREEGGRREESSIIÓÓNN LLIINNEEAALL GGEENNEERRAALL Con el fin de estimar los coeficientes del modelo de regresión y el intercepto, debemos re-

escribir la ecuación (3.1) de modo que para la observación i tendríamos un valor observado de Y y un valor estimado de la forma:

kiXkˆ...i2X2ˆ1ˆiY β++β+β=

Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el

valor observado de la variable endógena resulta un residuo o término de error (e):

ktkiii Xˆ..XˆˆYe β−−β−β−= 221

y, repitiendo este proceso para todas las observaciones muestrales se obtiene:

eˆXeXˆ...XˆˆY kk221 +β=+β++β+β= (3.3) En la ecuación anterior, β es un vector de coeficientes de k elementos, e es otro vector de

residuos de n elementos y X representa la matriz de variables explicativas de orden (nxk). Como se mencionó en la introducción del presente capítulo, utilizaremos el criterio del

método de estimación MCO para obtener los estimadores: minimizar la suma de cuadrados de

los residuos (SRC = ∑ 2ie ). Se denota matricialmente como ee′ :

[ ] ∑=+++=

=′ 2222

21

2

1

21 ......... in

n

n eeee

e

.

e

e

eeeee

Page 43: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

53

Por la ecuación (3.3), se tiene que:

) ˆX - Y ( )' ˆX - Y ( ββ=′ee De esta manera, el problema de minimización a resolver es el siguiente:

Min ( Y - X β )' ( Y - X β )

β

( Y - X β )' ( Y - X β ) = Y'Y - Y'X β - 'β X'Y + 'β X'X β

= Y'Y - 2 β 'X'Y + β 'X'X β

en la expresión anterior Y'X β y 'β X'Y son escalares y por tanto son iguales(uno es el transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la

suma de residuos al cuadrado define una función del vector de coeficientes β . De modo que:

)ˆ(fee β=′

donde los elementos del vector β son las variables de la ecuación, por lo que se debe minimizar

la misma con respecto a β . Para tal fin, es preciso hacer una digresión acerca del álgebra matricial utilizada para obtener los resultados que a continuación se detallan:

Min (Y'Y - 2 β 'X'Y + β 'X'X β)

β

ββ+β−= ˆX'X'ˆY'X'ˆY'Ye'e 2

022 =β+−=β∂

∂ ˆX'XY'Xˆe'e

β= ˆX'XY'X (3.4)

Digresión:

Se define )(bf!

como una función de k elementos distintos de bi entonces debemos calcular k derivadas parciales de dicha función con respecto a cada bi. En este sentido, se obtiene el vector gradiente (primeras derivadas parciales) como definición general en formas lineales:

∂∂

∂∂

=∂

∂→

nb

bf

b

bf

b

bfbf

)(

)(

)()(

1

!"

!

!

!!

(3.5)

Page 44: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

54

Ahora definamos una función lineal, donde a es un vector de k elementos constantes cualesquiera.

)b(f!

= a’b

)b(f!

= a1b1+ a2 b2+.......+ak bk

y, utilizando la expresión(3.5) se obtiene:

a

a

..

a

a

b

)ab(

b

)ba(

k

2

1

=

=∂′∂=

∂′∂

Nótese la similitud entre la expresión anterior y el problema de minimización definido en

(3.4). Así, obtenemos las siguientes expresiones:

)X'ˆ(ˆ

)ˆ'X( =β∂β∂=

β∂β∂

Asimismo, podemos definir la siguiente forma cuadrática en b, donde A es una matriz

simétrica de orden (kxk):

Abbbg ')( =

[ ]kb...bb 21

kkkk

k

k

AAA

AAA

AAA

#

"$""

#

#

21

22212

11211

kb

b

b

"2

1

Abb' = kk AbbAbbAb 1112211121 22 +++ #

kk AbbAb 222222 2+++ ##

"

kkk Ab2

Derivando parcialmente la expresión anterior, obtenemos lo siguiente:

+++

++++++

=

∂∂

∂∂∂

=∂

kkkk22k11

k2k222121

k1k122111

k

2

1

Ab2Ab2Ab2

Ab2Ab2Ab2

Ab2Ab2Ab2

bg

bg

bg

b

)b(g

#

"

#

#

"

Page 45: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

55

Ab

b

b

AAA

AAA

kkkkk

k

221

21

11211

=

= "

#

"$"

"$"

#

Por lo anterior, notemos que:

=∂

∂b

)Ab'b( β=β∂

ββ∂ ˆ)X'X(2ˆ

)ˆX'X'ˆ(

Ahora regresemos a la expresión (3.4). Esta representa la simbolización compacta de las k

ecuaciones normales del modelo. Nótese que estas ecuaciones pueden reexpresarse en términos de sumatorias, de forma similar al Capítulo anterior:

∑=∑β++∑β+β ikiki YXˆ...Xˆˆn 221

∑=∑β++∑β+∑β iikiikii YXXXˆ...XˆXˆ22

22221

...............................................................................................................................

∑=∑β++∑β+∑β ikikikikiki YXXˆ...XXˆXˆ 2221

o en términos matriciales,

=

β

ββ

∑∑∑

∑∑∑∑∑

Yn

..

Y

Y

.

X...XX

............

X...XX

ˆ...

ˆ

ˆ

.

X...XXX

............

XX...XX

X...Xn

knkk

n

kkiikiki

kiiii

kii

2

1

21

222212

1

22

2222

2 1111

( XX ′ ) β = ( YX ' ) En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la

expresión anterior por ( XX ' )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el estimador es una función de los datos, para ello basta con reemplazarlos en la siguiente expresión:

Y'X)X'X(ˆ 1−=β (3.6)

Nótese que en este modelo también se verifica que las variables explicativas y el término de error son ortogonales entre sí (Cov (X, µ) = 0). Para tal fin debemos reordenar la expresión compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del álgebra matricial:

0)ˆ(' =− βXYX ⇒

1 En los casos en que la matriz ( )XX ' no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,

esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Sección (1.2).

Page 46: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

56

0

0

..

0

0

..' 2

1

=

=

′′

=

eX

eX

eX

eX

k

(3.7)

0'')'('')ˆ('' 1 =−=−=−= − YXYXXYXXXXYXXYXeX β Observamos que el primer elemento de la matriz anterior resulta:

∑ ==

n

iie

10

0=e

por lo que, los residuos de la regresión estimada por MCO tienen media igual a cero, siempre que el investigador incluya un término independiente en el modelo2. Por otro lado, los demás elementos de la matriz muestran que, al igual que en el modelo de regresión lineal simple, el supuesto de ortogonalidad entre los errores y las variables independientes se cumple.

33..33.. UUNNAA IILLUUSSTTRRAACCIIÓÓNN Para ilustrar este método matricial véase el ejemplo (2.1), donde se obtienen los

estimadores de un modelo bivariado por el método MCO. Así, obtenemos el modelo de regresión lineal simple en términos matriciales:

eXY += β

+

ββ

=

nnn e

..

e

e

ˆ

ˆ

X

....

X

X

Y

..

Y

Y

2

1

2

1

2

22

21

2

1

1

1

1

y, por el resultado obtenido en (3.4)

)(ˆ).( YXXX ′=β′

∑=

ββ

∑∑

=

=

==

=n

tii

n

ii

n

ii

n

ii

n

ii

YX

Y

XX

Xn

12

1

2

1

1

22

12

12

ˆ

ˆ

Ahora, veamos la Tabla (2.1) y reemplacemos en la expresión matricial anterior los valores correspondientes. Así, las matrices que resultan de la aplicación de este procedimiento son las siguientes:

2 Nótese que la presencia de un término independiente en el modelo implica que la primera fila de X es un vector de unos.

Page 47: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

57

(X’X) =

4620

2010 (X’Y) =

166

80

luego la inversa de la matriz (X’X) resulta.

(X’X)-1 =

0,166666660,33333333-

0,33333333-0,76666666

Si aplicamos la fórmula del estimador MCO en términos matriciales (3.6), obtenemos:

=

=

ββ=β

1

6

166

80

0,166666660,33333333-

0,33333333-0,76666666ˆ

ˆˆ

2

1

los cuales son los mismos obtenidos en el capítulo anterior. Este resultado ilustra el hecho de que el estimador presentado en esta capítulo (y que será el más utilizado a lo largo del libro) es una generalización del estimador bivariado (que usualmente se trabaja en términos de sumatorias).

33..44.. PPRROOPPIIEEDDAADDEESS DDEE UUNN BBUUEENN EESSTTIIMMAADDOORR Todo estimador debe cumplir con ciertas condiciones que nos den cierta seguridad acerca de

su idoneidad. Si un estimador cumple con estas condiciones podrá utilizarse con relativa seguridad de que los resultados obtenidos son equivalentes en términos estadísticos a los verdaderos parámetros que siempre serán desconocidos.

Esta propiedades pueden agruparse en dos categorías: i) propiedades exactas (o de muestras

pequeñas) y ii) propiedades aproximadas (o de muestras grandes o asintóticas). Las primeras de ellas se refieren a resultados sobre los cuales existe certeza y que pueden

analizarse incluso en un contexto de muestras pequeñas. El segundo grupo se refiere a resultados que no se pueden comprobar en muestras pequeñas y que deben analizarse como aproximaciones. La única forma de lograr hacer este análisis es realizando el ejercicio de ir aumentando el tamaño de muestra y observar como se va comportando el estimador3. Las principales propiedades se pueden resumir de la siguiente forma:

3.4.1 Propiedades de Muestras Pequeñas:

Primera propiedad: Insesgamiento

Recuérdese que en el Capítulo 2 estudiamos esta propiedad y demostramos que el estimador

MCO para un modelo de regresión con dos variables era insesgado. De esta manera, definimos formalmente un estimador insesgado:

E ( β ) =β

3 De allí que reciban el nombre de propiedades asintóticas. Estas propiedades serán analizadas en profundidad en el capítulo X, dedicado a esta tópico.

Page 48: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

58

En promedio, el estimador resulta igual al parámetro desconocido si se repite el experimento de muestreo varias veces. Gráficamente:

Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor

del parámetro, sino que proviene de una distribución cuya media es igual a dicho valor (β ).

Segunda propiedad: Eficiencia

El estimador debe tener la menor varianza posible con el fin de lograr mayor precisión en sus aproximaciones. Por lo tanto, un estimador eficiente es aquél que cumple con la primera propiedad y además es el que posee la mínima varianza entre todos los demás estimadores insesgados posibles. Así, y como se demostró en la ilustración del teorema de Gauss-Markov, el estimador MCO cumple con esta propiedad. Gráficamente: (Figura 2.3):

3.4.2 Muestras Grandes: (Propiedades Asintóticas)

Primera propiedad: Consistencia

Un parámetro es consistente si se cumple que:

P lim β=β n ∞→

Page 49: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

59

Esta propiedad indica que conforme aumente el tamaño de la muestra la media de la

distribución del estimador se aproximará más al verdadero valor del parámetro. Es decir, si se cumple esta propiedad β resulta la media de tal distribución.

Cabe destacar que esta propiedad es de suma importancia pues si un estimador resulta

sesgado utilizando un tamaño muestral reducido, el investigador puede eliminar dicho sesgo aumentando el número de observaciones de la muestra. Por lo tanto, para garantizar que el estimador MCO sea insesgado se debe utilizar muestras grandes )60( ≥n .

Segunda propiedad: Insesgamiento asintótico

La idea detrás de esta propiedad es analizar si el sesgo tiende a desaparecer en la medida que

el tamaño muestral tiende a infinito. Tiene cierta relación con la propiedad anterior pero no son equivalentes. En este caso se analiza el comportamiento del sesgo, mientras que en la consistencia se analiza el punto hacia el cual converge la distribución del estimador.

Tercera propiedad: Eficiencia Asintótica

Este propiedad está referida al comportamiento de la varianza de la distribución asintótica

del estimador. La distribución asintótica es aquella hacia la cual converge la distribución del estimador a medida que crece el tamaño muestral. La idea es analizar si la varianza de esta distribución es menor que cualquier otra proveniente de estimadores alternativos.

33..55.. PPRROOPPIIEEDDAADDEESS DDEELL EESSTTIIMMAADDOORR MMCCOO

1. Insesgamiento

Recordemos que para determinar el insesgamiento debemos reemplazar el modelo verdadero dentro de la fórmula de nuestro estimador:

β YXXX ')'( 1−=

)(')´( 1 µ+β= − XXXX

µ+β= −− ')'(')'( 11 XXXXXXX

β µ+β= − ')'( 1 XXX (3.8)

Tomando esperanzas a la expresión precedente, obtenemos:

)ˆ(βE )(')'( 1 µ+β= − EXXX

β=β)ˆ(E (3.9)

De esta manera se verifica que el estimador MCO, para el modelo de regresión general, es insesgado. Un resultado fundamental para la comprobación de esta propiedad es que las X son fijas o que no están correlacionadas con el error. La ortogonalidad entre los regresores y el términos de error es necesaria para comprobar el insesgamiento.

2. Matriz varianza-covarianza (Eficiencia)

Page 50: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

60

)ˆ(βVar ]))'ˆ(ˆ))(ˆ(ˆ[( β−ββ−β= EEE

])'ˆ)(ˆ[( β−ββ−β= E Ahora, por la ecuación (3.8) se obtiene:

)ˆ(βVar ])'('')'[( 11 −− µµ= XXXXXXE

11 )'()'(')'( −− µµ= XXXEXXX

Recordemos que por el segundo y tercer supuesto del modelo de regresión lineal4

verificamos que: nIE 2)'( µσ=µµ . Por consiguiente, la expresión anterior resulta:

121 )'(')'()ˆ( −µ

− σ=β XXXIXXXVar n

12 )'()ˆ( −µσ=β XXVar (3.10)

Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el

estimador β de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que cuando el investigador dispone de varias muestras el método de estimación de MCO arroja estimadores que en promedio son idénticos a los verdaderos valores de los parámetros desconocidos. Sin embargo, en la mayoría de los casos cuando corremos una regresión solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia entre el estimador y su valor esperado poblacional, es decir tenemos una aproximación de la misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras palabras, de la matriz de varianzas y covarianzas del estimador MCO.

Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende

de la varianza del error. Esto es, si la distribución poblacional del error presenta una alta dispersión, la varianza del estimador β se comportará de igual forma (existe una relación directa entre los dos). Por otro lado, el análisis del segundo componente es un poco más complicado, dado que los elementos de la matriz (X’X) están relacionados directamente con las varianzas y covarianzas muestrales de las X5. Si analizamos las implicancias de la relación matemática notaremos que a mayor dispersión de las variables independientes, la matriz (X’X) es mayor6 y por tanto su inversa es menor, de modo que la varianza del coeficiente de regresión será menor. Es decir, a mayor varianza de las X ganamos precisión en las estimaciones del modelo. Esta última idea la podemos entender de manera utilizando un gráfico. En él, ilustraremos el caso de una regresión bivariada, en el eje de las abcisas tenemos los valores de la variable independiente y en el eje de las ordenadas, los valores de la variable dependiente:

4 Véase la sección (1.2) del primer capítulo 5 Tomemos en cuenta la fórmula de la varianza muestral de una variable:

1

2

1

)()(

222

−+−

=−−

= ∑ ∑∑n

xnxxx

n

xxxVar

iii

Como vemos, si el primer término del desarrollo de la sumatoria es mayor, la varianza de la variable x será mayor. Ese término es precisamente uno de los términos de la diagonal principal de la matriz X´X. De igual manera ocurre con los elementos fuera de esta diagonal principal que serán los elementos correspondientes de la covarianzas muestrales de las variables explicativas incluidas en el modelo. 6 Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la sumatoria de las variables elevadas al cuadrado tenderán a ser mayores, como estos son los elementos de la diagonal principal, sabemos que a mayor la traza de una matriz cuadrada, mayor será su magnitud.

Page 51: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

61

Figura 3.1

La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la

línea de regresión que muestra dicha característica es LR1. Basta introducir una nueva observación (a) para que la línea de regresión presente un cambio brusco de pendiente (LR2), por lo que los estimadores MCO pierden precisión en la medida que son muy sensibles.

Figura 3.2

El gráfico anterior muestra como a mayor variabilidad de las X es más fácil identificar la

línea de regresión. Ahora se verifica que al incluir otra observación en el modelo la pendiente de la línea de regresión no se ve afectada o de lo contrario varía ligeramente. Por lo tanto, se concluye que la variabilidad en los datos (X) es indispensable para que las predicciones del modelo estimado sean confiables y por ende los estimadores presenten mayor precisión.

De todo lo discutido hasta el momento, vemos que dos elementos para evaluar la calidad de

un estimador son el sesgo y la varianza. Sin embargo, se pueden presentar casos en donde la varianza de un estimador sesgado es menor que la de un estimador insesgado. En este caso ¿cuál estimador debemos escoger? La respuesta a esta pregunta encontró una solución en el planteamiento de un criterio que nos permita evaluar un estimador tomando en cuenta el sesgo y la varianza. Este criterio recibe el nombre de Error Cuadrático Medio (ECM)que se define como la esperanza matemática de la diferencia entre el valor estimado del parámetro y su valor verdadero:

2))ˆ(()ˆ()ˆ()ˆ( θθθθθ SesgoVarianzaEECM +=−=

Page 52: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

62

Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrático

medio será idéntico a su varianza, por tanto se deberá comparar dicha medida de dispersión con el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicación de este criterio es general y puede aplicarse a cualquier par o más de estimadores.

Hasta aquí hemos hablado de cómo estimar la varianza y la interpretación de la misma. Sin

embargo, la estimación de la varianza es un paso previo a la comprobación de que ésta es la mínima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el capítulo anterior el teorema de Gauss-Markov en su forma matricial.

Teorema de Gauss-Markov

Aquí extenderemos los resultados encontrados en el capítulo 2 a todo un vector de

coeficientes β . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una función lineal de la variable endógena (Y). Demostración:

Sea YA~~ =β donde A

~ es una matriz de orden (kxT)

Definimos otra matriz A (kxT) a la diferencia:

')´(~ 1 XXXAA −−=

Según lo anterior:

]][)'([~ 1 µ+β+=β − XXXXA

µ++β+β=β − ]')´([~ 1 XXXAAX (3.11)

y tomando esperanzas a ambos lados de la ecuación, obtenemos como resultado:

β+β=β AXE )~

( (3.12)

De modo que β~ será insesgado sí y solo sí suponemos que AX=0. De esta manera, resulta útil reexpresar la ecuación (3.11) para el cálculo de la varianza del estimador:

µ++β=β − ]')´([~ 1 XXXA (3.13)

Ahora reemplacemos la expresión anterior en la definición de la matriz de covarianzas del

estimador, así obtenemos:

])'~

)(~

[()~

( β−ββ−β=β EVar

]])'('[']')'([[ 11 −− +µµ+= XXXAXXXAE

2121212 )'('')'()'(')~

( µ−

µ−

µ−

µ σ+σ+σ+σ=β XXAXAXXXXXAAVar

212 )'(' µ−

µ σ+σ= XXAA

matriz varianza del

definida positiva estimador MCO

Page 53: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

63

La expresión anterior indica que la matriz de covarianzas del estimador alternativo es igual a la del estimador MCO más una matriz definida positiva. En este sentido, se verifica que la varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor que la varianza del estimador MCO. 33..66 OOTTRROOSS RREESSUULLTTAADDOOSS RREEFFEERRIIDDOOSS AALL EESSTTIIMMAADDOORR MMAATTRRIICCIIAALL DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS

OORRDDIINNAARRIIOOSS

1.El vector de residuos de Mínimos Cuadrados es una transformación lineal del vector de errores del modelo teórico. Recordemos que:

β−= ˆXYe

YXXXXIn ]')'([ 1−−=

]][')'([ 1 µ+β−= − XXXXXIn (3.14)

][ µ+β= XM x

YMMe xx =µ=

Este resultado se entenderá si tomamos en cuenta las propiedades que indicaremos más

abajo. Definimos la matriz Mx = ]')'([ 1 XXXXI n−− 7 como la matriz de proyección ortogonal

de la variable dependiente en el espacio definido por los errores. Esta matriz cumple con las siguientes propiedades:

i.) Simétrica e idempotente8:

xM xM = ]')'([ 1 XXXXI n−− ]')'([ 1 XXXXI n

−−

= ')'(')'(')'(')'( 1111 XXXXXXXXIXXXXXXXXI nn−−−− +−−

= ')'( 1 XXXXI n−−

= Mx

ii) Ortogonal a la matriz X

XXXXXIXM nx ]')'([ 1−−=

= 0')'( 1 =− − XXXXXX Si utilizamos esta última propiedad obtenemos el resultado presentado en (3.14).

2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en términos de los errores teóricos del modelo.

Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es que la suma residual de cuadrados puede expresarse en términos del verdadero vector de errores. Así, obtenemos:

7 En realidad, la matriz de proyección ortogonal Mx está asociada a otra matriz Px. Esto se explicará detalladamente en la sección (3.9). 8 Una matriz simétrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente es aquella que al ser multiplicada por sí misma da como resultado la misma matriz.

Page 54: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

64

YMYeeSRC x'' ==

)](')'([)'( 1 µβµβ +−+= − XXXXXIX n

µβµµββ ]')'(['']')'([']')'(['' 111 XXXXIXXXXXIXXXXXIX nn−−− −+−+−=

βµ XXXXXI n ]')'([' 1−−+

µµµµ xxx MMMeeSRC '''' ===

µµ xx MYMYeeSRC ''' ===

3. Otra forma de expresar la Suma de Cuadrados de los Residuos Mínimo-Cuadráticos.

Recordemos que:

SRC - Suma de Residuos al Cuadrado:

ee' )ˆ)(''ˆ'( ββ XYXY −−=

ββββ ˆ''ˆ''ˆˆ'' XXYXXYYY +−−=

βββ ˆ''ˆ''ˆ2' XXYXYY +−=

YXXXXXYXYY ')'(''ˆ''ˆ2' 1−+−= ββ

YXYXYY ''ˆ''ˆ2' ββ +−=

YXYYee ''ˆ'' β−= (3.15)

4. Se verifica que en términos probabilísticos la esperanza del error estimado es igual a

cero.(Véase el segundo supuesto del modelo de regresión lineal- Cap 1)

)ˆ()()( βXEYEeE −=

ββ XX −=

0)( =eE

33..77.. MMEEDDIIDDAASS DDEE BBOONNDDAADD DDEE AAJJUUSSTTEE

Recordemos que el propósito del análisis de regresión es explicar el comportamiento de la variable dependiente (Y). Al disponer de una muestra dada, sabemos que el comportamiento de Y es aleatorio, es decir puede tomar un valor relativamente bajo para algunas observaciones y relativamente alto para otras. Dichas variaciones de la variable pueden aproximarse con la varianza muestral de Y (Var(Y)), Por ello, es importante cuantificar su magnitud.

Para el modelo de regresión lineal simple procuramos explicar la conducta de la variable

dependiente, escogiendo adecuadamente la variable explicativa(X), a través de la regresión. Después de ajustar la regresión somos capaces de separar el valor de Yi para cada observación

en sus dos componentes: iY y ei . Es decir:

iii eYY += ˆ (3.16)

Page 55: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

65

De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho )Y( i y su valor observado. Así, por la ecuación (3.16) podemos descomponer la varianza de Y de la siguiente forma9:

)()ˆ()( iii eVarYVarYVar +=

La expresión anterior muestra que es factible descomponer la varianza de la variable

endógena en un componente explicado por el modelo de regresión lineal, en el sentido descrito anteriormente, y en otro no explicado relacionado a la presencia del residuo.

Recuérdese que la bondad de ajuste del modelo nos permite conocer el grado en que la

estructura que gobierna el comportamiento de la variable dependiente, recoge el comportamiento de tal variable. O en otros términos, mide cuán bien explicado está el comportamiento de la variable endógena por nuestro modelo.

En consecuencia, definimos formalmente al coeficiente de determinación:

)Y(Var

)Y(VarR

i

i2 = (3.17)

y muestra la proporción de la varianza explicada por la regresión lineal. Asimismo, podemos definir formalmente al R2 en términos de las sumas de cuadrados definidas en la sección (2.4). Así, resulta:

STC = SEC +SRC

eeYnYYYnYY 22 ′+−′=−′

STC

SEC

YnYY

YnYYR

2

22 =

−′−′

= (3.18)

donde la suma explicada de cuadrados(SEC) se define por:

22 YnˆXXˆYnYY −β′β′=−′

( ) 21 YnYXXXXXˆ −′′′β′= −

SEC 2YnYXˆ −′β′= Debe mencionarse que esta suma explicada de cuadrados está medida alrededor de la media

de la variable dependiente. El término 2Yn precisamente resta la media de la variable dependiente10. Este cálculo se puede hacer si es que el modelo contiene un intercepto.

Asimismo, podemos expresar el coeficiente de determinación en términos de la suma

residual de cuadrados:

9 Recuérdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:

0eXˆeY =′β′=′ .

10 Recordemos que ( )

∑∑ ∑∑

−′=−−=

+−=−222

222

2

2

ynyyynynyy

ynyyyyy

i

iii

Page 56: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

66

22

YnYY

ee1

STC

SRC1R

−′′

−=−= (3.19)

y por el resultado obtenido en (3.15), se tiene:

2

2

YnYY

Y'X'ˆY'Y1R

−′β−−=

Algo que debe discutirse a estas alturas es que el R2 estará acotado entre 0 y 1 si es que sólo

se incluye un intercepto en el modelo. Esto se concluye porque la inclusión del intercepto asegura – a través de las ecuaciones normales- que la media de los errores mínimos cuadráticos (ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto asegura que existe ortogonalidad entre las variables explicativas y el término de error mínimo cuadrático. De no incluir intercepto –por construcción- nada asegura que la parte explicada y la parte no explicada sean ortogonales entre sí, por lo que la suma de total de cuadrados podría incluir un tercer término que puede ser negativo o positivo. De ser negativo y mayor que yý, el R2 podría ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no está acotado por abajo. El valor máximo de 1 se seguirá manteniendo.

Debido a que el coeficiente de determinación mide la bondad de ajuste de los valores

estimados a la línea de regresión, puede ser utilizado para comparar el grado del poder explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los siguientes casos:

i) En los casos en que el investigador disponga de un modelo que incluya intercepto y otro

que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer modelo podría resultar negativo, específicamente se haya en el siguiente intervalo [ ]1,∞− como ya se mencionó. En este caso los R2 no son comparables.

ii) Cuando dos modelos están especificados con igual número de variables explicativas y

tratan de explicar la misma variable endógena pero no incluyen intercepto. Es factible utilizar al R2 como una medida de comparación, de esta manera se eligirá aquél que tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.

iii) El R2 también es de mucha utilidad cuando comparamos dos modelos anidados, se

denominan así aquellos modelos cuya estructura consta de una variable endógena y variables exógenas comunes. Pero, uno de ellos está especificado con un menor número de variables explicativas. En tal sentido, debemos hallar el R2 del modelo que omite algunas variables para luego incluir una por una las restantes. Con este procedimiento se verificará que el modelo ampliado disminuirá su suma residual conforme se incluya otra variable, por lo tanto el R2 mejora considerablemente.

iv) Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos

modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una medida que tenga mucho sentido comparar, dado que cada R2 mide la explicación de la varianza dela variable endógena que en este caso no son las mismas.

Una conclusión lógica que se infiere de lo anterior es que el R2 es una función creciente del

número de variables explicativas utilizados en el modelo. Es decir, una variable adicional aumenta la proporción en que el modelo explica el comportamiento de la variable endógena. Por ello, es importante que el investigador incluya todos los regresores necesarios para explicar con mayor precisión a Y.

Page 57: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

67

Algo que se deriva de lo discutido en el párrafo anterior es que una forma de elevar cada vez

más el R2 es incluir nuevas variables. La inclusión de una nueva variable, en el peor de los casos, no modifica el R2 pero en la mayoría de las veces logra aumentarlo11. Sin embargo, si bien el beneficio de incluir una variable más está en la elevación del R2, tiene un costo. Este viene dado por la pérdida de grados de libertad. Recordemos que por la inclusión de una variable más, aumenta en igual cantidad el número de ecuaciones normales y por lo tanto existe un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un valor de tal forma que se cumpla la ecuación normal. Esto le quita libertad al modelo para captar la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusión de una variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que tome en cuenta estas dos consideraciones, de tal forma de contar con una medida más confiable. Este indicador es el estadístico conocido como R2 ajustado o corregido. Formalmente:

)R1()kn(

)1n(1

)1n/(STC

)kn/(SRC12R 2−

−−

−=−−

−= (3.20)

La interpretación de este R2 alternativo es similar al anterior pues cumple con las mismas

propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero, le añade el ajuste por los grados de libertad que se pierden por la inclusión de una variable

adicional en el modelo. De modo que, la fracción: )kn(

)1n(

−−

aumenta cuando el número de

variables explicativas (k) se incrementa, mientras que el término (1-R2) disminuye. En consecuencia, se dice que esta nueva medida de bondad de ajuste es relativamente neutral a la introducción de variables adicionales.

Un punto importante como resumen de esta sección es presentar de manera sintética las

magnitudes involucradas en el cálculo de las medidas de bondad de ajuste. Como sabemos, cada uno de los componentes de la suma total de cuadrados tendrá asociados ciertos grados de libertad, los cuales serán utilizados más adelante. La formulación matricial de la descomposición de la varianza (tabla ANOVA) para el modelo lineal general es la siguiente:

Fuente de

variación Suma de

cuadrados Grados de libertad

Total de la regresión

2YnYY −′

n-1

Debido a la regresión

2YnˆXXˆ −β′β′

k-1

Debido a los residuos

Y'X'ˆY'Y β− n-k

La pérdida de un grado de libertad para la STC proviene del hecho de que para el cálculo de

ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo. Los grados de libertad son k-1 porque el espacio en donde están definidos los parámetros es k-dimensional y se pierde un grado de libertad por el cálculo de la media de la variable dependiente que sabemos es la misma que la media de la variable dependiente estimada a través del modelo. Por último, los grados de libertad de la suma residual es la diferencia entre los dos grados de libertas ya mencionados.

11 Recordemos que la suma explicada de cuadrados está relacionada a la siguiente magnitud:

ββ XX ′′ que es una forma cuadrática. Al incluir una variable más esta magnitud aumentará o a lo más no disminuirá

debido a que si el efecto de la variable es cero no se modificará esta expresión.

Page 58: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

68

33..88 MMOODDEELLOO PPAARRTTIICCIIOONNAADDOO

Cuando los paquetes estadísticos utilizados no eran tan potentes como los de ahora o no

existían, los cálculos se complicaban cuando se introducían un número alto de variables. Ello llevó a buscar formas de abreviar los cálculos. De allí surgió lo que ahora se denomina el modelo particionado. Si bien actualmente los programas estadísticos permiten hacer estimaciones con gran número de observaciones y variables explicativas, este análisis permanece relevante dado que permite ilustrar la interpretación de los parámetros de un modelo.

Podemos plantear entonces nuestro modelo lineal general de la forma tradicional:

eˆXY +β=

En este caso introduciremos un cambio. Este cambio implica particionar la matriz X en dos submatrices:

X = [X1 X2]

De modo que, las ecuaciones normales del modelo resultan:

′′

=

ββ

′′′′

YX

YX

XXXX

XXXX

2

1

2

1

2212

2111ˆ

ˆ

Digresión:

Cabe señalar que para hallar la inversa de una matriz particionada se tiene dos

procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz original. Así, para la estimación de los parámetros del modelo debemos calcular la matriz inversa de (X’X). Se pueden dar dos casos:

i) Se define la matriz particionada P, de orden kxk:

=

2221

1211

PP

PPP

donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr, rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de orden kxk:

=

2221

1211

FF

FFF

Si bien los elementos de ésta matriz no son idénticos a los de la matriz P-1, sí guardan una

relación importante con los elementos de la matriz P:

12122121111 )PPPP(F

1 −−

= 22211112 FPPF1−

−=

Page 59: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

69

11211212222 )PPPP(F

1 −−

= 11212212 FPPF1−

−=

ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la matriz inversa de (X’X) es igual al de una matriz cualquiera de orden (2x2). Dada la digresión anterior, trabajemos con las ecuaciones normales del modelo y hallemos

los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:

YXXXXX 1221111ˆˆ ′=β′+β′ (3.21)

Despejando 1β , obtenemos la siguiente expresión:

( ) ( ) 2211

1111

111ˆˆ β′′−′′=β −− XXXXYXXX

Factorizando llegamos a:

( ) )ˆ(ˆ221

1111 β−′′=β − XYXXX (3.22)

Del segundo conjunto de ecuaciones normales tenemos:

( ) YXXXXX 2222112ˆˆ ′=β′+β′ (3.23)

reemplazando (3.22) en (3.23):

( )[ ] YXˆXX)ˆXY(XXXXX 22222211

1112 ′=β′+β−′′′ −

( ) ( ) YXXXXXXXXXYXXXXX 22222211

111211

1112ˆˆ ′=β′+β′′′−′′′ −−

( )[ ] ( )[ ]YXXXXIXˆXXXXXIX 11

11122211

1112 ′′−′=β′′−′ −− (3.24) La expresión entre corchetes es similar a la matriz Mx definida anteriormente, salvo que en

lugar de X encontramos a una parte de ella que es X1. Recordemos que ella fue definida como la matriz de proyección ortogonal de la variable explicada en el espacio definido por los errores12. Si recordamos los resultados de la sección 3.6, específicamente los resultados contenidos en (3.14), veremos que si aplicamos la matriz Mx al vector de observaciones de la variable dependiente Y, obtenemos el vector de errores mínimos cuadráticos. Intuitivamente ello significa que los errores son los valores resultantes cuando limpiamos o filtramos la variable dependiente de todo efecto que tienen sobre ella las variables independientes. Las propiedades de M1 son similares a las de la matriz Mx. Manipulando la expresión (3.24) obtenemos:

YMXXMX 122212ˆ ′=β′

Aplicando las propiedades de M1, llegamos a:

12 La razón del nombre quedara más clara en la sección 3.10.

Page 60: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

70

)()'(ˆ)()'( 12122121 YMXMXMXM =β

)()(ˆ12

12122 YMXXMX ′′=β − (3.25)

La expresión precedente, muestra que los efectos que tienen las variables explicativas

incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,

2β mide sólo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parámetro sólo mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.

33..99 EELL MMOODDEELLOO LLIINNEEAALL EENN FFOORRMMAA DDEE DDEESSVVIIAACCIIOONNEESS CCOONN RREESSPPEECCTTOO AA LLAA MMEEDDIIAA

Recordemos que en el Capítulo 2 uno de los resultados que estudiamos fue que el modelo de

regresión de dos variables podía ser expresado en forma de desviaciones. Este enfoque mostraba que los parámetros podían ser estimados en dos pasos: el primero consiste en calcular la pendiente de X )ˆ( 1β y el segundo es reemplazar dicho valor en la ecuación de la línea de regresión muestral para hallar el intercepto. Un procedimiento similar puede aplicarse al modelo lineal general. Partamos de un modelo especificado incluyendo un término independiente o intercepto:

eXXY kikii +β++β+β= ˆ...ˆˆ 221 (3.26)

Recordemos que podemos expresar al modelo en términos de los valores medios de las

variables:

kk221 Xˆ...XˆˆY β++β+β= (3.27)

ahora, restando (3.27) de (3.26) obtenemos:

( ) ( ) ( ) ikkikii eXXXXYY +−β++−β=− ˆ...ˆ 222 (3.28) Nótese que, esta expresión muestra una reparametrización del modelo. En ésta no se incluye

un intercepto, cada variable está expresada en diferencias con respecto a su promedio muestral y tanto las pendientes como los residuos son iguales a los del modelo original.

Consideremos al modelo en su forma matricial y planteemos una partición de nuestra matriz

X de tal forma que X1 sólo incluya la columna de unos que corresponden al intercepto y X2

contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de la siguiente forma:

eXY +β= ˆ

donde X y β representan matrices particionadas de la forma:

[ ]2;1 XX n= (3.29)

Page 61: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

71

ββ

=β2

ˆˆ (3.30)

Nótese que, en la ecuación (3.29) X2 es una matriz de orden nx(k-1) y está formada por las

columnas de observaciones de las variables exógenas del modelo, exceptuando el intercepto. Por otro lado, la expresión (3.30) muestra que el vector β tiene como elementos al intercepto

( 1β ) y al resto de coeficientes estimados (desde 2β hasta kβ ). De esta manera, el nuevo modelo particionado resulta:

eXXY +β+β= 2211 ˆˆ (3.31)

Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos

utilizar la expresión (3.24):

( )[ ] ( )[ ]YXXXXIXˆXXXXXIX 11

11122211

1112 ′′−′=β′′−′ −− En este caso particular, X1 sería un vector de unos, por lo que la expresión entre corchetes

quedaría de la siguiente manera:

[ ])11)(/1( nnn nI ′− (nxn) (3.32) Esta matriz será denotada desde ahora por M0 y tiene la particularidad de transformar los

datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la expresión anterior y comprobar esta afirmación.. Si tomamos el vector de observaciones de la variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:

−−

=

YY

YY

YY

YM

n

..

..2

1

0

La matriz M0 , al igual que las matrices similares a ella, es simétrica e idempotente. Cabe

mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos serán de mucha utilidad para las estimaciones que desarrollaremos posteriormente:

( ) nnM 010 = (3.33)

eeM =0 (3.34)

Nótese que la última propiedad se cumple porque el valor medio de los errores estimados es igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.

Ahora, premultipiquemos la expresión (3.31) por la matriz M0 y utilicemos las propiedades

definidas en (3.33) y (3.34). Así, obtenemos:

eXMYM +β= 2200 ˆ (3.35)

Nótese que este modelo muestra la notación matricial del modelo definido en (3.27).

Page 62: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

72

Premultipicando por 2X ′ obtenemos13:

220202 β′=′ XMXYMX (3.36)

Por último, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a

(3.36) como:

( ) ( ) ( ) 22020020ˆ'' β= XMXMYMXM (3.37)

Analicemos ahora la expresión anterior. Ésta se interpreta como un sistema de (k-1)

ecuaciones normales en términos de desviaciones. Así, definimos las siguientes variables:

220 xXM =

yYM =0

donde, x2 es una matriz de dimensión n x (k-1) que muestra al conjunto de las variables explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la variable endógena y es de dimensión (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:

( ) ( ) 2222 βxxyx ′=′ (3.38)

De esta manera, la expresión (3.38) muestra que cuando transformamos las variables del modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite obtener los estimadores de las pendientes y no del intercepto, éste se obtendrá premultipicando el modelo particionado definido en (3.31), por (1/n)1'n :

)eˆX(1n

1Y1

n

1 'n

'n +β

=

21 ˆXˆˆXY β+β=β=

[ ]

β

ββ

=

k

2

1

k32 ..X...XX1Y

kk221 Xˆ...XˆYˆ β−−β−=β (3.39)

Ahora tratemos de expresar tanto la SCT como la SEC en términos del modelo en diferencias. Premultipliquemos la ecuación (3.35) por Y' :

13 Recuérdese que 02 =′ eX por el supuesto de ortogonalidad entre las variables independientes y el error. Véase la

expresión (3.7).

Page 63: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

73

eYˆXMYYMY 2200 ′+β′=′

e)'eˆX(ˆXM)'eˆX(YMY 2200 +β+β+β=′

e'eˆXM'eeXˆˆXMXˆYMY 2202200 +β+′β′+β′β′=′

e'eˆXMXˆYMY 220220 +β′β′=′ (3.40)

donde hemos utilizado: ( )β=β ˆXXMˆXM 2100

( ) 220220n ˆXMˆXMO β=β=

0Me 0 =′ La última expresión se cumple por la condición de ortogonalidad dada anteriormente. Así,

podemos expresar la ecuación (3.40) como:

STC = YMY 0′

SEC = 22022 ˆXMXˆ β′β′ SRC = e'e De esta manera, podemos calcular el coeficiente de determinación (R2) para este modelo y

notar sus diferencias con el modelo original:

YM'Y

e'e1

STC

SECR

0

2 −==

YM'Y

ˆXMXˆ

0

22022 β′β′=

YM'Y

YMXˆ

0

022 ′β′= (3.41)

donde la expresión anterior se cumple por el resultado obtenido en (3.36).

33..1100 IINNTTEERRPPRREETTAACCIIÓÓNN GGEEOOMMÉÉTTRRIICCAA DDEE MMCCOO

Introducción Recordemos que el método de estimación más comúnmente usado y uno de los más

estudiados en el análisis econométrico es el de Mínimos Cuadrados Ordinarios. Cabe distinguir entre dos variantes de tal método: Mínimos Cuadrados Ordinarios (MCO) y Mínimos Cuadrados no lineales. Por el Capítulo 1 sabemos que, la línea de regresión MCO tiene como supuesto la linealidad en todos los parámetros. Mientras que en la segunda variante, y tal como su nombre lo indica, no se cumple tal supuesto. Para fines de este capítulo, sólo nos interesa discutir la estimación MCO de un modelo lineal, ya que la comprensión de la regresión lineal y del método MCO como método de estimación de ella es esencial para entender el resto de Capítulos de este libro.

Nótese que existe una distinción importante entre las propiedades numéricas y las

estadísticas de los estimadores obtenidos usando MCO. Las propiedades numéricas son aquellas

Page 64: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

74

que se mantienen como consecuencia del uso de MCO, sin importar la generación de los datos. Recordemos que estas propiedades fueron verificadas por reemplazos y cálculos directos14. Por otro lado, las propiedades estadísticas se mantienen sólo bajo ciertos supuestos acerca de la generación de los datos15.

A continuación discutiremos la interpretación geométrica de las propiedades numéricas de

MCO, pues todas estas propiedades pueden interpretarse en términos de la geometría Euclideana.16

La Geometría de Mínimos Cuadrados Recordemos el modelo de regresión lineal general:

ikikiiii XXXXY µ+β++β+β+β= ...332211

µβ += XY

donde, la variable dependiente representa a un vector de dimensión n y donde los regresores forman una matriz de dimensión (nxk). Cada columna de X que contienen a las observaciones correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos formalmente como S(X).

Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por

todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X. Por otro lado, la dimensión de S(X) es igual al rango de la matriz X17 ))(( kX =ρ . De esta

manera, asumimos que k es estrictamente menor que n (k < n). El complemento ortogonal de S(X) en En , el cual es denotado por S⊥ (X), esta formado por

todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez definidos estos conceptos estamos listos para entender la interpretación geométrica del estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable dependiente, Y, que es de dimensión n en dos sub-espacios que sean ortogonales entre sí. Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte que sea explicada por las variables independientes y que esta parte explicada sea construida de tal manera que implique que se extrae toda la información contenida en estas variables. Una forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto porque la ortogonalidad entre dos espacios implica que no existe relación alguna entre ellos. En otras palabras, no existiría forma de explicar aquella parte no explicada a partir de información contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta condición el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes: una predecible y una no predecible.

Teniendo en cuenta lo anterior, pensemos en nuestra descomposición. Uno de los objetivos

es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos

14 Véase las 4 primeras propiedades de la sección (2.3). 15 Una de las propiedades estadísticas más importante es el insesgamiento, al verificar esta propiedad suponemos que la distribución de los errores es normal. 16 Se define un espacio Euclidiano como aquél que cumple con las propiedades de cerradura interna y cerradura externa. 17 El rango de una matriz es igual al número de columnas linealmente independientes.

Page 65: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

75

un gráfico que nos permita ilustrar lo que está en juego. Para simplificar el análisis supongamos que n=2 y k=1

Figura 3.3

El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos los espacios ortogonales (cada uno de dimensión 1). Aquel definido por la variable explicativa es S(X) y está representado por el eje horizontal y su complemento ortogonal está representado en el eje vertical. Si queremos que la parte explicada sea la mayor posible, gráficamente debemos encontrar el punto en S(X) que esté lo más cerca posible a Y. Existen diversas opciones para ello. Sin embargo, sabemos que la distancia más corta estará representada por una línea que sea perpendicular a S(X). El punto que representa esta distancia más corta será denotado por βX . Existen otras alternativas como puntos tiene S(X). Por ejemplo, β~X

representa a uno de estos puntos, pero se puede apreciar que βX implica una distancia menor y

es posible demostrar que la menor distancia es reflejada por este punto. Entonces βX puede interpretarse como la proyección ortogonal de la variable dependiente en el espacio definido por las X (S(X)).

Por otro lado, sabemos que todos los puntos del espacio S⊥ (X) son ortogonales a los puntos

de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los errores )ˆ( eXY =− β . Dado que βX representa al punto donde la línea que parte de Y es perpendicular a S(X), en dicho punto el espacio definido por X deberá ser perpendicular al otro espacio que representa a los errores. Formalmente ello implica que deberá cumplirse la siguiente condición 0)ˆ(' =− βXYX . Recordemos que esta es la condición de ortogonalidad de donde se obtienen los estimadores MCO. Por tanto el vector de parámetros β es aquel que descompone al espacio en el cual está definido la variable dependiente en dos ub-espacios que son ortogonales entre sí.

Otra forma de abordar el problema y obtener un estimador para β es el siguiente. Si nosotros

queremos hallar el punto en S(X) que es más cercano al vector Y, el problema se cifra en la solución de una minimización (con respecto a la elección de β ) de la distancia entre Y y S(X).

El punto en S(X) que representa esto es βX . La distancia entre estos puntos está dada por el error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el problema de la siguiente manera:

18 Debemos recordar que en el caso que se utilizó como ejemplo anteriormente se supuso que el número de observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parámetro así que sólo se

Page 66: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

76

Min β− ˆXY 2

β

Min( Y - X β )’ ( Y - X β )

β Entonces podemos observar que la minimización de la distancia entre Y y S(X) nos lleva al

planteamiento del estimador de mínimos cuadrados ordinarios. De esta manera comprobamos que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los cuales se puede descomponer la variable dependiente.

Ahora, reemplacemos el estimador obtenido por el proceso de minimización de MCO (3.6)

en el vector de la variable endógena estimada:

YPYXXXXXY x==β= − ')'(ˆˆ 1 (3.42)

La ecuación anterior define una matriz ')'( 1 XXXXPx−= , de dimensión (nxn), dicha

matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz de “proyección ortogonal”.

Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal

de S(X), es decir en S⊥ (X):

[ ] YMYXXXXIYXXXXYXY x=′′−=−=− −− 11 )(')'(β (3.43)

La matriz Mx es por tanto la matriz de proyección ortogonal de la variable Y en el espacio definido por los errores del modelo. Recordemos que esta matriz ya ha sido definida y sus propiedades han sido estudiadas. Nótese, que las matrices definidas líneas arriba son simétricas, idempotentes y además cumplen con las siguientes propiedades:

nxx IPM =+ (3.44)

0=xx MP (3.45)

Por la ecuación anterior, se verifica que cualquier punto en En, como βX o Y es igual a:

β+β=β ˆˆˆ XPXMX xx

YPYMY xx += (3.46) En función a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada

uno de los componentes de las expresiones anteriores como:

YM x = vector de residuos de la regresión.

PxY = vector de valores estimados de Y.

toma en cuenta un error. Sin embargo el análisis se puede generalizar para un número mayor de observaciones. Recue´rdese que el objetivo del estimador MCO es minimizar la suma de errores elevados al cuadrado que es similar a la minimización de la norma de un vector.

Page 67: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

77

Ahora, utilizaremos la interpretación geométrica de MCO para establecer algunas

propiedades importantes del modelo de regresión lineal. De esta manera, por la la ecuacióon (3.43) y por la descripción anterior de PxY y MxY, tenemos que:

0)()'( =YMYP xx (3.47)

por lo que, se verifica que el residuo es ortogonal al valor estimado de Y. Gráficamente, podemos observar la descomposición ortogonal de la variable explicada (Y): S⊥ (X)

S(X)

YPx

φ YM x

Figura 3.4

Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la estimación de MCO. Así, podemos reexpresar el problema de minimización descrito anteriormente:

( Y - X β )’ ( Y - X β ) = )()'( YMYM xx

= )()'( YMYM xx YMYYMMY xxx '' == (3.48)

= 2YM x

Asismismo, la suma explicada de cuadrados (SEC) resulta:

)()'()ˆ()'ˆ( YPYPXX xx=ββ

2'' YPYPYYPPY xxxx === (3.49)

La expresiones (3.46) y (3.47) indican que la suma de residuos al cuadrado y la suma

explicada de cuadrados son simplemente la norma de ciertos vectores denominados las proyecciones de Y (Mx y Px) sobre los subespacios de S⊥ (X) y S(X), respectivamente. Esto se puede mostrar gráficamente en la figura (3.4).

Ahora, notemos que la distancia entre Y y PxY es YM x , la distancia entre el origen y PxY

es YPx , y la distancia entre el origen e Y es Y . Así, resulta útil aplicar el teorema de

Pitágoras:

222 MxYPxYY += (3.50)

Page 68: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

78

Esta expresión muestra que la suma total de cuadrados o STC, de la variable dependiente es

igual a la suma explicada de cuadrados (SEC) más la suma de residual de cuadrados (SRC). Recordemos que, el coeficiente de determinación (R2) lo definimos como:

2

2

2

22 11

Y

MxY

Y

PxY

STC

SRC

STC

SECR −==−== (3.51)

o en términos trigonométricos19:

2

2

2

22 1cos

Y

MxY

Y

PxYR −==φ=

Como conclusión de esta sección podemos decir que nuestro estimador MCO responde a una

necesidad de descomponer en dos conjuntos ortogonales entre sí el conjunto en donde está definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente así como el coeficiente de determinación tienen también una interpretación geométrica. Será importante retener estos conceptos porque serán utilizados a lo largo del libro.

33..1111 EESSTTIIMMAACCIIÓÓNN MMCCOO DDEE LLAA VVAARRIIAANNZZAA DDEELL TTÉÉRRMMIINNOO DDEE EERRRROORR Cuando se estudió la eficiencia del estimador MCO un término que forma parte de la

varianza del estimador es 2µσ la cual es la varianza del término de error. Si bien hemos

analizado el impacto que tiene esta expresión en la varianza del estimador hemos estado hablando siempre del término teórico y por tanto desconocido. Por tanto, debemos hallar una forma de estimar esta magnitud a fin de que podamos también construir un estimado de la varianza de los estimadores hallados.

El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que

cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho estimador insesgado. Una estrategia utilizada frecuentemente –y que aquí vamos a utilizar- es partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la esperanza matemática de esta expresión y veremos que transformación debemos hacer a la expresión resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:

[ ]µµµµ XXXXIMeeSRC x ′′−′=′=′= −1)( (3.52) Es importante expresar la SRC en términos del error teórico porque cuando apliquemos el

operador de esperanza utilizaremos las propiedades del error teórico que ya han sido definidas en el capítulo I. Sin embargo, antes de continuar con el análisis debemos definir algunas propiedades que serán de mucha utilidad:

19 Recuérdese que el coseno de un ángulo de un triángulo rectángulo, en nuestro caso (φ), es igual al cateto opuesto

entre la hipotenusa.

Page 69: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

79

1. Si queremos analizar la traza de un producto de matrices, las trazas serán las mismas si alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo que se llama la propiedad de las permutaciones cíclicas. Formalmente:

Tr(ABC) = Tr(CBA) = Tr(BCA) 2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente: E[Tr (ABC)] = Tr [ E (ABC)]

Ahora pongamos en acción estas dos propiedades para calcular la esperanza de la SRC:

[ ] [ ])()()( µµµµ ′=′= xx MTrEMTrESRCE (3.53) Aquí, en la última transformación hemos hecho uso de la propiedades de las permutaciones

cíclicas. Si hacemos el intercambio cambio de esperanza y traza y recordamos que la matriz Mx contiene elementos fijos por lo que la esperanza se aplica a la expresión del términos de error, obtenemos:

[ ] [ ] [ ] [ ]xnxxx MTrIMTrEMTrMETr 22)()( µµ σσµµµµ ==′=′ (3.54)

Estos resultados se obtienen a partir de la segunda propiedad del modelo presentada en el

capítulo I que supone que el error no presenta autocorrelación ni heterocedasticidad. Como la varianza del error es una constante puede salir fuera de la traza. Ahora lo que nos queda analizar es la traza de Mx:

[ ] [ ] [ ] [ ][ ]

[ ] [ ] [ ] kITrXXXXTrXXXXTr

nITr

XXXXTrITrXXXXITrMTr

k

n

nnx

==′′=′′

=′′−=′′−=

−−

−−

11

11

)()(

)()(

(3.55)

Para estos resultados hemos hecho uso nuevamente de la propiedad de permutaciones

cíclicas y del hecho de que la traza de una matriz identidad de orden n es igual a n y la traza de una matriz identidad de orden k es igual a k. Combinando todos los resultados obtenemos lo siguiente:

)()( 2 knSRCE −= µσ (3.56)

Si queremos obtener un estimador de la varianza que sea insesgado, la transformación obvia

que tendríamos que hacer a la expresión anterior es dividirla por (n-k). Por lo tanto el estimador MCO de la varianza del error que se deriva de toda nuestra exposición sería el siguiente:

kn

ee

−′

=2ˆµσ (3.57)

Queda para el lector la comprobación de que este estimador es insesgado. La mayor parte de

los pasos a realizar ya se han hecho así que no deberá haber mucha dificultad en comprobar este resultado. Algo que debemos notar es que para la obtención de este estimador no se ha utilizado ningún criterio de optimización como puede ser la minimización de la suma de errores al

20 Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal de esta matriz, siempre y cuando ésta sea cuadrada.

Page 70: Casas Econometria Moderna(2)[1]

Econometría Moderna MCO: El Modelo Lineal General

80

cuadrado o la maximización de la probabilidad de ocurrencia de una muestra21 ni nada parecido. El estimador ha sido construido de manera ad-hoc para cumplir con la propiedad de insesgamiento. La razón para ello es que, como veremos más adelante, no existe ningún estimador insesgado de la varianza del error que se pueda obtener a través de un criterio que busque optimizar alguna expresión. Esto no quiere decir que no se pueda utilizar sino que habrá que analizar sus propiedades asintóticas como ya fueron definidas anteriormente. El análisis de este tipo de propiedades se verá más adelante en el capítulo 10 del presente libro.

En función a las resultados obtenidos podemos ahora definir algunas expresiones que serán

de mucha utilidad y que se utilizan bastante en el análisis que efectúan la mayoría de paquetes econométricos. La primera de ellas es el error estándar de la regresión (standard error of regresión) que no es otra cosa que la raíz cuadrada de la varianza estimada del error 8 es decir la desviación estándar).

2ˆˆregresión la deestándar error µµ σσ == (3.58)

Adicionalmente estamos en condición ahora de presentar la varianza estimada de los

parámetros estimados por MCO:

12 )(ˆ )ˆ( −′′= XXestimadaVar µσβ (3.59)

Esta expresión es la que se utilizará en todos los cálculos a realizarse por los paquetes

estadísticos especializados en la estimación de modelos econométricos.

33..1122 AA MMAANNEERRAA DDEE CCOONNCCLLUUSSIIÓÓNN En este capítulo hemos presentado el estimador MCO multivariado para el cual se han

utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto porque los resultados aquí presentados –que son los fundamentos del estimador MCO y del modelo lineal general- serán la base para entender la lógica y resultados de otro tipos de modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalías del modelo lineal general más adelante se hará uso de las propiedades y resultados presentados aquí. Es importante entender la intuición y significado del estimador MCO porque los principios estudiados hasta aquí marcan la pauta para lo que será analizado más adelante.

21 Como veremos más adelante, este último criterio es el que guía al estimador de máxima verosimilitud.

Page 71: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 44 IINNFFEERREENNCCIIAA EESSTTAADDÍÍSSTTIICCAA EENN EELL MMOODDEELLOO

LLIINNEEAALL GGEENNEERRAALL

44..11.. IINNTTRROODDUUCCCCIIÓÓNN Hasta el momento hemos estudiado una de las formas más usadas de realizar la estimación

de un modelo lineal. El estimador adecuado para dichos casos es el de mínimos cuadrados ordinarios del cual hemos mostrado todas sus propiedades, así como considerado todas sus implicancias.

Sin embargo, todo modelo debe estimarse con algún propósito dado que si no fuera así la

modelación econométrica sería solamente un ejercicio estadístico que carecería de sentido y la interpretación de los resultados se limitaría a la aplicación de reglas mecánicas que no dejan ningún espacio para el raciocinio del investigador.

Lo anterior nos debe llevar a pensar en los propósitos de la investigación econométrica.

Hasta ahora sólo hemos mencionado tangencialmente los propósitos de la modelación económica. Ya es hora de ponernos a pensar con mayor detenimiento la siguiente pregunta ¿para qué estimamos un modelo? En este capítulo intentaremos empezar a dar respuestas en dicho sentido.

De esta manera, podemos iniciar la discusión de los usos de un modelo estableciendo los

principales propósitos de la modelación econométrica, los cuales pueden agruparse en tres categorías:

1. Inferencia: Esto implica verificar si ciertas restricciones que imponen las diferentes

teorías económicas o nuestra intuición1 son válidas o no para la muestra que utilizamos

1 La cual se desarrolla paulatinamente a través de la observación y la experiencia acerca de un tema o fenómeno económico.

Page 72: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

82

en la estimación de nuestro modelo. Esto implica en la práctica verificar si dentro del período muestral (en series de tiempo) o al interior de una muestra (si estamos en un estudio de corte transversal) cierta hipótesis inicial se cumple o no. En este sentido el análisis se limita a la muestra que nosotros tenemos. Por ello podemos decir que este tipo de restricciones verifican la existencia de restricciones en el pasado (si hablamos de series de tiempo) o para un grupo específico de individuos (en datos de corte transversal). Es un análisis ex-post.

2. Predicción: Un modelo puede ser utilizado con el propósito de estimar el valor de la

variable dependiente más allá de la muestra. Por ejemplo, si hemos estimado la demanda de un producto para el período 1940-1999 quizás nos interese conocer cuál será el nivel de la demanda en el año 2000 y más allá. Ello nos permitirá realizar una mejor planificación de las acciones a tomar como empresa si es que nuestro principal giro es producir precisamente dicho producto. De la misma manera, el Estado o los hacedores de política pueden estar interesados en hacer proyecciones macroeconómicas que por ejemplo se usan para la planificación de las acciones de política económica a las cuales se pueden comprometer esta autoridades en la firma de una carta de intención con el FMI o en la elaboración del presupuesto general de la República.

Debe aclararse que el realizar el ejercicio de predicción implica suponer que las condiciones subyacentes en la economía en general o en el mercado en particular permanecerán inalterables cuando salgamos fuera de la muestra. Podemos utilizar nuestro ejemplo anterior para ilustrar esta idea: si la predicción que queremos realizar corresponde al año 2000, lo que vamos a suponer es que nuestro modelo es válido para dicho año, lo que en la práctica implica suponer que las condiciones que prevalecieron para el periodo muestral considerado en la etapa de estimación se mantendrán en el futuro. Entonces el ejercicio de pronóstico significa hacer una predicción suponiendo que las condiciones estructurales se mantienen constantes.

3. Simulación de Políticas: Esta categoría implica un uso mucho más atrevido del modelo

que en los demás casos. El ejercicio de simulación consiste en realizar predicciones futuras de nuestra variable dependiente permitiendo que los factores estructurales2 varíen. Así bajo esta categoría se podría responder a la pregunta ¿Qué pasaría con el producto bruto interno en el Perú si pasamos a un régimen mucho más intervencionista que el actual? Obviamente un cambio en las condiciones estructurales afectará el comportamiento de los agentes económicos y, por tanto, la respuesta de éstos variará. Si hacemos un ejercicio de simulación de políticas debemos tener un elevado grado de certidumbre con respecto a la idoneidad de nuestro modelo para tal fin. La crítica de Lucas3 precisamente cuestiona el uso indiscriminado que se le daba a los modelos macroeconométricos estimados a fines de la década del 60 y principios de los 70 para este fin.

Cada uno de los usos mencionado implica ciertas condiciones sobre las variables que

intervienen en nuestro modelo que estudiaremos más adelante. Por ahora nos centraremos en el primer uso de nuestro modelo que es el de la inferencia. Desarrollaremos las técnicas y metodologías existentes para la realización de pruebas de inferencia estadística.

44..22.. PPRRIINNCCIIPPIIOOSS DDEE LLAA IINNFFEERREENNCCIIAA

2 También podemos utilizar la expresión factores subyacentes de la economía o régimen imperante. 3 Lucas, Robert E. (1977) “Econometric Policy Evaluation: A Critique” reimpreso en Lucas (1980) Studies in Business-Cycle Theory, MIT Press.

Page 73: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

83

En general, lo que se busca con la inferencia estadística es obtener un estadístico muestral que nos permita responder, con cierto grado de certeza, si ciertas restricciones que impone una teoría son respaldadas por los datos de una muestra en particular. En general, las restricciones que se plantean están referidas a la población o el proceso generador de datos. Si los datos son generados por dicha población, a partir de ellos podemos analizar si cumplen o no con las características planteadas. Es decir, del análisis de los datos muestrales intentamos inferir si la población presenta las características que nosotros planteamos a partir de nuestras hipótesis. Entonces podemos decir que nosotros sospechamos que ciertos datos (nuestra muestra) son consistentes con determinada teoría económica (que impone ciertas restricciones sobre la población) y para ello necesitamos realizar pruebas a fin de contrastar la hipótesis que se plantea. En ello se basa el conocimiento científico: plantear hipótesis que pueden ser refutadas empíricamente a través de la experimentación. Si no hubiera forma de someter a prueba las diferentes hipótesis estaríamos en el terreno de los dogmas y ello está más relacionado con la fe4.

Varios ejemplos pueden ilustrar las ideas que estamos esbozando: En primer lugar podemos pensar en que un investigador está estudiando cuáles son los

determinantes del consumo y para ello plantea la siguiente ecuación:

tt4t3pt2t10t WrYYC µ+β+β+β+β+β=

donde:

Yt = Ingreso Corriente Yp

t = Ingreso Permanente rt = Tasa de interés real Wt = Riqueza Según el modelo que piensa estimar el investigador se están incluyendo una serie de factores

que responden a diversas teorías que se han esbozado sobre el consumo. El investigador lo que busca es identificar para el caso de la muestra que analiza (por ejemplo data peruana de 1940 a 1999) los principales determinantes de la variable económica mencionada. Sin embargo, ¿cómo en la práctica puede discernir entre una teoría y la otra? Supongamos que piensa preguntar si las teorías del ingreso permanente y del ciclo de vida son relevantes para el caso peruano. Para ello necesita plantear alguna hipótesis que se puede comprobar sobre la base del modelo.

Como ya hemos mencionado, es relevante mencionar que una teoría implica imponer ciertas

restricciones sobre los datos. Nosotros podemos observar, por ejemplo, que la correlación entre la cantidad saldos reales y el producto es positiva. Sin embargo, sabemos que dicha correlación no implica ninguna causalidad. Por ello, algún teórico planteará ciertas relaciones entre las variables y propondrá dicho esquema como una explicación convincente de lo que ocurre en la realidad. Este esquema resumido en ciertas ecuaciones matemáticas será la teoría propuesta y deberá comprobarse empíricamente su relevancia o no. Las pruebas de hipótesis no nacen de la nada sino que son inspiradas por alguna teoría. El arte de la modelación está en plantear un modelo que nos permita verificar en forma de restricciones (expresadas en hipótesis) las explicaciones que propone alguna teoría. En este sentido se ve claramente que la economía guía a la medición económica, de lo contrario sería un mero ejercicio estadístico que carecería de sentido.

4 De hecho la base de todas las religiones es el dogma en donde lo que predomina es la fe. Los creyentes no piden pruebas sino que han decidido creer, basado no en pruebas contrastables sino en otros elementos más espirituales.

Page 74: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

84

En función de lo expresado en el párrafo anterior, el camino más utilizado para la modelación econométrica consiste en el planteamiento de alguna hipótesis que se quiere refutar. Este tipo de hipótesis recibe el nombre de hipótesis nula. En el caso de nuestro modelo la hipótesis nula sería la siguiente:

0 :H

0 :H

21

2o

≠β=β

En este caso lo que estamos planteando es que el ingreso permanente no es un factor

determinante del consumo para el Perú durante el periodo 1940 – 1999 dado que el parámetro que lo multiplica es igual a cero. Por tanto, lo que vamos a poder comprobar a través de la inferencia es la validez de esta restricción, lo cual implicaría la eliminación de esta variable de la ecuación.

La pregunta ahora es la siguiente ¿cómo vamos a comprobar esta hipótesis? Para ello

necesitamos aclarar un poco más qué implica la hipótesis planteada. En todo ejercicio de inferencia estadística debemos tomar en cuenta cierta distribución de probabilidad conocida para identificar si, en términos de esta distribución, la probabilidad de que se cumpla la hipótesis nula es alta o no. Por tanto, debemos hacer ciertos supuestos de cómo se distribuyen las variables consideradas. Entonces la hipótesis nula o planteada implica preguntar si el valor del parámetro estimado proviene de una función de distribución probabilística centrada en el valor que se plantea en la hipótesis nula.

El gráfico que se presenta a continuación nos da una idea de la metodología de

comprobación de una hipótesis. El planteamiento de la Ho mencionada arriba implica plantear una función de distribución de probabilidad cuya media sería cero. Ello implica que si pudiéramos repetir el proceso de estimación con diferentes muestras aleatorias generadas a partir de la misma distribución el promedio de los parámetros estimados para cada muestra es cero. De ninguna manera implica necesariamente que cada estimado sea igual a cero. Por lo tanto, se va a buscar comprobar a través de la prueba de hipótesis si la diferencia observada entre el estimado y la media supuesta de la distribución (Ho) se debe a factores meramente aleatorios o a factores estructurales. Si el caso fuera el primero de los mencionados entonces no se puede rechazar la hipótesis nula5. Si fuera el segundo caso, no podríamos aceptar la Ho6.

Sin embargo, ¿Cómo en la práctica respondemos la pregunta formulada o, en términos más

precisos, qué criterio utilizamos para decir que no rechazamos o aceptamos una hipótesis nula?

5 Lo que comúnmente mencionamos como aceptar la hipótesis. 6 Esto lo conocemos también como rechazo de la hipótesis nula o planteada.

Page 75: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

85

Aquí es donde cobra importancia el supuesto que hacemos con respecto a la función de distribución válida. En términos del gráfico que presentamos, podemos esperar que una diferencia aceptable entre el valor estimado y el valor que se plantea en la hipótesis nula sea de 2 desviaciones estándar. De hecho en muchas funciones de distribución en el rango σ±µ 2 se

encuentra el 95% de las observaciones7. Si la diferencia fuera mayor a dicha cifra entonces diríamos que la probabilidad de que se cumpla la nula es muy baja y por tanto no podríamos aceptar la Ho.

A estas alturas deben preguntarse por qué se habla de no poder rechazar o aceptar las

hipótesis en vez de afirmar tajantemente si acepto o rechazo. Esto se debe a que la conclusión a la que llegamos no es una afirmación sobre la cual se tenga certeza absoluta. Es un criterio arbitrario el que se ha usado para establecer el límite entre dos zonas (una llamada de aceptación y otra de rechazo). Pero ¿Qué pasa si en verdad el parámetro proviene de una distribución centrada en el valor que plantea la hipótesis nula pero la diferencia grande se debe a la presencia de un shock o factor aleatorio muy fuerte? La respuesta es que seguramente se rechazaría (siguiendo el criterio establecido) la hipótesis nula pero en verdad sería cierta.

Este tipo de problema que surge con la inferencia recibe el nombre de Error Tipo I. Esto es,

la probabilidad de que rechacemos una hipótesis que es cierta. En la metodología convencional, el usuario escoge el nivel de Error Tipo I que más le acomode. El nivel que suele escogerse generalmente es de un 5%. Esto es lo que se llama el nivel de significación estadística (o el α).

En cada prueba también se verifica la existencia de un Error Tipo II. Este error mide la

probabilidad que se acepte una hipótesis que es falsa8. Como vemos, la presencia de estos dos tipos de errores indican que al aplicar la prueba no tenemos la absoluta certeza de nuestras conclusiones sino que lo que buscamos es tratar de obtener un resultado con la mayor probabilidad de que sea cierto. Una buena prueba es aquella que tiene el mayor poder, donde poder se define como la probabilidad de rechazar correctamente una hipótesis falsa (en términos de probabilidades, la mayor proporción 1 - β). Por ello, una prueba más poderosa será aquella que para el mismo nivel de significación estadística tiene el mayor poder. Generalmente, cuando se propone una prueba, su uso se justifica en la medida que sea más poderosa que otras.

Estos conceptos pueden ser esquematizados en el siguiente cuadro:

Situación real de Decisión utilizando la información muestral la población Acepto Ho Rechazo Ho

Ho cierta

No hay error Prob()= 1-α

Error Tipo I

Prob(Error Tipo I) = α

Ho falsa

Error Tipo II

Prob(Error Tipo II) = β

No hay error Prob()=1-β

Si todo lo anterior suena un poco complicado, el ejemplo del sistema judicial puede

ayudarnos. En todo juicio se parte de una premisa. Esta consiste en suponer que el acusado es inocente y el trabajo del fiscal es demostrar a través de la presentación de pruebas contundentes

7 En otros términos ello implica que debajo de ese rango se concentra el 95% del área por debajo de la curva de distribución. 8 Esta probabilidad tiene como símbolo la letra β generalmente.

Page 76: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

86

que la premisa de la cual se parte es falsa. La premisa de la que se habla sería la hipótesis nula o planteada. El juicio en sí sería todo el proceso de la realización de la prueba.

Si el fiscal no logra presentar pruebas suficientes usualmente se dice que el acusado no es

culpable, no se afirma que sea inocente. Ello porque si las pruebas no fueron suficientes para demostrar su culpabilidad no quiere decir que la persona sea inocente. En la práctica se tiene muchos asesinos que no pueden ser sentenciados porque no se comprobó su culpabilidad.

Los problemas con este tipo de sistema es que algunos acusados pueden ser declarados

culpables cuando son inocentes (Error Tipo I) y otros pueden ser declarados inocentes cuando en verdad son culpables (Error Tipo II). En todo caso, de la discusión anterior se desprende que el sistema judicial está diseñado para que se minimice la probabilidad que un inocente sea declarado culpable. Como sabemos esto se mide por la probabilidad del Error Tipo I. Entonces debe quedar claro que el α lo escoge la sociedad y vendría a representar la valla que debe superar el fiscal para comprobar que el acusado es culpable. De la misma manera, al realizar una prueba el usuario escoge el nivel de significancia con lo que está decidiendo cuál debe ser el grado de evidencia en contra que debe presentarse a fin de no aceptar la hipótesis de la cual se parte.

Una cuestión adicional que debe notarse es que la no aceptación de la hipótesis nula o

planteada no significa que se esté aceptando lo contrario. Lo único que se puede discutir es la relevancia de la hipótesis planteada o nula. Por ello, las pruebas deben interpretarse como qué tan relevante es la restricción que se está planteando en la hipótesis nula dada la evidencia que se maneja, la cual está representada por la muestra (los datos) que se utiliza.

Por otro lado, si cierta restricción planteada por alguna teoría no es aceptada no quiere decir

que la teoría esté errada. Lo único que se podría afirmar es que para la muestra que nosotros se tiene los datos no son consistentes con dicha teoría. Para rechazar una teoría tenemos que acumular mucha evidencia en contra. Ello implica realizar el ejercicio estadístico de la estimación de un modelo para distintas muestras, por ejemplo en otros periodos y para otros países.

Si se acumulara mucha evidencia en contra, recién se podría empezar a sospechar de la

idoneidad de la teoría planteada y, por tanto, surgiría la necesidad de la proposición de una teoría alternativa la cual luego debería ser contrastada empíricamente con los datos de distintos países y/o muestras. De esta manera va avanzando el proceso de conocimiento económico.

44..33.. LLAA MMEETTOODDOOLLOOGGÍÍAA DDEE LLAASS PPRRUUEEBBAASS DDEE HHIIPPÓÓTTEESSIISS Como ya hemos mencionado, para realizar la inferencia estadística se debe partir de suponer

una función de distribución probabilística conocida. En este caso supondremos que los errores se distribuyen de la siguiente manera:

e ~ N (0, 2σµ ) (4.1)

Esta expresión debe leerse como “e se distribuye como una normal con media 0 y varianza

2µσ ”9. Dado que los errores se distribuyen de esta manera, ello implica que la variable

dependiente también sigue una distribución normal. Se deja como ejercicio determinar qué tipo de media y varianza tendrá esta distribución. 9 Debe notarse que sólo se está describiendo a la función por sus dos primeros momentos. En el caso de una distribución normal sólo es necesario ello dado que presenta ciertas propiedades dadas para los momentos superiores.

Page 77: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

87

Como sabemos, nuestro estimador es: YX)XX(ˆ 1 ′′=β − . Esta expresión implica que existe

una relación entre el estimador y la variable dependiente. Como ya se ha visto en secciones anteriores, el estimador es una función de los datos y, en especial, es una función lineal de la variable dependiente. Por tanto, podemos concluir que nuestro estimador es también una variable aleatoria.

Un elemento que puede ayudar a aclarar el punto que está detrás de la conclusión anterior

es el siguiente: la muestra que tenemos es aleatoria. La variable dependiente es la suma de dos componentes: el componente determinístico que está representado por la combinación lineal de las variables independientes (las cuales consideramos fijas) más un término de error que es aleatorio. Lo anterior implica que los valores que tome la variable dependiente estarán en función de los valores que tomen los errores. Si se tomara otra muestra, los valores de las X seguirían siendo los mismos (por ello el supuesto de que las X son fijas) pero los valores de los errores podrían cambiar (dado que son variables aleatorias) dando como resultado valores de la variable dependiente ligeramente distintos a los de la primera muestra. El suponer que la media de los errores es cero implica de cierto modo que los nuevos valores muestrales no serán muy distintos de los de otra muestra. Por tanto, si los valores de Y pueden variar ligeramente en muestras distintas, el estimado obtenido a partir de cada muestra será distinto a los de otras muestras.

Así, si la muestra es aleatoria, ello implica que para cada muestra (que será ligeramente

distinta a otras), tendremos un estimado distinto. Por ello se dice que el estimador es una variable aleatoria dado que para cada valor de muestra específico tendremos un valor distinto del parámetro. Al plantear una hipótesis nula lo que estamos diciendo es que si se repitiera el proceso de estimación con distintas muestras un gran número de veces, el promedio de los estimados sería igual al valor planteado en la hipótesis. Esto nos indica, de hecho, que el estimado obtenido en una muestra particular no tiene que ser igual al valor planteado en la hipótesis que se quiere analizar en un sentido estricto sino en un sentido probabilístico.

En vista de lo explicado anteriormente podemos decir que nuestro estimador de MCO se

distribuirá de la siguiente forma:

β~ ( )12k )( ,N −′XXµσβ (4.2)

El resultado anterior se deriva del supuesto inicial de los errores. Además, se ha demostrado

que el parámetro es insesgado y se ha hallado la varianza del mismo. Por otro lado, ya hemos comprobado que el término de error estimado es una transformación

lineal del error teórico o poblacional según la siguiente expresión:

[ ] µ=µ′′−=β − M X)XX(XI X - Y = e 1n

! (4.3)

Donde M es una matriz simétrica e idempotente conocida como la matriz de proyección

ortogonal de la variable dependiente sobre el espacio donde están definidos los errores y que fue ya presentada en el Capítulo 3. Los elementos descritos hasta el momento serán útiles para construir la expresión que permita evaluar empíricamente las diversas hipótesis planteadas.

Lo que queremos analizar es cuán lejos está nuestro estimado del valor que proponemos

como cierto en nuestra hipótesis nula. Como ya se ha mencionado, si la diferencia es pequeña podremos interpretar nuestros resultados como que el valor estimado proviene de una distribución que está centrada en el valor propuesto en la hipótesis planteada. Si la diferencia es

Page 78: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

88

grande se tendrá algún grado de certeza (no absoluta) de que dicho valor proviene de una distribución distinta.

Por tanto, la expresión a analizar será la siguiente:

)ˆ( β−β (4.4)

en este caso βestará representado por el valor propuesto en la hipótesis nula. Esta expresión no

pierde sus propiedades si es que se multiplica por la matriz X que contiene las observaciones de nuestras variables independientes:

)ˆ(X β−β

Ahora se verá la conveniencia de plantear en estos términos la diferencia que se quiere

analizar. Se sabe que:

X)XX(XP

PMX)MY()ˆ(X1 ′′=

µ=µ−µ=β−µ−=β−β− (4.5)

P es la matriz de proyección ortogonal de la variable dependiente en el espacio definido por

las variables independientes que ya fue presentada en el Capítulo 3. Como se sabe es una matriz simétrica e idempotente de dimensión N x N.

La conveniencia de plantear de esta forma la expresión a analizar radica en las siguientes

propiedades que se presenta a continuación: En una matriz simétrica e idempotente, su rango es igual a su traza: En este caso:

[ ] [ ] k)I(TrXX)XX(TrX)XX(XTr)P(Tr)P(Rango k11 ==′′=′′== −− (4.6)

Por otro lado, ya comprobamos en el Capítulo 3 que la traza de M es igual a (n-k)

Si x ~ N(0, n2x Iσ ) entonces:

Axx2xσ

′~ )m(2χ (4.7)

lo cual quiere decir que la expresión definida en esta expresión se distribuye como una variable chi-cuadrado con m grados de libertad. Donde m es el rango de la matriz A si es que esta es simétrica e idempotente.

Si se toma en cuenta estas propiedades, se podrá plantear la siguiente expresión:

2

1

µσµµ′

σ=β−β′′β−β

µP

1)ˆ(XX)ˆ(

2 (4.8)

Page 79: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

89

esta expresión se distribuirá como una chi cuadrado con k grados de libertad. Ello se desprende del hecho que cumple con los requisitos planteados en las propiedades mencionadas anteriormente.

Adicionalmente se define la siguiente expresión:

µµ′σ

=′σ

σ−

µµµ

µM

1ee

1ˆ)kn(

222

2

(4.9)

la cual también cumple con las condiciones establecidas anteriormente, por lo que se distribuye según una chi-cuadrado con n-k grados de libertad.

La razón por la cual se define estas dos expresiones es que si se utiliza la primera de ellas

para realizar la inferencia estadística afrontamos un problema: todas las expresiones son

conocidas a excepción de 2µσ . Para eliminar dicha dificultad se debe buscar una forma de

eliminar esta expresión. Aquí es donde se encuentra la utilidad de la segunda expresión

definida. Nótese que si se divide la primera por la segunda, se elimina 2µσ y se obtiene una

expresión en función de puras magnitudes conocidas. Como se sabe, la división de dos variables chi-cuadrado divididas cada una por sus grados

de libertad da una variable que se distribuye como una F de Fisher. Sin embargo, para poder estar seguros que la expresión resultante se distribuye como una F primero se debe demostrar que ambas expresiones son independientes entre sí.

Para tal fin planteamos la siguiente proposición:

PROPOSICIÓN 4.1: Los estimadores MCO de β y 2µσ son independientes entre sí.

Para realizar la demostración de esta proposición se debe mencionar la siguiente propiedad: Supongamos que:

x ~ )I,0(N n2µσ

Axx ′ es una forma cuadrática en la que A es una matriz cuadrada simétrica e idempotente de

orden n. Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las x. L es

de orden m x n y no necesita ser ni cuadrada ni simétrica. Si las covarianzas entre las variables de Ax y Lx son cero, esto supondrá que:

{ } 0LALxAxE 2 =′σ=′′ (4.10) o de forma equivalente LA = 0 Utilizando esta propiedad se debe buscar equivalentes en términos de las expresiones

planteadas anteriormente de tal forma que se pueda aplicar la propiedad descrita. Para tal fin debemos recordar la expresión:

Page 80: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

90

µ′′=β−β − X)XX()ˆ( 1

en esta expresión µ vendría a representar el x y X)XX( 1 ′′ − sería el equivalente del L.

Por otro lado, se tiene la expresión de los errores mínimos cuadráticos que se sabe son una

transformación lineal del verdadero término de error:

µ= Me

en este caso M juega el papel de la matriz A. A partir de esta expresión se obtiene la suma de errores al cuadrado µµ′=′ Mee que es una forma cuadrática que cumple con las condiciones

requeridas. Entonces para poder aplicar el resultado anterior se debe demostrar que los equivalentes de A y L son ortogonales entre sí (recordar LA = 0). Utilizando los términos definidos anteriormente, planteamos la siguiente expresión, la cual será igual a cero:

0MX)XX( 1 =′′ − (4.11) Esto se desprende del hecho que X y la matriz de proyección ortogonal M son ortogonales

entre sí. El resultado presentado indica que ambas expresiones son independientes entre sí. Si se analiza las expresiones, vemos que )ˆ( β−β incluye el estimador mínimo cuadrático de los

parámetros y en la expresión ee′ , dicha magnitud se utiliza para la estimación de la varianza de

los errores. Por lo tanto los estimadores MCO de β y 2µσ son independientes entre sí. LQQD.

Una vez demostrada la independencia entre ambas expresiones se puede construir el

estadístico F de la siguiente forma:

)kn(

eek

)ˆ(XX)ˆ(

)kn(

ˆ)kn(

k

)ˆ(XX)ˆ(

kn

Mk

P

2

2

2

−′

β−β′′β−β

=

−σ

σ−

σ

β−β′′β−β

=

−µµ′

µµ′

µ

µ

µ~ F(k, n-k) (4.12)

Como se ve en la última expresión se han eliminado aquellos elementos desconocidos y se

plantea todo en términos de magnitudes conocidas o que se pueden obtener a partir del proceso de estimación. Los grados de libertad son k para el numerador y n-k para el denominador.

Con este procedimiento se puede ilustrar cuál era la motivación de la creación de la prueba

F. Usualmente las pruebas originales estaban basadas en la distribución normal y su transformación chi-cuadrado. Sin embargo, estas pruebas incluyen magnitudes desconocidas. La búsqueda de expresiones que estuvieran en función de magnitudes estimables a partir de la muestra con que se cuenta llevó al planteamiento de distribuciones como la F de Fisher y la t de Student, las cuales se derivan de una distribución normal tal como sabemos.

Una forma más compacta de las magnitudes anteriores viene dada por la siguiente

expresión:

[ ] k/)ˆ()XX(ˆ)ˆ(112 β−β′σ′β−β

−−µ ~ F(k, n-k) (4.13)

Page 81: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

91

donde lo que se ha hecho es incluir la varianza estimada del error dentro del corchete. Esta expresión contiene toda la intuición que se necesita para entender lo que está detrás de un ejercicio de inferencia estadística. Como vemos, la expresión )ˆ( β−β mide la diferencia

existente entre el estimado de mínimos cuadrados ordinarios y el valor que se plantea en la hipótesis nula. Esta diferencia en términos absolutos no indica mucho dado que debe ser evaluada en términos de la varianza del parámetro que es justamente la expresión que está entre corchetes. Así, si la diferencia es pequeña en términos de la varianza quiere decir que en términos relativos podemos pensar que los estimados provienen de una distribución que está centrada en el valor que se propone en la hipótesis nula o planteada. Por el contrario si la diferencia relativa es considerable se puede concluir (nunca con certeza absoluta) que los parámetros obtenidos provienen de una distribución diferente.

Es importante señalar aquí el papel que juega la varianza de los errores o el grado de

dispersión de las X. Ya en los capítulos precedentes se mencionó el rol que desempeñan ambos en la varianza de los parámetros. Así, si la varianza calculada de los estimados es elevada, ello implica que el grado de precisión de los mismos es bajo. Ello llevará a que cualquier diferencia absoluta del numerador sea pequeña en términos relativos si la varianza es elevada.

Un ejemplo puede ayudar a entender el punto. Si se plantea una demanda de dinero según el

enfoque de Cambridge y se supone que la relación es lineal, se puede llegar a la siguiente expresión:

erlnˆYlnˆˆmln 321 +β+β+β= (4.14)

supongamos que existen dos investigadores que utilizan distintas muestras para estimar esta demanda para el Perú y los estimados que obtienen cada uno son los siguientes:

Investigador A Investigador B

1β 0.44 0.67

2β 0.96 -0.15

3β -0.34 0.65

Por otro lado, tenemos que la matriz de varianzas y covarianzas de los estimadores en cada

caso tienen los siguientes componentes:

=′

=′ −−

726576

658456

765665

)XX(

645736

576545

364535

)XX( B1

A1

3.6ˆ 5.2ˆ B2

A2 =σ=σ µµ

Nótese que según estos datos, la varianza de la elasticidad del ingreso en ambos casos es

162.5 (65x2.5) y 302.4 (84x3.6) la cual es muy alta si se considera los valores calculados en cada caso (0.96 y –0.15 respectivamente). Si se plantea la siguiente hipótesis:

Ho:

=

βββ

0

0

0

3

2

1

Page 82: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

92

H1: al menos uno es distinto de cero

y se realiza el cálculo correspondiente se verá que no se puede rechazar la hipótesis nula (el cálculo se deja al lector) en ninguno de los dos casos. Por otro lado si se plantea la siguiente hipótesis:

Ho:

−=

βββ

5.0

1

5.0

3

2

1

H1: al menos una de las anteriores no se cumple La cual tiene un planteamiento más realista se verá que tampoco se puede rechazar esta

hipótesis en ninguno de los dos casos. Así, cada investigador podrá comprobar que sus resultados estén correctos. Sin embargo, los resultados indicarían que casi cualquier valor planteado no podría ser rechazado lo cual no da mucha seguridad con respecto al ejercicio de inferencia. La raíz del problema radica en la amplia varianza de los resultados en cada caso. Dado el tamaño de esta vemos que casi cualquier valor plausible según distintas teorías no podría ser rechazado. De esta manera, los resultados son pobres y no conducirían a ninguna conclusión con respecto a las distintas teorías alternativas que se estarían verificando. Por ello es importante obtener estimadores eficientes a fin de poder realizar buenos ejercicios de inferencia estadística. Con una varianza muy grande el ejercicio carece de utilidad.

A manera de resumen se puede decir que la expresión (4.13) será la que marque la pauta

para todas las pruebas que se plantearán más adelante. La discusión anterior solamente ha intentado aclarar la intuición detrás de la realización de un ejercicio de inferencia estadística.

Los pasos para realizar una prueba son los siguientes:

1. La estimación del modelo lineal a través del algoritmo de mínimos cuadrados ordinarios nos provee de estimados relativos a la muestra con que contamos. Estos estimados reemplazan a β en la expresión planteada.

2. El β será reemplazado por los valores supuestos como ciertos que se establecen al plantear

la hipótesis nula.

3. 1)XX( −′ se reemplaza por su equivalente muestral.

4. 2ˆ µσ se obtiene a partir de la estimación del modelo tomando los errores, elevándolos al

cuadrado, sumándolos y dividiéndolos entre (n-k). 5. El valor calculado se compara contra el valor F de tabla con k grados de libertad en el

numerado y n-k en el denominador.

Los criterios que se seguirán para analizar los resultados son los siguientes:

Si Fcalc < Ftabla (k, n-k) no se puede rechazar Ho Si Fcalc > Ftabla (k, n-k) no se puede aceptar Ho

Page 83: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

93

El nivel de significación estadística (el α ) lo escoge el usuario, aunque lo usual es escoger un nivel de 5% ( α = 0.05). Se recuerda que esta es la probabilidad de error tipo I que se está dispuestos a aceptar.

Debe quedar claro que si la restricción que se está analizando no puede ser rechazada ello

quiere decir que debe ser incorporada al modelo.

44..44.. PPRRUUEEBBAASS EESSPPEECCÍÍFFIICCAASS DDEE IINNFFEERREENNCCIIAA EESSTTAADDÍÍSSTTIICCAA Luego de analizar los principios que están detrás de la realización de un ejercicio de

inferencia estadística es muy útil revisar el planteamiento de las pruebas más utilizadas en el análisis empírico cotidiano. Cada una de ellas tiene características y objetivos distintos y se debe estar atentos a la idoneidad de cada una de ellas ante situaciones particulares.

4.4.1 Prueba de hipótesis para un sólo parámetro Esta es la prueba más utilizada en el análisis econométrico empírico. Implica el análisis de

alguna restricción planteada para un sólo parámetro. La hipótesis planteada se puede establecer de la siguiente manera:

0ii1

0ii

:H

:Ho

β≠β

β=β

donde 0iβ es una constante.

El primer paso para poder hallar una expresión que permita analizar esta hipótesis es

conocer la función de distribución de la variable aleatoria a analizar. En este caso, la variable aleatoria es el estimador del parámetro individual i.

Nosotros sabemos que:

β ~ ))XX(,(N 12k

−µ ′σβ (4.15)

lo cual muestra la distribución con respecto al estimador de todo el vector de parámetros. Sin embargo, interesa conocer la distribución del estimador del parámetro i. Esta se puede obtener fácilmente a partir de (4.15):

iβ ~ )a,(N ii2

i µσβ

Si todo el vector se distribuye según una distribución normal es de esperarse que cada uno

de sus elementos también lo haga. La media será el verdadero valor dado que sabemos que el

estimador MCO es insesgado. iia es el elemento i-ésimo de 1)XX( −′ el cual corresponde a la

varianza del estimador de iβ .

Si se quiere construir una expresión que sea comparable con una distribución conocida lo

mejor en este caso será estandarizar las observaciones (esto es, restarle la media y dividirla entre su desviación estándar):

Page 84: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

94

ii

0ii

a

)ˆ(

µσ

β−β ~ )1,0(N (4.16)

Esta expresión se distribuye como una normal estandarizada (lo que implica que tiene una

media de cero y una varianza igual a uno). Debe notarse que la media que se está restando es justamente el valor propuesto en la hipótesis nula lo que refleja el supuesto que se realiza en todo ejercicio de inferencia: se parte suponiendo que la hipótesis nula es cierta y sobre la base de ello se construye el estadístico a utilizar.

Como en el caso de nuestra prueba general, surge el problema que µσ es desconocido y por

lo tanto, no se puede realizar el ejercicio de inferencia estadística con la información muestral de la cual disponemos. La solución a esta dificultad pasa por intentar eliminar este término desconocido a través de una transformación que permita obtener una expresión la cual tenga una distribución conocida.

Esto lo podemos lograr dividiendo la expresión anterior por la expresión que ya hemos

utilizado anteriormente para obtener la prueba F:

2

2ˆ)kn(

µ

µ

σ

σ−

Como sabemos esta expresión se distribuye como una chi-cuadrado con (n-k) grados de

libertad. La ventaja de esta magnitud reside –como en el caso general- en que la división de una distribución normal estándar entre la raíz de una chi-cuadrado dividida por sus grados de libertad es una distribución t de student:

ii

0ii

2

2

ii

0ii

ˆ

)kn(

ˆ)kn(

a

ˆ

µ

µ

µ

µ

σ

β−β=

−σ

σ−

σ

β−β

~ )kn(t − (4.17)

La nueva expresión obtenida está en términos de magnitudes observables. Si se analiza en

detalle en el numerador se tendrá la diferencia entre el valor estimado y el valor que se supone es la media de la distribución. En el denominador se tiene la desviación estándar estimada del estimador. Nuevamente se cumple el principio de que el análisis de la diferencia que se presenta en el numerador debe hacerse en términos de la dispersión del mismo.

Esta prueba es una de las más utilizadas por todos los paquetes econométricos. La hipótesis

que se quiere analizar es que los distintos parámetros son iguales a cero ( 00i =β ). Con ello se

estaría comprobando si los parámetros de cada una de las variables independientes son en términos probabilísticos iguales a cero. De no poderse rechazar estas hipótesis la conclusión es que aquellas variables asociadas a cada uno de los parámetros deberían eliminarse del modelo.

4.4.2 Prueba para Restricciones Generales )rR( −β Las pruebas que se han analizado hasta el momento implican restricciones relativamente

sencillas. En la mayoría de los casos, las hipótesis se han referido a ciertos valores para cada

Page 85: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

95

uno de los parámetros a estimar. Sin embargo, las restricciones que puede imponer la teoría económica pueden ser en la práctica más complicadas que las consideradas hasta ahora.

Un ejemplo de ello se puede observar en la formulación de una función de demanda para

cualquier producto. Como sabemos, la teoría económica plantea que la cantidad demandada de un bien está en función de tres argumentos: el precio relativo (Px) del bien en cuestión, el ingreso (I) y el precio de los bienes relacionados (Py). Dados los valores de estos tres argumentos, el consumidor decide qué cantidad consumir de dicho bien. En términos estadísticos podemos plantear el siguiente modelo:

eLnPˆLnIˆLnPˆˆLnX y43x21d +β+β+β+β= (4.18)

La ventaja de plantear el modelo en términos del logaritmo de las variables10 es que nos

permite calcular directamente las elasticidades de la demanda y hace el supuesto de que éstas son constantes.

Como sabemos para que una demanda sea consistente con los principios de la teoría del

consumidor debe cumplir con una serie de propiedades. La homogeneidad de grado cero es una de ellas. Como deben recordar, esta propiedad implica que si los precios y el ingreso cambian en la misma proporción, no habrá ningún cambio en la elección que realice el consumidor.

En términos de nuestro modelo esta restricción se puede plantear de la siguiente manera:

0432 =β+β+β

Lo cual en términos teóricos ello implica que la suma de las elasticidades debe ser igual a

cero. Según lo que sabemos hasta el momento no es posible plantear una prueba que nos permita

verificar este tipo de restricciones. Para tal efecto, se realizará un planteamiento general que permita la suficiente flexibilidad

como para verificar cualquier restricción que implique una combinación lineal de los parámetros estimados.

Supongamos que para nuestro modelo (4.18), se plantean las siguientes hipótesis nulas:

13

42

4320 0:H

β=ββ=β=β+β+β

cumple se no una menos Al:H1

Estas tres hipótesis pueden plantearse por alguna teoría en particular. La primera restricción

indica la propiedad de homogeneidad de grado cero ya mencionada. La segunda indica que la elasticidad precio y la cruzada son iguales. Como sabemos, la elasticidad precio es casi siempre negativa, si la elasticidad cruzada tiene el mismo valor y signo, entonces el bien relacionado será un complementario. Por último, la tercera restricción indica que el valor de la elasticidad ingreso es igual a la demanda autónoma. Suponemos que la teoría que está detrás de esta demanda es la misma por lo que la validez de la misma implica que las tres restricciones se

10 En términos de la jerga econométrica este modelo se conoce como un modelo doble logarítmico

Page 86: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

96

cumplen a la vez. El rechazo de cualquiera de ellas implica que la teoría no sería válida en el contexto de nuestra muestra.

En términos matriciales estas restricciones se pueden plantear de la siguiente forma:

r R

0

0

0

0

1

1

1

0

1

0

1

1

1

0

0

4

3

2

1

=

ββββ

La primera matriz, R, es la que resume las restricciones planteadas. Nótese que el número de

filas de R corresponde al número de restricciones. El vector β corresponde a todos los

parámetros estimados. Por último el vector r resume las constantes a las que son iguales las restricciones. En este caso particular los tres valores son iguales a cero pero pueden ser distintos a estos valores en función a las restricciones que se plantean.

Una vez descrita la forma general en que se puede plantear restricciones que impliquen

combinaciones lineales de los parámetros se debe plantear ciertas condiciones que aseguren que la prueba pueda realizarse correctamente. Estos son los supuestos:

Las matrices R y r son conocidas. Es obvio que si se desea plantear alguna restricción

debemos saber cuáles son estas. Por otro lado, conocer los valores de estas matrices permite construir el test sin el problema de tener términos desconocidos que obligan a transformaciones adicionales.

El número de restricciones lineales (q) es menor o igual al número de parámetros del modelo

(k). Esta especificación está relacionada con la identificación de un sistema de ecuaciones. El rango de la matriz R debe ser igual a q. Ello implica que las restricciones lineales serán

linealmente independientes. Esto previene el hecho de estar comprobando dos veces la misma hipótesis.

Para la construcción del test estadístico se parte suponiendo que la distribución del

estimador es normal:

β ~ ( )12 )XX(,N −µ ′σβ

Si R tiene rango q entonces:

βR ~ ( )R)XX(R,RN 12q ′′σβ −

µ

entonces:

)ˆ(R β−β ~ )R)XX(R,0(N 12q ′′σ −

µ

Si suponemos que la hipótesis nula es cierta (como es el caso en la construcción de

cualquier estadístico que nos permita verificar cierta hipótesis): rR =β . De cumplirse esta

condición el estadístico quedaría convertido en:

Page 87: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

97

rˆR −β ~ )R)XX(R,0(N 12q ′′σ −

µ

Ahora, dado que la distribución está centrada en cero, si realizamos la siguiente operación:

[ ] )rˆR(R)XX(R)rˆR(112 −β′′σ′−β

−−µ ~ 2

)q(χ (4.19)

Se obtiene una distribución chi-cuadrado con q grados de libertad dado que el rango del

elemento entre corchetes es igual a q, lo cual quiere decir que se suman q veces distribuciones normales elevadas al cuadrado.

Sin embargo, como se sabe el problema con esta expresión es que no se conoce 2µσ por lo

que se debe eliminar este término. Para tal fin se utiliza lo que a estas alturas ya debe ser un procedimiento estándar, es decir, se divide por (4.9). Si la intención es obtener una distribución conocida la candidata ideal es una F:

[ ]

2

112

)kn(

eeq

)rˆR(R)XX(R)rˆR(

µ

−−µ

σ−

−β′′σ′−β

~ F(q, n-k)

Esta expresión permite eliminar la varianza teórica del modelo. Por otro lado, dado que

)kn/(ee −′ es el estimador de la varianza, se puede rescribir la anterior expresión como:

[ ] q/)rˆR(R)XX(Rˆ)rˆR(112 −β′′σ′−β

−−µ ~ F(q, n-k) (4.20)

Esta expresión tiene toda la intuición que se requiere. En términos matriciales en el

numerador tenemos la diferencia elevada al cuadrado entre la restricción planteada –r- y la aplicación de las mismas a los estimadores de los parámetros no restringidos. Esta diferencia se evalúa en términos de la varianza relevante. Para cumplir con la condición que se distribuya como una F se divide entre el número de restricciones impuestas.

Como en todas las pruebas anteriores si el Fcalc < Ftab no se puede rechazar la Ho . Por otro

lado, si Fcalc > Ftab no se puede rechazar la Ho. Utilicemos un ejemplo que pueda ilustrar lo que se ha planteado. Vamos a corroborar las

hipótesis presentadas como introducción a esta prueba. Se ha procedido a estimar un modelo y se han obtenido los siguientes resultados:

)04.7(

)049.0(

LnP350.0

)12.15(

)048.0(

LnI739.0

)32.17()86.13(

)045.0()151.0(

Pln785.0097.2LnQ yxd

−+

−=

Los valores que están entre paréntesis son las desviaciones estándar y los estadísticos t calculados para las hipótesis nulas que los parámetros son cero.

Por otro lado, se tiene la siguiente información:

Page 88: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

98

=′

89.79920.50187.50820.317

20.50187.79710.49696.312

87.50810.49691.91422.333

20.31796.31222.33300.200

XX

−−−−

−−−−

=′ −

0033.000003.00001.00056.0

00003.00032.00002.00054.0

0001.00002.00028.00053.0

0056.00054.00053.00312.0

)( 1XX

8556.0ˆ 2 =σµ

con esta información y aquella que ya se conoce (R y r) y se puede construir la siguiente expresión:

−−

−−=′′ −

0453.000002.00198.0

00002.00058.00003.0

0198.00003.00101.0

R)XX(R 1

a partir de esto, el estadístico F es 36.20, lo cual es mayor al valor de tablas con 3 grados de libertad en el numerador y 196 en el denominador (2.6). Por lo tanto no se puede aceptar la hipótesis nula. La conclusión del ejercicio es que con un 95% de confianza los resultados de la muestra no son consistentes con las restricciones que impone la teoría del consumidor. Esto no invalida la teoría necesariamente sino que simplemente nos quiere decir que la teoría no se aplica a estos datos.

4.4.3 Prueba de hipótesis para un coeficiente del modelo Esta prueba ya se ha desarrollado en el contexto de una distribución t. Sin embargo, para

demostrar la generalidad de la prueba F para restricciones que implican combinaciones lineales de los parámetros, se verá esta prueba como un caso particular.

Si en el caso que sirve de ejemplo planteamos la siguiente hipótesis:

5.0:H

5.0:H

31

3o

≠β=β

Esta restricción se podrá escribir siguiendo el esquema general ya planteado, de la siguiente

forma:

[ ]

rR

5.00100

4

3

2

1

=

ββββ

Page 89: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

99

Si se siguen los pasos detallados para la prueba general, un paso adicional es construir la

expresión R)XX(R 1 ′′ − . Se debe notar que realizar esta operación implica que se está

extrayendo el 0.0032 (elemento 3,3 de la matriz cuadrada o a33). Si esto se multiplica por la varianza estimada del error, se obtendría la varianza estimada de 3β . Entonces la prueba

quedará reducida en este caso a la siguiente expresión:

)ˆ(Var

)rˆR(

3

2

β−β

~ F n k( , )1 − (4.21)

dado que 332

3 aˆ)ˆ(Var µσ=β . Para los datos de nuestro ejemplo se obtiene lo siguiente:

11.210027.0

057.0

0032.0*8556.0

)5.0739.0(

)ˆ(Var

)rˆR( 2

3

2==−=

β−β

Este valor calculado es mayor al valor de tablas que es cercano a 2. Por lo tanto la conclusión en este caso es que no se puede aceptar la hipótesis de que la elasticidad ingreso de la demanda es igual a 0.5.

Algo que debe notarse es la similitud entre (4.21) y la expresión (4.17): la primera es el

cuadrado de la segunda. Así la prueba que se ha discutido anteriormente acerca de la relevancia de un solo estimador se puede derivar de nuestro planteamiento general. Algo que se debe recordar de estadística básica es la siguiente propiedad:

( )2)kn(t)kn,1(F −=−

lo cual implica que un estadístico t que se eleva al cuadrado se distribuye como una F con 1 grado de libertad en el numerador y n-k grados de libertad en el denominador.

4.4.4 Prueba de Hipótesis referente a aquellos parámetros del modelo distintos del

intercepto Si la hipótesis nula establece que todo el subvector de pendientes de un modelo ( 2β ) es

igual a un vector de constantes, se puede especificar la hipótesis de la siguiente manera:

0221

0220

:H

:H

β≠β

β=β

En este caso tenemos k-1 restricciones dado que no se incluye el intercepto. Por lo tanto, la

matriz de restricciones queda de la siguiente manera:

=

100000

0.....

......

0..100

0..010

R

Page 90: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

100

Esta matriz tiene k-1 filas (recordar que las filas vienen dadas por el número de restricciones) y k columnas. Nótese que la primera fila es de puros ceros lo que indica que no estamos tomando en cuenta el intercepto. La matriz identidad de orden k-1 que acompaña al vector de ceros nos indica que se está planteando una restricción por cada parámetro independientemente de los demás. Esto quiere decir que cada restricción considerada toma en cuenta a un solo parámetro y no a una combinación lineal de los mismos. Nuestro vector r sería

igual a los valores planteados en la expresión ( 02β ).

Dado que sólo se está refiriendo a restricciones sobre las pendientes se puede particionar la

matriz de variables independientes de la siguiente forma:

[ ]2X,1 X =

en esta partición el 1 corresponde a un vector n-dimensional compuesto de escalares iguales

a 1. 2X corresponde a las variables asociadas a las k-1 pendientes, por tanto tiene k-1

columnas. Siguiendo con la exposición la matriz X´X queda de la siguiente manera:

′′′

=′222

2

XX1X

X1nXX

Si se quiere hallar la expresión R)XX(R 1 ′′ − esta equivale a hallar la inversa de la porción

inferior derecha de (4.21). Ello porque aplicar R y R´ implica eliminar la primera fila y columna de la inversa de XX′ . Recordando las expresiones de inversa de matrices particionadas vistas en el Capítulo 3 se obtendrá que la inversa del término inferior derecho es igual a:

1202

12222 )XMX()X1

n

11XXX( −− ′=′′−′

donde nnn0 11n

1IM ′−= . Esta matriz es la presentada en el Capítulo 3 y lo que hace es

transformar las variables del modelo a desviaciones. Dados los anteriores resultados el estadístico quedaría de la siguiente forma:

)kn/(ee

)1k/()ˆ)(XMX()ˆ( 022202

022

−′−β−β′′β−β

~ F(k-1, n-k) (4.22)

Si el vector 02β fuera cero, entonces la prueba se convierte en la prueba de significación

estadística global del modelo. Entonces el estadístico quedaría transformado de la siguiente forma:

)kn/(ee

)1k/(ˆ)XMX(ˆ 22022

−′−β′β

~ F(k-1, n-k)

La significación estadística conjunta del modelo tiene el significado que de no poderse

rechazar la hipótesis nula entonces ello implica que debería imponerse la restricción de que todas las pendientes son iguales a cero. Ello significa que el modelo estadístico relevante para el ejemplo sería el siguiente:

Page 91: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

101

µ+β= 1dLnQ

Lo cual muestra que ninguna relación se puede establecer entre la variable dependiente y las

variables que se creían la explicaban. Si se realiza la estimación, se obtendrá como resultado que la constante sería igual a la media de la variable independiente (queda como ejercicio al lector), lo cual es una identidad, dado que el modelo dirá que cada observación de la variable dependiente es igual a su media más un término de error, algo que no agrega mayor información.

Esta prueba es reportada en todos los programas estadísticos bajo el nombre de estadístico F

(F-Statistic). Debemos notar que la expresión 22022 ˆ)XMX(ˆ β′β′ es igual a la suma explicada de

cuadrados que se derivó para el caso del modelo lineal general cuando incluía intercepto. Por otro lado, ee′ es la suma de residuos al cuadrado. Si existe intercepto, se sabe que la suma de las dos expresiones es igual a la suma total de cuadrados; por lo tanto, se puede realizar la siguiente transformación:

)kn/()R1(

)1k/(R

)kn/(SRC

)1k/(SEC

)kn/(ee

)1k/(ˆ)XMX(ˆ2

222022

−−−=

−−=

−′−β′β′

(4.23)

La última expresión se obtiene al multiplicar y dividir la expresión por la suma total de

cuadrados (STC). Debe entenderse que esta interpretación es válida cuando el modelo incluye un intercepto. Esta prueba también recibe el nombre de prueba de significación estadística del

2R . Verifiquemos esta hipótesis para el modelo que se ha planteado y estimado:

172145.1

3/

350.0

739.0

785.0

81.296841.4624.19

841.413.308347.25

624.19347.2571.359

350.0

739.0

785.0

kn

ee1k

ˆ)XMX(ˆ 22022

=

−−

−−′

=

−′−

β′β′

el valor de tablas )05.0( =α es 2.6 por lo que no se puede aceptar la hipótesis nula. La

conclusión es que el modelo es estadísticamente significativo con un 95% de confianza. Este resultado da la tranquilidad de poder seguir adelante con el análisis de la estimación.

4.4.5 Prueba de hipótesis para un subvector de parámetros Se puede estar interesados en realizar un ejercicio de inferencia estadística para un

subconjunto de parámetros que no necesariamente comprende a todas las pendientes ni a un solo parámetro. Aquí suponemos que interesa la prueba acerca de d parámetros donde

1kd1 −<< . En este caso la prueba de hipótesis se puede plantear de la siguiente manera:

0221

0220

:H

:H

β≠β

β=β

Page 92: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

102

donde en este caso 02β corresponde a un vector de orden d. Se va a suponer por conveniencia

que los parámetros que se quieren analizar son los últimos d parámetros. En el caso de este ejemplo vamos a verificar hipótesis referentes sólo a la elasticidad ingreso y la elasticidad cruzada por lo que el d sería igual a 2.

El planteamiento general de esta hipótesis implica la construcción de la siguiente matriz R:

[ ]

== −

1...0

01...

.....

0..10

0..01

0.0

...

...

...

0.0

I,OR ddk

Como se aprecia, las primeras k-d columnas de la matriz están llenas de cero indicando que

no se quiere analizar los primeros k-d parámetros. A continuación tenemos una matriz identidad de orden d indicando que se analizarán cada uno de los d últimos parámetros.

Dado este orden, se puede escribir el modelo general como uno particionado de la siguiente

forma:

µ+β+β= 2211 XXY

donde 1X es una matriz con k-d columnas, 2X es de d columnas. Los vectores 1β y 2β son

particiones que conforman el vector originalβ . En este caso la expresión βR es igual a 2β .

Por otro lado:

′′′′

=′2212

2111

XXXX

XXXXXX

Por tanto R)XX(R 1 ′′ − será la inversa del elemento inferior derecho de nuestra matriz XX′ ,

es decir, la premultiplicación por R y la postmultiplicación por R´ eliminan las primeras k-d columnas y las k-d primeras filas.

Recordando la fórmula de la inversa de una matriz particionada, se obtiene que la inversa de

la expresión que nos interesa será:

1212

121

1111222 )())(( −−− ′=′′′−′ XMXXXXXXXXX

donde 11

111n1 X)XX(XIM ′′−= − es la matriz de proyección ortogonal sobre el espacio

definido por la variables que conforman la matriz 1X . Entonces el estadístico F para este caso

será igual a:

)kn/(ee

d/)ˆ)(XMX()ˆ( 022212

022

−′β−β′′β−β

~ F(d, n-k) (4.24)

En el caso en que d02 O=β se reemplaza en la expresión anterior a 0

2β por un vector de

ceros de orden d.

Page 93: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

103

Para el ejemplo se puede estar interesados en verificar la siguiente hipótesis conjunta:

35.0

800.0:H

4

3o

−=β=β

:H1 al menos una no se cumple

Con los datos que se tiene, el valor calculado del estadístico F sería:

65.0145.1

35.035.0

8.0739.0

7.29545.3

45.33.306

35.035.0

8.0739.0

kn

eed

)ˆ)(XMX()ˆ( 022212

022

=

+−−

+−−

=

−′

β−β′′β−β

Si se compara este valor con el valor de tabla que es de 3.00 se verá que no se puede

rechazar la hipótesis nula y por tanto se podrá imponer estas restricciones en el modelo.

4.4.6 Pruebas de Hipótesis Mediante la Utilización de Sumas Residuales Dada la existencia de programas econométricos que facilitan algunos cálculos, se puede

plantear la prueba general que se ha planteado para rˆR −β bajo otra perspectiva tomando en

cuenta la intuición que está detrás de cada modelo y su relación con las sumas residuales. Como se sabe cualquier ejercicio de inferencia estadística implica preguntar si cierta

restricción puede ser impuesta en un modelo. Hasta ahora se ha construido un estadístico sobre la base del supuesto de que la hipótesis nula o planteada es cierta y se ha visto si nuestros datos avalan o no estas restricciones.

Sin embargo, podría existir otro camino que considere el siguiente ejercicio: estimar el

modelo inicial y compararlo con otro modelo en donde se hayan impuesto las restricciones que se plantean en la hipótesis nula. Así, se llamará al primero el modelo sin restringir y al segundo el modelo restringido. Las magnitudes que se utilizarán para comparar ambos modelos serán las sumas de residuos al cuadrado.

La intuición detrás del ejercicio es que si no se imponen restricciones, la suma de residuos al

cuadrado alcanzará un mínimo global que es justamente lo que hace el estimador de mínimos cuadrados ordinarios. Por otro lado la suma de residuos al cuadrado del modelo restringido alcanzará un mínimo que está limitado justamente por las restricciones que se plantean. Si la restricción es avalada por los datos, ambas magnitudes deberán ser similares por lo que su diferencia será pequeña. En el límite podrían ser iguales. Sin embargo, si la restricción no es válida, la diferencia de las sumas de residuos al cuadrado será muy grande por lo que estadísticamente no se podrá aceptar la hipótesis propuesta.

Sobre la base de la intuición descrita, nuestra prueba F se puede plantear de la siguiente

manera:

)kn/(ee

q/)SRSSRR(

−′−

~ F(q, n-k)

Page 94: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

104

donde SRR es la suma de residuos al cuadrado del modelo restringido, SRS es la suma de cuadrados del modelo sin restringir. Las demás expresiones son las usuales.

Como ya se ha mencionado la SRR será siempre mayor o igual a la SRS, por lo que se

asegura que el numerador sea positivo o cero. Ahora ¿cómo se llega a esta expresión? Para poder demostrar la similitud entre esta prueba y la prueba general que se ha planteado se trabajará con el caso especial para 1<d<k-1 que se ha visto líneas arriba. Además, se trabajará

con el caso en que d02 0=β

Si tenemos un modelo particionado estimado de la forma planteada en el acápite anterior, el

primer paso será multiplicarlo por 1M :

eMˆXMˆXMYM 12211111 +β+β=

Antes de continuar podemos utilizar dos propiedades ya establecidas en capítulos anteriores:

1. 0XM 11 = . La proyección ortogonal de un conjunto de variables sobre el espacio

definido por los errores que representan el complemento ortogonal al espacio definido por las mismas variables es nula. En otras palabras, si se filtra a 1X por sí misma, no

quedará ningún porción de ella sin explicar.

2. [ ] ee X)XX(XIeM 11

111n1 =′′−= − . Los errores estimados son ortogonales a todas las

variables independientes incluidas en el modelo por lo que eX1′ e igual a cero lo que

anula el segundo término de la multiplicación y sólo queda la matriz identidad que multiplica a los errores estimados.

Dados estos resultados nuestra expresión se simplifica a:

eXMYM 2211 +β=

Si se premultiplica esta expresión por su transpuesta se tendrá:

eMeeMX2XMXYMY 1122221221 ′+′β′+β′β′=′

el segundo término de la derecha se elimina dado que eeM1 = y 0eX2 =′ con lo cual la

expresión queda de la siguiente forma:

eeXMXYMY 221221 ′+β′β′=′ (4.25) Analicemos esta expresión. YMY 1′ es la suma de residuos al cuadrado de un modelo

donde se ha regresionado Y sólo contra las variables contenidas en 1X , lo cual quiere decir que

se ha impuesto la restricción 02 =β . Ello significa que es la suma de residuos al cuadrado del

modelo restringido. Por otro lado, ee′ es la suma de residuos al cuadrado del modelo original el cual fue estimado sin restricciones. El primero es SRR y el segundo es SRS. Por lo tanto, nuestra expresión (4.25) se puede expresar de la siguiente manera:

SRSSRRXMX

SRSXMXSRR

22122

22122

−=β′β′+β′β′=

(4.26)

Page 95: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

105

Comparemos este resultado con (4.24). Si en dicha expresión se analizó el caso especial en

que se verifica la hipótesis que los d parámetros de interés son iguales a cero, dicha expresión es igual a (4.26). entonces (4.24) quedaría transformado en

)kn/(ee

d/)SRSSRR(

−′−

(4.27)

donde el único cambio es que q ha sido reemplazada por d. Esta demostración se está haciendo para un caso particular de la prueba F para restricciones lineales y se ha mostrado la equivalencia de las dos estrategias planteadas para la realización de la prueba. Sin embargo, puede comprobarse que el resultado se aplica para todos los casos de la prueba F.

En resumen, existen dos estrategias para la realización de la prueba F:

1. La primera consiste en trabajar con expresiones como (4.20) en donde se utiliza para la construcción del Estadístico las matrices R y q, o

2. Se estiman dos modelos: uno restringido y uno no restringido y se comparan las sumas de

residuos al cuadrado de ambos modelos.

El camino que se utilice dependerá de las preferencias del usuario. Para restricciones simples quizás sea más recomendable utilizar la segunda estrategia. El siguiente ejemplo puede ayudar:

Si se plantea un modelo de la siguiente forma:

tt55t44t33t221t XXXXY µ+β+β+β+β+β= (4.28) y si se quiere verificar la hipótesis nula siguiente:

2

3:H

4

3o

=β=β

:H1 al menos una restricción no se cumple

una estrategia conveniente sería estimar el modelo (4.28), el cual sería el modelo sin restringir. A través de la estimación se obtiene la SRS. Para la estimación del modelo restringido se tiene que imponer las restricciones de la siguiente manera:

tt55t221t4t3t XXX2X3Y µ+β+β+β=−−

en este modelo las restricciones son impuestas y pasan a restar al lado derecho multiplicadas por sus respectivas variables. A partir de este modelo se halla la SRR y se procede a la construcción del test.

Sin embargo, se debe notar que esta estrategia es relativamente fácil cuando las hipótesis

son sencillas. Si las restricciones son combinaciones lineales de los parámetros una estrategia factible es calcular el estadístico F de la primera forma. Cuando queremos trabajar con la segunda alternativa (comparación de las sumas de residuos al cuadrado) la estrategia señalada líneas arriba no es tan sencilla. La estimación del modelo restringido implica pasos más complicados que los reseñados en nuestro ejemplo. La forma de resolver esta dificultad es

Page 96: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

106

estudiar el estimador de mínimos cuadrados restringidos el cual permitirá el cálculo de SRR en situaciones más complejas.

44..55.. EESSTTIIMMAADDOORR DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS RREESSTTRRIINNGGIIDDOOSS Para la formulación del estimador MCO se minimizaron la suma de los errores al cuadrado

sin imponer ninguna restricción. La lógica del estimador de mínimos cuadrados restringidos es minimizar la suma de errores al cuadrado pero sujeto a una restricción. Por lo tanto, la función a minimizar quedaría de la siguiente manera:

)rR(2)XY()XY( rrr −βλ′−β−′β−="

en este caso la función objetivo aumentada incluye las restricciones multiplicadas por la expresión λ′− 2 que representa el vector de multiplicadores de Lagrange. El valor –2 que se incluye se hace simplemente con fines de hacer más sencillos los cálculos en cuyo caso la interpretación de los multiplicadores de Lagrange se modifica ligeramente. Se considera la transpuesta del vector de los multiplicadores de Lagrange debido a que el criterio a minimizar es un escalar.

Las condiciones de primer orden en este caso serían:

0)(2

0222

=−−=

=′−′+′−=′

rR

RXXYX

r

rr

βδλδ

λββδδ

"

"

A partir de estas condiciones de primer orden se obtienen las siguientes expresiones:

(ii) 0rR

(i) 0RYX)XX(

r

r

=−β=λ′−′−β′

Premultiplicamos (i) por 1)XX(R −′ :

0R)XX(RYX)XX(RˆR 11r =λ′′−′′−β −−

esta expresión puede reducirse notando lo siguiente:

1. YX)XX( 1 ′′ − es el estimador MCO (sin restringir)

2. Si la restricción se cumple entonces: rˆR r =β

Utilizando estos resultados obtenemos:

[ ] )ˆRr(R)XX(R

R)XX(RˆRr11

1

β−′′=λ

λ′′=β−−−

reemplazando λ en (i) tenemos la siguiente expresión:

Page 97: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

107

[ ] k11

r 0)ˆRr(R)XX(RRYXˆ)XX( =β−′′′−′−β′−−

despejando rβ de la expresión anterior llegamos al estimador de Mínimos Cuadrados

Restringidos (MCR):

[ ] )ˆ()()()(ˆ 1111 ββ RrRXXRRXXYXXXr −′′′′+′′= −−−− (4.29) Si nos detenemos a analizar esta expresión notaremos que el primer término de la derecha es

el estimador MCO al que se le realiza una corrección. La magnitud de la corrección será una función directa de la expresión )ˆRr( β− . Esta expresión nos indica cuán cerca está el estimador

no restringido de cumplir con la restricción. Si la restricción es correcta esta expresión será cercana a cero, por lo que el estimador MCR será muy parecido (o igual en el límite) al estimador MCO. Por el contrario, si el estimador MCO no cumple con las restricciones, ello implica que la corrección que debe realizarse es grande para obtener el estimador MCR y por tanto ambos serán diferentes.

Como tarea se deja al lector analizar el insesgamiento del estimador MCR. Como ayuda

puede mencionarse que debemos suponer que la restricción se cumple para probar el insesgamiento. Por otro lado, debe sobreentenderse que el estimador MCR cumple con las restricciones dado que ha sido construido sobre la base de imponer en la minimización de los errores al cuadrado con las restricciones. Esto se puede comprobar de la siguiente manera:

[ ] rRrRRrRXXRRXXRRR r =−+=−′′′′+= −−− βββββ ˆˆ)ˆ()()(ˆˆ 111

La varianza del estimador MCR corresponde a la siguiente expresión:

[ ]

′′′′′−′σ=β −−−−−

µ111112

r )XX(RR)XX(RR)XX()XX(ˆ)ˆ(Var (4.30)

A estas alturas del libro, ustedes deben estar familiarizados con el cálculo de las varianzas

de diferentes estimadores por lo que queda como tarea la derivación de esta expresión. Sin embargo, algo que debe notarse es que la varianza del estimador MCR es menor que la del estimador MCO. La intuición de este resultado descansa en la imposición de las restricciones. Estas lo que hacen en la práctica es acotar el espacio donde están definidos los parámetros por lo que la varianza será menor. Ojo: esto no quiere decir que el estimador MCR sea más eficiente que el estimador MCO. Nosotros hemos comprobado por el teorema de Gauss-Markov la eficiencia del estimador MCO. En este caso debido al acotamiento del espacio la varianza resulta menor pero no implica una superioridad del estimador MCR sino que es un resultado matemático.

Regresando al modelo de demanda que ha servido de ejemplo en este capítulo, se realizará

el ejercicio inicial de las restricciones lineales sobre los parámetros por la vía de la comparación de las sumas de los residuos al cuadrado. Como se recuerda las hipótesis nulas son:

13

42

4320 0:H

β=ββ=β=β+β+β

cumple se no una menos Al:H1

Page 98: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

108

Dados los resultados que ya se conocen los valores restringidos estimados serían:

)34.29(

)018.0(

LnP528.0

)34.29(

)036.0(

LnI057.1

)34.29()34.29(

)018.0()036.0(

Pln528.0057.1LnQ yxd

−+

−=

Como se aprecia los estimados cumplen con las tres restricciones planteadas: la suma de los

tres últimos parámetros es igual a cero, la elasticidad precio y cruzada son iguales y la constante y la elasticidad ingreso son iguales.

Otro resultado es que las desviaciones estándar son menores que los estimados no

restringidos y los estadísticos t son mayores. Una cosa adicional a notar es que todos los estadísticos t son iguales en valor absoluto. Ello se debe a que el grado de significación es de alguna forma forzado por las restricciones y como los cuatro estimados están sujetos a restricciones el grado de significación estadística es el mismo.

Sobre la base de los estimados anteriores se procedió a realizar las pruebas mediante la

utilización de las sumas residuales. Los resultados se presentan a continuación:

208.398556.0

3/)69.16732.268(

)kn/(ee

q/)SRSSRR( =−=−′

el estadístico F calculado no es igual al obtenido anteriormente (36.2) pero son similares, por lo que los resultados de ambas pruebas son equivalentes y las conclusiones las mismas: No se pueden aceptar las restricciones planteada en la hipótesis nula.

ricosÉTTRRIICCOOSS Para la realización de estimaciones econométricas existen distintos software en el mercado.

Los programas más utilizados son el Econometric Views, Rats (Regression Analysis of Time Series), Gauss, PcGive, Shazam, etc. Todos estos programas realizan estimaciones de mínimos cuadrados ordinarios. El resultado estándar que arrojan estos paquetes es más o menos es el siguiente:

Variable dependiente: Ln Qd Regresores: LnPx LnI, LnPy Número de observaciones: 200 Estimación por MCO Variable Estimado Desv. Estándar Estadístico t Prob(est t)

C (constante) 2.0973 0.1512 13.8667 0.0000 LnPx -.07853 0.0453 -17.3273 0.0000 LnI 0.7395 0.0488 15.1276 0.0000 LnPy -0.3505 0.0497 -7.0463 0.0000 R cuadrado 0.7253 Med. de Var Dep 1.3901 R cuadrado aj. 0.7211 Desv. Est. Var. Dep. 1.7517 Error St. Regresión 0.9249 Estadístico F 172.5799

Page 99: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

109

Sum Res al Cuadrado 167.6981 Prob(Estadístico F) 0.0000

Como se aprecia, en el encabezado se especifica cuál es la variable dependiente, el número

de observaciones, las variables explicativas y el método de estimación. Más abajo se tienen los estimados que arroja el programa. La primera columna se refiere a qué parámetro está estimando. Debe entenderse que el parámetro en cuestión es aquel que acompaña a la variable que se señala. En la segunda columna se tienen los valores estimados de los parámetros. La tercera columna muestra la desviación estimada de los parámetros.

La cuarta columna es la que interesa en esta sección del libro. En ella se presentan los

valores calculados de los estadísticos t donde la hipótesis nula es que cada uno de los parámetros es igual a cero. Por ello los valores t calculados para cada parámetro son la división de los respectivos valores de la segunda y tercera columna. Se recuerda que la prueba individual de significación estadística para un parámetro es justamente el valor del parámetro calculado dividido por la desviación estándar calculada y ello es lo que se obtiene en la cuarta columna.

La quinta columna presenta una probabilidad. Esta debe interpretarse como la probabilidad

de que la hipótesis nula sea aceptada con los datos que tenemos. Al escoger el nivel de significación estadística estamos escogiendo el punto de quiebre. Si se escoge el %5=α , ello quiere decir que si la probabilidad de que la hipótesis nula sea cierta es mayor al 5% no podemos rechazar la hipótesis nula. Por el mismo razonamiento, si la probabilidad es menor al 5% ello quiere decir que no podemos aceptar la hipótesis nula. En el caso presentado se observa que las probabilidades son iguales a cero, por lo que la conclusión es que con un nivel de confianza de 5% los parámetros estimados son diferentes de cero, por lo cual debemos mantener las variables dentro del modelo.

Usualmente lo que se realiza es una comparación entre el valor calculado y el valor de tabla.

Si el valor calculado es mayor al valor de tabla no se puede aceptar la hipótesis nula y viceversa. Lo que hace el programa es realizar la comparación en términos de las probabilidades de la distribución relevante que en este caso es una distribución t de Student.

Así, como la distribución t de Student es una distribución simétrica y con media cero, lo que

hace el programa es calcular el estadístico t y halla la probabilidad de los valores mayores al valor calculado. Si la probabilidad es menor a 0.05, nos indica que el valor está muy alejado de la media y por tanto, la diferencia entre el valor calculado y el valor de tabla es alto y no se podrá aceptar la hipótesis nula. Por el contrario, si la probabilidad es mayor a 0.05, ello nos señala que el valor calculado no está tan alejado de la media y se entenderá que proviene de dicha distribución. Por ello se dice que no se puede rechazar la hipótesis nula. En conclusión, si la probabilidad es menor a 0.05, nuestro estadístico calculado cae en lo que usualmente se denomina zona de rechazo y si la probabilidad es mayor a 0.05 se dirá que cae en la llamada zona de aceptación11

Si regresamos a la tabla presentada notaremos que se reporta un estadístico F. Este

estadístico evalúa la hipótesis nula de significación estadística conjunta de todo el modelo, es decir la prueba que analiza si todas las pendientes del modelo son iguales a cero. La probabilidad que se reporta tiene la misma interpretación antes mencionada, es decir, mide la probabilidad de que la hipótesis nula sea cierta dado la muestra que utilizamos. Si la probabilidad es menor a 0.05 quiere decir que no podemos aceptar la hipótesis nula y viceversa.

11 Como ya se ha mencionado al inicio de este capítulo esta terminología no es la más adecuada, pero es la que se usa comúnmente.

Page 100: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

110

Al momento de sacar las conclusiones, algo que debe haber llamado la atención es que el punto de corte sea por ejemplo 0.05. Ello significa que solamente cuando la probabilidad es menor al 5% no se puede aceptar la hipótesis nula. Algunos de ustedes probablemente se preguntarán ¿por qué el punto de corte es 0.05 y no 0.5 como indicaría el sentido común? La respuesta está en el significado del α . Recordemos que lo que mide esta expresión es la probabilidad del error tipo I y esto lo escoge el usuario. Escoger 0.05 implica aceptar que existe un 5% de probabilidad de rechazar una hipótesis verdadera. Recordemos el ejemplo del juicio que mencionamos al inicio del capítulo. Lo que se hace al escoger un 0.05 como punto de quiebre es exigir que la evidencia en contra de la hipótesis nula sea tan fuerte que la probabilidad de que sea cierta la nula sea menor al 5%. Sólo así nos arriesgaremos a decir que no podemos aceptar la hipótesis nula a pesar que existe un 5% de probabilidad de que sea cierta.

Como ya se ha mencionado, el nivel de significación estadística lo escoge el usuario. Aquí

se ha mencionado el 5% porque es lo estándar en todos los paquetes pero de hecho uno podría aumentar o disminuir el α según su criterio. Si alguien se pone más exigente probablemente escogerá un α de 0.01 o alguien menos exigente escogerá un nivel de 10%.

44..77.. UUNNAA RREEFFLLEEXXIIÓÓNN FFIINNAALL Habiendo hecho una revisión de la forma de realizar un ejercicio de inferencia estadística se

quiere presentar algunos resultados de una simulación realizada con el modelo que se ha utilizado como ejemplo. Esto permitirá entender mejor lo que está en juego.

Como ya se ha mencionado lo que se hace al realizar una prueba de hipótesis es analizar si

la diferencia que se observa entre el valor calculado y el valor que se supone verdadero en la hipótesis planteada o nula se explica por factores meramente aleatorios o se debe a factores estructurales.

Una hipótesis que se planteó a lo largo del capítulo era la referida a la homogeneidad de

grado cero de la demanda. Ello implicaba verificar si la suma de las tres elasticidades era igual cero. El modelo estimado arrojó valores de –0.855, 0.817 y –0.359 para las elasticidades precio, ingreso y cruzada de la demanda respectivamente. La suma de las tres elasticidades estimadas es de –0.397 para nuestro modelo. La conclusión que obtuvimos era que nuestros datos no soportaban la implicación de la homogeneidad de grado cero.

¿Qué implica en términos empíricos la conclusión que acabamos de mencionar? Un gráfico

nos puede ayudar. En él se presenta la distribución de la suma de las tres elasticidades para 10,000 estimaciones del mismo modelo.

Page 101: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

111

cuando se habla de 10,000 estimaciones se está refiriéndo a que se han generado 10,000 muestras aleatorias y con dichos datos se ha procedido a la estimación del modelo. Sin embargo, estas muestras han sido generadas siguiendo un patrón: las elasticidades “verdaderas”12 son -0.75, 0.8 y -0.35, por lo que la suma de las tres es igual a -0.3. Si nos detenemos un momento a observar el gráfico se verá que justamente el -0.3 es el centro de la distribución. No todos los valores son iguales a -0.3 porque interviene un factor aleatorio que puede hacer que difieran los resultados de manera no sistemática. Pero lo que conviene resaltar es el hecho que la distribución está centrada en el valor “verdadero”(-0.3).

Recordando la hipótesis nula, ésta se refería al cumplimiento de la homogeneidad de grado

cero o que la suma de las elasticidades es igual a 0. Como se ve el cero está ubicado en el extremo derecho de la distribución por lo que está muy alejada del verdadero centro de la distribución. Por ello es que la conclusión es que no se puede aceptar la hipótesis nula.

Por otro lado, dados los resultados se sabe que la elasticidad precio estimada es –0.785 y se

desea verificar si este valor es congruente con una distribución cuya media es igual a –0.75 (que es el valor que se ha supuesto como verdadero cuando hemos generado la muestra). Si se quiere aplicar una prueba t para ello el valor calculado se halla de la siguiente forma:

773.00453.0

)75.785.0( −=+−

12 El término verdadero está entre comillas debido a que el modelo fue generado de la siguiente forma: LnQd= 2 - 0.75lnPx + 0.8LnI - 0.35LnPy + rndn. El último término rndn indica que a la anterior expresión se le está agregando un término aleatorio. A su vez, LnPx, LnI y LnPy también han sido construidas a través del generador de números aleatorios. Con este tipo de procedimiento estamos generando muestras aleatorias pero que responden a un proceso generador de datos similar.

Page 102: Casas Econometria Moderna(2)[1]

Econometría Moderna Inferencia Estadística en el Modelo Lineal General

112

como se sabe los valores críticos para más de 100 grados de libertad son aproximadamente 2 y –2 respectivamente. La conclusión es que no se puede rechazar la hipótesis nula. Si se observa el siguiente gráfico se ve que la distribución está centrada en –0.75 (que es el valor con el cual fueron generados los datos). Un valor de –0.785 si bien no es igual a –0.75 se observa que en términos de la distribución que se presenta cae dentro de la zona de aceptación.

Sin embargo, debe mencionarse que un valor de –0.95 aparecería como muy lejano, y

seguramente se tendería a no aceptar la hipótesis nula. Pero se observa que todos los valores reportados en el gráfico responden a un modelo “verdadero” con una elasticidad precio igual a –0.75, pero por factores meramente aleatorios el valor calculado en un modelo específico (una muestra en particular) es de –0.95 y en términos de la distribución se tendería a no aceptar la hipótesis nula cuando es verdadera. Esto ilustra el error tipo I en el cual se puede caer y por ello es que algunos investigadores tienden a ser muy exigentes y elevan el nivel de significación de ciertas pruebas. No obstante, como ya se mencionó el nivel de significación estándar es 0.05.

Algo que debe quedar en claro a partir de todo lo discutido en este capítulo es que cualquier

ejercicio de inferencia implica cierto grado de incertidumbre. La idea de las pruebas de hipótesis es someter al juicio de los datos las afirmaciones que se pueden derivar de la teoría (expresadas en forma de restricciones). Sin embargo, nunca podemos estar seguros sino hasta cierto grado de certeza el cual no será absoluto.

Page 103: Casas Econometria Moderna(2)[1]

CCAAPPÍÍTTUULLOO 55

MMÁÁXXIIMMAA VVEERROOSSIIMMIILLIITTUUDD

55..11.. UUNNAA AAPPRROOXXIIMMAACCIIÓÓNN IINNTTUUIITTIIVVAA En el modelo lineal clásico, donde el término de error satisface todas las condiciones de

Gauss-Markov, el criterio fundamental para la estimación de los coeficientes consiste en minimizar la suma de cuadrados del error. Este procedimiento, definido como Mínimos Cuadrados Ordinarios, garantiza la obtención de estimadores insesgados y eficientes. Sin embargo, el criterio de mínimos cuadrados ordinarios es un criterio arbitrario que cumple con un conjunto de propiedades deseables pero no es único. En la práctica pueden existir tantos estimadores como criterios puedan establecer diversas personas. El arte del planteamiento de un estimador es hacerlo de tal manera que cumpla con la mayoría de criterios esperados. Frente a esto, cabe preguntarse si existe algún otro tipo de algoritmo que también nos provea de estimadores eficientes y es en este punto, precisamente, donde podemos empezar a hablar de la estimación por máxima verosimilitud. Este tipo de estimación, partiendo de una correcta especificación y el cumplimiento de ciertas condiciones, garantiza la obtención de estimadores asintóticamente insesgados, eficientes y consistentes.

El criterio de máxima verosimilitud consiste básicamente en suponer una distribución y, a

partir de ésta, estimar los parámetros que hagan máxima la probabilidad de que determinada muestra pertenezca a dicha distribución. La relación entre la distribución supuesta inicialmente y la muestra con que contamos se da a través de un modelo estadístico (forma estructural). Dentro de este modelo se tienen ciertos parámetros que son magnitudes desconocidas. El principio de máxima verosimilitud consiste en escoger aquellos valores de los parámetros de tal forma que la muestra se parezca lo más que se pueda a la distribución supuesta inicialmente. En este sentido lo que se busca es hacer lo más verosímil (creíble) posible el supuesto inicial respecto de la distribución de probabilidades de la cual se partió. En otras palabras, lo que se busca es maximizar la probabilidad de ocurrencia de la muestra. Sabemos que la probabilidad

Page 104: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

114

se calcula a partir de una función de probabilidad específica por lo que es crucial partir tomando en cuenta una de ellas.

Para comprender mejor qué implica este principio consideremos el siguiente ejemplo.

Supongamos una variable aleatoria y continua con media desconocida (µ) y una desviación estándar unitaria. Supongamos también que esta variable se distribuye normalmente y que se cuenta con dos hipótesis alternativas (µ =µ0 y µ = µ1) y una observación x1 (en definitiva: X∼ N(µ,1)). Según el principio de máxima verosimilitud, se debe elegir aquella hipótesis que haga máxima la probabilidad de ocurrencia de x1. Para esto se compara el valor de la función de densidad para x1 bajo ambas hipótesis.

Figura 5.1. A partir del gráfico anterior se aprecia que es la hipótesis µ =µ0 la que garantiza el mayor

valor en la función de densidad para x1. Generalizando el resultado anterior, consideremos ahora todos los posibles valores de µ y elijamos aquel que otorga a x1 el mayor valor en la función de densidad. Definamos la siguiente función de densidad de x dado µ:

f x e x( / ) ( / )( )µπ

µ= − −1

21 2 2

Se calcula ahora el valor de µ que maximiza la función anterior, dada la observación x1. Si

nos referimos al gráfico la respuesta consiste en igualar µ=x1, de modo que la distribución tenga a x1 como media asignado a este evento la mayor probabilidad. Para comprender este resultado en términos matemáticos conviene reconocer antes que x1 es un valor dado mientras que µ es variable. En este sentido, podemos considerar la función de densidad como una función de µ con x1 como dado. Tomando en cuenta esta salvedad, definamos ahora la nueva función como la función de verosimilitud:

L x e x( / ) ( / )( )µπ

µ1

1 21

21

2

= − −

Nótese que el logaritmo de la función anterior también será máximo para el mismo valor de

µ que la función original, por lo que resulta conveniente hallar el máximo de la función logL(µ) (función log-verosímil) debido a que resulta más sencillo en términos matemáticos:

Page 105: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

115

log ( ) log ( )L xµ π µ= − − −2 1

2 12

Ahora, diferenciando con respecto a µ tenemos:

∂ µ∂µ

µlog ( )Lx= − =1 0

de modo que el estimador de máxima verosimilitud de µ es igual a x1. La segunda derivada

del resultado anterior es negativa, confirmando que la función ha sido maximizada. El resultado anterior puede generalizarse para más de una observación. Por ejemplo,

evaluemos nuevamente este procedimiento considerando dos observaciones distribuidas independientemente (x1, x2). Tal como antes, el criterio de máxima verosimilitud consiste en hallar el valor de µ que maximice el valor de la función de densidad conjunta:

f x x e ex x( , / ) ( / )( ) ( / )( )1 2

1 2 1 21

2

1

21

22

2

µπ π

µ µ=

− − − −

Tal como se hizo en el caso anterior, esta función puede ser reinterpretada como la función

de verosimilitud de µ dados x1 y x2, la cual se maximiza indirectamente a través de su logaritmo:

log ( ) log ( ) ( )L x xµ π µ µ= − − − − −2 2 1

2 12 1

2 22

De la condición de primer orden tenemos que:

(x1 - µ) + (x2 - µ) = 0

por lo que el estimador de máxima verosimilitud de µ vendría dado por (1/2)(x1 +x2). Resulta sencillo generalizar este resultado para el caso de n observaciones (x1,x2,...xn), donde el estimador de máxima verosimilitud vendría dado por la media de la muestra, coincidiendo, por tanto, con el estimador por mínimos cuadrados ordinarios (la analogía entre el estimador de máxima verosimilitud y el estimador MCO será demostrada más adelante). Para verificar esto, regresemos al ejemplo de dos observaciones (x1, x2), donde el estimador de máxima verosimilitud de µ corresponde a la media de ambas observaciones. Gráficamente:

Page 106: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

116

De esta manera, se está eligiendo aquel valor de µ que garantiza la mayor probabilidad de ocurrencia para x1 y x2 conjuntamente. Si se pretende estimar µ a través de MCO, lo que se busca es minimizar la suma de cuadrados de los errores. Formalmente:

( ! ) ( ! )x x SE12

22 2− + − =µ µ

y derivando con respecto a !µ :

∂∂µ

µ µ

µ

µ

SEx x

x x

x x

2

1 2

1 2

1

2 1 2

2 2 0

2 0

!( ! ) ( ! )

!

! ( )

= − − − − =

− − =

= +

Consideremos ahora otro ejemplo que ayude a un mejor entendimiento de lo que significa e

implica la estimación por Máxima Verosimilitud. Para esto, supongamos que se pretende evaluar la calidad de determinado producto a partir de una muestra de diez elementos. Evidentemente, si se encontraran cuatro productos defectuosos se podría estimar que la proporción total de productos que son defectuosos es 0.5. Si se considera este problema desde la perspectiva de la estimación por máxima verosimilitud, sin embargo, el enfoque resultaría un tanto distinto. En primer lugar hay que suponer una distribución de probabilidad que refleje el problema (en este caso elegimos una distribución binomial dado que tenemos dos resultados posibles). Partiendo de esta distribución, supongamos que se extrae una muestra aleatoria de n productos y que la probabilidad de que uno de éstos sea defectuoso viene dado por λ. Así, si dentro de la muestra se encuentran D productos defectuosos, la probabilidad (P) de hallar D productos defectuosos en la muestra vendría dada por:

Pn

D n DD n D=

−− −!

!( )!( )λ λ1

En el ejemplo planteado anteriormente teníamos que n = 10 y D = 4. Tomando como dados

estos valores, si se fijan arbitrariamente los valores de λ entre 0.1 y 0.9 (es decir, tanteando), los resultados serían los que arroja la siguiente tabla:

Page 107: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

117

λ probabilidad 0.1 0.01116026 0.2 0.08808038 0.3 0.20012095 0.4 0.25082266 0.5 0.20507813 0.6 0.11147674 0.7 0.03675691 0.8 0.00550502 0.9 0.00013778

Como se puede apreciar, cuando λ = 0.1 se tiene que P = 0.01116, de modo similar, fijando

λ = 0.2 se tiene que P = 0.0880. Si continuamos con este proceso descubriremos que el valor de λ que maximiza P es 0.4, el cual arroja un PMAX =0.2508. En otras palabras, el valor de λ que maximiza la probabilidad de ocurrencia de la muestra observada (D = 4 para n = 10) es, por tanto, λ = 0.4. Esta corresponde a la estimación de máxima verosimilitud del valor poblacional de λ. Este proceso de tanteo se pude complicar mucho más si tomamos en cuenta funciones de probabilidad mucho más complejas. Sin embargo, en la práctica esta es la forma en que se obtienen la mayoría de estimados de máxima verosimilitud. El proceso de búsqueda se complica mucho más y para ello se utilizan algoritmos de búsqueda especializados.

Un método alternativo que puede ser utilizado cuando se trabajan problemas relativamente

sencillos es el método analítico. Esto implica obtener una solución algebraica al problema de hallar el estimador de máxima verosimilitud en función de los datos muestrales. Dado que el principio de máxima verosimilitud implica hacer que la muestra se parezca lo más que se pueda a la población ello implica que hallemos el valor de λ que maximice la función de probabilidad planteada líneas arriba. En términos matemáticos, ello implica derivar la función de probabilidad con respecto a λ e igualar esta derivada a cero :

∂∂λ

λ λ λ λ

λ λ λ λ

λ λ

λ

PD

n

D n Dn D

n

D n D

D n D

D n D

D

n

D n D D n D

D n D D n D

!!

!( )!! ( ! ) ( )

!

!( )!! ( ! )

! ( ! ) ( ) ! ( ! )

! ( )( ! )

!

=−

− −

−−

=

− = − −

= − −

=

− − − −

− − − −

− −

1 1

1 1

1 1

1 1 0

1 1

1

donde !λ es precisamente el estimador de máxima verosimilitud, en este caso: 4.010/4/ˆ === nDλ que coincide con lo que la intuición y el método del tanteo nos habían

arrojado.

55..22.. PPLLAANNTTEEAAMMIIEENNTTOO GGEENNEERRAALL

Ahora que ya tenemos una idea más concreta de lo que significa el principio de máxima

verosimilitud, estamos en condiciones de generalizar su planteamiento para luego centrarnos en las propiedades de este tipo de estimadores.

Page 108: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

118

Para esto, supongamos una muestra (X1,X2,...Xn) que ha sido extraída de una función de distribución P(Xi/β) donde β representa al conjunto de parámetros que determina la función de densidad de X. Supongamos también que cada elemento de la muestra se distribuye independientemente con función de distribución P(Xi/β). De esta forma, la función de distribución conjunta de toda la muestra vendría dada por:

P X X Xn P X P X P Xn

P Xii

n

( , , .. . / ) ( / ). ( / )... ( / )

( / )

1 2 1 2

1

β β β β

β

=

==∏

Tal como en los ejemplos planteados anteriormente, los valores de la muestra (Xi) son

dados, por lo que el problema se reduce a preguntar cuál es el valor de β que maximiza la probabilidad de ocurrencia de los valores observados (Xi). En este sentido tenemos que la función de verosimilitud vendría dada por:

L P X ii

n

( ) ( / )β β==∏

1

Como se puede apreciar la forma de la función de verosimilitud y la función de probabilidad

son iguales, lo único que cambia es el enfoque. En la función de probabilidad lo que se supone como dado es el parámetro y de allí se generan los datos mientras que en la función de verosimilitud lo que se considera fijo son los datos y debe hallarse el valor de los parámetros que hacen que la probabilidad de la muestra sea la mayor posible, es decir aquellos valores que hacen lo más verosímil posible el hecho de que la muestra haya sido generada por dicha función de probabilidad.

Tal como se indicó en el primer ejemplo, resulta más conveniente trabajar con el logaritmo

de la función de verosimilitud el cual se reduce a:

[ ] [ ]log ( ) log ( / )L P X ii

n

β β==∑

1

La función anterior (que recibe el nombre de función log-verosímil) es precisamente aquella

que se busca maximizar en términos de β. Esta transformación puede realizarse debido a que las funciones de probabilidad son monotónicas crecientes y por tanto cualquier transformación de este tipo no altera los resultados de los puntos de maximización.

55..33.. EELL SSCCOORREE EEFFIICCIIEENNTTEE YY LLAA MMAATTRRIIZZ DDEE IINNFFOORRMMAACCIIÓÓNN

Dentro del enfoque de máxima verosimilitud analizado líneas arriba, existen dos matrices

particularmente importantes que es relevante analizar. Estas matrices nos dan información valiosa que es muy importante incorporar en el estudio de los estimadores de máxima verosimiltitud. La primera de ellas se conoce como el score eficiente y se define como:

∂ β

∂ββ βlog ( )

( ) ( )L

S g= =

Este vector es el gradiente de la función de log-verosímil. Contiene tantos elementos como

parámetros a estimar contenga un modelo. Como se desprende de lo discutido anteriormente, el

Page 109: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

119

valor de la matriz de score eficiente, evaluada en el estimador de máxima verosimilitud (que representa precisamente el máximo de la función) es cero.

La segunda matriz se conoce como la matriz de información y viene dada por la esperanza

del negativo de la segunda derivada de la función log-verosímil respecto al parámetro:

[ ]EL

E H I−

= − =∂ β

∂β∂ββ β

2 log ( )

'( ) ( )

Bajo ciertas condiciones de regularidad (las que se pasan a analizar más adelante), la

varianza del estimador de máxima verosimilitud viene dada por la inversa de la matriz de información (propiedad que también será verificada más adelante):

[ ]Var IMV( ! ) ( ! )β β=−1

La expresión anterior se deriva del teorema de la Cota Mínima de Cramer-Rao, el cual

establece que si la función de densidad de x satisface ciertas condiciones de regularidad, la varianza de un estimador insesgado del parámetro β será siempre por lo menos igual a {I(β)}-1, formalmente:

Var

EL

( !)log ( )

β∂ β

∂β

≥ −

12

2

La relación que existe entre la matriz de información y la varianza se desprende del siguiente análisis. Primero debemos recordar que la segunda derivada de una función nos da una idea de la curvatura que tiene una función. Si suponemos que las funciones de densidad de probabilidad que utilizamos son doblemente diferenciables ello implica que podemos determinar la curvatura de cualquier función.

El gráfico que presentamos contiene dos funciones log-verosímiles L1 y L2. Ambas tienen un mismo máximo pro diferente curvatura. La curva L1 es más abierta que L2 por lo que esta última presenta una mayor curvatura. Del gráfico se desprende que en el caso de L2 el parámetro presenta un menor margen de variabilidad dado que el espacio en el cual puede moverse es menor que en el caso de L1. Por ello esperaríamos que en el caso de L2 el

Page 110: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

120

parámetro que se obtenga tenga una menor varianza que en el caso del que se obtenga si utilizamos L1. Entonces podemos concluir que a mayor curvatura la varianza será menor y viceversa. Esto nos da la intuición de la relación inversa que existe entre la matriz de información y la varianza de los parámetros. En el caso de la matriz de información vemos que se toma la esperanza del negativo de la matriz de segundas derivadas (el hessiano de la funcón log-verosímil). Esto se explica porque la matriz de segundas derivadas de una función que presenta un máximo es negativa definida. Como las varianzas no pueden ser negativas se toma el negativo de la matriz para asegurar que las varianzas sean positivas. 55..44.. EELL EESSTTIIMMAADDOORR MMÁÁXXIIMMOO VVEERROOSSÍÍMMIILL DDEELL VVEECCTTOORR DDEE PPAARRÁÁMMEETTRROOSS DDEELL MMOODDEELLOO

LLIINNEEAALL GGEENNEERRAALL..

El principio de máxima verosimilitud es muy flexible y se puede aplicar tomando en cuenta varias formas estructurales y distintas funciones de distribución. En esta sección consideraremos el estimador máximo verosímil del modelo lineal general que hemos analizado en los capítulos anteriores. Como recordamos el modelo lineal general puede expresarse de la siguiente manera:: y = xβ + u. En el contexto de máxima verosimilitud debemos suponer que la variable aleatoria relevante sigue una función de probabilidad específica. Por ello vamos a introducir el supuesto de que el vector u sigue una distribución normal manteniendo el supuesto de que su media es igual a cero y su varianza viene dada por la matriz σ2

uI. Bajo estos supuestos, la función de densidad del vector u sería:

f u en

un

u uu( )

( ) ( )/ /

'=

−1

2

12 2 2

1

2 2

π σσ

Tal como en el ejemplo anterior, la función de densidad anterior puede transformarse en la

función de verosimilitud muestral si se expresa u en función de x e y. A diferencia del primer ejemplo, donde se supuso una desviación estándar unitaria, aquí resulta necesario estimar, además de los coeficientes, la varianza del término de error:

L y x eu nu

n

y x y xu( , / , )

( ) ( )/ /

( )'( )

β σπ σ

σβ β

22 2 2

1

21

2

1 2

=− − −

Siguiendo el criterio de máxima verosimilitud, debemos hallar aquellos valores de los

parámetros σ2u y β que maximicen la función planteada anteriormente. Nuevamente, conviene

trabajar con el logaritmo de la función de verosimilitud:

log ( , ) log log ( )' ( )Ln n

y x y xu uu

β σ π σσ

β β2 222

22

1

2= − − − − −

la cual se deriva respecto a ambos parámetros:

[ ]∂∂β σ

β φ

β φβ

β

log' ( )

' ( )

( ' ) '

! ( ' ) '

Lx y x

x y x

x x x y

x x x y

u

= − − − =

− − ==

= −

1

22

2

2

1

Page 111: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

121

∂∂σ σ σ

β β

β β σ

σ β β

log( )' ( )

( )' ( ) ( )

!( ! )' ( ! ) !' !

L ny x y x

y x y x n

y x y x

n

u u

n

u u u

u

u

2 2 4

2

2

2

1

20= − + − − =

− − =

= − − =

De esta forma, se verifica que, bajo los supuestos de normalidad del término de error y

forma lineal del modelo, el estimador de máxima verosimilitud de β coincide con el estimador MCO. El estimador de la varianza del término de error, sin embargo, difiere del obtenido a través de MCO, siendo ahora sesgado:

E En k

n

n k

nMV MICO u( ! ) !σ σ σ2 2 2= −

= −

Sin embargo, y tal como se verifica en la expresión anterior, el sesgo del estimador de

máxima verosimilitud tiende a cero al aumentar el tamaño muestral y se aproxima, por tanto, al estimador MCO.

Analicemos ahora la matriz de información y la varianza de los estimadores de máxima verosimilitud del modelo lineal general. Se sabe que las matrices de score para ambos parámetros son:

[ ]∂∂β σ

βlog'( )

Lx y x

u= − − −1

22

2

∂∂σ σ σ

β βlog( )' ( )

L ny x y x

u u u2 2 42

1

2= − + − −

Diferenciando nuevamente con respecto a cada parámetro resulta que:

( )

∂∂β∂β σ∂

∂ σ σ σβ β

∂∂β∂σ σ

β

2

2

2

2 2 4 6

2

2 4

1

2

1

1

2

log

''

log( )' ( )

log( ' ' )

Lx x

L ny x y x

Lx y x x

u

u u u

u u

= −

= − − −

= − −

Ahora, tomando la esperanza y cambiando el signo se tiene:

Page 112: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

122

( )

[ ]

( )

=

= − +

= − +

=

= + −

= −

=

EL

x x

EL n

E u u

n n

n

EL

E x x u x x

x x x x

u

u u u

u uu

u

u u

u

∂∂β∂β σ

∂ σ σ σ

σ σσ

σ∂∂β∂σ σ

β β

σβ β

2

2

2

2 2 4 6

4 62

4

2

2 4

4

1

2

1

2

2

1

2

1

20

log

''

log( ' )

log'( ) '

' '

Considerando los resultados anteriores, la inversa de la matriz de información (que

representa la varianza de los estimadores de máxima verosimilitud) vendría dada por:

Ix x

nu

u

u−

=

12

2 1

40

02

βσ

σσ

( ' )

Tal como lo indica el resultado anterior, los resultados obtenidos a través de la estimación

por máxima verosimilitud son similares a los obtenidos a través de MCO. Ya se sabe que la varianza del estimador MCO es igual σ2

u(x’x)-1, sin embargo, para verificar el segundo resultado es necesario realizar un desarrollo adicional. Considerando que el estimador MCO de la varianza del término de error viene dado por:

!!' !σ2

uu u

n k=

y que:

!' !

( )u u

un k

σ22≈ −Χ

se tiene:

! ( )σ σ22

2u

un k

n k≈

−−Χ

Sabemos también que la varianza de una distribución chi-cuadrado es igual a dos veces sus

grados de libertad, por lo tanto:

Page 113: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

123

Varn k

n k

n k

uu

u

( ! )( )

( )

( )

σ σ

σ

24

2

4

2

2

=−

=−

Comparando este resultado con el obtenido a través de la inversa de la matriz de

información, se observa que el sesgo hallado en la sección anterior aparece nuevamente al momento de calcular la varianza del estimador de máxima verosimilitud de σ2

u, el cual, tal como se indicó anteriormente, disminuye conforme aumenta el tamaño muestral. 55..55.. PPRROOPPIIEEDDAADDEESS DDEELL EESSTTIIMMAADDOORR DDEE MMÁÁXXIIMMAA VVEERROOSSIIMMIILLIITTUUDD ((OOPPCCIIOONNAALL))

Habiendo revisado los principales resultados referidos al estimador de máxima

verosimilitud, es conveniente para el lector interesado estudiar en profundidad algunas de las propiedades del estimador a fin de tener una idea más cabal de las implicaciones de su utilización. Esta sección requiere el uso de técnicas y conceptos un poco más elaborados por lo que su lectura es opcional para el alumno de pregrado.

Una de las ventajas de la estimación por máxima verosimilitud es que resulta bastante

atractiva debido principalmente a lo general de su planteamiento y a sus propiedades asintóticas. Si suponemos que se cumplen las condiciones de regularidad (las que serán enumeradas más adelante) podemos verificar las siguientes propiedades asintóticas:

P1. Consistencia: Plim MV( ! )β β=

P2. Normalidad asintótica: { }[ ]! , ( )β β βd N I → −1

P3. Eficiencia asintótica

P4. Invarianza: el estimador de máxima verosimilitud de α β= c( ) es c( ! )β .

Estas propiedades tornan atractivo este tipo de estimadores especialmente para el análisis

de muestras grandes. Con el fin de explorar más a fondo las propiedades enunciadas anteriormente, resulta necesario considerar algunas características de la función de densidad P(Xi,β) (L(Xi β) si lo consideramos desde la perspectiva de máxima verosimilitud, ambas serán utilizadas indistintamente). Para la definición de dichas caracteríticas se requiere el cumplimiento de ciertas condiciones conocidas como las condiciones de regularidad:

R1. Las primeras tres derivadas de logL(Xi,β) con respecto a β son finitas para casi todo X y β.

Esto garantiza la posibilidad de realizar aproximaciones a través de series de Taylor y la existencia de una varianza finita para logL.

R2. Es posible obtener la esperanza de la primera y segunda derivada de logL(Xi,β).

R3. Para todos los valores de β, lkj

iXLogL

ββββ

∂∂∂∂ ),(3

es menor a una función con esperanza

finita. Esta condición permite truncar la serie de Taylor. A partir de estas condiciones se pueden derivar las siguientes características:

Page 114: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

124

C1. ββ

ββ

βββ

′∂∂∂

=∂

∂=

),( ,

),()( ),,(

2i

ii

i

XLogLH

XLogLSXLogL , son todas muestras

aleatorias de variables aleatorias. Es decir el score eficiente y el hessiano de la función log-verosímil son muestras de variables aleatorias.

C2. E(S(β)i) = 0 C3. Var(S(β)i) = -E(Hi)

Pasemos ahora a verificar las características enunciadas anteriormente. Para esto

supongamos un rango para Xi: L(β) ≥ Xi ≤ U(β). L(.) representa el valor mínimo que puede tomar X y U(.) el valor máximo. Consideremos la estimación por máxima verosimilitud de β para una distribución continua y uniforme con rango (0,β) donde el integral ∫x dx indica la integración múltiple sobre todos los elementos de Xi, formalmente:

P X dxL

U( / )

( )

( )β

β

β=∫ 1

Diferenciando con respecto a β se tiene:

∂ β

∂β∂ β

∂ββ β ∂ β

∂ββ β ∂ β

∂ββ

β

β

βP X dxP X

dx P UU

P LLL

U

L

U( / )

( / )( ( ) / )

( )( ( ) / )

( )( )

( )

( )

( )∫∫= + − =0

Para poder intercambiar los operadores de integración y diferenciación es necesario que los

dos últimos elementos sean iguales a cero. Para esto, una condición suficiente es que el rango de la variable observada (Xi) no dependa de los parámetros lo que implica que: ∂ β

∂β∂ β

∂βL U( ) ( ) .= = 0 Según lo anterior, y considerando la segunda condición de

regularidad (R2) tenemos que:

∂ β

∂β∂ β∂β

∂ β∂β

β

∂ β∂β

P X dx P Xdx

P XP X dx

EP X

( , ) ( , )

log ( , )( , )

log ( , )

∫ ∫

=

=

=

= 0

con lo que se verifica la segunda característica.

Dado que podemos intercambiar los operadores diferenciemos nuevamente para obtener:

∂ β∂β∂β

β ∂ β∂β

∂ β∂β

2

0log ( , )

'( , )

log ( , ) ( , )

'

P XP x

P X P Xdx+

=∫

Page 115: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

125

Considerando que:

∂ β∂β

β ∂ β∂β

P XP X

P X( , )

'( , )

log ( , )

'=

y que la integral de una suma es la suma de los integrales se tiene que:

=

=∫ ∫∂ β

∂β∂ββ ∂ β

∂β∂ β

∂ββ

2

0log ( , )

'( , )

log ( , ) log ( , )

'( , )

P XP X dx

P X P XP X dx

La primera parte de la expresión anterior corresponde al esperado la matriz de segundas

derivadas, mientras que la segunda parte al esperado del cuadrado del vector de primeras derivadas. Sin embargo, y debido a que la esperanza de este vector es igual a cero (C2), la segunda parte de la expresión representa en realidad la varianza del vector de primeras derivadas. Tomando en cuenta lo anterior, se puede demostrar la tercera característica:

EP X P X

VarP X

EP X∂ β

∂β∂ β

∂β∂ β

∂β∂ β

∂β∂βlog ( , ) log ( , )

'

log ( , ) log ( , )

'

=

= −

2

Ahora que ya se conoce como derivar las características de la función de distribución, y

teniendo éstas en mente, es posible verificar las propiedades asintóticas del estimador de máxima verosimilitud. Como ya se sabe, la función log-verosímil viene dada por:

[ ] [ ]log ( ) log ( / )L P X ii

n

β β==∑

1

por tanto1:

∂∂βlog L

g gii

n

= ==∑

1

∂∂β∂β

2

1

log

'

LH Hi

i

n

= ==∑

A partir de C2, se concluye que:

[ ]EL

E g∂∂βlog

= = 0

Ahora, considerando que [ ] [ ]E gg E g g E H E Hi ii

n

ii

n

' ' ( )=

= −

= −

= =∑ ∑

1 1

se tiene que:

1 Debe notarse que en este resultado se llamará g al score eficiente.

Page 116: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

126

VarL

Var g EL

E H∂∂β

∂∂β∂β

log( )

log

'( )

= = −

= −

2

Debido a que la demostración de la consistencia asintótica del estimador de máxima

verosimilitud requiere de operaciones matemáticas aún más complicadas2, se parte del supuesto

de que Plim( ! )β β= 3. Evidentemente, el gradiente de la función log-verosímil (el score

eficiente) evaluado en el estimador de máxima verosimilitud es igual a cero [ ]g( ! )β = 0 .

Expandiendo este conjunto de ecuaciones en una serie de Taylor de segundo orden alrededor de los verdaderos parámetros tenemos:

[ ]g g H T( ! ) ( ) ( )( ! ) ( *, ! , )β β β β β β β β= + − + =1

20

El tercer término de la ecuación anterior es una función vectorial que incluye la tercera

derivada de logL evaluada en β * (que se encuentra entre !β yβ ) y cuyos términos cruzados

vienen dados por: ( ! )( ! )β β β βj j l l− − . Replanteando la expresión anterior y multiplicándola

por n tenemos:

[ ] [ ] [ ] [ ]n H ng n H T( ! ) ( ) ( ) ( ) ( *, ! , )β β β β β β β β− = − −− −1 1

2

1

La tercera condición de regularidad (R3) asegura que la tercera derivada converge a una

constante finita, además, debido a que Plim( ! )β β− = 0 , los términos cruzados en esta parte de

la expansión convergen a cero. En definitiva, y para muestras lo suficientemente grandes, el

lado derecho de la ecuación anterior ya no involucra a [ ]T( *, ! , )β β β (recordemos que la

tercera condición de regularidad permite truncar la serie de Taylor). Por tanto, la expresión anterior se reduce a:

( ) [ ] [ ]n H ngd! ( ) ( )β β β β− → −1

Ahora, dividiendo H(β) y g(β) entre n tenemos:

( ) [ ] [ ]n H ngd

n! ( )β β β− →

−1 1

2 Para una demostración formal de esta propiedad puede consultarse Cramér,H. Mathematical Methods of Statistics, Princeton University Press,1948. 3 Debe mencionarse que el plim de un variable aleatoria se refiere al límite en probabilidad definido como:

( ) 0=>−∞→

εuxPLimn

es decir que la diferencia entre cualquier variable aleatoria (x) y su media (u) tiende a ser muy pequeña a medida que el tamaño de la muestra tiende a crecer. No implica que la esperanza en el límite sea igual al verdadero parámetro. Esto se verá en más detalle en el capítulo 10.

Page 117: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

127

donde g representa la media de una muestra aleatoria (recordemos la primera característica,

C1) de modo que es posible aplicar el Teorema del Límite Central de Lindberg-Levy4 (para esto

se debe tomar en cuenta que la varianza limitante de [ ]ng es [ ]−E H( )β ):

[ ]{ }ng N E Hd( ) , ( )β β → −0

Tomando en cuenta que [ ] [ ]plim H E Hn

1 ( ) ( )β β= y que ésta es una matriz constante la

expresión anterior puede ser replanteada de la forma:

[ ] [ ]{ } [ ]{ } [ ]{ }[ ]1 1 1 10

n

dH ng N E H E H E H( ) ( ) , ( ) ( ) ( )β β β β β− − − → −

y, por lo tanto:

( ) [ ]{ }[ ]n N E Hd! , ( )β β β− → − −0

1

lo que da la distribución asintótica del estimador de máxima verosimilitud:

{ }[ ]! , ( )β β βd N I → −1

Queda pendiente aún verificar la cuarta propiedad referida a la invarianza del estimador de

máxima verosimilitud. Esta propiedad, sin embargo, es un resultado matemático del método utilizado en la estimación por máxima verosimilitud y no representa un resultado estadístico en si. Específicamente, este resultado puede resultar de gran utilidad para el investigador ya que, por ejemplo, si la función de verosimilitud contiene un parámetro de la forma 1/βj, usualmente resulta útil trabajar con una reparametrización del modelo en términos de αj = 1/βj. Para ilustrar esta propiedad consideremos la estimación por máxima verosimilitud de la media y varianza de una muestra obtenida de una distribución normal. La función log-verosímil en este caso vendría dada por:

log ( , ) log( ) log( )

Ln n xi

i

n

µ σ π σµ

σ2 2

212

22

1

2= − − −

=

de modo que la maximización respecto a cada parámetro sería:

4 Según el Teorema del Límite Central de Lindberg-Levy, si x1,...xn es una muestra aleatoria de una distribución con media finita (vector µ) y una matriz de covarianzas finita y definida positiva (Q) se tiene que:

n x N Qnd( ) ( , )− →µ 0

donde

xn

xn ii

n

==∑1

1

Page 118: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

128

∂∂µ σ

µ

∂∂σ σ σ

µ

log( )

log( )

Lx

L nx

ii

n

ii

n

= − =

= − + − =

=

=

10

2

1

20

21

2 2 42

1

A partir de las ecuaciones anteriores, los estimadores de máxima verosimilitud de la media y

varianza serían5:

!

! ( )

µ

σ

= =

= −

=

=

1

1

1

2

1

2

nx x

nx x

ii

n

ii

n

Ahora, tomando en cuenta la propiedad de invarianza, reparametricemos la función en

términos del parámetro de precisión θσ

22

1= . De esta forma, la función log-verosímil vendría

dada por:

log ( , ) log( ) log ( )Ln n

xii

n

µ θ π θ θ µ2 2 2 2

122

2

1

2= − + − −

=∑

Resulta fácil verificar que el estimador de máxima verosimilitud de µ sigue siendo x , sin

embargo la ecuación log-verosímil de θ2 sería, en este caso:

∂ µ θ∂θ θ

µlog ( , )( )

L nxi

i

n2

2 22

1

1

20= − −

=

=∑

por lo que la solución vendría dada por:

!

( ! )!

θµ σ

2

2

1

2

1=−

=

=∑

n

xii

n

Tal como se verifica en la expresión anterior, el estimador de máxima verosimilitud de

θσ

22

1= es 1

2!σ, con lo que se verifica la propiedad de invarianza.

55..66.. IINNFFEERREENNCCIIAA EENN EELL CCOONNTTEEXXTTOO DDEE MMÁÁXXIIMMAA VVEERROOSSIIMMIILLIITTUUDD.. TTEESSTTSS AASSIINNTTÓÓTTIICCOOSS

Así como en el contexto del estimador de mínimos cuadrados ordinarios revisamos las

diferentes pruebas de hipótesis que nos servían para verificar las distintas restricciones que plantea la teoría o la intuición es deseable presentar el marco dentro del cual se pueden realizar 5 Para obtener los estimadores se debe multiplicar la primera expresión por σ2 e insertar este resultado en la segunda expresión.

Page 119: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

129

pruebas de inferencia dentro del contexto de máxima verosimilitud. Veremos que los principios que guían la inferencia en este contexto son aproximaciones y por ello no se realizan tests exactos sino asintóticos. Por tanto, se utilizan distribuciones aproximadas siendo la más utilizada la chi cuadrado. Veremos también cómo pruebas ya estudiadas son derivaciones o casos especiales de las pruebas que aquí revisaremos.

Bajo el esquema de máxima verosimilitud son tres las pruebas que estudiaremos: la prueba

de Wald, la prueba de los multiplicadores de Lagrange y la prueba del ratio de verosimilitud. Los tres procedimientos son asintóticamente equivalentes. Sin embargo, existe una diferencia fundamental entre ellos. La prueba de Wald evalúa únicamente una estimación irrestricta del modelo, la prueba de Lagrange utiliza una estimación restringida y, finalmente, la prueba del ratio de verosimilitud utiliza tanto la estimación restringida como la irrestricta. En la práctica, por tanto, la elección de determinada prueba depende de cual estimación resulta más fácil de computar.

Pasemos ahora a formalizar el planteamiento de estos estimados. Supongamos que el

estimador sin restringir (irrestricto) del vector de parámetros β es !β y queremos probar la

restricción generalizada H0:f(β) = 0 contra la alterna H1:f(β) ≠ 0. La función f(β) debe ser diferenciable de tal forma que permita la estimación de todos los parámetros restringidos.

5.6.1 La prueba de ratio de verosimilitud La prueba del ratio de verosimilitud (RV) es la más antigua de los tres procedimientos que

analizaremos en esta sección y tuvo su origen en los trabajos de Neyman y Pearson (1928). Se basa en la comparación del valor de la función de verosimilitud evaluada en el estimado sin

restringir ( ! )β y en el estimado restringido [ ]β βr f/ ( ) = 0 . Según esto, resulta claro que:

RVL

L

r

= <( )

( !)

ββ

1

dado que por definición L L r( ! ) ( ! )β β> 6. Se necesita ahora expresar el ratio anterior en una forma

que tenga una distribución asintótica bien definida, lo que puede lograrse expandiendo logL(β) en una serie de Taylor alrededor del estimado sin restringir. Teniendo en mente las condiciones de regularidad enunciadas en la sección previa es factible expresar el logaritmo de la función de verosimilitud de la forma:

[ ] [ ]log ( ) log ( !) ( ! )log ( )

( ! )'log ( )

'( ! )L L

L Lβ β β β

∂ β∂β

β β∂ β∂β∂β

β β= + −

+ −

−1

2

2

Evidentemente, evaluada en !β

6 Esto queda claro si tomamos en cuenta que una maximización sin restricciones nos permite alcanzar un máximo que siempre será mayor o igual que una maximización con restricciones. En el mejor de los casos lo que tenemos es que los valores maximizados serán iguales si es que la restricción pasa por el punto de maximización global de la función.

Page 120: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

130

∂ β∂β

β

∂ β∂β∂β

β

log ( )( )

log ( )

'( )

LS

LIp

= =

0

2

por lo que la expansión de Taylor vendría dada por:

log ( ) log ( ! ) ( ! )' ( !)( ! )L L Iβ β β β β β β= + − −1

2

Aplicando logaritmos al ratio de verosimilitud tenemos que:

[ ]− = −2 2log( ) log ( !) log ( )RV L L rβ β

Combinando los resultados anteriores y reemplazando el parámetro desconocido β de la

expansión de Taylor por βr tenemos que:

− = − −2 log( ) ( ! )' ( !)( ! )RV Ir rβ β β β β

Ya se conoce que bajo ciertas condiciones de regularidad el estimador de máxima

verosimilitud converge asintóticamente a:

( ) [ ]n N Id! , ( )β β β− → −0 1

por lo tanto, ( ! )' ( )( ! )β β β β β− −I se distribuye Χ2(m), donde m es el número de restricciones.

Teniendo esto en mente y tomando en cuenta la última expresión derivada para el logaritmo del ratio de verosimilitud podemos construir el estadístico de la forma:

[ ]RVT L L mr= − ≈2 2log ( ! ) log ( ) ( )β β Χ

La expresión anterior es la forma usual de la prueba del ratio de verosimilitud, el cual

simplemente implica que el doble de la diferencia entre la función log-verosímil evaluada en el parámetro sin restringir y restringido se distribuye chi-cuadrado con m grados de libertad. Si el estadístico RVT resulta mayor al valor crítico se rechaza la hipótesis nula y por tanto la restricción. Si analizamos la expresión, tenemos que en primer lugar va el valor de la función log-verosímil evaluada en el parámetro sin restringir el cual será mayor o igual al valor de la función log-verosímil evaluada en el parámetro restringido. Esto asegura que la expresión es no negativa lo que va acorde con los valores de la función chi-cuadrado que sabemos son no negativos.

5.6.2 ¿Cómo se contruyen estos tests? Una aproximación intuitiva Para ilustrar la relación entre los tres tests sugeridos líneas arriba Cuthbertson,Hall y Taylor

(1992) plantean el siguiente ejemplo. Supongamos que se prentende contrastar la siguiente hipótesis acerca del parámetro escalar β: H0:β = β0 contra H1:β ≠ β0. Tal como se discutió

Page 121: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

131

anteriormente, el test RV estima el valor de la función log-verosímil evaluada tanto bajo H0 como H1 y calcula la distancia (1/2)RV (ver gráfico).

La distancia (1/2)RV depende tanto de la distancia ( ! )β β− 0 como de la curvatura

(pendiente) de la función log-verosímil que definiremos como RL

( ! )logβ ∂∂β

=2

2 evaluada en

β β= ! . Para una distancia dada ( )β β− 0 , mientras mayor sea la curvatura o pendiente de la

función log-verosímil, mayor será la distancia (1/2)RV. Resulta sencillo verificar lo anterior si nos remitimos al gráfico. Evidentemente, la función L1 presenta una mayor pendiente y resulta

comprobar que dada la distancia ( ! )β β− 0 en el eje de las abcisas, la distancia

L L( ! ) ( )β β− 1 0 resulta mayor que la distancia L L( ! ) ( )β β− 2 0 . En este sentido, la “precisión”

del estimador de máxima verosimilitud !β es mayor para la función de verosimilitud L1 que

para la función L2, de modo que con la primera función se tendería a rechazar la hipótesis β β= 0 más fácilmente que con la función L2. Si la curvatura de la función es grande entonces

la variabilidad de β alrededor de su estimado de máxima verosimilitud !β será pequeña como

ya vimos en secciones anteriores.

5.6.3 La prueba de Wald Con la intuición detrás de la derivación del test RV en mente, pasemos ahora a analizar el

test de Wald, el cual utiliza únicamente la estimación irrestricta. Este test estima la distancia

(1/2)RV desde el punto X, midiendo la distancia ( ! )β β− 0 y calculando la posición de P1 (o P2

en el caso de L2) usando la curvatura R( ! )β evaluada en el punto máximo X. En este sentido,

podemos definir el estadístico del test de Wald para H0:β = β0 de la siguiente forma:

W R= −( ! ) ( ! )β β β02

Page 122: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

132

Sin embargo, este estadístico utiliza la curvatura promedio de la función medida a través de la matriz de información, la cual, como se sabe, sería la inversa de la varianza del estimador.

W I= −( ! ) ( ! )β β β02

Se puede ahora generalizar la expresión anterior para un grupo (f) de restricciones no

lineales (f(β) = 0) sobre k parámetros (f < k) y el estadístico de Wald (1943) vendría dado por:

[ ] { } )ˆ('))ˆ((')ˆ(11 βββ gFIFgW−−=

Donde F representa la matriz de orden (f x k) de las derivadas parciales ∂ ββ

g( ) evaluadas

en !β . Valores elevados de W son generados por grandes desviaciones de f ( ! )β de cero, y estas

desviaciones están ponderadas por la curvatura promedio de la función log-verosímil. En este sentido, ante valores elevados de W resulta factible que se rechace la hipótesis nula. El estadístico de Wald se distribuye chi-cuadrado con m grados de libertad, donde m es el número de restricciones en el vector f. A manera de ejemplo, consideremos ahora el caso especial

donde se pretende contrastar la restricción !β = 0 en una restricción lineal. En este caso f(β) = β

- 0, y es evidente que F sería la matriz identidad. Para este caso especial, el estadístico del test de Wald vendría dado por:

W I

Var

=

= ≈

−!( ( !)) !

!

( ! )( )

β β β

ββ

1

22

Dado que la inversa de la matriz de información es precisamente la varianza del estimador

de máxima verosimilitud, el test de Wald, en este caso, sería simplemente el cuadrado del test t de significancia para una restricción sobre un sólo parámetro de una regresión lineal.

Un ejemplo adicional que nos permite entender esta prueba y todas las expresiones que

aparecen en él es el siguiente: Supongamos que nuevamente estamos estimando una demanda de un bien y tenemos la siguiente función a estimar:

µββββ ++++= LnYLnPyLnPxLnX d4321

A partir de este modelo se plantean las siguientes restricciones:

32

0:

41

432

=+=++

βββββHo

cumple se no una menos al :1H

En la hipótesis planteada tenemos dos restricciones. La primera de ellas se refiere a la

homogeneidad de grado cero y la segunda puede haber sido planteada para el investigador para el caso específico que se está analizando. Si bien estamos empleando un modelo lineal similar al utilizado en el contexto de mínimos cuadrados ordinarios, éste puede ser muy útil para ilustrar la prueba de Wald. En primer lugar, podemos decir que la función )(βg =0 implicaría

igualar ambas restricciones a cero. Ello implica pasar el 3 a la izquierda en el caso de la segunda restricción. Así las restricciones quedarían de la siguiente forma:

Page 123: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

133

=−+=++

032

0:)(

41

432

βββββ

βg

Dado esto calculemos la derivada de la función g con respecto al vector de parámetros β .

Realizando esto obtenemos:

=

∂∂

1002

1110)(

ββg

Notemos que esta derivada tiene una forma equivalente a la matriz R que utilizamos en el

contexto de la prueba F analizada en el capítulo 4. Ahora sabemos que por construcción los parámetros restringidos están construidos para

cumplir con las restricciones. Entonces la pregunta que se hace la prueba de Wald es si los parámetros sin restringir cumplen con la restricción. El hecho de igualar a cero las restricciones nos permite analizar una distribución con media cero. Si remplazamos los parámetros estimados sin restringir dentro de g el valor obtenido es distinto de cero salvo que las restricciones estén perfectamente planteadas. La idea es analizar si esa diferencia de cero es significativa o no. Tomando en cuenta esto, y si los resultados obtenidos de la estimación sin restringir son los siguientes:

LnyLnPyLnPxLnX d 51.070.075.004.1 ++−=

Aquí se han tomado con dos decimales los resultados obtenidos de la siguiente estimación:

Variable Coeficiente Error Estándar

Estadístico t

Prob.

C 1.049972 0.173306 6.058474 0.0000 X1 -0.755151 0.108545 -6.957035 0.0000 X2 0.705307 0.057244 12.32100 0.0000 X3 0.514416 0.022911 22.45280 0.0000

La matriz de varianzas y covarianzas de los parámetros obtenida por la matriz de

información sería:

C X1 X2 X3 C 0.030035 -0.010378 -0.005635 -0.001917 X1 -0.010378 0.011782 0.000416 -1.81E-05 X2 -0.005635 0.000416 0.003277 -5.39E-05 X3 -0.001917 -1.81E-05 -5.39E-05 0.000525

Remplazando los parámetros sin restringir dentro de la matriz g, obtenemos el siguiente

vector:

0.464572 2.614359

Con estos valores y haciendo los reemplazos correspondientes en la siguiente expresión,

[ ] { } )ˆ('))ˆ((')ˆ(11 βββ gFIFgW−−=

Page 124: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

134

obtenemos el siguiente valor para el valor W = 378.88, lo cual comparado con el valor de la tabla chi-cuadrado con dos grados de libertad y al 95 por ciento de confianza nos arroja la conclusión de que no podemos aceptar la hipótesis planteada. Por tanto las restricciones planteadas en la hipótesis nula no pueden imponerse en el modelo.

5.6.4 La prueba de los multiplicadores de Lagrange

La prueba del multiplicador de Lagrange (LM), sugerido por Aitchison y Silvey (1938), tal

como se indicó anteriormente, está basado únicamente en la estimación restringida del modelo. Esta prueba también es conocida como la del score eficiente dado que se basa en la distribución asintótica de función del score.

1

0n

S N I( ) ( , ( ))β β≈

Intuitivamente hablando, la pregunta que se hace esta prueba es dado que el score evaluado

en el estimado sin restringir es igual a cero (dado que la condición para hallar el estimador de máxima verosimilitud es igualar el score a cero), si remplazamos el estimado restringido dentro el score ¿éste es igual a cero? Obviamente casi siempre será distinto de cero y lo que se evaluará es si la diferencia del cero es grande o pequeña. En otras palabras lo que queremos analizar es si la diferencia del cero se debe a factores aleatorios o a factores estructurales. Debemos recordar que dado que la muestra es aleatoria, tanto el score como la matriz de información y la función log-verosímil también serán variables aleatorias.

Formalmente hablando y tomando en cuanta el gráfico anterior, el test LM calcularía la

distancia (1/2)LR2 usando P2 como punto de partida. La función de verosimilitud (en este caso L2) es primero evaluada en la restricción β = β0, esto es, el en el punto P2. El segundo paso consistiría en estimar el punto X basándonos en la curvatura de L2 en P2. Se sabe que la

estimación irrestricta !β debería satisfacer la ecuación S L( ! ) logβ ∂∂β= = 0 , donde S

representa la función del score. En el punto β = β0 la función del score, evidentemente, no es

igual a cero y, por tanto, [ ]S( )β02

da una medida de la diferencia entre β0 y !β . Sin embargo,

lo anterior no garantiza que dos funciones de verosimilitud no den el mismo valor para

[ ]S( )β02

, pero siempre una de las dos tendrá un valor de β0 más cercano al máximo. En este

sentido resulta conveniente ponderar [ ]S( )β02

por la curvatura de la función de verosimilitud.

Para un valor dado de L(β0), cuanto mayor sea la curvatura más cercano estará el estimado

restringido a !β . En el gráfico anterior resulta sencillo comprobar esto comparando los puntos

P2 y P3, donde este último corresponde a la función con mayor curvatura (L1) y β0’ está

claramente más cerca a !β . En este sentido, en el test LM ponderamos el cuadrado de la

función del escore evaluada en el estimado restringido por la inversa de la curvatura

[ ]I ( )β01−

para obtener:

[ ] [ ]LM S I= −( ) ( )β β0

20

1

La versión generalizada del estadístico sería de la forma:

Page 125: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

135

[ ] [ ] [ ]LM S I S m= ≈−( ) ( ) ( )

'( )β β β0 0

10

donde m es, nuevamente, el número de restricciones.

Resulta sencillo verificar que si se cumple exactamente la restricción (esto es que β βr = ! )

entonces S r( )β = 0 . Por tanto, la distancia entre S r( )β y cero indica la fuerza del efecto de la

restricción en el valor de máxima verosimilitud.

5.6.5 La relación entre las tres pruebas. La relación entre los tres procedimientos descritos en esta sección depende del grado en

que la segunda derivada sea capaz de proporcionar el valor de la función de verosimilitud en los estimados restringidos y sin restringir. Si se busca contrastar una restricción lineal, tal como la que planteamos en el ejemplo previo, y la función de verosimilitud es cuadrática, entonces la segunda derivada proporciona un estimado perfecto de la forma global de la función. En este caso, los tres estadísticos proporcionarían el mismo valor numérico (W = RV = LM). Sin embargo, cuando la segunda derivada no es conocida la igualdad desaparece y se verifica que W > RV > LM (Berndt y Savin (1977)).

Analicemos ahora un ejemplo adicional que ayude a entender la analogía e intuición detrás

de los tres tests planteados. Consideremos nuevamente la estimación por máxima verosimilitud del parámetro β y el contraste de la hipótesis H0:f(β) = 0.

Considerando el gráfico anterior, si la restricción f(β) = 0 es válida su imposición no debe

ocasionar una reducción considerable en el valor de la función de verosimilitud y, por tanto, el

test de RV se basa en la distancia L L r( ! ) ( )β β− . Por otro lado, si la restricción es válida,

f ( !)β debería ser cercano a cero (ya que el estimador de máxima verosimilitud es consistente),

en este sentido, el test de Wald se basa en f ( !)β evaluando su distancia de cero. Finalmente, si

la restricción es válida el estimador restringido debería ser cercano al valor que maximiza la

Page 126: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

136

función de verosimilitud por lo que el test Lagrange (LM) se basa en evaluar la pendiente de la función (score) en el estimador restringido.

5.6.6 Cómo se realiza la estimación en la práctica. En la primera parte de este capítulo se usó un ejemplo y se habló que una de las formas de

realizar la estimación era a través de un proceso de tanteo. Este procedimiento es el que más se utiliza en la práctica. No siempre es posible obtener un estimador de forma analítica porque la forma de las funciones de probabilidad conforme se utilizan formas funcionales más complejas y distribuciones multivariadas los cálculos analíticos no son de fácil resolución y se requiere de métodos numéricos de aproximación para obtener los estimados de máxima verosimilitud. Estos métodos reciben en general el nombre de algoritmos de optimización. En general, son pasos ordenados a seguir que se repiten hasta lograr satisfacer ciertos criterios.

Uno de los enfoques que más se utiliza es el de la resolución de problemas lineales-

cuadráticos. Se considera a un problema de optimización con estructura lineal cuadrática, cuando la función objetivo es a lo más de grado dos en los parámetros a estimar, las posibles restricciones del problema son todas funciones lineales de los parámetros. La estimación analítica de este tipo de funciones es bastante sencilla. Este caso se presenta en las estimaciones econométricas del modelo lineal general por mínimos cuadrados ordinarios, puesto que al ser el modelo original un tipo de modelo lineal en los parámetros; la función a minimizar: sumatoria de errores al cuadrado, representará una función cuadrática (los parámetros a estimar estarán elevados a lo más al exponente 2). Sin embargo no ocurre algo similar en las estimaciones econométricas por máxima verosimilitud, en las que la función a maximizar: función de verosimilitud, adopta regularmente formas bastante complejas.

En este último tipo de estimación econométrica (aplicando el método de máxima

verosimilitud), la obtención analítica de los parámetros se hace imposible en determinadas funciones, en cambio, no ocurre algo similar en estimaciones por mínimos cuadrados, en ellas, aplicando las condiciones de optimización señaladas posteriormente, se puede llegar fácilmente a los parámetros deseados.

Ante la dificultad que se presenta en la obtención analítica de los parámetros estimados

usando las condiciones de optimización, se hace necesario utilizar una serie de procedimientos numéricos, denominados algoritmos, los cuales serán expuestos a continuación.

Generalmente los problemas de optimización no lineal son resueltos por técnicas iterativas.

Al tener una estimación, una nueva estimación es lograda por una regla dada, esta última constituye un mejoramiento de la inicial. Si este procedimiento tiene éxito, la estimación final satisfará todas las propiedades requeridas de la estimación inicial. Las reglas de estos procedimientos iterativos proveen las bases de la optimización no lineal particular.

Existe un rango amplio de algoritmos posibles. Ellos difieren en el empleo de las derivadas

parciales de la función; así, algunos requieren segundas derivadas, otros únicamente primeras derivadas, y otros más no las emplean. Los algoritmos basados en las primeras derivadas ofrecen la opción de calcular numéricamente los parámetros.

La elección de un determinado algoritmo se encuentra directamente relacionado con el tipo

de función a maximizar o minimizar. Estos métodos son muy eficientes y evitan muchas de las dificultades presentes en la estimación no lineal, evidentemente esto no implica que todos los problemas de optimización no lineal queden resueltos. Algunas de las rutinas están sujetas a

Page 127: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

137

problemas de ejecución quedando los resultados expuestos a malas interpretaciones, se hace necesario tener mucho cuidado en el manejo de dichos resultados.

Existen varios tipos de algoritmos de optimización que están en función del problema a

resolver y de la complejidad de la función a optimizar. Entre los más utilizados están los de descenso rápido (steepest descent), Newton-Raphson y el algoritmo del scoring. En verdad existen muchas variedades de los mismos que están diseñados para resolver problemas de la presencia de varios máximos o mínimos y otros problemas que pueden aparecer en la práctica. Para ilustrar la lógica de estos algoritmos utilizaremos el algoritmo del scoring. Este se define según la siguiente fórmula:

( )[ ] ( )11

11ˆˆˆˆ −

−−− += nnnn SI θθθθ

Según esta expresión vemos que el vector de parámetros a estimar (denotado por θ en la

fórmula) es actualizado por una expresión que depende de la matriz de información y del score de la función log-verosímil. Expliquemos en detalle la lógica que está detrás de esta expresión.

1. En primer lugar debemos partir de un valor inicial del valor del parámetro. Este puede ser proveído por el usuario o por otro método de estimación. En modelos sencillos se puede empezar con valores calculados por ejemplo por el método de mínimos cuadrados ordinarios.

2. Una vez que se tiene estos valores se calcula el valor del vector de score y la matriz de información. Como sabemos el score debe ser cero en el estimador de máxima verosimilitud. Partiendo de un valor inicial arbitrario es muy difícil que el score sea cero. Sin embargo, pensemos en la información que nos brinda el score. Si su valor es positivo quiere decir que estamos a la izquierda del valor máximo y por tanto debemos avanzar hacia la derecha de la función. El valor positivo del score precisamente nos indica en cuánto debemos avanzar hacia la derecha. Ahora bien, esta información es aún incompleta para ver cómo el salto a la derecha en el valor del parámetro se transforma en un aumento del valor de la función log-verosímil. Este pedazo de información faltante nos es brindada, en el caso de este algoritmo de optimización, por la matriz de información que es una medida de la curvatura de la función log-verosímil. Así vemos que de la multiplicación de estas magnitudes nos indican el grado de corrección que debe hacerse sobre el estimado inicial.

3. Una vez que se obtiene el nuevo valor se vuelve a realizar la operación anterior. Si el score sigue siendo distinto de cero se procederá a realizar una nueva corrección del estimado. A cada repetición del proceso se le denomina una iteración. El algoritmo seguirá operando tantas veces como sea necesario.

4. Como se mencionó en el paso 3, el algoritmo se repite tantas veces como sea necesario. Para decidir si se sigue realizando las iteraciones se compara el estimado obtenido en cada iteración con el obtenido en la iteración inmediata anterior. La decisión de continuar está relacionada a lo que se denomina criterio de convergencia. Este es proveído por el usuario, aunque la mayoría de programas utiliza el valor de 0.001 para decidir si el proceso se detiene o no. Esto quiere decir que si la diferencia de cada uno de los estimados con el obtenido en la anterior iteración es mayor a este valor, el proceso continúa. Si es menor, el proceso se detiene y el último estimado es el que se reporta como el estimado de máxima verosimilitud. Obviamente podría hacerse más pequeño el criterio de convergencia pero ello implicaría un costo en tiempo dado que sería necesario realizar más iteraciones. Como se puede ver, este método es una buena aproximación para obtener el máximo de una función.

Page 128: Casas Econometria Moderna(2)[1]

Econometría Moderna Máxima Verosimilitud

138

Los diferentes algoritmos difieren en la expresión que utilizan para multiplicar al score. Este nos indica la dirección hacia la cual debe moverse el valor del estimado. La ponderación que se le dé a ese cambio vendrá dado por el la magnitud por la que se multiplique. En el caso del algoritmo descrito lo que se utiliza es la matriz de información que nos da una medida de la curvatura de la función log-verosímil. La elección de otras magnitudes estará supeditada a criterios como la velocidad de convergencia y la forma y dificultad de la función a maximizar.

Un gráfico nos puede ayudar a entender los pasos a seguir. En él se está representando la

función log-verosímil. El eje horizontal contiene los valores posibles del parámetro. Por simplicidad estamos suponiendo que sólo estimamos un parámetro. El eje vertical mide los valores de la función log-verosímil.

En el gráfico se puede apreciar que iniciamos el proceso con un valor inicial 0θ y se calcula el

score que estaría representado por la línea tangente a la función log-verosímil. Si el score es mayor a cero como nos indica la pendiente de la línea tangente ello implica que debemos movernos hacia la derecha tal como nos señala la línea a la derecha de 0θ . El proceso se repite

hasta que se llegue al valor del parámetro que maximice la función log-verosímil, maxθ .

5.6.7 A manera de conclusión.

En este capítulo hemos revisado el planteamiento, estimación y propiedades del estimador

de máxima verosimilitud. Entre los principales resultados encontrados podemos mencionar que este estimador parte del supuesto que la población se distribuye según una función de probabilidad específica y lo que se busca es, dada una muestra de datos, escoger el valor de los parámetros que haga que la probabilidad de ocurrencia de la muestra sea la máxima posible. De esta manera lo que se busca es que el supuesto inicial sea lo más creíble o verosímil posible. La literatura acerca de este estimador es extensa y de hecho podría elaborarse todo un texto acerca de las aplicaciones y propiedades del mismo. Sin embargo, ello escapa de los alcances de un libro de texto de pregrado como el actual. No obstante lo anterior, tener una idea general de las propiedades y principios detrás de este estimador es importante debido al uso cada vez más generalizado del mismo. La velocidad con la que se va avanzando en la rapidez de las computadoras han hecho mucho más factible realizar la estimación por este método además que muchos nuevos estimadores están basados en este principio.

Page 129: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 66 QQUUIIEEBBRREE EESSTTRRUUCCTTUURRAALL

66..11.. DDEEFFIINNIICCIIÓÓNN DDEELL PPRROOBBLLEEMMAA

El procedimiento normal al estimar una regresión bajo los supuestos del modelo lineal general (MLG), conduce a la obtención de coeficientes que representan estimados de los parámetros poblacionales de la regresión. Al estimar una ecuación de regresión múltiple y utilizarla para predecir observaciones futuras que no pertenecen al espacio muestral que dio origen al coeficiente estimado, se supone que los parámetros1 son constantes durante todo el periodo de estimación y de predicción2. Por lo general se supone que las distintas realizaciones o submuestras que conforman el espacio muestral total, son generadas por una misma estructura económica. Sin embargo, cuando se tiene sospecha o evidencia de la existencia de una variación estructural del sistema económico subyacente en algún momento del periodo muestral, se aplican las pruebas de cambio (o quiebre) estructural. De este modo, se verifica si dicha variación es lo suficientemente importante como para generar cambios en los coeficientes del modelo.

Tomando en cuenta lo anterior, se puede definir como cambio estructural a la variación atípica del conjunto de observaciones, generada por una innovación o alteración en la estructura económica básica sobre la cual se sustenta la serie. Como se entiende, el concepto de cambio estructural está íntimamente ligado a la noción de estabilidad de parámetros ya que si se produce un quiebre, los parámetros no serán constantes para todo el periodo muestral. En términos más prácticos, el cambio estructural se genera en aquel período donde se detecta un quiebre pronunciado dentro de la evolución de la serie.

1 Nótese que son los parámetros los que se asumen como constantes bajo el supuesto de estabilidad y que los estimadores de dichos parámetros, sometidos a las pruebas de estabilidad deberán comportarse siguiendo este patrón. 2 Se supone estabilidad intertemporal de parámetros (parámetros constantes dentro del período de estimación y dentro del de predicción).

Page 130: Casas Econometria Moderna(2)[1]

Econometría Moderna

Como se verá en las siguientes líneas, el cambio puede darse ser en el intercepto, en una o varias de las pendientes del modelo o en ambos y la solución para cada caso será particular (para ello definiremos las llamadas variables dicotómicas, binarias o dummies en intercepto o en pendiente). Las pruebas de detección, por otro lado, sí son aplicables de manera general puesto que para evaluar la existencia de inestabilidad de parámetros, en cualquiera de los tres casos, basta que exista una distorsión relevante (ya sea en intercepto, pendiente o en ambas) en la evolución del sistema, mercado o economía que se materializa en cambios en el modelo estimado. Todo ello implicaría que la hipótesis de inexistencia de quiebre se rechace.

Tomando en cuenta los conceptos antes mencionados, resulta claro que la intuición del quiebre estructural tiene más sentido en series de tiempo que en modelos de corte transversal. Es más coherente imaginar que la serie de observaciones de la variable que introduce el quiebre lo experimenta a partir de una fecha a consecuencia del cambio estructural, que imaginar que entre distintas observaciones de un conjunto de datos de corte transversal se produzca una variación fuerte como consecuencia de un fenómeno semejante (cambio estructural). En todo caso, resulta prudente no descartar la posibilidad de evaluar la presencia de un cambio estructural en un modelo que contiene datos de corte transversal, ya que de hecho los resultados de estos modelos pueden indicar inestabilidad de parámetros. De hecho si uno agrupa las observaciones de corte transversal en orden ascendente o descendente tomando en cuenta una variable explicativa y encuentra que existe un quiebre estructural en un parámetro podría estar identificando la presencia de un valor de la variable independiente que altera la relación de comportamiento con la variable dependiente. Esto podría considerarse como un umbral a partir del cual la relación cambia.

En el caso de los modelos de series de tiempo, existe un patrón predeterminado de ordenamiento: la sucesión temporal, no interesa si los valores de las variables explicativas aumenten o disminuyan, por el contrario, la existencia de ciclos enriquecerá el modelo puesto que si a pesar de ellos el coeficiente de determinación es alto, la regresión será representativa. Sin embargo, en los modelos de corte transversal, el criterio de ordenamiento de las observaciones depende del investigador y ese ordenamiento de hecho influye en los resultados de los tests de cambio estructural puesto que el “momento” (en este caso, la “observación”) en que se produce, y en última instancia, la presencia de quiebre dependerá del criterio de orden que se empleó. Es por esto que el presente capítulo se centrará únicamente en analizar el concepto de quiebre estructural desde la perspectiva de la modelación de series de tiempo. Tal como se indicó líneas arriba, existen dos tipos de quiebre estructural bien definidos y un tercero que nace de la combinación de los dos primeros. Específicamente:

i) Quiebre en Intercepto: En este caso, los efectos sistemáticos que afectan a la variable dependiente y que el modelo no recoge, han sufrido un cambio (quiebre estructural) haciendo que el intercepto varíe. Esto implica que ha habido un cambio en el nivel autónomo manteniendo los efectos marginales (medidos por las pendientes).

ii) Quiebre en Pendiente: A diferencia del caso anterior, las consecuencias del cambio estructural que no son recogidos por el modelo afectan a los efectos marginales (coeficientes de regresión). Es decir, los regresores afectarán en mayor o menor proporción (dependiendo si los coeficientes de regresión aumenten o disminuyan respectivamente) a la variable explicada a partir de la fecha de quiebre. Por ejemplo, en el caso de un modelo bivariado, la submuestra anterior al período de quiebre dará origen a una recta de regresión estimada con

Page 131: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

una pendiente distinta a la generada con las observaciones de la submuestra posterior a la fecha de quiebre.

iii) Quiebre en Intercepto y en Pendiente: Si el cambio estructural conduce a observaciones que generan una recta de regresión estimada con distinta pendiente e intercepto a partir del período de quiebre. Es una combinación de los dos casos anteriores.

Tal como se puede notar, el rechazo de la hipótesis planteada de estabilidad de parámetros no sólo depende de la existencia de quiebre. También se puede rechazar tal hipótesis cuando el modelo no está bien especificado y tal deficiencia conduce a que los efectos sistemáticos que no son recogidos por el modelo afecten al intercepto o a las pendientes cuando se consideran diferentes submuestras.

(a) Quiebre en Intercepto (b) Quiebre en Pendiente

(c) Quiebre en Intercepto y Pendiente

Figura 6.1

Los ejemplos clásicos que se emplean para explicar el proceso de quiebre estructural con modelos que incluyen series económicas son las etapas de transición entre épocas de guerra y de paz, de auge y depresión, de desastres naturales, de procesos hiperinflacionarios, y otros fenómenos que afecten significativamente a las variables empleadas en el modelo de regresión que se evalúa.

Page 132: Casas Econometria Moderna(2)[1]

Econometría Moderna

EEJJEEMMPPLLOO 66..11

Como caso ilustrativo se plantea un modelo bivariado en el cual se analiza en qué proporción el PBI peruano es explicado por las exportaciones. La presencia de quiebre estructural en intercepto y en pendiente es notoria. Observe el gráfico de la izquierda en la Figura 6.1. La recta de regresión estimada no recoge los efectos sistemáticos que afectan al PBI en 1987 y que implican una cambio en los regresores que afectan a las variables que explican al producto. Al realizar la prueba de estabilidad, se detecta la existencia de parámetros inestables. Tras correr la regresión para la submuestra anterior y posterior al quiebre, se obtienen estimados discrepantes y que reflejan el problema de cambio estructural. El rechazo de la hipótesis de estabilidad puede deberse ya sea a que la especificación del modelo no es lo suficientemente rica como para capturar la distorsión (y de hecho casi ocurre, puesto que para explicar al PBI por el método del gasto es prudente incorporar otras variables explicativas como el consumo, gasto fiscal, etc.), o ya sea que en 1987 la coyuntura económica del país haya experimentado fuertes fluctuaciones y cambios estructurales que se reflejan en la inestabilidad de los coeficientes del modelo. Así pues, el periodo de inestabilidad económica y pésima administración pública que experimentó el Perú durante la gestión de Alan García representa el escenario en el que ocurre este cambio estructural. La crisis del gobierno de Alan García a partir de 1987, en donde los niveles de inflación y recesión de la producción, así como el empeoramiento de la distribución funcional del ingreso, han registrado cifras nunca antes vistas en la historia económica peruana, explican el cambio estructural detectado en este ejemplo. Las estrategias usuales de modelos con crecimiento “hacia afuera” vía promoción de exportaciones, en particular manufactureras, y el alejamiento de modelos con crecimiento “hacia adentro” vía un proceso de sustitución de importaciones que expande la sustitución hacia industrias productoras de bienes intermedios y de capitales puede ser una justificación a la mayor importancia que empiezan a tomar las exportaciones como determinantes del producto. La instauración de organismos como PROMPEX es un claro indicador del interés del Gobierno por impulsar el desarrollo del sector exportador. Esto explica el porqué la pendiente de la segunda regresión es más empinada, es decir el coeficiente que acompaña a esta explicativa incrementa el efecto marginal que ésta tiene sobre la dependiente.

0

20000

40000

60000

0 1000 2000 3000 4000 5000

PB

I

X

0

20000

40000

60000

0 1000 2000 3000 4000 5000

PB

I

X

0

20000

40000

60000

0 1000 2000 3000 4000 5000

PB

I

X

1896-1995 1896-1987 1988-1995

Figura 6.2

Page 133: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

LS // Dependent Variable is PBI Sample: 1896 1995 Included observations: 100

Variable Coefficient Std. Error t-Statistic Prob.

C -3535.998 1013.423 -3.489164 0.0007 X 7.563716 0.509200 14.85412 0.0000

R-squared 0.692448 Mean dependent var 7417.541 Adjusted R-squared 0.689309 S.D. dependent var 12471.67 S.E. of regression 6951.661 Akaike info criterion 17.71327 Sum squared resid 4.74E+09 Schwarz criterion 17.76537 Log likelihood -1025.557 F-statistic 220.6449 Durbin-Watson stat 0.155067 Prob(F-statistic) 0.000000

LS // Dependent Variable is PBI Sample: 1896 1987 Included observations: 92

Variable Coefficient Std. Error t-Statistic Prob.

C -2015.186 509.7807 -3.953045 0.0002 X 5.184631 0.288336 17.98120 0.0000

R-squared 0.782253 Mean dependent var 4492.371 Adjusted R-squared 0.779834 S.D. dependent var 7339.086 S.E. of regression 3443.638 Akaike info criterion 16.31007 Sum squared resid 1.07E+09 Schwarz criterion 16.36489 Log likelihood -878.8054 F-statistic 323.3237 Durbin-Watson stat 0.388793 Prob(F-statistic) 0.000000

LS // Dependent Variable is PBI Sample: 1988 1995 Included observations: 8

Variable Coefficient Std. Error t-Statistic Prob.

C -43990.55 20725.24 -2.122559 0.0780 X 23.18801 5.627127 4.120756 0.0062

R-squared 0.738911 Mean dependent var 41057.00 Adjusted R-squared 0.695396 S.D. dependent var 9688.967 S.E. of regression 5347.436 Akaike info criterion 17.38106 Sum squared resid 1.72E+08 Schwarz criterion 17.40092 Log likelihood -78.87576 F-statistic 16.98063

Durbin-Watson stat 2.021519 Prob(F-statistic) 0.006211

Page 134: Casas Econometria Moderna(2)[1]

Econometría Moderna

EEJJEEMMPPLLOO 66..22

Otro ejemplo ilustrativo es el que a continuación se explica. Analice la evolución de la variación mensual del índice de precios al consumidor para el Perú entre 1979 y 2000.

Inflación en el Perú1979-2000

-20%

0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

Figura 6.3

Como se puede observar en el gráfico, la inflación en el Perú experimentó durante las dos últimas décadas de los noventas 3 etapas notoriamente demarcadas. La primera de ellas, entre 1979 y 1988, muestra un período relativamente estable con una inflación mensual promedio de 5.41 por ciento. Entre 1988 y 1990, con el gobierno de Alan García, se inicia un período de crisis, que en nuestros términos representa un fuerte shock exógeno. Al respecto, el financiamiento del déficit fiscal y los créditos a las empresas públicas y el Banco Agrario fueron las causas más importantes del crecimiento desmesurado de la base monetaria, lo que significó una inflación mensual promedio de 29.48.

A partir de los noventas, la situación estabilizarse y se llega a recobrar la disciplina monetaria perdida durante los años precedentes, y que en su momento llevó a cometer vicios de intervención estatal en la actividad económica. A partir de 1992, el Banco Central de Reserva cuenta con su propia ley orgánica que le permite resguardar su autonomía, y de esta manera, evita los excesos que el gobierno pueda cometer con la política fiscal.

El presente modelo se construye a partir de inflación mensual (inf), la cual se pretende explicar mediante el cambio mensual de M1 (cm1). La figura 6.4 muestra cómo durante los 3 períodos

demarcados, la recta de regresión cambia de pendiente.

Page 135: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

Ene 1979 - Mar 1988 Abr 1988 - Oct 1990 Nov 1990 - Dic 2000

0.00

0.05

0.10

0.15

0.20

0.25

-0.1 0.0 0.1 0.2 0.3

CM1

INF

0.0

0.5

1.0

1.5

2.0

0.0 0.2 0.4 0.6 0.8 1.0

CM1

INF

-0.05

0.00

0.05

0.10

0.15

0.20

0.25

-0.2 -0.1 0.0 0.1 0.2 0.3

CM1

INF

Figura 6.4

Dependent Variable: INF Method: Least Squares Sample(adjusted): 1979:02 1988:03 Included observations: 110 after adjusting endpoints

Variable Coefficient Std. Error t-Statistic Prob.

C 0.054921 0.003693 14.87256 0.0000 CM1 0.027756 0.044191 0.628103 0.5313

R-squared 0.003640 Mean dependent var 0.056545 Adjusted R-squared -0.005586 S.D. dependent var 0.027567 S.E. of regresión 0.027644 Akaike info criterion -4.320778 Sum squared resid 0.082535 Schwarz criterion -4.271678 Log likelihood 239.6428 F-statistic 0.394513 Durbin-Watson stat 0.697555 Prob(F-statistic) 0.531262

Dependent Variable: INF Method: Least Squares Sample: 1988:04 1990:10 Included observations: 31

Variable Coefficient Std. Error t-Statistic Prob.

C 8.81E-05 0.081107 0.001086 0.9991 CM1 1.218745 0.269230 4.526778 0.0001

R-squared 0.414043 Mean dependent var 0.319522 Adjusted R-squared 0.393838 S.D. dependent var 0.285946 S.E. of regression 0.222627 Akaike info criterion -0.104293 Sum squared resid 1.437326 Schwarz criterion -0.011778 Log likelihood 3.616546 F-statistic 20.49172 Durbin-Watson stat 2.391484 Prob(F-statistic) 0.000094

Page 136: Casas Econometria Moderna(2)[1]

Econometría Moderna

Ahora que ya se tiene una idea general de la naturaleza y origen del problema del cambio estructural, se pasarán a tratar los métodos de detección de esta anomalía.

66..22.. CCÓÓMMOO DDEETTEECCTTAARR UUNN CCAAMMBBIIOO EESSTTRRUUCCTTUURRAALL

6.2.1 Test de Chow3

Una de las aplicaciones más comunes del test F es la evaluación de la existencia de cambio estructural. El test de Chow o prueba de estabilidad mediante el análisis de varianza, compara las sumas de errores al cuadrado (o suma de cuadrados residual) de modelos restrictos e irrestrictos para analizar la existencia de cambio estructural.

Suponga que se evalúa la estabilidad de un modelo multivariado de k+1 regresores:

kk xxxY βββα ++++= ...2211

3 Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol. 28, no. 3, pp 591 - 605. Esta prueba, si bien es conocida como test de Chow, fue discutida ocho años antes por C.R.Rao en “Advanced Statistical Methods in Biometric Research”, Nueva York: Wiley, 1952 y por Kullback y H.M.Rosenblatt en “On the Analysis of Multiple Regression in k Categories”, Biometrika, 1957, pp. 67-83.

Dependent Variable: INF Method: Least Squares Date: 08/28/01 Time: 15:08 Sample(adjusted): 1990:11 2000:11 Included observations: 121 after adjusting endpoints

Variable Coefficient Std. Error t-Statistic Prob.

C 0.016192 0.002910 5.564291 0.0000 CM1 0.165640 0.048541 3.412385 0.0009

R-squared 0.089130 Mean dependent var 0.020413 Adjusted R-squared 0.081476 S.D. dependent var 0.030232 S.E. of regression 0.028974 Akaike info criterion -4.228425 Sum squared resid 0.099902 Schwarz criterion -4.182213 Log likelihood 257.8197 F-statistic 11.64437 Durbin-Watson stat 0.608440 Prob(F-statistic) 0.000881

Tal como se observa en el primer cuadro de regresión, los resultados indican que la recta de regresión estimada no explica con un grado de ajuste alto a la variable dependiente. Si se divide el espacio muestral en dos subconjuntos diferenciados por el momento de quiebre, se logra entender porqué la estimación global (empleando todos los elementos de la muestra) no era robusta. Para cada subespacio muestral, los coeficientes de regresión cambian drásticamente. Tras realizar sendas regresiones, el coeficiente de determinación se ve incrementado notablemente comparado con el caso de la regresión global. Todas estas precisiones dan un claro indicio de la existencia de inestabilidad de parámetros o de cambio estructural.

Page 137: Casas Econometria Moderna(2)[1]

• El primer paso para realizar el test consiste en tomar dos subconjuntos independientes del total de la muestra y correr una regresión con las mismas variables explicativas del modelo original. Cada subconjunto consta de n1 y n2 observaciones respectivamente. Así se obtiene:

Yt = α1 + β11x1t + β12x2t + ... + β1kxkt + µ t = 1,2,…,n1

Yt = α2 + β21x1t + β22x2t + ... + β2kxkt + µ t = n1+1, … , N

En forma matricial:

+

=

2

1

2

1

2

1

2

1

µµ

ββ

X

X

y

y

• El segundo paso es construir la hipótesis sobre la cual se realizará la prueba estadística. Como es obvio, lo que se hará es analizar el comportamiento de los coeficientes de regresión de ambos modelos, y la hipótesis planteada implica la igualdad de dichos coeficientes para asegurar la estabilidad de los parámetros de regresión y por ende la ausencia de quiebre. Formalmente:

H0 :

=

kk 2

22

21

2

1

12

11

1

β

ββα

β

ββα

MM

H1 :

kk 2

22

21

2

1

12

11

1

β

ββα

β

ββα

MM

Matricialmente:

Rβ = q donde R = [I: -I] y q = 0

Es importante resaltar que la igualdad de coeficientes debe cumplirse para todos ellos a la vez, si al menos uno de ellos fuese diferente, entonces se aceptará la hipótesis alternativa.

• Como tercer paso se construye el estadístico F tomando en cuenta la suma de cuadrados residual de cada uno de los dos subconjuntos y la suma de cuadrados residual de la combinación de ambos:

F =

)2(

)(

21

2

22

knne

kee

u

ur

−+

∑ ∑ ∼ ( )knnkF 2, 21 −+ (6.1)

donde :

∑ 2ue = ∑ 2

1e + ∑ 22e

Page 138: Casas Econometria Moderna(2)[1]

Econometría Moderna

EEJJEEMMPPLLOO 66..33

El procedimiento para evaluar el test consiste en examinar el valor del estadístico F que arroja el programa y contrastarlo con el de tabla. Si el valor es menor al de tabla, se acepta la hipótesis de estabilidad de los coeficientes, caso contrario se acepta la existencia de quiebre estructural. Sin embargo, al momento de realizar este test, es necesario introducir como insumo la fecha en que se presume se produce el quiebre. Esto es una desventaja puesto que si el número de observaciones es alto, la fecha de quiebre puede pertenecer a un subconjunto bastante amplio de esta muestra y realizar el test para cada período resultaría engorroso. Se sabe, sin embargo, que el quiebre se producirá en el período en el que el F tome el valor más alto.

Este programa genera series (Y y X1) de 500 observaciones. El modelo autogenerado contiene una variable dependiente definida como Y = 0.5 + 0.3X1. Asimismo, se crea una serie y1 que contiene un cambio estructural en intercepto y en pendiente y sobre la cual se evaluará el quiebre estructural, tenga en cuenta el cambio radical en el intercepto introducido a partir del periodo 281 (el intercepto pasa de 0.5 a 20) y en la pendiente (de 0.3 a 0.7). Note que el programa subdivide la muestra total en dos submuestras e introduce la distorsión en el segundo intervalo (280 - 500), por lo tanto, el quiebre se producirá en el periodo 280. La ecuación EQ contiene al modelo libre de quiebre, por lo tanto el estimado obtenido tras ejecutar dicha regresión será el que se espera obtener tras eliminar el quiebre de la variable exógena. La ecuación EQD contiene el modelo que ha subsanado el quiebre pues introduce las dummies en intercepto y en pendiente. Si analiza esta regresión y compara los resultados con los obtenidos para el modelo “normal” (sin quiebre), notará que los valores son semejantes:

Modelo Real LS // Dependent Variable is Y Sample: 1 500 Included observations: 500 Variable Coefficient Std. Error t-Statistic Prob. C 0.500000 7.65E-17 6.54E+15 0.0000 X1 0.300000 7.65E-18 3.92E+16 0.0000 R-squared 1.000000 Mean dependent var 0.560643 Adjusted R-squared 1.000000 S.D. dependent var 3.001924 S.E. of regression 1.71E-15 Sum squared resid 1.46E-27 F-statistic 1.54E+33 Durbin-Watson stat 1.831856 Prob(F-statistic) 0.000000

Page 139: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

Modelo con Quiebre LS // Dependent Variable is Y1 Sample: 1 500 Included observations: 500 Variable Coefficient Std. Error t-Statistic Prob. C 8.984574 0.541397 16.59518 0.0000 X1 0.892797 0.054148 16.48806 0.0000 R-squared 0.353126 Mean dependent var 9.165048 Adjusted R-squared 0.351827 S.D. dependent var 15.03372 S.E. of regression 12.10352 Akaike info criterion 4.990985 Sum squared resid 72954.66 Schwarz criterion 5.007844 Log likelihood -1955.216 F-statistic 271.8560 Durbin-Watson stat 0.672825 Prob(F-statistic) 0.000000

Modelo con Dummies LS // Dependent Variable is Y1 Sample: 1 500 Included observations: 500 Variable Coefficient Std. Error t-Statistic Prob. C 0.499156 0.063505 7.860112 0.0000 X1 0.292692 0.006328 46.25504 0.0000 D1*X1 1.412031 0.009560 147.7077 0.0000 D2 19.48763 0.095484 204.0929 0.0000 R-squared 0.995058 Mean dependent var 9.165048 Adjusted R-squared 0.995028 S.D. dependent var 15.03372 S.E. of regression 1.060017 Akaike info criterion 0.124538 Sum squared resid 557.3237 Schwarz criterion 0.158255 Log likelihood -736.6038 F-statistic 33291.60 Durbin-Watson stat 2.075011 Prob(F-statistic) 0.000000

Observe cómo en el modelo con variables dummies, tanto el intercepto como la pendiente se acercan a los valores reales de los parámetros. En las últimas secciones del capítulo se describe detalladamente el álgebra matricial de este procedimiento.

Si se deseara evaluar la presencia de quiebre para otras series, lo único que se debe hacer es modificar el programa en los comandos que hacen referencia a series autogeneradas, por ejemplo en lugar de trabajar con la series Y y X1 se abre el archivo de trabajo que contiene la información y se cargan las series a la ventana de programación. Así mismo, se deberá arreglar el tamaño de muestra que fue predeterminado en 500 observaciones para el ejemplo. Note que la separación en submuestras para generar el quiebre ya no será útil en este caso para generarlo, pero sí para curarlo. En este sentido, una vez ejecutado el programa y conocida la fecha de quiebre, se sabe a partir de qué periodo hacer que las dummies funcionen.

Page 140: Casas Econometria Moderna(2)[1]

Econometría Moderna

∑ 2re = suma de cuadrados residual para todo el conjunto de datos (modelo restringido) . Esto

se conoce como suma de cuadrados residual restringida y a través de ella se impone la restricción de igualdad de parámetros.

∑ 21e = suma de cuadrados residual para el primer subconjunto de datos.

∑ 22e = suma de cuadrados residual para el segundo subconjunto de datos.

• En seguida se realiza el test y se compara el F estadístico hallado en el paso anterior con el F tabular con k y (n1 +n2 -2k) grados de libertad. Si el estadístico resulta ser menor al tabular entonces se acepta la hipótesis de estabilidad, caso contrario la consolidación de datos no tiene sentido, es decir, agrupar los subconjuntos para correr una regresión conjunta sería inútil puesto que los coeficientes difieren para cada submuestra.

En muchos casos, esta evaluación se realiza para comprobar si al ampliar el tamaño de muestra, las nuevas observaciones suponen un cambio significativo con respecto al resto de la muestra. En estos casos, el tamaño del segundo subconjunto (n2) puede ser muy pequeño y ello haría imposible estimar el segundo de los modelos por falta de grados de libertad (n2-k) sería negativo puesto que n2

es muy pequeño). En el caso extremo en que n2 = k, ∑ 22e = 0 y por lo tanto, el estadístico quedaría

de la forma:

F =

)(

)(

1

21

21

2

kne

keer

∑ ∑ (6.2)

Esta expresión es válida para el caso en el que n2 < k como se verá en el test predictivo.

6.2.2 Test Predictivo para estabilidad4

Esta prueba es útil cuando el tamaño de muestra del segundo subconjunto es menor al número de regresores más uno (si k no incluye el intercepto), ya que bajo estas condiciones no es posible realizar la regresión del segundo modelo (con n2 observaciones) y consecuentemente no se puede obtener la suma de cuadrados residuales necesaria para realizar el test de la sección anterior. Como su nombre lo indica, la prueba inicia con la regresión del primer subconjunto de observaciones (de n1 elementos) para luego realizar, y sobre la base de estos resultados, predicciones para las n2 observaciones del segundo subconjunto.

Una vez realizada la predicción, se prueba la hipótesis de que los errores de predicción tienen media cero en cuyo caso se rechazaría la presencia de un quiebre estructural. Dado que se espera que los errores de predicción tendrán un valor esperado nulo, se entiende que los valores predichos para el segundo subgrupo se aproximarán en promedio a los reales, en cuyo caso, los estimadores

4 Gregory C. Chow 1960. “Test of Equality between Sets of Coefficients in Two Linear Regressions” Econometrica. Vol. 28, no. 3, pp 591 - 605.

Page 141: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

empleados para aproximar a la variable dependientes serán válidos y estables durante todo el periodo cubierto por la muestra total. En este sentido, el estadístico a evaluar será el siguiente:

F =

( )( )

( )

e en

en k

r2

12

2

12

1

∑∑

∑ ∼ ( )F

n n k2 1, − (6.3)

Como se observa, el estadístico se construye con n2 y n1-k grados de libertad puesto que el numerador está incluyendo de manera indirecta la suma de cuadrados residual del modelo predicho. Así mismo, y dado que el denominador sólo incluye a la primera submuestra, los grados de libertad se reducen al tamaño de la primera submuestra menos el número de parámetros del modelo.

En este caso, es posible revertir el orden de las submuestras, es decir, es lícito intercambiar el primer y segundo período para ver si la estabilidad de parámetros se mantiene con la predicción de las observaciones de los elementos del primer subconjunto y no del segundo.

Sin embargo, bajo condiciones normales, si el número de elementos de la segunda submuestra es mayor al número de regresores (incluyendo al intercepto), es decir, si se cuenta con suficientes grados de libertad, es preferible el análisis de varianza pues resulta una prueba más potente para descartar la existencia de quiebre estructural.

Tal como se vio anteriormente, el Test de Chow realiza un análisis basado en la descomposición del espacio muestral en dos realizaciones o submuestras. Un supuesto esencial en la ejecución de este test es que la varianza para cada subconjunto es idéntica puesto que de no ser así, se violaría uno de los supuestos del MLG ya que se aceptaría la existencia de heterocedasticidad. Puesto que se evalúan dos subconjuntos independientes y diferentes que conforman el espacio muestral total, el supuesto de homocedasticidad implica que las regresiones de dichos subconjuntos tiene un término de error que se distribuye con una varianza idéntica para cada submuestra.

Figura 6.4

Page 142: Casas Econometria Moderna(2)[1]

Econometría Moderna

Según estudios realizados por Schmidt y Sickles5 (1977), Ohtani y Toyoda (1985) y Toyoda y Ohtani (1986), bajo estas circunstancias se podría sobrestimar el nivel de significancia de las pruebas estadísticas tratadas en los dos puntos anteriores. Esto implica aceptar un t estadístico como mayor que un t tabular cuando en realidad es menor . Esto se entiende claramente recurriendo a la gráfica de una distribución de probabilidades con zonas limitadas por los niveles de confianza.

Una vez que se haya constatado que las varianzas difieren considerablemente para cada una de las submuestras (de un modo semejante al sugerido en el test de Goldfeld y Quandt) y teniendo en cuenta que el test de Wald es aplicable sólo para muestras grandes, se realiza la prueba de estabilidad de los parámetros.

Suponga que θ1 y θ2 son dos estimadores distribuidos normalmente basados en muestras independientes (esto se asemeja a los pasos iniciales que se siguen en la ejecución del test de Chow) y con matrices de covarianzas V1 y V2. Bajo la hipótesis nula de que los dos estimadores tienen el mismo valor esperado (igual al parámetro, lo cual implica la estabilidad del mismo para las dos muestras), se concluye que:

(θ1 − θ2) ∼ N (0, V1 + V2)

En seguida se construye el estadístico de Wald con el cual se realizará la prueba:

W = (θ1 − θ2) ‘(V1 + V2)-1(θ1 − θ2) ∼ χ 2 con k +1 grados de libertad (6.4)

Es de utilidad la aplicación de este estadístico puesto que considera restricciones y varianzas estimadas. En este caso, la restricción que se impone es la igualdad de los coeficientes en ambas regresiones. Como se sabe, el test de Wald evalúa las restricciones, si éstas se cumplen, las estimaciones hechas por las ecuaciones de regresión restringidas e irrestrictas no deberían discrepar en gran magnitud, es decir, en el caso de estabilidad, los coeficientes deberían ser estables y por lo tanto se rechazaría la presencia de quiebre estructural.

Si el valor del estadístico es muy elevado, se rechazará la hipótesis nula de estabilidad.

Esta evaluación es válida sólo para muestras grandes puesto que el estadístico de Wald requiere como dato previo la matriz de covarianza para las perturbaciones de las regresiones ejecutadas para cada submuestra, es decir, demanda como insumo a V1 + V2. Dado que en la práctica sólo se cuenta con los estimadores de tales parámetros resulta conveniente trabajar con muestras grandes ya que en estos casos los resultados no se distorsionan significativamente si se emplean los estimadores en lugar de V1 + V2.

Para muestras pequeñas y moderadas, el test de Wald presenta alta probabilidad de arrojar resultados con error tipo I, es decir, el frecuente rechazo de la hipótesis planteada de estabilidad cuando en realidad ésta es verdadera. Una forma de evitar el error es emplear valores críticos mayores a los normales (recordemos que para rechazar la hipótesis nula el valor estadístico debe ser mayor al valor tabular de modo que si el valor tabular o crítico aumenta, la probabilidad de rechazar la hipótesis planteada se reduce).

5 P. Schmidt y R. Sickles 1977. “Some further evidence on the use of the Chow test under heteroskedasticity”, Econometrica, Vol. 45, No.5, pp. 1293 - 1298.

Page 143: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

6.2.3 Test alternativos de residuos recursivos para evaluar la estabilidad

Los tests que se presentan a continuación están basados en el empleo de residuos recursivos y fueron propuestos por Brown, Durbin y Evans(1975). La estructura de estas pruebas sigue una lógica similar al test predictivo para estabilidad pero no llegan a ser tan potentes como el test de Chow original. Sin embargo, tienen la ventaja de no requerir la fecha en que se produce el quiebre como insumo necesario para evaluar las hipótesis.

EEJJEEMMPPLLOO 66..55

Al hacer el análisis de las perturbaciones, se detecta heterocedasticidad:

White Heteroskedasticity Test: F-statistic 103.9318 Probability 0.000000 Obs*R-squared 147.4495 Probability 0.000000 Test Equation: LS // Dependent Variable is RESID^2 Sample: 1 500 Included observations: 500 Variable Coefficient Std. Error t-Statistic Prob. C 16996.56 899.4082 18.89749 0.0000 X1Q -0.535115 1.336643 -0.400343 0.6891 X1Q^2 -0.000522 0.000240 -2.175656 0.0301 R-squared 0.294899 Mean dependent var 10082.14 Adjusted R-squared 0.292062 S.D. dependent var 14879.03 S.E. of regression 12519.07 Akaike info criterion 18.87600 Sum squared resid 7.79E+10 Schwarz criterion 18.90129 Log likelihood -5425.469 F-statistic 103.9318 Durbin-Watson stat 0.068123 Prob(F-statistic) 0.000000

Se sabe que existe un quiebre estructural en el periodo 280 (pues el programa así lo determina), pero que también existe heterocedasticidad en el modelo, entonces, la división de las submuestras se hará justo en el período 280 y se aplicará el Test de Wald.

Tras correr las dos regresiones (una para las 279 observaciones y otra para las restantes), se

obtienen los estimadores (θ1 , θ2) y las varianzas estimadas de tales estimadores. Así pues:

θ1 = 0.498078 θ2 = 0.079632

V1 = 2.21204147308e-06 V2 = 1.63880104589e-08

De donde se obtiene un estadístico W = 78574.2142 que por ser demasiado alto indica que la restricción de igualdad de estimadores no se cumple, lo cual lleva a rechazar la estabilidad de coeficientes.

Page 144: Casas Econometria Moderna(2)[1]

Econometría Moderna

Suponga que el espacio muestral total consta de n observaciones. El residuo recursivo de la enésima observación se define como el error de predicción de la variable explicada hallado empleando el estimador MCO obtenido a partir de las t-1 observaciones anteriores. Formalmente:

MCOtttt xye 1' −−= β

Lo que interesa es calcular el residuo recursivo normalizado. Para ello es necesario conocer la varianza del residuo recursivo (et ), que está definida por la siguiente ecuación:

])'('1[)( 111

2ttttt xXXxeVar −

−−−= µσ

Note que se emplea minúsculas para nombrar a las variables que involucran sólo observaciones del período t y mayúsculas para las mismas variables pero que incluyen las t-1 observaciones anteriores.

Una vez obtenida la varianza se construye el residuo recursivo normalizado:

tttt

tt

xXXx

ew

1)'('1 −+= ∼N (0, 2

µσ ) (6.5)

Bajo la hipótesis planteada de estabilidad de parámetros, wt se distribuye como una Normal con

media cero y varianza constante e independiente de ws ∀ s ≠ t.

Brown Durbin y Evans sugieren dos pruebas basadas en el residuo recursivo normalizado, éstas son:

i) Test CUSUM (Cumulate Sum of Residuals)

Como su nombre lo indica, esta prueba se basa en la suma acumulada de los residuos normalizados. El estadístico que se emplea es el estadístico CUSUM o Wt:

Wt = ∑+=

t

kr

rw

12σ

(6.6)

donde:

1

)(

ˆ 1

2

2

−−

−=

∑+=

kT

wwT

krr

σ y kT

ww

T

krr

−=

∑+= 1

Si los valores del residuo recursivo normalizado cambian en el tiempo de manera sistemática, se tomará como evidencia de inestabilidad en el modelo. Bajo la hipótesis nula de estabilidad, Wt tiene media cero y una varianza aproximadamente igual al número de residuos acumulados (ya que cada término tiene varianza igual a uno y además son independientes). La evaluación se realiza graficando el estadístico CUSUM a lo largo del tiempo. Si esta gráfica permanece dentro de las

bandas de confianza (definidas por dos rectas que conectan los puntos [k, ± α(T-k)1/2] y [T, ± 3α(T-

Page 145: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

k)1/2] donde α representa diversos valores de significancia6) entonces los coeficientes son estables en el tiempo, pero si la gráfica traspasa las bandas, se rechaza la hipótesis planteada y se reconoce la existencia de un cambio estructural en el modelo para el período muestral.

Cabe destacar que la prueba se realiza trazando la gráfica alrededor del eje de abscisas, es decir, se espera que el estadístico CUSUM fluctúe alrededor del valor nulo. Si eso ocurre, la línea permanecerá dentro de las bandas de confianza y se aceptará la estabilidad de parámetros, en otras palabras, se acepta que la suma de residuos recursivos tiene esperanza nula.

-60

-40

-20

0

20

40

60

20 40 60 80 100 120 140 160 180 200

CUSUM 5% Significance

Figura 6.5

ii) Test CUSUM2 (Cumulate Sum of Square Residuals)

En este test alternativo se emplea el estadístico CUSUM2 o St que hace referencia a la suma acumulada de los residuos normalizados al cuadrado. Formalmente:

St =

=

=T

krr

t

krr

w

w

2

2

(6.7)

Dado que los residuos recursivos se distribuyen independientemente, tanto el numerador como el denominador son sumas de variables que se distribuyen como una Chi-cuadrado, cada una con un

grado de libertad. Por lo tanto el valor esperado de este estadístico E[St] es aproximadamente igual

a (t - k)/(T- k). La prueba se realiza graficando los valores de E[St] para cada momento en el

tiempo. Si esta gráfica sobrepasa los límites impuestos por el intervalo de confianza E[S] ± c07

entonces se rechaza la hipótesis nula y se acepta la presencia de quiebre.

6 Los valores de α que se encuentran en el paper de Brown et al. son α = 0.948 al 95% de confianza y α = 1.1143 al 99%. 7 c0 depende de T-k y del nivel de significancia deseado.

Page 146: Casas Econometria Moderna(2)[1]

Econometría Moderna

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

20 40 60 80 100 120 140 160 180 200

CUSUM of Squares 5% Significance

Figura 6.6

Es preciso señalar además que ambas pruebas (CUSUM y CUSUM2) dan indicios de la fecha de quiebre. Dado que son pruebas gráficas, la exactitud de la fecha de quiebre no es una de sus ventajas, sin embargo aproxima con un margen de error aceptable tal período. Por ejemplo, siguiendo el caso de la inflación en el Péru, se sabe que existen dos quiebres: el primero de ellos se da en Marzo de 1988 y el segundo se da en octubre de 1990. Teniendo esto en cuenta, al realizar las pruebas de residuos recursivos CUSUM y CUSUM2, se obtienen los siguientes resultados:

-60

-40

-20

0

20

40

60

50 100 150 200 250

CUSUM 5% Significance

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

50 100 150 200 250

CUSUM of Squares 5% Significance

Figura 6.7

Finalmente, cabe señalar que existe una ventaja del test CUSUM2 sobre el test CUSUM convencional puesto que al elevar al cuadrado los errores se elimina la distorsión que pueden incluir los signos de los errores. El test CUSUM normal sólo agrega los errores de predicción que se van obteniendo al ir ampliando la muestra en una observación, pero estos errores pueden tener signos contrarios y cancelar su efecto, distorsionando el resultado de la prueba. El test CUSUM2 no es afectado por este problema ya que al elevar al cuadrado los errores, se elimina el efecto del signo, sin embargo, la intuición del estadístico no es tan pura como en el caso convencional ya que no se espera que sea nulo en promedio sino se busca que el valor esperado sea igual a (t - k)/(T - k).

Page 147: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

iii) Test t de Harvey y Collier:

Existe un test propuesto por Harvey y Collier (1977) relacionado al uso de residuos recursivos para evaluar la estabilidad y que se basa en la media muestral de tales residuos.

Bajo la hipótesis nula de estabilidad, la media muestral de los residuos recursivos ( w ) se

distribuye normalmente con media cero y varianza σ2/(T - k). En este test, se evalúa la hipótesis de que la media de wt es cero a través de la construcción de un estadístico t que se compara con un valor tabular con T - k - 1 grados de libertad:

t = s

wkT )( − ∼ tT - k -1 (6.8)

donde:

s2 = 1

)(2

1

−−

−∑=

+=

kT

wwTr

krr

iv) Test de Predicción de una Etapa:

Como se puede inferir de la definición, cada residuo recursivo es el error de una predicción de una etapa (es decir la discrepancia entre el valor estimado de la iésima observación predicho con las i - 1 observaciones anteriores). Tal error puede ser comparado con su desviación estándar bajo la hipótesis nula con el propósito de evaluar si el valor de la variable dependiente en el periodo t ha provenido del modelo estimado empleando todas las observaciones hasta ese punto.

En la figura 6.8, se traza los residuos recursivos y los errores estándares en la parte superior, y en la parte inferior, se muestran los valores de las probabilidades para aquellos puntos muestrales en los cuales la hipótesis de estabilidad de coeficientes se rechazaría a niveles de 0, 5, 10 y 15% de riesgo. Tal como se ve, en el periodo 280 existe una acumulación de puntos bien marcada y con niveles de confianza muy altos (casi 0% de riesgo).

0.15

0.10

0.05

0.00-1500

-1000

-500

0

500

50 100 150 200 250 300 350 400 450 500

One-Step Probability Recursive Residuals

Figura 6.8

Page 148: Casas Econometria Moderna(2)[1]

Econometría Moderna

v) Test de Predicción de N Etapas:

Este test gráfico, arroja los resultados que se obtendrían si se ejecutase el Programa 6.2. El test explota los cálculos recursivos para armar una secuencia de tests de Chow predictivos. En contraste a la versión convencional del Test de Chow Predictivo, éste no requiere como insumo la fecha en que se cree se genera el quiebre pues automáticamente calcula todos los casos posibles empezando con el tamaño de muestra más pequeño posible para estimar la ecuación de predicción e ir introduciendo una observación adicional cada vez. El gráfico muestra en la parte superior los residuos recursivos y las probabilidades de rechazo de estabilidad en la parte inferior con 0, 5, 10 y 15% de riesgo.

En este caso, el quiebre se detecta en el periodo 280, con lo cual se puede concluir consistentemente y sin contradicción con ninguna de las pruebas anteriores que el cambio estructural existe y se da en el periodo 280.

0.15

0.10

0.05

0.00-1500

-1000

-500

0

500

50 100 150 200 250 300 350 400 450 500

N-Step Probability Recursive Residuals

Figura 6.9

vi) Estimaciones de Coeficientes Recursivos:

2

3

4

5

6

20 40 60 80 100 120 140 160 180 200

Recursive C(1) Estimates ± 2 S .E.

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

20 40 60 80 100 120 140 160 180 200

Recursive C(2) Estimates ± 2 S .E.

Figura 6.10

Page 149: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

Esta prueba gráfica permite trazar la evolución de cualquier coeficiente a medida que la muestra empleada para regresionar se amplía cada vez más. El gráfico muestra la evolución del coeficiente seleccionado para todas las posibles ecuaciones estimadas recursivamente. Si tal gráfico muestra variaciones significativas a medida que se va adicionando mayor cantidad de observaciones para estimar las ecuaciones, entonces se tiene un argumento fuerte que indica la presencia de quiebre estructural.

66..33.. AALLGGUUNNAASS CCRRÍÍTTIICCAASS AA LLOOSS TTEESSTTSS DDEE CCAAMMBBIIOO EESSTTRRUUCCTTUURRAALL

En general, los diversos tests alternativos propuestos para evaluar la estabilidad de los coeficientes son menos potentes que el Test de Chow de análisis de varianza. Sin embargo, éste también tiene debilidades y no es aplicable en cualquier espacio muestral, a continuación se citan tres críticas referidas a estas pruebas:

1. A.L. Wilson8 afirma que si bien el test predictivo de estabilidad propuesto por Chow es sugerido sólo para el caso en el que el tamaño de muestra del segundo subconjunto es menor que el número de regresores (es decir, cuando no existen suficientes grados de libertad para correr la regresión del segundo modelo)9, debería ser considerado también en el caso en el que el tamaño de muestra de tal subconjunto sea mayor al número de regresores. Esto debido a que la prueba predictiva tiene propiedades deseables de potencia cuando existen algunos errores desconocidos de especificación.

2. Rea10 establece que no es posible considerar la prueba predictiva de Chow para evaluar estabilidad en el caso de insuficiencia de grados de libertad. Afirma que lo único que demuestra este test es que el error de predicción tiene media cero, es decir que las predicciones son insesgadas. Si no existe cambio estructural, el error de predicción tendrá una media de cero. Pero si el error de predicción tiene media cero, no necesariamente se aceptará la existencia de estabilidad de parámetros en el caso en que n2 < (k+1). En otras palabras, el error de predicción podrá tener una media cero aun si los coeficientes son inestables si, por ejemplo, los regresores tienen un comportamiento atípico. Rea concluye que no es posible afirmar a partir de los resultados de los tests de Chow que los parámetros son estables, sólo se puede afirmar que no lo son. Es decir, no considera al test de Chow como una prueba de estabilidad sino como una de insesgamiento en la predicción. Rea considera que todo lo dicho es válido sólo en el caso de la prueba predictiva aplicada cuando n2 < k+1, es decir si n1 y n2 son mayores que k + 1, las dos pruebas de predicción aplicadas sobre cada submuestra son de estabilidad.

3. Como se mencionó anteriormente, surge un problema al realizar los tests de estabilidad cuando existe heterocedasticidad. Si las varianzas del error de ambas muestras son distintas, entonces las pruebas predictivas y de análisis de varianza arrojan resultados imprecisos en el sentido de que se subestiman los valores tabulares de los estadísticos y se tiende a caer en un error de tipo I. Ante esta situación se emplea el test de Wald explicado en la sección II parte iii.

8 A.L.Wilson “When is the Chow Test UMP?” The American Statistician,Vol.32, No.2, mayo 1978, pp. 66-68. 9 Ver sección II parte ii. 10 J.D.Rea “Indeterminacy of the Chow Test when the number of observations is insufficient” Econometrica, vol. 46, No. 1, enero 1978, pág. 229.

Page 150: Casas Econometria Moderna(2)[1]

Econometría Moderna

66..44.. CCÓÓMMOO SSEE CCOORRRRIIGGEE UUNN CCAAMMBBIIOO EESSTTRRUUCCTTUURRAALL

Tal como se hizo referencia en la parte introductoria del capítulo, existen dos razones por las cuales se puede aceptar la existencia de quiebre estructural en un modelo. Una de ellas radica en la deficiente especificación del modelo, de modo que éste no captura ciertos shocks o fluctuaciones que sí serían incorporados de presentar una especificación más rica. Tales fluctuaciones pueden ser aceptadas como cambios estructurales que generan modelos estimados con coeficientes inestables. La segunda razón consiste en la presencia de un cambio sistemático que afecta a la variable dependiente y que no es recogido por el modelo correctamente especificado.

Para corregir el problema de cambio estructural surgen por lo tanto dos posibles soluciones:

6.4.1 Reespecificación del Modelo

Si no se posee la certeza de que el modelo que se está empleando para explicar el comportamiento de la variable dependiente está bien especificado, es decir, si no presenta una estructura tal que las variables independientes explican con un grado de ajuste elevado a la variable dependiente a pesar de los ciclos y fluctuaciones que ella presente, entonces es conveniente tratar de reespecificar el modelo introduciendo nuevas variables o extrayendo las irrelevantes.

Como se sabe, el primer paso para el desarrollo de una evaluación econométrica es la especificación del modelo. Generalmente, y sobre todo en los modelos estructurales, la construcción de los modelos está basada sobre intuición y teoría económica. A pesar de que dichos modelos tengan un sustento teórico sólido, la regresión puede arrojar resultados discrepantes. En esos casos es conveniente revisar la especificación de la ecuación de regresión. En este sentido, si se acepta la hipótesis de cambio estructural dentro de modelos deficientemente especificados, se estaría aceptando la existencia de un problema subsanable con una correcta especificación, es decir, se puede introducir una variable relevante que mejore el modelo de manera que el grado de ajuste de los puntos observados a la recta de regresión sea mayor y a la vez tal improvisación repercuta en la capacidad que tienen las variables independientes para explicar los cambios sistemáticos que afecten al modelo.

El análisis riguroso acerca de error de especificación, se realiza en el capítulo X. No obstante, las conclusiones relevantes y que deben considerarse son las siguientes:

• En el caso de omisión de variables relevantes, existirá un sesgo en la estimación de los parámetros.

• En el caso de introducción de variables irrelevantes, el estimador no es segado, entonces podría considerarse razonable una estrategia de introducir una elevada cantidad de variables explicativas en el modelo de regresión. Sin embargo, tal estrategia conduce a aumentar la varianza con que se estiman los coeficientes de las variables explicativas verdaderamente relevantes, sobre las que se perdería en consecuencia, precisión.

Por lo tanto, la introducción de variables relevantes será beneficiosa sólo si no afecta la precisión de estimación de los coeficientes del resto de explicativas. En este sentido, será provechoso reespecificar el modelo para que capture el quiebre incorporando tales variables, puesto que si antes el modelo no explicaba con la suficiente exactitud a la variable explicada y esa era la razón de la aceptación de inestabilidad de parámetros, tras incrementar el grado de exactitud con que las

Page 151: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

explicativas describen a la endógena, es muy posible que el problema desaparezca. Por otra parte, otra estrategia para solucionar el problema de quiebre consiste en reducir el número de variables puesto que alguna de ellas puede que origine inestabilidad en alguno de los periodos a la hora de correr la regresión. Tal como se mencionó, si la variable es irrelevante, el modelo será mejorado, pero si es relevante, los estimadores quedarían sesgados y se tendría que decidir entre la omisión de la variable o la inestabilidad de los coeficientes. En este caso es recomendable convivir con el quiebre puesto que se podría solucionar con introducción de variables dummies. Además, la contribución marginal de esa variable podría ser muy relevante para explicar el comportamiento sistemático de la variable endógena.

6.4.2 Introducción de Variables Dicotómicas

El procedimiento algebraico para solucionar el problema de series que presentan quiebre dependerá si el cambio estructural es en media, tendencia o en ambas. Sin embargo, en todos los casos se hará uso de variables dummy o dicotómicas.

Dado que las variables dicotómicas pueden tomar sólo dos valores (1 y 0), se deduce rápidamente que tomará un valor para el subespacio anterior al quiebre y otro para el posterior. Es decir, además de las variables independientes originales del modelo, se incluyen las variables dummy como explicativas adicionales. Precisamente, la función que tendrán será la de explicar la presencia del quiebre.

Como se sabe, el test más potente para detectar la detección de la existencia de cambio estructural es el test de Chow, prueba que requiere como insumo la fecha en que se sospecha se genera el quiebre. Por lo tanto, una vez hecha la prueba y tras haber rechazado la hipótesis nula de estabilidad de los coeficientes, se conocerá cuándo se produce el cambio estructural en las series. Con esta información se podrá solucionar el problema incorporando variables dummy.

i) Cambio en Intercepto:

En este caso, el procedimiento para la corrección consiste en introducir una dummy aditiva al modelo, la que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir de él. Resulta redundante comprobar la significancia estadística del coeficiente de la dummy ya que se verificó la existencia de quiebre con el test de estabilidad.

Figura 6.11

Page 152: Casas Econometria Moderna(2)[1]

Econometría Moderna

La intuición detrás de la incorporación de una dummy aditiva en el caso de un cambio en media resulta bastante sencilla. Puesto que la dummy empieza a “funcionar” a partir del período inmediatamente siguiente al quiebre, lo que hará será explicar la variación en el intercepto de la recta de regresión estimada, solucionando de esta manera el problema.

µβββα +++++= kk xxxY ...2211 modelo original

dxxxY kk γµβββα ++++++= ...2211 modelo con dummy

donde: d = 0 ∀ t =1,2,...,tquiebre

= 1 ∀ t = tquiebre+1, ...., T

reordenando:

µβββγα ++++++= kk xxxdY ...)( 2211

Y =

−−

++

k

knn

nkn

ktt

ktt

k

k

xx

xx

xx

xx

xx

xx

quiebrequiebre

quiebrequiebre

β

βγα

M

L

L

MOMMM

L

L

MOMMM

L

L

1

1

1,1,1

111

1

212

111

11

11

11

01

01

01

+ µ

Claramente se observa que la dummy afecta al intercepto a partir del período tquiebre +1 puesto que recién entonces toma valores no nulos. Gracias a la influencia de la variable dummy a partir del periodo tquiebre, la nueva recta de regresión ya no presenta un cambio en media y por lo tanto, los coeficientes serán estables, es decir válidos para explicar el comportamiento de la variable endógena para todo el intervalo muestral.

ii) Cambio en Pendiente:

En este caso la corrección se realiza introduciendo una variable dummy multiplicativa al modelo que tomará valores nulos para el período anterior al quiebre y valores unitarios a partir de él. Esta variable afectará directamente al regresor que esté ocasionando el quiebre. Si fuesen varias las variables explicativas que presentan un cambio estructural, se deberá incluir una dummy por cada una de ellas. Cada dummy empezará a “funcionar” en el período inmediatamente siguiente en que se genera el quiebre dentro de la serie a la cual afecta.

Suponga un modelo bivariado:

Y = α + β1x1 + µ modelo original

Y = α + β1x1 + µ + γdx1 modelo con dummy

Page 153: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

donde: d = 0 ∀ t = 1,2,...,tquiebre

= 1 ∀ t = tquiebre+1, ...., T

reordenando:

Y = α + (β1 + γd)x1 + µ

y =

1 0

1 0

1 0

1

1

1

11

12

1

1 1 1 1

1 1 1 1

1 1

1

x

x

x

x x

x x

x x

t

t t

n n

n n

quiebre

quiebre quiebre

M M M

M M M

,

, ,

, ,

+ +

− −

αβγ

+ µ

Note que la tercera columna de la matriz de información contiene a los valores de la dummy que multiplica a la observación de la exógena correspondiente al periodo, por eso es que no aparecen valores unitarios una vez producido el quiebre.

Al igual que en el caso de un quiebre en media, se puede esbozar gráficamente el efecto de la variable dummy sobre la serie que presenta el quiebre en tendencia:

Figura 6.12

Para un modelo multivariado, por otro lado, se sigue un procedimiento similar. Se crea una variable dummy por cada exógena que introduzca quiebre al modelo. Para verificar esto, suponga un modelo multivariado en el cual las tres primeras explicativas presentan quiebre:

Y = α + β1x1 + β2x2 + ... + βkxk + µ modelo original

Y = α + β1x1 + β2x2 + ... + βkxk + µ + γ1d1x1 + γ2d2x2 + γ3d3x3 modelo con dummy

donde: d = 0 ∀ t = 1,2,...,tquiebre

Page 154: Casas Econometria Moderna(2)[1]

Econometría Moderna

= 1 ∀ t = tquiebre+1, ...., T

y reordenando:

Y = α + (β1 + γ1d1)x1 + (β2 + γ2d2)x2 + (β3 + γ3d3)x3 + β4 x4 + ... + βkxk + µ

Y =

+

+

+

kknnnnnnn

t

t

t

t

t

t

k

k

xxxxxxx

x

x

x

x

x

x

xxxx

xxxx

quiebre

quiebre

quiebre

quiebre

quiebre

quiebre

β

βββγγγα

M

L

M

M

MM

MOMMMM

M

M

L

L

3

2

1

3

2

1

321321

1,3

,3

1,2

,2

1,1

,1

2312212

1312111

1

1

1

1

1

0

01

01

001

001

0001

0001

+ µ

Observe la matriz de información. Notará que las dummies empiezan a “funcionar“ en distintos períodos (según la fecha en que se produzca el quiebre en cada serie) para cada endógena.

Es importante señalar que, en este caso, la inclusión de una dummy multiplicativa podría generar multicolinealidad si es que el quiebre ocurre en un período muy cercano al inicial. Imagine un espacio muestral de 500 observaciones. Si una de las exógenas presenta un cambio estructural en el período 6, las 494 observaciones restantes entrarán a constituir la nueva columna (generada a través del producto de la dummy con la variable) en la matriz de información, y esta será idéntica a la original para 496 períodos.

iii) Cambio en Intercepto y en Pendiente:

La solución en este caso es una fusión de las dos secciones anteriores. Así, para el caso bivariado, se tiene lo siguiente:

Y = α + β1x1 + µ modelo original

Y = α + β1x1 + µ + γdx1 + γ2d2 modelo con dummy

donde: d = 0 ∀ t = 1,2,...,tquiebre

= 1 ∀ t = tquiebre+1, ...., T

reordenando:

Y = (α+ γ2 d2) + (β1 + γd)x1 + µ

Page 155: Casas Econometria Moderna(2)[1]

Capítulo 6: Quiebre Estructural

Los efectos de la inclusión de estas variables dummy pueden verificarse, nuevamente, a través de un gráfico:

Figura 6.13

El álgebra matricial, tanto para el caso bivariado como para el multivariado, es semejante a los casos anteriores. A continuación se representa la matriz de información para el caso bivariado con quiebre en media y en tendencia:

Y =

−−

++

1

2

11

1,11,1

1,11,1

,1

12

11

11

11

11

001

001

001

βγγα

nn

nn

tt

t

xx

xx

xx

x

x

x

quiebrequiebre

quiebre

MMMM

MMMM

+ µ

La segunda columna de la matriz de información contiene la dummy que soluciona el quiebre en media y la tercera la que soluciona el quiebre en tendencia.

Page 156: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 77 PPRREEDDIICCCCIIÓÓNN

77..11.. IINNTTRROODDUUCCCCIIÓÓNN Recuérdese que cuando un investigador está interesado en diseñar un modelo econométrico,

tal que sea satisfactorio o congruente con toda la data que posee, enfrenta, en general, tres objetivos o propósitos1. El primero consiste en realizar pruebas estadísticas acerca de los parámetros del modelo, es decir, probar ciertas restricciones utilizando los tests de inferencia estadística estudiados en el Capítulo 4. El segundo es utilizar el modelo para estimar el valor futuro de una variable endógena, es decir predecir el valor de Y en un periodo fuera de la muestra, dado el valor de las exógenas. Finalmente, y tal vez uno de los más ambiciosos, consiste en utilizar el modelo para la simulación de políticas económicas.

El tema del presente capítulo consiste en analizar el segundo objetivo. Específicamente, nos

centraremos, entre otros puntos, en los requisitos que debe cumplir el modelo antes de realizar una predicción. Para tal fin, debemos efectuar las pruebas estadísticas, ya conocidas, que garanticen que el modelo está apto para realizar pronósticos confiables. Así, en la parte final del Capítulo, desarrollaremos un ejercicio aplicado utilizando las herramientas del Econometric - Views para que el lector se familiarice con el tipo de previsiones que realiza un economista o un alumno que se interese por la Econometría.

De esta manera, se puede intuir cuál es la definición de una predicción. En términos de

Pyndick & Rubinfield(1991)2, se define una predicción como un estimado cuantitativo acerca de la verosimilitud de eventos futuros basados en información pasada y actual. En este sentido, se pueden hacer pronósticos utilizando distintos modelos econométricos. Algunos de estos se detallan a continuación:

1 Ver la introducción del cuarto capítulo. 2 Pyndick Robert S. and Rubinfield Daniel L. (1991), Econometric models and economic forecast. Capítulo 8, p. 180. EE.UU.

Page 157: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

174

• Modelos estructurales uni-ecuacionales: Son el tipo de modelos que se han trabajado hasta

ahora, por ejemplo el siguiente modelo lineal general:

µβ += XY

• Sistemas de ecuaciones estructurales: Por ejemplo en el modelo de IS-LM de Macroeconomía

dbYCC += 0

hrII −= 0

ICY +=

• Modelos de series de tiempo: los modelos de series de tiempo muestran una secuencia de datos numéricos asociados con un instante específico de tiempo. A manera de ejemplo, se citarán los índices diarios de las cotizaciones de las acciones en la Bolsa de Valores de Lima (BVL). Así, se puede construir un modelo autorregresivo (AR) pues se tiene como variables explicativas a rezagos de la variable endógena, o bien un proceso de medias móviles (MA), el cual representa un promedio ponderado de los shocks pasados y actuales de una serie. Como se verá en un capítulo posterior3, una serie de este tipo es estacionaria. Esta última característica, garantiza que los estimadores obtenidos por un proceso (MA) sean confiables.

tptpttt YYYY µρρρρ +++++= −−− ....22110 AR(p)

qtqtttt e....eeeY −−− +++++= θθθθ 22110 MA(q)

Tal como se mencionó líneas arriba, antes de realizar la predicción un modelo debe cumplir

ciertos requisitos para que el pronóstico de la variable independiente sea confiable y verosímil.

77..22.. RREEQQUUIISSIITTOOSS

1) El modelo lineal estimado no presente errores de especificación. Recordemos que una ecuación de regresión presenta una buena especificación4, cuando tanto su forma funcional como su función de distribución de probabilidades es correcta y, además, no existen variables omitidas ni redundantes que deben ser incluidas o extraídas, respectivamente del modelo. Una de las vías utilizadas que para analizar la presencia de una buena especificación es la prueba de Ramsey.

2) Los parámetros deben ser estables. Como estudiamos en el Capítulo 6, el análisis de

posibles cambios estructurales en los parámetros, implica realizar las pruebas gráficas de estabilidad como son Cusum Cuadrado o el test de Chow5.

3) Se corrija la presencia de perturbaciones no esféricas esto es, los problemas poblacionales

en la distribución de probabilidad del error: heterocedasticidad y autocorrelación. Con tal fin, se realizan las pruebas estadísticas para detectar y corregir dichos problemas.

3 Véase el Capítulo de Series de tiempo estacionarias. 4 En la sección 6.4 del Capítulo de Cambio Estructural, se mostró los problemas que ocasionan una mala especificación. 5 Ver la sección 2 del Capítulo 6.

Page 158: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

175

4) Sólo debe existir una dirección de causalidad: de las variables independientes hacia la dependiente. Para determinar si existe este requisito, se puede utilizar el criterio de Causalidad a lo Granger.

77..33.. TTIIPPOOSS DDEE PPRROONNÓÓSSTTIICCOOSS

i) Predicción puntual. La ecuación estimada es la representación estadística de la media de la

distribución condicional de la variable dependiente en las independientes. En función a ello, cuando se habla de una predicción puntual, se trata de la predicción de los valores futuros de la variable endógena ( tY ) en términos del valor de la media condicional, por lo que obtendremos un único valor o número. Un ejemplo sería el anuncio que la inflación para el año próximo será de 0.5% mensual.

ii) Predicción por intervalos. Si queremos tener mayor información acerca de la distribución

condicional un elemento importante es conocer la varianza. Esta magnitud nos permite tener un idea de la dispersión que presenta la variable dependiente. Si tomamos en cuenta la varianza, sabemos que dentro de un rango que tiene como centro la media, podremos encontrar un determinado porcentaje de las observaciones6. Un ejemplo de este tipo de pronóstico sería decir que la inflación estará en valores desde 0.15% hasta 0.36% mensual para el año próximo.

77..44.. CCLLAASSIIFFIICCAACCIIÓÓNN DDEE PPRROONNÓÓSSTTIICCOOSS::

Si introducimos otros aspectos podemos plantear clasificaciones alternativas:

a) Predicciones incondicionales. Este tipo de predicciones se refieren a aquellas que se realizan si se conocen los valores de las variables independientes del modelo para los períodos en los cuales se va realizar el ejercicio de predicción.

b) Predicciones condicionales. En este caso, los valores de las variables independientes para

los períodos en los cuales se va a realizar el ejercicio de predicción, no se conocen con certeza y por tanto deben ser estimados.

c) Predicciones ex–ante. Son las predicciones más allá del periodo de estimación y son

hechas usando variables explicativas que pueden o no ser conocidas con certeza. Nótese que este tipo de predicciones puede ser condicional o incondicional, dependiendo de la información muestral con la que se cuente.

d) Predicciones ex –post. Cuando las observaciones, tanto de la variable dependiente como de

las independientes, son conocidas con certeza. Lo anterior implica que este tipo de predicciones sea solamente incondicional. Este tipo de pronósticos es utilizado para evaluar la bondad predictiva de nuestros modelos a partir de los indicadores que se analizarán más adelante.

El gráfico de la siguiente página puede ser útil para ilustrar la diferencia entre los dos

últimos tipos de pronósticos presentados. Si apreciamos el eje horizontal que representa el tiempo, veremos que el período T es aquel que denota la información muestral con que contamos. La t minúscula indica la porción de información muestral que utilizamos para estimar un modelo. La diferencia entre t y T es lo que se llama muestra de validación y dichas observaciones se utilizan para realizar la predicción ex-post. El procedimiento es el siguiente:

6 Por ejemplo, si consideramos una distribución normal en un intervalo que tiene como centro la media ± 2 desviaciones estándar generalmente encontraremos el 95% de las observaciones.

Page 159: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

176

con el modelo estimado hasta t se realizan predicciones utilizando la información de las observaciones de las variables independientes. Con ello se obtienen los estimados (o predicciones) de la variable dependiente para ese período. Como tenemos la información de la variable dependiente observada se puede realizar la comparación entre los valores observados y las predicciones del modelo. La predicción ex-ante implica utilizar el modelo estimado con la T observaciones y de allí estimar valores de las variables independientes según distintos modelos y supuestos y de allí se procede a realizar el verdadero ejercicio de predicción. La idea es que la predicción ex –post se debe realizar primero para evaluar qué modelo es el que nos permite realizar la mejor predicción a través de las distintas evaluaciones que se hacen. Una vez seleccionado el mejor modelo se procede a realizar la predicción ex –ante.

Pronóstico Pronóstico Ex - post Ex - ante Tiempo t T

Ejemplo 7.1 Se tiene el siguiente modelo:

tttt LKY µβββ +++= −− 20310

donde la producción (Yt) depende de los valores rezagados del capital (Kt) y del trabajo (Lt). Por otro lado, se observa que con este modelo se pueden pronosticar los valores futuros de la producción para los períodos siguientes que deseemos.

Sin embargo, debemos tener en cuenta que dentro de las predicciones posibles de hacer con

este modelo tendremos una gran variedad. Así las predicciones de 1+ty e 2+ty serán

predicciones ex – ante pero incondicionales debido a que los rezagos de K y L son aquellos que explican el valor actual de y. Hasta el periodo t+2 los valores que explicarán a la variable dependiente serán 1−tk y tL que son valores conocidos en el periodo t. Cuando pasemos al

periodo t+3 el valor de K seguirá siendo conocido pero el de L tendrá que estimarse. Por ello se podrá decir que la predicción ex –ante a partir del periodo t+3 será condicional.

77..55.. EEVVAALLUUAACCIIÓÓNN DDEE UUNNAA PPRREEDDIICCCCIIÓÓNN:: Para evaluar una predicción es preciso contar con un criterio de evaluación tal que haga que

las predicciones seleccionadas sean confiables. Por tal motivo, es conveniente introducir el concepto de error de predicción.

Recuérdese que en el primer capítulo se definió al error estimado de la regresión como la

discrepancia entre el valor de la variable dependiente y su valor estimado. Ahora se utilizará un concepto similar para definir al error de predicción. Es decir, el error de predicción muestra la

Page 160: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

177

diferencia que existe entre el valor futuro pronosticado de la variable endógena y su valor futuro observado7.

Es conveniente recordar que para evaluar la bondad de un estimador se analizaban las

propiedades de insesgamiento y eficiencia. De esta manera, decíamos que el estimador MCO( β ) es MELI porque cumplía con estas propiedades bajo las condiciones de Gauss Markov. Por consiguiente, se necesita verificar que el error de predicción posee la menor varianza porque, de ese modo, se obtendría el mejor pronóstico de la variable Yt

8. Si es que se cumple lo anterior, se concluye que la estimación por MCO provee la mejor predicción para todos los estimadores linealmente insesgados.

Tomando en cuenta los conceptos anteriores, es necesario y útil conocer el origen del error

de pronóstico. Este puede surgir de cuatro fuentes:

a) La naturaleza aleatoria del modelo (µt+1).

b) Los valores estimados de los parámetros son variables aleatorias que pueden fluctuar. Por lo tanto, puede existir error en la estimación del vector ( β ).

c) Para predicciones condicionales podemos cometer errores en el pronóstico de las variables

independientes.

d) Errores de especificación en la ecuación de pronóstico.

En las siguientes líneas, se analizará cuál es la mejor predicción y las propiedades que presenta el error de pronóstico para diferentes casos.

Primer Caso: Predicción incondicional

Cuando se hace una predicción incondicional, a partir de un modelo de regresión, se necesita

conocer el valor de las variables explicativas para todo el periodo de predicción. Este caso puede resultar no creíble; sin embargo, frecuentemente ocurre porque en muchos modelos de series temporales, que son utilizados para realizar pronósticos, se incluye una estructura dinámica. En otras palabras, se utilizan modelos que incluyen variables explicativas rezagadas las cuales están predeterminadas para el periodo en que se evalúa la predicción. Por otro lado, es posible realizar este tipo de pronósticos si es que el investigador cuenta con series de tiempo estacionales o variables demográficas cuya variación es lenta y previsible.

Notemos que, es importante construir modelos que pueden utilizarse para generar

predicciones incondicionales. Su importancia radica en que, de ese modo, se elimina una fuente del error de pronóstico cuando se construyen modelos condicionales. A continuación, se analizará un modelo de regresión bivariado que cumple con los supuestos de una predicción incondicional.

ttt XY εβα ++= donde ),0( 2εσε Nt ∼

Dado un valor conocido de 1+tX , interesa calcular el mejor predictor para 1+tY si todos los

parámetros son conocidos con certeza. De esta manera, el mejor pronóstico resulta la media condicional de la regresión:

7 Formalmente: )ˆ(ˆ 111 +++ −= ttt YYe . 8 El mejor pronóstico sería: 11 ˆˆˆ ++ += tt XY βα

Page 161: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

178

111 +++ +== ttt X)Y(EY βα (7.1)

lo anterior es cierto por que el error de predicción se define como:

1111 ++++ −=−= tttt YYe ε (7.2)

Ahora, se verificará si este error de predicción posee las propiedades deseables de todo buen

estimador. Insesgamiento:

0)()ˆ( 11 =−= ++ tt EeE ε (7.3) Varianza :

221

21

2 )()ˆ( εσεσ =−== ++ tte EeE (7.4)

Nótese que, al construir una ecuación de regresión lineal y al utilizarla para realizar pronósticos incondicionales, no se asegura que la predicción obtenida será igual a la observada ( 011 =− ++ tt YY ). Lo anterior es atribuido a la presencia del término de error del modelo que hace que el valor de Yt+1 no este sobre la línea de regresión. De esta manera, solamente podemos afirmar que el error de predicción tendrá una media igual a cero y una varianza igual a la de la perturbación del modelo σε

2. Como se dijo anteriormente, se puede realizar una predicción de la variable endógena

puntual o por intervalos. Para la segunda, es necesario construir un intervalo de confianza y se puede realizar, a partir de lo anterior, pruebas de inferencia relativas al valor predicho la variable dependiente. Se recuerda que, al realizar pruebas de inferencia se plantea un conjunto de restricciones (impuestas por la teoría económica o por el desarrollo de nuestra propia intuición), que se desea verificar si tienen validez o no. Como primer paso, se debe partir de una distribución de probabilidad conocida y luego estandarizar el error de la predicción:

Si ),0( 2εσε Nt ∼

El error de predicción normalizado, resulta:

εσλ 11ˆ ++ −

= tt YY ∼ N (0,1) (7.5)

Así, con una confianza del 95% se obtiene:

Prob 95.0)ˆ

( 025.011

025.0 =≤−

≤− ++ λσ

λε

tt YY (7.6)

donde el valor predicho de la variable dependiente se encuentra en el siguiente rango:

εε σλσλ 025.011025.01 ˆˆ +≤≤− +++ ttt YYY (7.7) De la expresión anterior se deduce que si el modelo predice bien, o en otras palabras, si los

pronósticos son fiables, el verdadero valor se ubicará dentro del intervalo. De modo que, uno de los motivos por los cuales nos inclinaríamos a pensar que el modelo no funciona de manera adecuada es verificar que el valor de la variable Yt+1 cae fuera de los límites del intervalo planteado en (9.7). Así, este intervalo sirve para realizar tests acerca de la calidad del pronóstico. Gráficamente:

Page 162: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

179

Figura 7.1 Las bandas de confianza, para un 95% de confianza, de una predicción donde se conocen los valores de los parámetros.

Sin embargo, se debe tener mucho cuidado antes de descartar un modelo econométrico por el

hecho de arrojar una "mala predicción". El lector se preguntará ¿por qué? la respuesta es simple, basta recordar que el “rechazo9 de una hipótesis nula no implica que la teoría subyacente esté errada. Para afirmar lo anterior, se debe realizar muchas pruebas y acumular mucha evidencia en contra. En el mismo sentido, vale decir que para concluir que un modelo no es satisfactorio y sus pronósticos no son fiables, el investigador deberá efectuar repetidas observaciones y más de una prueba estadística.

Antes de estudiar el siguiente caso, es importante que se puntualicen algunas observaciones.

Las cuales, reforzadas con los conocimientos adquiridos en capítulos anteriores, ayudarán a tener en claro los conceptos descritos en esta sección.

Observaciones

1) Un R2 alto y un T- estadístico significativo no necesariamente indica que el modelo predice

bien. Lo anterior es consecuencia de un cambio estructural en la economía durante el periodo de predicción y que modifica el valor de los parámetros10. Así, el modelo no puede explicar lo que realmente sucede en el sector económico por que las reglas de juego han sido cambiadas: un shock de oferta negativo o la discrecionalidad del gobierno cuando cambia una regla fija. Por ejemplo, el gobierno fija la cantidad de dinero que va emitir basándose en una regla del k%11 preestablecida y conocida por todos los agentes económicos. Un empresario fija sus niveles de producción de acuerdo con la cantidad demandada estimada para el próximo periodo. Si es que el gobierno decide financiar su deuda a través de señoreaje, generará un incremento en la demanda agregada y un incentivo para que se active la inflación. De esta manera, el pronóstico realizado por el investigador no será fiable y la empresa no podrá cubrir la demanda de su producto.

9 Frecuentemente se utiliza este término. Pero, en realidad cuando se afirma que una hipótesis nula es rechazada, se quiere decir que no existe suficiente evidencia estadística para afirmar que la hipótesis se acepta. 10 Recordemos que en el Capítulo 6, sino que podrían ocurrir cambios en la economía, no previsibles por los agentes económicos, que generen quiebre o variaciones atípicas en los parámetros de la ecuación de regresión. Asimismo, se debe recordar que uno de los requisitos y supuesto básico para realizar una predicción es que los parámetros sean estables dentro y fuera de la muestra. 11 Milton Friedman propuso la llamada regla del K%. La cual esta diseñada para obligar a las autoridades a escoger una misma tasa de crecimiento monetario en cada periodo.

Page 163: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

180

2) Un R2 bajo y un T- estadístico malo, no necesariamente significa que el modelo realiza

pronósticos inexactos. Esto se debe a que, si existe poca variación en la variable dependiente el R2 será reducido. El resultado anterior, se debe a que las variables independientes pierden la capacidad de explicar correctamente a la variable endógena. Sin embargo, dada las características del modelo, resulta fácil predecir el comportamiento de la serie.

Segundo Caso: Predicción incondicional, cuando no se conocen los parámetros En la mayoría de los casos en los que se efectúa el tipo de evaluaciones descritas en el

presente capítulo, no se pueden conocer con certeza todos los parámetros del modelo ni tampoco la varianza del error. De esta manera, se retomará el caso anterior pero utilizando este nuevo supuesto, que se ajusta más a la realidad.

Partamos de un modelo lineal simple y supongamos que se dispone de series temporales para

tX y tY (t = 1, 2, 3,.........T). En este caso, no conocemos el modelo verdadero y por ello se

estiman los parámetros mediante las técnicas mínimo cuadráticas descritas en el Capítulo 2 y 3. De modo que, si al investigador le interesa predecir el valor de Yt+1 asociado al valor de Xt+1 de la manera más verosímil posible, por ejemplo si Y es el saldo de la balanza de pagos y X representa los pagos de la deuda externa, se podría predecir el saldo de la cuenta de capitales si en el futuro el gobierno decide refinanciar sus deudas. Así, el valor futuro de tX puede estar dentro del recorrido de la muestra o, como es más frecuente, podríamos estar interesados en la predicción para un valor de X que esté fuera del alcance de la muestra.

Recuérdese que es posible realizar dos tipos de tareas predictivas o dos formas distintas de

predicción. Éstas son: predicción por puntos o predicción por intervalos, de la misma forma que podemos obtener un estimador para β 12 puntual o por intervalos. Sin embargo, en la práctica una predicción por puntos no es tan confiable sin un indicador de su precisión, por ello es necesario estimar el error de la predicción. Por otro lado, en diversos textos de econometría, la predicción puntual es también llamada individual, pues interesa en predecir un valor individual de la regresión (Y) correspondiente a Xt+1.

De esta manera, luego de estimar la ecuación de regresión por MCO, el siguiente objetivo

consiste en obtener la mejor predicción de Y correspondiente al valor de Xt+113

. Formalmente:

11ˆˆˆ ++ += tt XY βα (7.8)

Además, el modelo verdadero en el periodo de predicción (t+1) sería:

111 +++ ++= ttt XY εβα (7.9)

notemos que 1+tε indica el valor que se obtendría de la distribución de los errores en el periodo de predicción.

Para este caso, definimos el error de predicción de la siguiente manera: 111 ˆˆ +++ −= ttt YYe

12 Este parámetro es el que se incluye en la regresión de Y sobre X, del modelo teórico ( µβ += XY ). 13 Recordemos que en el segundo capítulo vimos que el mejor estimador resulta la media de la regresión.

Page 164: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

181

11 ++ −−+−= ttX)ˆ()ˆ( εββαα (7.10) Ahora, se verifican sus propiedades:

i) Insesgamiento:

[ ] 0)ˆ()ˆ()ˆ( 111 =−−+−= +++ ttt XEeE εββαα (7.11)

Este resultado se obtiene debido a que los estimadores MCO (α , β ) son insesgados y la variable X es conocida para el periodo de predicción (t+1).

ii) Varianza:

−−

++=∑ +

++ 2

1

2122

)(

)(11

1 XX

XX

T t

tet εσσ (7.12)

Para la demostración de este resultado, se han utilizado las expresiones de las varianzas de

los parámetros estimados en el modelo bivariado analizados en el capítulo 2.

[ ]111 )ˆ()ˆ()ˆ( +++ −−+−= ttt XVareVar εββαα

)()ˆ,ˆ(2)ˆ()ˆ( 112

1 +++ +++= ttt VarXCovVarXVar εβαβα (7.13)

donde:

∑∑ −==

2

2

2

2

1)(

)ˆ(XXx

Vartt

εε σσβ

+

−σ=α

∑ε TXX

XVar

t

1

)()ˆ(

2

22

∑ −

σ−=βα ε

2

2

)()ˆ,ˆ(

XXXCov

t

Reemplazando estos valores tenemos:

+

−−

−++

−σ=

∑∑∑++

ε+ 1)(

)2(

)(

1

)()ˆ(

21

2

21

2

22

1XX

XX

XX

X

TXX

XeVar

t

t

t

t

tt

( )

−++σ=σ

∑+

ε 2

2122

)(

11

XX

XX

Tt

tf (7.14)

Nótese que la varianza del error de predicción presenta tres importantes componentes: la

varianza de la variable X, el tamaño de la muestra y la desviación existente entre 1tX + y la

Page 165: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

182

media de X ( X ). Por otro lado, así como se mencionaron algunas condiciones acerca de los resultados del caso anterior, es importante señalar lo siguiente:

i) Si el tamaño de la muestra (T) es grande, se reduce la varianza, dado que cuando se

dispone de mayor información las estimaciones de los parámetros ganan precisión. De esta manera, los mejores pronósticos de Y serán los correspondientes a aquellos valores de X en torno a los cuales se disponga de la mayor información muestral.

ii) A mayor dispersión de X, la varianza de los estimadores de la ecuación de regresión

será menor y por tanto el error de predicción presentará una menor dispersión.

iii) Si la desviación de Xt+1 con respecto a su media es reducida, la varianza del error de predicción es también reducida. Asimismo, se observa que cuando XX t =+1 , la varianza del error de predicción alcanza su valor mínimo.

iv) Si el horizonte de predicción es largo, la varianza tenderá a incrementarse, bajo el

supuesto que Xt+1 se aleja de X . Cabe mencionar que, de acuerdo con la expresión (9.10) 1ˆ +te es una función de variables

que se distribuyen normalmente14, y así presenta la misma distribución. Además, si se conociera el verdadero valor de la varianza del error de predicción se podrían construir intervalos de confianza similares al descrito en (9.7), utilizando el error normalizado. Es decir:

f

1te

σ+ˆ ∼ N(0,1)

En la práctica el supuesto anterior no se da, lo cual implica que se debe estimar 2fσ . Así, se

obtiene:

( )

−++=

+2

2122 1

1)XX(

XX

Tˆˆ

t

tf εσσ (7.15)

Estandarizando el error de predicción:

f

1t1t YY

σˆ ++ −

∼ T(t-k)

Dado que el presente análisis esta dirigido a un modelo de regresión lineal simple, este error

normalizado se distribuye según una T de Student con (t-2) grados de libertad. Además, se observa que en la expresión anterior, la única variable desconocida es 1+tY . De modo que se puede aproximar su valor utilizando un intervalo de confianza del 95%15. Formalmente:

fttft tYYtY σσ ˆˆˆˆ025.011025.01 +≤≤− +++ (7.16)

Si se reemplazan todos los valores de la muestra para X y se obtienen intervalos de confianza

para cada una de las variables, así se genera lo que se conoce como “banda de confianza para la 14 Recordemos que los estimadores MCO, ( βα , ) siguen un proceso estocástico y la distribución de cada uno se

supone que es la normal. 15 La gráfica muestra como para cada valor de X, la distancia entre la recta de regresión y uno de los límites de confianza es idéntico al doble de la estimación de la desviación estandar de la predicción.

Page 166: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

183

función de regresión poblacional”. Como se sabe, dicha función de regresión poblacional representa, precisamente, la media condicional de Y dados los valores de X. Gráficamente:

Figura 7.2

Intervalos de confianza para una predicción donde los valores de los parámetros son desconocidos.

Una característica importante de las bandas de confianza que se muestran en el gráfico

anterior, es que su amplitud aumenta conforme aumenta el horizonte de predicción. Sin embargo, alcanza su menor tamaño cuando X X t =+1 . Lo anterior sugiere que la capacidad de

predicción de la línea de regresión muestral decrece a medida que X t 1+ se aleja

progresivamente de X . Además de la predicción por puntos y por intervalos, analizada en páginas anteriores, se

puede estar interesados en calcular el pronóstico de la media condicional de Y para el periodo (t+1) dado los valores de las variables independientes. Este caso será ilustrado, a continuación, con el siguiente ejemplo.

Ejemplo Supóngase que luego de aplicar el método MCO a un conjunto de observaciones se obtiene

la siguiente función de regresión muestral:

11 847.0569.36ˆ ++ += tt XY Sea 751 =+tX y se desea predecir el valor medio de Yt+1 dada la información acerca de la

variable independiente, )75/( 11 =++ tt XYE . Ahora, se hallará la estimación puntual de esta

predicción media ( 1ˆ +tY ):

094.100)75(847.0569.36ˆ1 =+=+tY

Puesto que se está estimando el verdadero valor de )/( 11 ++ tt XYE mediante 1ˆ +tY , es

probable que estos dos valores sean diferentes y así se defina un error en la predicción. Con la

Page 167: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

184

finalidad de evaluar este error, es necesario encontrar la distribución muestral de 1ˆ +tY . Así, de

la función de regresión muestral se tiene:

11ˆˆˆ ++ += tt XY βα

Ahora, hallemos el valor esperado de la expresión anterior:

11 )ˆ()ˆ()ˆ( ++ += tt XEEYE βα

1++= tXβα

esto se cumple porque los estimadores son insesgados, dado a que han sido obtenidos por el método MCO. Así, se obtiene un estimador insesgado de )/( 11 ++ tt XYE :

1111 )/()ˆ( ++++ +== tttt XXYEYE βα Ahora, hallemos la varianza del estimador:

12

11 )ˆ,ˆcov(2)ˆ()ˆ()ˆ( +++ ++= ttt XXVarVarYVar βαβα (7.17)

donde, utilizando las mismas formulas que en el segundo caso16, se tiene el siguiente resultado:

( )

−+==

∑+

+ 2

212

11

)XX(

XX

Tˆˆ)Y(Var

t

tft εσσ (7.18)

Así se demuestra que el estimador del valor futuro de Y se distribuye normalmente, con

media y varianza definidas en pasos anteriores. Ahora, se estandariza el error de predicción, para obtener los intervalos de confianza y hacer pruebas de inferencia. Formalmente:

)(ˆ

)(ˆ11 ktT

XY

f

tt −≈+− ++

σβα

Se puede utilizar un intervalo de confianza del 95%, como en el caso anterior, para

aproximar el valor de E(Yt+1/Xt+1):

Prob [ ] 95.0ˆ025.01ˆˆ1ˆ025.01

ˆˆ =+++≤++≤−++ fttXtXfttX σβαβασβα

Ahora, supongamos que en el ejemplo anterior se tienen 20 observaciones, la media muestral

de X es igual a 55 , 38.2ˆ 2 =εσ y la varianza muestral de tX es 16.5. Por tanto, la varianza de

1ˆ +tY sería:

( )

−+=+ 330

5775

20

138.2)ˆ(

2

1tYVar

45572.=

16 Notemos que, a diferencia del caso anterior, cuando realizamos una predicción media, se elimina el componente de la varianza del error de la regresión de Yt+1. De esta manera, la varianza del error de predicción, que es lo mismo que la varianza de la estimación deYt+1, es más reducida que el de una predicción puntual.

Page 168: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

185

Por los procedimientos descritos líneas arriba, se puede construir un intervalo de confianza

para la verdadera media de Y dado 1+tX ( 1111 )/()ˆ( ++++ +== tttt XXYEYE βα ). Reemplazando los valores se obtiene:

)4557.2(086.2094.1001)4557.2(086.2094.100 +≤++≤− tXβα

o, en otros términos:

21659.105)751/(9714.94 1 ≤=+≤ + tXYE t

La expresión anterior, se debe leer de la siguiente manera: para un valor de Xt+1=75, en 95 de

cada 100 veces los intervalos de confianza incluirán el verdadero valor medio. Del procedimiento anterior se puede deducir que la mejor estimación para este valor es la predicción puntual: 100.094.

Tercer Caso: Predicción condicional En el desarrollo de los casos anteriores se ha mantenido como supuesto que: se conocen de

antemano los valores de las variables explicativas. En líneas precedentes, se ha mencionado que este supuesto no refleja, en varias ocasiones, lo que verdaderamente ocurre en la práctica. Esto se explica porque cuando se desea utilizar el modelo para realizar pronósticos ex ante, a veces es necesario prever valores futuros de las variables explicativas antes de realizar las predicciones. Para tenerlo más claro y de un modo más intuitivo, se dirá que la naturaleza estocástica de los valores estimados para las X originarán predicciones de la variable Y menos fiables que los obtenidos en el caso de predicciones incondicionales. Una de las importantes conclusiones que se obtendrán del presente análisis, es que los intervalos de confianza del 95% para el error de predicción son de mayor amplitud cuando también se pronostican los valores de las X. A continuación, se planteará un caso particular de manera simple pero del que se podrá obtener resultados que enriquecerán nuestro análisis. Así, considerando un modelo de regresión bivariado:

ttt XY εβα ++= ∀ t=1,2,3,...........T

donde εt ∼ ),(N 20 µσ

dado que no se conoce con certeza los valores de la variable independiente, se estima su valor futuro (para el periodo t+1). Como se expresa a continuación:

111ˆ +++ µ+= ttt XX ),(N 20 µσµ ∼ (7.19)

Además, las variables aleatorias ),( tt µε no presentan correlación. Es decir el proceso de

error asociado con la predicción de X t 1+ es independiente del proceso de error asociado con cada una de las Y. A pesar de que es más probable que las variables X sean estocásticas, un supuesto restrictivo utilizado en la estimación por MCO17 y retomado en esta sección es que las variables independientes son determinísticas o frecuentemente denominadas exógenas. La exogeneidad de estas variables se ve reflejada en que no presentan correlación alguna con el

17 Recordemos que en el primer capítulo desarrollamos los supuestos implicados en la estimación por Mínimos Cuadrados Ordinarios, y uno de los supuestos básicos era que las variables independientes no siguen un proceso estocástico. Asimismo, hicimos notar que este supuesto era muy restrictivo.

Page 169: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

186

término de error presente en la ecuación. Por otro lado, el pronóstico de la variable dependiente resulta:

11 ˆˆˆˆ ++ β+α= tt XY (7.20)

de esta manera, se define el error de pronóstico de la siguiente manera:

1111 )ˆˆ()ˆ(ˆ ++++ ε−β−β+α−α= tttt XXe (7.21)

Siguiendo los procedimientos utilizados en páginas anteriores, se probarán las propiedades de este error:

Insesgamiento18:

[ ] )()(ˆ)ˆ()ˆ( 11111 +++++ ε−β−µ+β+α−α= ttttt EXXEEeE 0= La varianza del pronóstico resulta:

( ) 222

22122

)(

11ˆˆ µ

µε σβ

σσσ +

∑ −

+−++= +

XX

XX

T t

tf (7.22)

Un procedimiento similar al de la demostración de la varianza para el caso anterior se

utilizará a continuación. Si el lector tiene alguna dificultad con los cálculos que se describirán en las siguientes líneas, se recomienda revisar el Capítulo 2.

1111 )ˆˆ()ˆ(ˆ ++++ −−+−= tttt XXe εββαα

[ ])ˆˆ)(ˆ(2)ˆˆ()ˆ()ˆ( 11111 +++++ −−+−+−= ttttt XXCovXXVarVareVar ββααββαα

)1( ++ tVar ε

(7.23)

Resulta útil, para el desarrollo del segundo y tercer término de la expresión anterior, reemplazar en la expresión anterior la siguiente transformación:

)ˆ()ˆ(ˆˆˆ11111 βββββ −+−=− +++++ ttttt XXXXX

Así, el segundo término de la expresión (7.23) resulta:

))ˆ(())ˆ(ˆ()ˆˆ( 11111 βββββ −+−=− +++++ ttttt XVarXXVarXXVar (7.24)

donde:

))XX(ˆ(E))XX(ˆ(E))XX(ˆ(Var tttttt2

1122

1111 ++++++ −=−=− βββ

)1()ˆ(2ˆ2)11ˆ(2ˆ+

+=

+−+ tVarVartXtXE µβββ

18 Esta propiedad se cumple, puesto que el estimador de β no tiene relación con µt+1 .

Page 170: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

187

para obtener este resultado, se hace uso de la ecuación (7.19), de los supuestos acerca de las

perturbaciones estocásticas y de la siguiente relación: )ˆ(ˆ 22 βββ Var+= . Luego, se reemplaza la ecuación (7.24) en la expresión anterior, así se tiene:

)ˆ()1()ˆ(2ˆ)ˆˆ( 2111 βµββββ VarXtVarVarXXVar ttt +++ ++

+=− (7.25)

Por otro lado, el tercer término de la ecuación (9.23) se reduce a:

[ ] [ ] [ ])ˆ)(ˆ()ˆ(ˆ)ˆ()ˆˆ)(ˆ( 11111 ββααβααββαα −−+−−=−− +++++ CovXXXCovXXCov ttttt

)ˆ,ˆ(1 βαCovX t+= (7.26) Por último, reemplazando las ecuaciones (7.25) , (7.26) en la expresión (7.23) y agrupando

términos, se obtiene la ecuación correspondiente a la varianza del error de pronóstico para una predicción condicional:

2

12

12

1 )ˆ,ˆ(2)ˆ())ˆ(()ˆ()( εµ σβαβσββα +++++= +++ CovXVarXVarVareVar ttt

[ ] 2221

221 )ˆ,ˆ(2)ˆ()ˆ( µεµ σβσβασβα +++++= ++ CovXXVarVar tt (7.27)

Ahora, como en el segundo caso, se utilizará las expresiones correspondientes a las medidas

de dispersión de los estimadores mínimo cuadráticos, desarrolladas en el Capítulo 2. De esta manera, se obtendrá la expresión (7.22) comparable con el resultado obtenido en (7.15). Analicemos comparativamente tales expresiones. Así, se observa que en la ecuación (7.22) se adicionan dos términos positivos. En primer lugar, el último componente de tal expresión indica que dada la estimación de la variable aleatoria X, se incrementa la dispersión del error de predicción, así se comprueba que al introducir supuestos más realistas (el desconocimiento de los valores futuros de las variables independientes) al modelo aumenta la posibilidad de cometer errores en la predicción. En segundo lugar, para conseguir reducir al máximo la expresión (7.22) es necesario que el pronóstico de Xt+1 se obtenga con una varianza mínima o nula.

Por el analisis anterior, se deduce que los intervalos de confianza del 95% para una

predicción condicional tendrá mayor amplitud que los obtenidos después de efectuar una predicción incondicional. El cálculo se complica cuando se quiere obtener los intervalos de confianza para predicciones condicionales pues se observa que en la expresión (7.21) se incluyen productos de variables aleatorias que se distribuyen normalmente. Así, el pronóstico de la variable dependiente no seguirá una distribución normal como en el caso anterior.

77..66.. TTEESSTT DDEE PPRROONNÓÓSSTTIICCOO PPAARRAA UUNNAA PPRREEDDIICCCCIIÓÓNN EEXXPPOOSSTT

Recuérdese que, uno de los test alternativos de residuos recursivos para evaluar la estabilidad de parámetros en un modelo, visto en el Capítulo 619, es el test de predicción de una etapa ("One step forecast test"). El cual se abordará, con mayor detalle, en esta sección.

Así, el estadístico Chi- cuadrado para el análisis de una etapa es una prueba de la estabilidad

de los parámetros, incluyendo a la varianza del error del modelo de regresión. Lo que hace este

19 Recomendamos revisar la sección 6.2.4 del presente libro para una mejor comprensión de lo descrito en esta sección.

Page 171: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

188

test es buscar la estabilidad en el periodo extramuestral comparándolo con el valor registrado durante el periodo muestral. Acontinuación se detallará el tratamiento formal:

Test Chi- cuadrado:

∑+

+=

HT

Tt

te

1 2

2

ˆ

ˆ

εσ )(2 Hχ≈

donde H representa el número de periodos a pronosticar, el numerador indica una proxy de la varianza del error de pronóstico durante el periodo de predicción y el denominador indica dicha varianza dentro del periodo muestral.

Se sabe que toda prueba estadística posee una hipótesis nula, la cual está sujeta a rechazo o

aceptación. La hipotesis nula, para este test, indica que no ocurren cambios estructurales en ningún parámetro durante la muestra (periodo de estimación) y el periodo de predicción ex post. De modo que, en las siguientes líneas se denotará 1β al parámetro dentro de la muestra y a 2β como el parámetro fuera de ella. Un tratamiento similar tendrán las varianzas, formalmente:

H0 : 1β = 2β

22fσσε =

Notése el parecido de esta prueba con el test de Chow, bajo el test de Chow rechazar la

hipótesis de estabilidad implica que el modelo es rechazado para todo el periodo muestral. Mientras que en este caso, el rechazar la hipótesis nula implica que el modelo no brinda resultados fiables o exactos para predicciones ex ante. La regla es la siguiente:

Si )(22

Hχχ ≤

el modelo predice bien, por tanto se puede usar para predicción ex ante.

Si )(22

Hχχ ≥

el modelo no predice bien, no se puede usar para predicción ex ante.

77..77.. CCRRIITTEERRIIOOSS PPAARRAA CCOOMMPPAARRAARR LLAA CCAAPPAACCIIDDAADD PPRREEDDIICCTTIIVVAA DDEE MMOODDEELLOOSS QQUUEE

CCOOMMPPIITTEENN EENNTTRREE SSÍÍ Además del test mencionado líneas arriba, exsiten diversos criterios que nos permiten

evaluar la calidad de una predicción. Estos criterios son arbitrarios por lo que podrían ser bienvenidos criterios adicionales que sugieran los lectores.. Acontinuación presentaremos los más utilizados en el trabajo aplicado:

Page 172: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

189

1) Raíz del error cuadrático promedio (ECM). Este indicador lo que busca es obtener el error promedio para un horizonte de predicción. Este se aproxima por la raíz cuadrada del promedio de los errores elevados al cuadrado:

RECM= ∑+

+=

HT

1Tt

2te

H

1

2) Error absoluto medio. Este indicador busca obtener el error de predicción promedio a través

del valor promedio para un horizonte de predicción dado (de H períodos) de los valores absolutos de los errores:

EMA= H

eHT

Ttt∑

+

+= 1ˆ

3) Media del valor absoluto del error porcentual. Los dos anteriores indicadores están influencados por las unidades en las cuales están medidas las variables dpendientes de los distintos modelos que se evalúan. Una alternativa propuesta en este indicador es calcular el promedio de los valores absolutos de los errores de predicción para un horizonte de predicción dado con respecto al valor observado de la variable dependiente en cada periodo:

EPMA= ∑+

+=

HT

Tt t

t

Y

e

H 1

ˆ1

4) Coeficiente de desigualdad de Theil: (U de Theil), fue propuesto por Theil en el año 1961 y es el que más se utiliza para evaluar predicciones. Esta prueba lo que busca es tratar de acotar el valor del indicador de bondad de predicción de tal manera que esté en el intervalo (0,1). Una de las versiones que se utiliza de este indicador es la que se presenta a cotinuación:

∑∑

+

+=

+

+=

+

+=

+

−=

HT

Ttt

HT

Ttt

HT

Tttt

YH

YH

YYH

U

1

2

1

2

1

2

1ˆ1

)ˆ(1

Este indicador muestra, de alguna manera, si la correlación entre los valores predichos y los valores observados en una predición ex-post es alta o baja. Este se puede apreciar en el numerador de la expresión. Dado esto podemos explorar los siguientes casos :

• Si U tiende a cero, el modelo puede ser utilizado para predecir dado que sus pronósticos

serán fiables. La razón de que esto sea cero es que el numerador es cero y ello implica que los valores predichos son muy parecidos a los valores observados.

• Si U tiende a 1, el modelo el modelo no sirve para predecir sus pronósticos no son reales.

Nótese que solamente si 0=ttYY (son ortogonales entre sí), el numerador será muy parecido al denominador. No son exactamente iguales porque en el denominador tenemos la suma de las raíces cuadradas y en el numerador tendríamos la raíz cuadrada de la suma de los términos del denominador.

Page 173: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

190

Usualmente, es recomendable descomponer la U de Theil en tres proporciones. Estas nos dan mayor información acerca de las fuentes del error. Y son utilizadas por algunos programas econométricos o estadísticos. La descompsoción se hace de tal manera que:

Sesgo + Varianza + Covarianza =1

La expresión que se utiliza para descompner la U de Theil proviene del error cuadrático de

predicción medio, el cual se puede escribir como:

( ) yyyytt ryyHyy σσσσ ˆˆ)1(2)ˆˆ()ˆ(/ˆ ˆ2

ˆ

2 −+−+−=−∑

Donde: i) Sesgo (Bias proportion): indica la presencia de algún error sistemático, esto es, si es

que se está sub o sobre prediciendo sistemáticamente. Esta proproción debe ser lo más pequeña posible, para considerar al pronóstico confiable. La expresión que se utiliza para computar este proporción es el siguiente:

( )∑ −

−Hyy

yy

tt /)ˆ(ˆ

2

2

El indicador analiza si es que las medias de los valores predichos y valores observados son muy distintas. Como sabemos si se realiza una estiamción el valor promedio de los valores predichos y los valores observados son iguales. En este caso se toma sólo una parte de la muestra y se generan valores predichos con el modelo estimado con una proporción de la muestra. Si los valores de las medias son distintos entonces podremos considerar que existe sesgo en la predicción.

ii) Varianza (Variance proportion): indica la habilidad del pronóstico para replicar la

variabilidad de la variable real observada. Si esta proporción es grande significa que el modelo posee menor capacidad para replicar el comportamiento de la serie. Esto se computa a partir de la siguiente expresión:

∑ −−

Hyy tt

yy

/)ˆ(

)ˆˆ(2

2ˆ σσ

Esta proporción analiza si las predicciones tienen una variabilidad similar a las variables observadas. Se analiza entonces si es que el modelo es capaz de replicar la variabilidad de las observaciones actuales de la variable.

iii) Covarianza (Covariance proportion): Esta medida analiza la correlación que existe

entre los valores predichos y los valores observados. Se clacula a partir de la siguiente expresión:

∑ −−

Hyy

r

tt

yy

/)ˆ(

ˆˆ)1(22

ˆσσ

donde r es el coeficiente de correlación entre los valores predichos y los valores

observados.

Page 174: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

191

!"Comando Eviews

Si se desea utilizar el Econometric Views para predecir una variable, se deben realizar todas

las pruebas referidas en la sección (X.2) sobre el modelo que explica dicha variable y, después de correr esta regresión, se utiliza la opción Forecast del menú del cuadro de regresión. Dentro de esta opción, se tienen dos sistemas o métodos para realizar la predicción. La conveniencia de utilizar una u otra depende de si el interés está en realizar una predicción ex post o ex ante, o si se utiliza un modelo autorregresivo o no. Estos métodos son los siguientes:

i) Dinamic: este método utiliza los valores predichos para realizar las predicciones de modelo

de regresión. Hace lo siguiente:

t1t YˆˆY β+α=+

1t2t YˆˆY ++ β+α=

ii) Static: en este caso se utilizan los valores reales de las variables

t101t YˆˆY α+α=+

1t102t YˆˆY ++ α+α=

Analicemos, con más detalle, estos dos conceptos. En primer lugar, cuando se dispone de la información necesaria (observaciones para la variable dependiente) se puede utilizar el método estático. De modo que, para hacer predicción ex-post resulta el más adecuado en términos de bondad predictiva porque utiliza los valores reales. Sin embargo, si se desea hacer una predicción fuera de la muestra, no podremos utilizar tal método dadas sus características. En ese caso se utilizará el sistema dinámico.

Cabe mencionar que, analizar la bondad predictiva del modelo con la opción static puede

sesgar nuestros resultados si luego utilizamos la opción dynamic para la predicción ex ante. A continuación, se plantearemos los siguientes ejemplos para profundizar todos los conocimientos descritos en este Capítulo.

77..88.. EEJJEEMMPPLLOOSS AAPPLLIICCAATTIIVVOOSS

Ejemplo

Para aclarar estos conceptos se considera el siguiente ejemplo20 donde se busca demostrar la capacidad predictiva de un modelo que incluye la variable dependiente: DEPEND, y los regresores: INDEP1, INDEP2, INDEP3 y DEPEND(-1).

Con este propósito, se debe escoger una adecuada muestra de validación (para una

predicción ex–post) y un conjunto apropiado de estadísticos de eficiencia predictiva. Es decir, se debe responder a la pregunta: ¿Qué muestra de trabajo (período de estimación), muestra de validación y estadísticos utilizaría, de tal modo que optimice el atractivo de su modelo en términos de bondad predictiva? 20 Primera pregunta del Exámen Parcial del curso Ïnformática para Economistas de la Universidad del Pacífico.

Page 175: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

192

Así, el modelo cuya bondad predictiva se desea evaluar es el siguiente:

µβββββ +−++++= )1(321 43210 dependindepindepindepdepend

Date: 06/14/98 Time: 23:39 Sample: 2 200 Included observations: 199 Variable Coefficient Std. Error t-Statistic Prob. C 213.0174 85.88013 2.480404 0.0140 INDEP1 3.442259 0.406753 8.462785 0.0000 INDEP2 1.023553 0.010462 97.83736 0.0000 INDEP3 2.515853 1.402607 1.793698 0.0744 DEPEND(-1) 0.302066 0.009614 31.41787 0.0000

R-squared 0.981684 Mean dependent var 1236.272 Adjusted R-squared 0.981307 S.D. dependent var 123.9630 S.E. of regression 16.94872 Akaike info criterion 5.685189 Sum squared resid 55728.25 Schwarz criterion 5.767935 Log likelihood -843.045 F-statistic 2599.484 Durbin-Watson stat 1.775883 Prob(F-statistic) 0.000000

Según la sección (7.2), el primer paso para comprobar la bondad predictiva de un modelo

consiste en verificar la no-existencia de algún tipo de problema, así se debe comprobar que:

• El error del modelo se distribuye normalmente (Test de normalidad del error - Jarque Bera). • El modelo está bien especificado (Test de Ramsey) • Los parámetros son estables (Test CUSUM cuadrado). • El error del modelo no presenta heterocedasticidad (Test de White) • El error no se encuentra autocorrelacionado (Test de Breusch-Godfrey).

Pruebas estadísticas

Ahora, se probará si nuestro modelo cumple con los requisitos antes descritos. De esta manera, se empieza con probar la normalidad del error, utilizando el test de normalidad (Jarque-Bera)

Page 176: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

193

0

5

10

15

20

-50.0 -37.5 -25.0 -12.5 0.0 12.5 25.0 37.5

Series: ResidualsSample 2 200Observations 199

Mean -2.56E-14Median -0.504959Maximum 44.16566Minimum -48.35876Std. Dev. 16.77665Skewness 0.074088Kurtosis 2.999243

Jarque-Bera 0.182058Probability 0.912991

Dado que ya se conoce la hipótesis nula de este tipo de test, sólamente se dirá que la

probabiliadad asociada al estadístico indica que la hipótesis nula de normalidad del error es no rechazada (aceptada en el argot común). Luego se prueba la especificación del modelo, con el test RESETde Ramsey. Así, después de correr la regresión en el Econometrics Views y de realizar la prueba correspondiente, se obtiene los siguientes resultados, en resumen:

Ramsey RESET Test: F-statistic 0.807717 Probability 0.490998 Log likelihood ratio 2.508764 Probability 0.473709 Test Equation LS// Dependent Variable is DEPEND Sample: 2 200 Included observations:199

Notemos que, la probabilidad asociada al F estadístico del test de Ramsey RESET es igual a

0.49. Por lo que no se puede rechazar la hipótesis nula de que el modelo está bien especificado. Es decir que todos los regresores cumplen con el objetivo de explicar bien el modelo.

Ahora, se prueba la estabilidad de los coeficientes. Los siguientes test fueron estudiados en

el Capítulo (6) del presente libro: Tests de Estabilidad de Parámetros:

A) Test Cusum cuadrado B) Test de parámetros recursivos

Page 177: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

194

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

20 40 60 80 100 120 140 160 180 200

CUSUM of Squares 5% Significance

0

1

2

3

4

5

6

7

20 40 60 80 100 120 140 160 180 200

Recursive C(1) Estimates ± 2 S.E.

0.90

0.95

1.00

1.05

1.10

20 40 60 80 100 120 140 160 180 200

Recursive C(2) Estimates ± 2 S.E.

-10

-5

0

5

10

15

20 40 60 80 100 120 140 160 180 200

Recursive C(3) Estimates ± 2 S.E.

0.18

0.20

0.22

0.24

0.26

0.28

0.30

0.32

0.34

20 40 60 80 100 120 140 160 180 200

Recursive C(4) Estimates ± 2 S.E.

-800

-400

0

400

800

1200

20 40 60 80 100 120 140 160 180 200

Recursive C(5) Estimates ± 2 S.E.

El Test de CumsumQ, señala de modo gráfico que los parámetros hallados para la muestra utilizada son estables a lo largo de la misma. Sin embargo, se observa que el valor del test toca la banda de confianza alrededor del intervalo 115 a 120. Para asegurar de que no existe quiebre en esos periodos se utiliza un prueba mas potente como es el Test de Chow para los periodos desde 115 a 120, el resultado de estos tests fue que no se puede aceptar la presencia de quiebre estructural de los parámetros.

Es necesario recordar que la prueba de estabilidad de parámetros es muy importante al

momento de evaluar la bondad de predicción de un modelo. Si se tiene que una determinada muestra presenta muchos quiebres, se tiene que enfrentar la probabilidad que en el futuro los parámetros también cambien de valor por lo que el modelo perdería su capacidad predictiva.

White Heteroskedasticity Test: F-statistic 2.455404 Probability 0.014944 Obs*R-squared 18.64598 Probability 0.016872 Test Equation: LS // Dependent Variable is RESID^2

Sample: 2 200 Included observations: 199

Por el cuadro anterior se observa que existe evidencia de heterocedasticidad, problema que comúnmente debe ser solucionado antes de realizar una predicción.

Pero, recuérdese la intuición que está detrás de un error heterocedástico. La

heterocedasticidad hace que σ2µ deje de ser una constante y por tanto un supuesto básico de la regresión por MCO se violaría. Así, la varianza del error del modelo de regresión sería una función del tiempo. Lo cual deberá tomarse en cuenta al momento de calcular la amplitud de los intervalos de confianza. De esta manera, la heterocedasticidad parece afectar al modo como se hallan los intervalos de confianza más no a la predicción misma, lo cual sí sucede con la autocorrelación.

Page 178: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

195

En consecuencia, para efectos del ejemplo presentado, se decide dejar de lado el problema de la heterocedasticidad. Pues, como se ha señalado, ésta no afectará a la predicción en sí. A continuación se probará la autocorrelación del error.

Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.845386 Probability 0.519123 Obs*R-squared 4.353219 Probability 0.499759 Test Equation: LS // Dependent Variable is RESID

El Test de Breusch-Godfrey nos señala que no existe suficiente evidencia estadística para confirmar la presencia de autocorrelación del error en el modelo.

La autocorrelación, a diferencia de la heterocedasticidad, sí altera el modo de generar las

predicciones numéricas. Por ello, si los resultados hubieran sido desfavorables tendríamos que resolver el problema utilizando los métodos ya estudiados en el Capítulo 8.

Evaluación de la predicción

Como primer paso para evaluar la predicción del modelo se elige una muestra de validación al azar, por ejemplo las 5 últimas observaciones. Al aplicar la opción forecast static del E-Views resulta lo siguiente:

Actual: DEPEND Forecast: DEPENDF Sample: 195 200 Include observations: 6 Root Mean Squared Error 23.32726 Mean Absolute Error 19.21309 Mean Absolute Percentage Error 1.570302 Theil Inequality Coefficient 0.009255 Bias Proportion 0.133292 Variance Proportion 0.034349 Covariance Proportion 0.832359 Como se observa en el cuadro de regresión precedente, el modelo parece adecuado para

predecir, pues el estadístico U propuesto por Theil, es muy cercano a cero. Por otro lado, el sesgo y la varianza son relativamente pequeños mientras que la covarianza

entre la variable observada y la predicha es grande. En otras palabras, están altamente correlacionadas, lo cual es favorable para la predicción.

El problema planteado consiste en hallar la muestra de validación con la cual se obtenga la

mejor prueba de la bondad predictiva del modelo. Para tal fin, es recomendable utilizar un procedimiento estático dado que éste utiliza los valores observados de la variable dependiente rezagada que se halla dentro del modelo en lugar de los predichos.

Page 179: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

196

Para evaluar las distintas predicciones se decide utilizar el estadístico de la U de Theil y el Error cuadrático medio. Pues, como se ha desarrollado en páginas anteriores, el primer estadístico no enfrenta el problema de unidades de medida, y es el más confiable de los estadísticos de predicción. Luego, para encontrar estos estadísticos en cada muestra de validación se elaboró el un programa en E-Views que se presenta en el anexo 7.1.

Al correr el programa y observar la tabla “TABLA” vemos que la mejor U de Theil así como el

menor error cuadrático medio corresponden a la muestra de validación desde 164 a 200.

mejor # utheil

mejor utheil

mejor # ecm

mejor ecm

163.00000 0.0059560 163.00000 15.037422 Donde:

Mejor # utheil = tiempo de la última observación antes del primer momento de la muestra de validación con la menor U de Theil.

Mejor utheil = la menor U de Theil de las diferentes muestras de validación evaluadas. Mejor # ecm = tiempo de la última observación antes del primer momento de la muestra de

validación con el menor error cuadrático medio. Mejor ecm = el menor error cuadrático medio de las diferentes muestras de validación evaluadas.

ANEXO 7.1 'PROGRAMA PARA HALLAR LA MEJOR MUESTRA DE VALIDACIÓN ÓPTIMA

'==============================================================

'En la primera parte se definen los valores que serán utilizados a lo largo del programa, las primeras tres variables toman el valor de la última observación a partir de la cual se desea realizar una predicción ex post (si son iguales a 155, se tomará pruebas expost a partir de 156, calculando los parámetros hasta 155, luego se hará la prueba expost a partir de 157 hasta 200, tomando los parámetros con la muestra tomada hasta 156 y así sucesivamente).

'El total indica el número de observaciones conque se trabaja. Por otro lado el !menutheil será

utilizado para considerar los u de Theil menores al valor indicado, y el !menecm indicará cuál es el mínimo error cuadrático medio con el que al final del programa se trabajará.

'!col será utilizada porque indica el numero total de regresiones que se tendrán. !q=150 !per=150 !ult=150 !k=!q-1 !total=200 !col=200+1-!q equation temp matrix(5,!col) betas=0 !menutheil=1 !menecm=1000 %0 %1 %2 %3

Page 180: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

197

'==============================================================

'En esta parte del programa se busca hallar los coeficientes estimados, con los que se "predecirá" en la predicción expost y se evaluará la bondad de dicha predicción. Para ello, se comienza corriendo una regresión de las variables a utilizar con una muestra desde 1 hasta la señalada en !q (donde se parte la muestra), los coeficientes obtenidos sin guardados en una matriz denominada "betas". Luego, se hallarán los parámetros de la regresión que usa una muestra desde 1 hasta !q+1 (156 en este caso) y así sucesivamente hasta utilizar la muestra entera, y guardar todos los parámetros obtenidos en las !col regresiones dentro de la matriz creada.

while !q<=!total smpl 1 !q temp.ls %0 c %1 %2 %3 %0(-1) !conteo=1 while !conteo<=temp.@ncoef betas(!conteo,!q-!k)=temp.c(!conteo) !conteo=!conteo+1 wend !q=!q+1 wend

'============================================================== 'Luego de obtener los parámetros, estos deben de multiplicarse por las series que contienen a las

variables explicativas. Previamente, en el workfile, se genera la serie deprez=depend(-1) y una serie de unos denominada const y luego agrupar las variables indep1, indep2, indep3 y deprez, para transformar el grupo obtenido denominado "explicativas" en una matriz como se muestra en líneas siguientes. Nótese que, es necesario recortar la muestra pues, de otro modo, no se podrá formar la matriz ya que la serie deprez no tiene observación para el momento t=1.

'Después de formar la matriz explicat, se multiplica por los coeficientes que componen la matriz

“betas”. De este modo, se obtiene los estimados de la variable dependiente utilizando los coeficientes calculados con la muestra hasta 150, 151, 152, etc. hasta 200. Para trabajar con estas predicciones se transforma la matriz resultante en un grupo de series.

genr deprez=%0(-1) genr const=1 group explicativas const %1 %2 %3 deprez smpl 2 !total stom(explicativas,explicat) matrix(199,!col) estimad=explicat*betas mtos(estimad,estim)

'============================================================== 'Una vez obtenidas las series con los valores predichos (forecast) de la dependiente utilizando distintos

coeficientes, se hallarán los estadísticos que permitirán evaluar la bondad de predicción. Estos, serán insertados en una tabla con el fin de facilitar su uso.

table(100,6) tabla tabla(1,1)="numero" tabla(1,2)="ecm" tabla(1,3)="suma1" tabla(1,4)="suma2" tabla(1,5)="utheil" tabla(1,6)="mejor # utheil" tabla(1,7)="mejor utheil" tabla(1,8)="mejor # ecm" tabla(1,9)="mejor ecm"

Page 181: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

198

'============================================================== 'Aquí se inicia el look que permitirá hallar el error cuadrático medio y la U de Theil de cada

predicción, dependiendo del tamaño de la muestra utilizada ex post. Los valores serán colocados en una tabla.

'Para facilitar el trabajo se forma primero un grupo de series, las series error!per que equivale a la serie

de errores de predicción, esta serie sólo toma en cuenta los errores para la muestra ex post, mientras que en el resto de observaciones no presenta ningún valor (por ello se delimita la muestra).

FOR !n=1 to !col-1 smpl !n+!ult !total genr error!per=depend-ser!n genr suma1!per=ser!n genr suma2!per=depend

'============================================================== ' El siguiente paso consiste en llenar la tabla: En la primera columna, se colocará el número de la

última observación utilizada en la regresión que dio origen a los parámetros utilizados para calcular el error de predicción. El error cuadrático medio será colocado en la segunda columna.

'En la tercera y cuarta columna se irán poniendo otros componentes que son utilizados para calcular la

U de Theil. smpl 1 !total genr ec!per=error!per^2 genr ecm!per=(ec!per/(!total-!per)) tabla(!n+1,1)=!per tabla(!n+1,2)=(@sum(ecm!per))^0.5 genr sum1!per=(suma1!per^2)/(!total-!per) tabla(!n+1,3)=(@sum(sum1!per))^0.5 genr sum2!per=(suma2!per^2)/(!total-!per) tabla(!n+1,4)=(@sum(sum2!per))^0.5

'============================================================== 'La U de Theil se colocará en la quinta columna de la tabla. 'Luego, se buscará si ésta es menor que la anterior, de ser así, se tomará como valor de la variable

!menutheil. Es decir, se considerará el menor valor de la U de Theil hasta el momento. El programa ordenará que la mínima U theil sea colocada en la séptima columna, acompañada en la sexta columna por el numero de observaciones considerado para hallar la predicción. Algo similar se efectúa con el error cuadrático medio, donde los valores son colocados en la novena y octava columna respectivamente.

tabla(!n+1,5)=@val(tabla(!n+1,2))/(@val(tabla(!n+1,3))+@val(tabla(!n+1,4))) !utheil=@val(tabla(!n+1,5)) !ecm=@val(tabla(!n+1,2)) IF !utheil<!menutheil THEN !menutheil=!utheil tabla(2,6)=tabla(!n+1,1) tabla(2,7)=tabla(!n+1,5) ENDIF IF !ecm<!menecm THEN !menecm=!ecm tabla(2,8)=tabla(!n+1,1)

Page 182: Casas Econometria Moderna(2)[1]

Econometría Moderna Predicción

199

tabla(2,9)=tabla(!n+1,2) ENDIF !per=!per+1 NEXT For !borra=!ult to !total-1 d ec!borra d ecm!borra d error!borra d sum1!borra d sum2!borra d suma1!borra d suma2!borra next For !borra=1 to !col d ser!borra next 'FIN del PROGRAMA Este programa, como se ha señalado, hallará los estadísticos de la U de Theil y del Error Cuadrático

Medio para cada muestra de validación y los colocará en una tabla llamada “TABLA”. Luego, en la misma tabla señalará cuál es la muestra de validación que presentará la mejor U de Theil

(la menor U de Theil) así como el valor que toma ésta U de Theil mínima. Por otro lado, hace lo mismo respecto al error cuadrático medio, indica cuál es su menor valor y a qué muestra de validación corresponde.

Page 183: Casas Econometria Moderna(2)[1]

CCAAPPÍÍTTUULLOO 88 PPEERRTTUURRBBAACCIIOONNEESS NNOO EESSFFÉÉRRIICCAASS

HHEETTEERROOCCEEDDAASSTTIICCIIDDAADD YY AAUUTTOOCCOORRRREELLAACCIIÓÓNN

88..11.. LLAASS CCOONNDDIICCIIOONNEESS DDEE GGAAUUSSSS -- MMAARRKKOOVV El planteamiento del modelo lineal general asume que el término de error o perturbación

cumple con las cuatro llamadas condiciones de Gauss - Markov. Suponiendo una ecuación de regresión de la forma:

y = α + βx + u (8.1)

estas condiciones (que son parte de los supuestos del modelo lineal general) pueden resumirse en:

• E(ui) = 0 para todo i • Var(ui) = σ2 (constante) para todo i • Cov (ui,uj) = 0 para todo i ≠ j • Cov (xi, ui) = 0 (lo cual implica que las variables explicativas son no estocásticas) El segundo y tercer supuestos se pueden resumir en términos matriciales (para el modelo lineal general) a través de la siguiente expresión:

nIE 2)( µσµµ =′ (8.2)

Cuando se cumplen estas dos condiciones se dice que los errores son esféricos. La idea que está detrás de este concepto es que si pensamos en una distribución multivariada de orden n el centro de la distribución estaría dada por la media de la misma. A partir de allí si nos queremos alejar de ese centro en cualquier dirección (que corresponde a cada una de las dimensiones del espacio

Page 184: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

202

n-dimensional) la distancia a la que nos alejamos vendrá dada por la desviación estándar de los errores (σ ). Si unimos todos esos puntos el resultado será una esfera. En las siguientes páginas se analizarán las consecuencias de no satisfacer el segundo y tercer supuesto, es decir que la matriz de varianzas y covarianzas de los errores ya no será diagonal y que todos los elementos de la diagonal principal serán iguales. La violación del segundo supuesto da origen al problema de heterocedasticidad e implica que la varianza del término de error no es constante para cada observación. Por otro lado, Si los elementos fuera de la diagonal de la matriz de varianzas y covarianzas de los errores son distintos de cero, se viola el tercer supuesto y como resultado tendremos el problema de autocorrelación. Este problema significa que los términos de error no son independientes, es decir, el tamaño del error para un periodo determinado afecta el valor del periodo u observación siguiente. En general, intentaremos analizar los efectos que tiene sobre el estimador de mínimos cuadrados ordinarios la siguiente condición:

nIE ≠ΣΣ=′ donde )( 2µσµµ

Debe mencionarse que la presencia de ambos problemas se refiere a las características de la distribución de los errores, la cual es de donde provienen todos los elementos que conforman la población de los errores. Recordemos que nosotros trabajamos con una muestra de datos que suponemos provienen de una población con ciertas características. Estas características vienen dadas por la forma de la distribución. Por tanto, son problemas poblacionales. En general, a partir de la discusión anterior nos queda la impresión de que estos problemas no deberían existir porque van a afectar las propiedades del estimador de mínimos cuadrados ordinarios. De hecho, sabemos desde el capítulo 3 que si no se cumplen las condiciones de Gauss-Markov tendremos un estimador que ya no será el estimador lineal insesgado óptimo (ELIO). Sin embargo, debemos recordar que si las características de los datos son distintas a los de los supuestos con los cuales se construye un estimador, debemos incorporar estas características al momento de realizar la estimación. Los supuestos de homocedasticidad y ausencia de autocorrelación pueden verse como restricciones sobre los datos las cuales deberán ser verificadas a través de distintas pruebas. Por ello, el planteamiento general es que ambos problemas pueden estar presentes y el método de estimación deberá incorporarlos de manera general. 88..22.. EELL EESSTTIIMMAADDOORR DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS OORRDDIINNAARRIIOOSS Antes de iniciar cualquier planteamiento general que intente incluir los efectos mencionados líneas arriba conviene analizar cuáles son los efectos de la estructura de varianzas y covarianzas de los errores que hemos planteado sobre las propiedades del estimador de mínimos cuadrados ordinarios. Para esto estudiaremos las propiedades de insesgamiento y eficiencia de este estimador. El modelo que utilizaremos para analizar estos efectos será el lineal general:

µβ += XY (8.3) Sin embargo debemos dejar explícitos los siguientes supuestos con respecto al error.

Σ=′= 2)( 0)( µσµµµ EE (8.4)

Page 185: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

203

El estimador de mínimos cuadrados ordinarios que busca minimizar la suma de errores al cuadrado es, como sabemos:

YXXX ′′= −1)(β (8.5) Para analizar el insesgamiento del estimador reemplazamos el modelo verdadero en la fórmula del estimador:

[ ]µββ +′′= − XXXX 1)(ˆ

µββ XXXXXXX ′′+′′= −− 11 )()(ˆ

)()()ˆ( 1 µββ EXXXE ′′+= −

βββ =+= 0)ˆ(E Como se puede apreciar el estimador MCO sigue siendo insesgado. Esto se deriva del hecho que para analizar esta propiedad sólo se hace uso del primer momento de la distribución que como hemos señalado no ha cambiado (la esperanza de los errores es igual a cero). Analicemos ahora la varianza del estimador. A partir de los resultados obtenidos en torno al sesgo, podemos plantear lo siguiente:

( )( )[ ] [ ]

112

11

11

)()(

)()()(

)()()ˆ(ˆ)ˆ(ˆ

−−

−−

−−

′Σ′′=

′′′′=

′′′′=−−

XXXXXX

XXXEXXX

XXXXXXEEEEl

µσ

µµµµββββ

(8.6)

La presencia de la matriz Σ evita que se anulen los términos 1)( −′XX y XX ′ por lo que observamos es que la varianza del estimador MCO dada la nueva estructura de varianzas y covarianzas del error es mayor que cuando los errores son ruidos blancos. Por lo tanto, el estimador MCO ya no tiene varianza mínima, se ha perdido la propiedad de eficiencia. Dado lo anterior, es necesario buscar la forma en que se restablezca la propiedad deseada de los errores para obtener un estimador eficiente. Este estimador será el de mínimos cuadrados generalizados. 88..33.. EELL EESSTTIIMMAADDOORR DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS GGEENNEERRAALLIIZZAADDOOSS En el acápite anterior hemos analizado los efectos de la estructura de varianzas y covarianzas nueva sobre el estimador de mínimos cuadrados ordinarios. La pregunta ahora es ¿podemos hacer algo para recuperar las condiciones deseadas? La respuesta a esta pregunta es afirmativa. Lo que buscamos ahora es ver qué transformación debemos hacer a los datos para convertir a los errores en ruidos blancos. Una manera de iniciar todo lo anterior implica premultiplicar el modelo original por una matriz P de dimensiones n x n, de la forma:

PY = (PX)β +PU

Y* = X*β + U* (8.7)

Al realizar esta operación, cada nueva observación (y*) resulta una combinación lineal de todas las observaciones contenidas en el vector original. De un modo similar, cada nueva

Page 186: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

204

observación de la variable xi (xi* donde i = 1,...,k) es ahora una combinación lineal de todas las observaciones de la variable xi. La matriz de covarianzas del nuevo término de error sería:

PPPUVarUVar ′Σ== 2* )()( µσ (8.8)

donde la matriz ∑ contiene los coeficientes que, multiplicados por σ2, garantizan que la varianza no sea constante en el tiempo (evidentemente, en el caso de una perturbación homocedástica ∑ sería la matriz identidad). Partiendo de este nuevo planteamiento para el modelo, el análisis se centra ahora en construir una matriz P que garantice que el producto matricial P∑P’ sea igual a la matriz identidad, de tal suerte que la varianza del término de error no varíe con cada observación. Para esto, descompongamos la matriz ∑ en el producto de dos matrices cuadradas de tal forma que1: ∑ = VV’o, equivalentemente:

V-1 ∑ (V-1)’ = I (8.9)

Lo anterior demuestra que la matriz de transformación P, que garantiza una matriz de covarianzas (∑) escalar y por tanto términos de error homocedásticos, es precisamente la matriz V-1. En otras palabras, premultiplicando el modelo original por la matriz V-1 de tal forma que Y* = V-1Y, X* = V-1X y U* = V-1U, la matriz de varianzas y covarianzas del término de error vendría dada por:

Var(U*) = σ2V-1 ∑ (V-1)’ = σ2I (8.10) Lo cual implica que cada varianza sería constante para cada observación y las covarianzas entre los distintos errores serían nulas. En este caso, el estimador MCO de los parámetros del modelo recibe el nombre de estimador de mínimos cuadrados generalizados (MCG) y viene dado por la expresión:

( ) ( )( ) YXXX

YVVXXVVXYXXXmcg

111

11111**1** )()(´´ˆ

−−−

−−−−−−

Σ′Σ′=

′′′′==β (8.11)

Evidentemente, para que la estimación por mínimos cuadrados generalizados pueda ser considerada como una posible solución al problema de heterocedasticidad, los estimadores deben ser insesgados y óptimos (recordemos que uno de los principales problemas asociados a la presencia de errores heterocedásticos es la estimación de parámetros ineficientes). La primera condición, referida a la obtención de estimadores insesgados, puede ser comprobada fácilmente.

( ) ( ) ( ) ( ) UXXXUXXXXYXXXmcg ´´´´´´ˆ *1****1****1** −−− +=+== βββ

Aplicando el operador de esperanza matemática:

ββ =)( mcgE (8.11)

Este resultado se obtiene a partir de la propiedad que la esperanza de los errores es igual a cero. 1 Para poder realizar esta descomposición ∑ debe ser una matriz simétrica y definida positiva. Esto sería el equivalente matricial a decir que cualquier número positivo tiene una raíz cuadrada definida en el conjunto de los números reales.

Page 187: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

205

Para demostrar la optimalidad del estimador MCG debemos primero calcular su varianza: Var(β*MCG) = E{(β*MCG - E(β*MCG)(β*MCG - E(β*MCG)’} = E{((X*’X*)-1X*’U*)((X*’X*)-1X*’U*)’} = E{(X*’X*)-1X*’U*U*’X*(X*’X*)-1 ’} = E(U*U*’)(X*’X*)-1 = σ2(X*’X*)-1 = σ2(X’∑-1X)-1

Al comparar este resultado con la varianza estimador MCO obtenemos la siguiente formulación:

Var(β*MCG) - Var(βMCO) = σ2(X’∑-1X)-1 - σ2(X’X)-1X’∑X(X’X)-1 = σ2 {(X’∑-1X)-1 - (X’X)-1X’∑X(X’X)-1} (8.12)

La matriz resultante {(X’∑-1X)-1 - (X’X)-1X’∑X(X’X)-1} es semidefinida negativa por lo que

la varianza del estimador MCG es menor que la varianza del estimador MCO en presencia de perturbaciones no esféricas. Lo anterior se deriva del hecho que la transformación efectuada restablece las condiciones de Gauss –Markov acerca de la ausencia de heterocedasticidad y de autocorrelación. Una vez restablecidas estas condiciones a través de las transformaciones efectuadas a los datos, el estimador que se obtiene de aplicar el criterio de mínimos cuadrados ordinarios al modelo con las variables transformadas contará con las propiedades usuales. 88..44.. HHEETTEERROOCCEEDDAASSTTIICCIIDDAADD La segunda condición de Gauss - Markov implica que la varianza de la perturbación debe ser constante para cada observación. Si este supuesto se verifica para toda la muestra se puede concluir que los errores son homocedásticos. Antes de desarrollar más profundamente lo que implica que este supuesto no se cumpla vale la pena discutir lo que significa que la varianza del error sea o no constante. Evidentemente, al momento de estimar una regresión el término de error para cada observación tiene sólo un valor, de modo que resulta interesante preguntarse a qué nos estamos refiriendo al momento de hablar de su varianza. Específicamente, al referirnos a las propiedades del término de error se está hablando de su comportamiento potencial antes de que la muestra sea analizada. En este sentido, al suponer un comportamiento homocedástico se está realizando una conjetura acerca de la dispersión del término del error, específicamente, supone que esta dispersión es la misma para toda la muestra, en otras palabras, quiere decir que la probabilidad de que el error tome un determinado valor va a ser siempre la misma. También se puede decir que, para cada periodo existe una distribución para el término de error y el valor observado corresponde sólo a una realización de dicha distribución. En este sentido, el supuesto de homocedasticidad implica que la distribución relevante para cada observación es la misma. En algunos casos, sin embargo, puede ser más razonable pensar que la distribución del término de error es diferente para cada observación en cuyo caso su varianza también diferiría. Por ejemplo, el hecho de que la varianza de la perturbación muestre un comportamiento creciente para cada observación no significa que el error deba necesariamente registrar un valor muy alto en las últimas observaciones pero sí implica que la probabilidad de tener un valor errático sea mayor. Este es un ejemplo de heterocedasticidad la cual, en términos generales, significa que el error muestra diferentes dispersiones para cada observación o, lo que es lo mismo, que la probabilidad de que el término de error tome un determinado valor es diferente para cada observación.

Page 188: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

206

8.4.1 ¿Qué implica la heterocedasticidad? En general, existen dos problemas principales al momento de trabajar con una muestra que presenta un término de error heterocedástico. Ambos se refieren a los estimadores de los parámetros de la ecuación de regresión pero el primero está relacionado a su eficiencia mientras que el segundo a su significancia estadística. Al momento de estimar los parámetros se busca que éstos sean insesgados y óptimos. Específicamente, la optimalidad de los estimadores depende de su varianza la cual deberá ser mínima. Si los términos de error presentan un comportamiento homocedástico, la varianza de los estimadores MCO será la mínima de todos los posibles estimadores lineales insesgados. Por el contrario, ante la presencia de heterocedasticidad, los estimadores de los parámetros no serán eficientes, lo cual implica que se pueden calcular otros estimadores de menor varianza. En otras palabras, para demostrar que un comportamiento heterocedástico del término de error conlleva a la existencia de estimadores MCO no eficientes basta encontrar otro estimador que registre una menor varianza.

Una vez descritas las implicancias de la heterocedasticidad sobre el estimador de mínimos cuadrados ordinarios, conviene precisar cuál sería la forma específica del estimador de mínimos cuadrados generalizados para este caso. Si tomamos en cuenta el modelo lineal general:

µβ += XY en donde el vector de errores tiene esperanza igual a cero y le estructura de covarianzas tendría el siguiente patrón:

=′

−2

21

22

21

0....0

0.

...

...

...

.0

0....0

)(

n

n

E

σσ

σσ

µµ (8.13)

Aquí vemos que la matriz de varianzas y covarianzas es diagonal y que los elementos de la diagonal no son iguales entre sí. Sin embargo debemos recordar que la estructura general presentada anteriormente responde a la siguiente forma:

)( 2 Σ=′ µσµµE (8.14)

Esto implica que existe una constante que se puede factorizar y que la matriz Σ es diagonal con elementos distintos a lo largo de ella. La única forma por la cual ambas expresiones sean

compatibles es suponer que la constante ( 2µσ ) es igual a 1. La racionalidad de este supuesto

quedará clara más adelante. Teniendo esto en mente podemos proceder a realizar la descomposición de la matriz Σ en VV´. Dada la forma de la matriz Σ la descomposición implica que V tendrá la siguiente forma:

Page 189: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

207

=

n

n

V

σσ

σσ

0....0

0.

...

...

...

.0

0....0

1

2

1

(8.15)

Como se puede apreciar la matriz V también es diagonal y sabemos que una matriz diagonal es simétrica por lo que su transpuesta es igual a sí misma. Es fácil comprobar (y queda como trabajo para el lector) que, para este caso VV ′=Σ . Dada la descomposición anterior veremos que la matriz por la cual habría que transformar los datos (V-1) tendría la siguiente forma:

=

n

n

V

σσ

σσ

/10....0

0/1.

...

...

...

./10

0....0/1

1

2

1

1 (8.16)

Ahora, si premutiplicamos tanto el vector de observaciones de la variable dependiente así como la matriz que contiene las observaciones de las variables independientes, el resultado será:

=

−−

nn

nn

y

y

y

y

YV

σσ

σσ

/

/

.

.

.

/

/

11

22

11

1

=

−−−−−

nknnnn

nknnnn

k

k

xx

xx

xx

xx

XV

σσσσσσ

σσσσσσ

///1

///1

...

...

...

///1

/..//1

2

111121

222222

111211

1 (8.17)

Asimismo, si premultiplicamos el vector de errores tendremos lo siguiente:

=

−−

nn

nn

V

σµσµ

σµσµ

µ

/

/

.

.

.

/

/

11

22

11

1 (8.18)

Page 190: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

208

Tal como se muestra en (8.18), la transformación del vector de errores implica estandarizar los errores. Como sabemos, la esperanza de cada uno de los errores es igual a cero por lo que el numerador de cada observación es interpretado como la desviación con respecto a la media y si lo dividimos entre la desviación estándar obtenemos los errores estandarizados. Como sabemos que los errores están estandarizados y suponemos que estos siguen una distribución normal, la varianza de cada uno de ellos será igual a 1. Por ello, anteriormente supusimos que la constante por la que se factorizaba toda la matriz de varianzas y covarianzas de los errores era igual a 1. El objetivo de toda la transformación ha sido estandarizar los errores para lograr observaciones de ellos que tengan una varianza constante. Ese sería el beneficio de realizar tal transformación. El costo es que las demás variables del modelo también han sido divididas por dicha desviación estándar con lo cual su interpretación es distinta a la original. Debemos notar que lo que se ha hecho en última instancia es ponderar cada uno de los errores por su desviación estándar a fin de lograr cierta equivalencia entre ellos En el modelo lineal simple, el planteamiento es similar. Para ilustrar lo anterior planteemos el modelo de forma explícita:

yi = βxi + ui donde V(ui) = σi2

El modelo a estimarse no incluye intercepto con el fin de simplificar los resultados. En este

caso, el estimador MCO vendría dado por:

!β β= = +∑∑

∑∑

x yx

x ux

i i

i

i i

i2 2

(8.19)

y su varianza sería igual a:

( )∑ 2i

2

x = )ˆV(

µσβ

(8.20)

Ahora, suponga que σi

2 = σ2zi2, donde zi es conocido. Entonces, dividiendo el modelo

planteado anteriormente por zi se tendría:

yz

xz

vi

i

i

i

i= +β (8.21)

donde vi = ui/zi tiene varianza constante (σ2). Como ya hemos mencionado, la estimación mínimocuadrática de los parámetros del modelo con las variables transformadas recibe el nombre de mínimos cuadrados ponderados ya que se está ponderando la i-ésima observación por 1/zi. En este caso, el estimador vendría dado por la siguiente relación:

( )( )( )

β * =y / z x / z

x / z

i i i i

i i2

∑∑

(8.22)

y su varianza vendría dada por:

( )V ( * ) =

x / z

2

i i2β σ

∑ (8.23)

Tal como se indicó anteriormente, para demostrar que la presencia de heterocedasticidad implica la estimación de parámetros no óptimos basta con encontrar algún otro estimador de

Page 191: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

209

menor varianza. Sustituyendo σi2 = σ2zi

2 en la expresión para la varianza del estimador MCO tenemos:

( )22i

2i2

x

z=)ˆV(

∑∑σβ

(8.24)

Por lo que:

( )( )

( )∑∑∑=

2i

2i

2i

22i

z/zx

x

ˆV

*)V(

ββ

Esta expresión es menor a uno si zi

2 no es constante en cuyo caso los errores son heterocedásticos2. En conclusión, la varianza del estimador de mínimos cuadrados ponderados resulta menor a la varianza del estimador minimocuadrático cuando zi

2 no es constante o, lo que es lo mismo, cuando el término de error presenta un comportamiento heterocedástico. El problema asociado a la ineficiencia de los parámetros estimados puede, sin embargo, ser demostrado de un modo más intuitivo. Supongamos, tal como en el ejemplo planteado anteriormente, que la varianza del error muestra un comportamiento creciente para cada observación. Si elige una observación donde el término de error registra una menor desviación estándar, esta observación será un indicador confiable de la ubicación de la línea de regresión. Por el contrario, si elegimos una observación con una mayor desviación estándar (mayor dispersión), ésta será un indicador muy pobre de la ubicación de la línea de regresión. El método de Mínimos Cuadrados Ordinarios no discrimina respecto a la calidad de las observaciones, otorgándole un mismo peso a todas. Esto implica que frente al problema de heterocedasticidad existe la posibilidad de encontrar otro mecanismo para la estimación de los parámetros que, en este caso particular, consistiría en otorgar un mayor peso a las observaciones que muestren una mejor calidad en cuanto a indicadores de la posición de la línea de regresión. Por otro lado, y en lo que se refiere a la significación estadística de los parámetros estimados, cabe recordar que éstos son calculados bajo el supuesto de que los términos de error presentan un comportamiento homocedástico. El problema referido a la validez de los estimadores surge debido a que, frente a la presencia de heterocedasticidad, las desviaciones estándar tienden a ser subestimadas lo que implica que los estadísticos-t tenderán a estar sobrestimados. Esto último implica que, bajo un nivel de significancia dado, será probable que se rechace la hipótesis nula de que el coeficiente es significativamente distinto de cero cuando en realidad no lo es. 8.4.2 ¿Por qué se presenta la heterocedasticidad? El problema poblacional de la heterocedasticidad como ya hemos visto se debe a que cada observación proviene de una distribución diferente y que cada una de estas distribuciones presenta una varianza distinta. Esa es la consecuencia estadística del problema que nos preocupa en esta sección. Sin embargo, es importante determinar qué razones asociadas a los datos explican la presencia de esta característica de las distribuciones.

• Relación entre los variables explicativas y la varianza del error Usualmente, la heterocedasticidad surge cuando los valores de las variables involucradas en la ecuación de regresión varían significativamente para cada observación. En estos casos es

2 La demostración de ello queda como tarea al lector.

Page 192: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

210

probable que las variaciones en el término del error tiendan a ser pequeñas cuando las variables registran valores pequeños y grandes cuando las variables involucradas muestran valores elevados. Específicamente, cuando se trabaja con información económica el comportamiento de los agentes resulta una variable clave. Por ejemplo, si se plantea un modelo que explique el consumo en función al ingreso de las familias se debe considerar que aquellas familias con mayores ingresos disponen usualmente de un mayor excedente de renta, el cual deben repartir entre consumo y ahorro. Distintas familias dentro del mismo estrato o nivel de ingresos tendrán, a su vez, distintas preferencias y tomarán por tanto decisiones diferentes respecto a su exceso de renta. Por esto, es de esperar que las cifras de consumo para familias con mayores ingresos presenten una mayor varianza que las de familias de menores ingresos. Por otro lado, aquellas familias con menores ingresos estarán muy cerca de la línea de pobreza y su consumo estará en niveles de subsistencia. Por ello es de esperar que estos presenten una menor varianza.

Asimismo, al momento de trabajar con variables que dependen del comportamiento de los agentes económicos resulta importante considerar que estos agentes usualmente aprenden a lo largo del tiempo por lo que los errores en su comportamiento tienden a disminuir conduciendo a una menor varianza.

• Datos Agregados Al momento de trabajar con datos agregados es común encontrarse con errores heterocedásticos. Específicamente, si se trabaja con promedios de datos obtenidos de distintos grupos, la varianza de estos datos será inversamente proporcional al número de individuos considerados dentro de cada grupo. Asimismo, la dispersión misma de los datos juega un papel importante. Por ejemplo, si trabajamos con datos promedios de la tasa de mortalidad infantil por provincias, podría observarse que en algunas provincias los distritos que la componen presentan datos muy diferentes y el promedio oculta esa dispersión. En otras provincias, los distritos pueden tener una menor dispersión y el promedio resultante no muestra esta propiedad. Sin embargo cuando realicemos la estimación es obvio que la distribución de cada promedio tendrá una varianza distinta. Este hecho deberá incorporarse al momento de la estimación.

• Error de Especificación Otra de las causas más frecuentes de la presencia de heterocedasticidad es la mala especificación de un modelo. Si se omite una variable relevante al momento de plantear el modelo, la varianza del error del modelo mal especificado vendría dada por la varianza del

Page 193: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

211

modelo verdadero (la cual es constante) más el cuadrado del producto de la variable omitida y su coeficiente. En este sentido, la varianza del error del modelo mal especificado no sería constante. Supongamos que el modelo verdadero es la forma:

yt = β1 + β2x2t + β3x3t + ut sin embargo, si se estima el modelo omitiendo la tercera variable explicativa se tendría lo siguiente:

yt = β1 + β2x2t +vt donde vt = ut + β3x3t y su varianza vendría dada por:

V(vt) = σ2u + β3

2x3t2

En este sentido, la varianza del error mal especificado dependería de los valores de la

variable x3t y sería, por tanto, cambiante a lo largo del tiempo. Esta causa de la presencia de heterocedastidad es sobre la cual se ha prestado especial interés recientemente. Esto porque sabemos que la omisión de una variable relevante en el modelo verdadero provoca un sesgo en los parámetros y vemos que puede causar la presencia de heterocedasticidad con lo cual el estimador MCO pierde sus dos principales características: insesgamiento y eficiencia. Esto es grave dado que la estimación pierde toda relevancia. Si tomamos en cuenta estas consideraciones una recomendación que usualmente suele hacerse es que cualquier estimación debe hacerse partiendo de una especificación amplia donde es preferible tener más variables que las relevantes para luego, después de un proceso ordenado, ir eliminando variables hasta llegar a un modelo que cumpla con la mayor cantidad de propiedades. 8.4.3 ¿Cómo detectar la heterocedasticidad? Descritos ya los efectos de la presencia de heterocedasticidad sobre el estimador MCO y las formas de corregirlo de manera teórica debemos pasar al terreno práctico. Debemos recordar que los errores y su varianza son desconocidos por lo que debemos buscar la forma de realizar una estimación de ellos. Algunas de las pruebas para detectar la heterocedasticidad nos sugieren la forma de la varianza. Sin embargo, no todas las pruebas nos sugieren la forma de la varianza y sólo detectan la presencia de heterocedasticidad. Cuando tenemos una forma explícita de la varianza podemos aplicar la ponderación con la varianza estimada por lo que estamos en el caso en que podemos aplicar el estimador de mínimos cuadrados generalizados de forma factible. Dada la discusión anterior podemos agrupar en dos categorías las pruebas de heterocedasticidad:

1. Pruebas de detección: Estas pruebas sólo detectan la presencia de heterocedasticidad pero no sugieren la forma de la varianza. Usualmente están centrados en determinar si es que existe heterocedasticidad entre grupos de observaciones y analizan si es que la varianza del error presenta un cambio estructural.

2. Pruebas de detección y corrección: Estas pruebas aparte de detectar la presencia de

heterocedasticidad nos sugieren la forma de la varianza por la que debemos ponderar cada una de las observaciones. Con la varianza estimada se hace factible la corrección recomendada en estos casos por lo que estamos en capacidad de utilizar el estimador de mínimos cuadrados generalizados factibles.

Page 194: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

212

Teniendo lo anterior en mente, podemos iniciar la discusión de cada una de las pruebas más utilizadas para detectar (y si es posible corregir ) la heterocedasticidad. i) Test gráfico Cuando la muestra es grande, se puede utilizar el cuadrado de los residuos estimados (ei

2) como una aproximación de la varianza del error. Los residuos estimados se obtienen a través del análisis de regresión del modelo original sobre el supuesto de homocedasticidad. Este test plantea verificar la presencia de algún patrón sistemático en el comportamiento de la varianza del término de error a través de un gráfico que relacione el cuadrado de los residuos con alguna de las variables explicativas. En este caso, el supuesto de homoscedasticidad implica la ausencia de un patrón sistemático en los gráficos planteados ya que, en este caso, la varianza del error sería independiente del comportamiento de las variables explicativas a lo largo del tiempo. Ejemplo: Se supone un modelo de la forma:

CONPRIt = β0 + β1CAPITALt + β2INGDISPt + ut donde: CONPRI = Consumo privado CAPITAL= Stock de capital INGDISP = Ingreso Disponible LS // Dependent Variable is CONPRI Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 208.6535 46.70111 4.467848 0.0000 CAPITAL 0.023852 0.004480 5.323810 0.0000 INGDISP 0.454549 0.013246 34.31568 0.0000 R-squared 0.993622 Mean dependent var 4263.275 Adjusted R-squared 0.993490 S.D. dependent var 3987.850 S.E. of regression 321.7478 Akaike info criterion 11.57708 Sum squared resid 10041598 Schwarz criterion 11.65523 Log likelihood -717.7477 F-statistic 7555.668 Durbin-Watson stat 0.543929 Prob(F-statistic) 0.000000

Este modelo, el cual será utilizado para todos los ejemplos sugeridos para cada test, se contruyó con data anual para el periodo 1896 - 1995 (100 observaciones).

!" Comandos EViews: • GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos de la

regresión anterior. • SCAT RESID2 CAPITAL

Page 195: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

213

• SCAR RESID2 INGDISP: generar un gráfico del cuadrado de los residuos contra cada una de las variables explicativas.

!" Resultados:

0

200000

400000

600000

800000

1000000

1200000

0 20000 40000 60000 80000

RE

SID

2

CAPITAL

0

200000

400000

600000

800000

1000000

1200000

0 5000 10000 15000 20000 25000

RE

SID

2

INGDISP

En ambos casos se puede apreciar la existencia de un patrón sistemático entre el cuadrado de los residuos y las variables explicativas. Se concluye que existe heterocedasticidad. Debemos notar que en este caso que si bien se sugiere que existe relación entre una variable explicativa y los términos de error no nos da una idea explícita de la relación. Es más como se puede advertir la relación es entre la varianza y más de una variable explicativa. Esto nos indica que la forma explícita sería una combinación lineal de variables independientes. Por tanto esta prueba es sólo de detección. ii) Test LR (Likelihood Ratio) Al igual que el test anterior, el LR es aplicable cuando el número de observaciones de la muestra es significativo. El primer paso para la aplicación de este test consiste en dividir los residuos MCO en k grupos, cada uno con ni observaciones tal que Σ n ni = , donde n es el número de observaciones en la muestra. Luego se estima la varianza de los residuos para cada

Page 196: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

214

grupo ( !σ 2i ) y la varianza de los residuos para toda la muestra ( !σ 2 ). A partir de esta

información se define una función λ de la forma:

λ σ σ==∏( ! ) / !i

n n

i

ki

1

(8.25)

donde -2 ln λ se distribuye como una χ 2

1( )k − . El paso final consiste en comparar el valor de χ 2

1( )k − tabular con -2 ln λ. Si el primero es mayor al segundo se acepta la hipótesis nula de homocedasticidad grupal. Si existe sólo una variable explicativa, el ordenamiento de los residuos se puede hacer sobre la base de las magnitudes absolutas de estos. Sin embargo, si existiesen dos o más variables explicativas se puede utilizar el valor estimado de la variable dependiente ( !y ). Ejemplo: !" Comandos EViews: • FIT: calcular el valor estimado del consumo para cada periodo a partir de los coeficientes

estimados. • SORT: ordenar los residuos recogidos de la ecuación original según el consumo estimado. • (@VAR(serie de residuos))^0.5: calcular la desviación estándar de los residuos para toda la

muestra y para cada uno de los grupos definidos. !" Resultados: - Desviación estándar de los residuos para el total de la muestra (σ) = 318.48 - Número de grupos (k) = 4 - Número de observaciones en cada grupo (ni) = 25 - Desviaciones estándar para cada grupo (σi): σ1 = 30.70 σ2 = 34.23 σ3 = 156.92 σ4 = 269.37

λλλλ =

( ! )

!

σ

σ

in

i

k

n

i

=∏

1 =2.6581x10 x 1.0397x10 x 1.34249x10 x 1.064910

2.0341x10

+38 +42 +61 +69

+250

- Valor del estadístico (-2 ln λ) = 182.79 (X2

(3)) El valor calculado para el estadístico (182.79) resultó significamente mayor que el valor tabular con 95% de confianza y 3 grados de libertad (7.815). Por tanto, rechazamos la hipótesis nula de homocedasticidad. Esta prueba al agrupar los datos y verificar si las varianzas son iguales entre los grupos lo que detecta es la presencia de heterocedasticidad pero no nos da una forma explícita. Es una prueba de detección. iii) Prueba de Spearman Este test supone que la varianza del término de error depende de los valores de alguna de las variables explicativas. Si existe esta dependencia, el tamaño de los residuos debería estar

Page 197: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

215

relacionado con el tamaño de la variable explicativa. Se recuerda que en estos casos las variaciones en el término de error tienden a ser pequeñas cuando las variables explicativas registran valores pequeños y grandes cuando las variables involucradas muestran valores elevados. Para llevar a cabo este test, es necesario ordenar en sentido creciente tanto los residuos obtenidos a través de la estimación MCO (ei) (en valor absoluto) como los valores de la variable explicativa (xi). A través de este ordenamiento o ranking se calcula el coeficiente de correlación de rangos (rx,e).

rD

n( nx e

i, 1

6)

= −−

Σ 2

2 1 (8.26)

donde Di es la diferencia entre el puesto que ocupan en la ordenación el valor de la i-ésima observación de la variable explicativa y el i-ésimo valor absoluto del residuo. Si el tamaño muestral es grande, entonces la expresión:

r n 2

1 r

x,e

x,e2

− (8.27)

se distribuye aproximadamente como una T de Student con n-2 grados de libertad. Esta expresión podría calcularse para cada una de las variables explicativas del modelo con el fin de determinar si alguna de ellas determina el comportamiento de la varianza del término de error. Específicamente, si el valor calculado del estadístico t es menor al valor tabular, se aceptará la hipótesis nula de homocedasticidad respecto a la variable explicativa analizada. Ejemplo: En este caso, se estimó el coeficiente de correlación de rangos para cada una de las variables explicativas (CAPITAL e INGDISP). !" Comandos Eviews: • GENR RESIDABS = ABS(RESID): generar una serie que recoja el valor absoluto de los

residuos estimados. !" Comandos Excel (para cada variable explicativa): • Plantear una tabla de cuatro columnas conteniendo el valor absoluto de los residuos y una de

las variables explicativas, asignando a cada observación una constante (X) como en el siguiente ejemplo:

XV Variable XE Valor absol. error x1 2056 x1 23.45 x2 1356 x2 35.12 x3 2569 x3 19.14 x4 1923 x4 16.71

Page 198: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

216

• ORDENAR: ordenar ascendentemente los valores de la variable explicativa y los valores de los residuos en términos absolutos, manteniendo sus correspondientes constantes de modo que pueda ser identificada luego de la ordenación.

XV Variable XE Valor absol. error x2 1356 x4 16.71 x4 1923 x3 19.14 x1 2056 x1 23.45 x3 2569 x2 35.12

• BUSCAR: determinar la posición que ocupan las constantes correspondientes a cada error en

la nueva ordenación de modo que esta posición pueda ser contrastada con la que ocupa la constante de la variable explicativa para la misma observación.

XV XE Orden Buscar Di x2 x4 1 4 3 x4 x3 2 1 1 x1 x1 3 3 0 x3 x2 4 2 2

En el ejemplo anterior la columna Orden se refiere a la posición que ocupan las variables

explicativas luego de la ordenación. Por otro lado la columna Buscar se refiere a la posición que ocupan en la nueva ordenación los errores correspondientes a la misma observación. Para la primera fila, el comando de búsqueda sería: Buscar ( x2; matriz XE -Orden; 2 ) = 4.

Por ejemplo, el valor de la variable explicativa para la segunda obsevación ocupa el primer

lugar mientras que el valor del error para esta misma observación ocupa el cuarto. De esta forma la diferencia en el puesto que ocupan las variables explicativas y los errores correspondientes a un mismo periodo vendría dado por la columna Di. !" Resultados: Para la variable explicativa CAPITAL - ∑di

2 = 50274 - rx,e = 0.6983 - t-estadístico = 9.66 Para la variable explicativa INGDISP - ∑di

2 = 47810 - rx,e = 0.7131 - t-estadístico = 10.07

Para ambos casos, el valor calculado para el estadístico resulta significativamente mayor al valor tabular para una distribución T con 98 grados de libertad (n-2) y 95% de confianza. Por tanto, para ambas variables explicativas, se rechaza la hipótesis nula de homocedasticidad. Tal como se desprende de todo lo anterior, esta prueba es sólo detectora. Un programa con la generación y construcción de esta prueba se encuentra en el apéndice de este capítulo. (Programa 8.1) iv) Prueba de Goldfeld y Quandt

Page 199: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

217

Este test supone que la desviación estándar de la distribución del error (σi) es proporcional al valor de una de las variables explicativas para cada observación. Asimismo, supone que el error se distribuye normalmente y no presenta autocorrelación. Suponiendo que se cuenta con n observaciones, este test plantea ordenar la muestra según las magnitudes de la variable explicativa y realizar regresiones separadas para las primeras y últimas m observaciones; las observaciones centrales (n - 2m) son ignoradas. Si se verifica el supuesto concerniente a la naturaleza de la heterocedasticidad, la varianza del error para las últimas m observaciones será mayor a la correspondiente a las primeras m observaciones, lo cual se verá reflejado en la suma residual (SRC) para ambas regresiones. Siendo SRC1 y SRC2 las sumas residuales para las regresiones con las primeras y últimas m observaciones respectivamente y bajo el supuesto de homocedasticidad y normalidad del término de error, el coeficiente SRC2/SRC1 se distribuirá F con m-k y m-k grados de libertad, donde k representa el número de variables explicativas. Como siempre, se contrasta el valor calculado contra el tabular y si Fcalc es menor que Ftab aceptamos la hipótesis nula de homoscedasticidad. La potencia del test depende de la elección de m respecto a n ya que el número de observaciones en cada submuestra determina los grados de libertad de la distribución. En este sentido, Goldfeld y Quandt sugieren que m debe ser alrededor de 11 cuando la muestra contiene 30 observaciones y 22 cuando la muestra contiene 60 observaciones. Al momento de definir m se debe considerar también que cada grupo debe contener observaciones relativamente extremas. En este sentido, si m/n se acerca a 0.5 la diferencia entre las observaciones incluídas en cada subgrupo será reducida por lo que el test perderá potencia. Como regla práctica, se deben eliminar un tercio de las observaciones. Esta deben corresponder a las observaciones ubicadas en el medio de la muestra. El test de Goldfeld y Quandt también puede ser utilizado bajo el supuesto de que la varianza del error es inversamente proporcional al valor de alguna variable explicativa para cada observación. En este caso, el procedimiento es el mismo pero el test estadístico vendría dado por la relación SRC1/SRC2. Ejemplo: !" Comandos Eviews: • SORT: ordenar ascendetemente las observaciones de todas las variables incluidas en el

modelo según la variable explicativa elegida. • IMPORT: importar las observaciones para cada variable según la nueva ordenación. • SMPL: definir el rango para las subregresiones según el valor elegido de m.

Page 200: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

218

!" Resultados: Para la variable explicativa CAPITAL - m = 30

- SRC y yi ii

12

1

30

12307 85= − ==∑ ( ! ) .

- SRC y yi ii

22

71

100

6698694 98= − ==∑ ( ! ) .

- Estadístico = SRC2/SRC1 = 544.26 Para la variable explicativa INGDISP - m = 30

- SRC y yi ii

12

1

30

12307 85= − ==∑ ( ! ) .

- SRC y yi ii

22

71

100

6698694 98= − ==∑ ( ! ) .

- Estadístico = SRC2/SRC1 = 544.26

Los estadísticos obtenidos para ambas variables resultan similares debido a que las ordenaciones planteadas según cada una de ellas no mostraron ninguna diferencia significativa. De esta forma, y para ambos casos, el estadístico calculado resultó mayor al valor tabular para la distribución F (28,28) de modo que se rechaza la hipótesis nula de homocedasticidad.

Esta prueba nos permite detectar la presencia de heterocedasticidad y la variable que la

causa. Sin embargo, no nos da una idea acerca de la forma aproximada de la relación entre la varianza y dicha variable. Un paso adicional si se quiere tener una idea más precisa es realizar la prueba de heterocedasticidad de Glejser. v) Prueba de Glejser El test de Glejser nos permite explorar la verdadera estructura de la heterocedasticidad. En este sentido, este test ya no supone que la variancia del error es proporcional a una de las variables explicativas sino que se investiga si alguna otra forma funcional es más apropiada, como por ejemplo:

σ2i = α + βxi

γ + εi

donde x es la variable que se supone explica la heteroscedasticidad. Esta puede haberse hallado previamente por la prueba de Goldfeld y Quandt. De esta forma, el test propone analizar el comportamiento de los residuos de una regresión MCO plateando una forma funcional como la anterior. Específicamente, el test plantea la siguiente ecuación:

Page 201: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

219

ei

2 = α + βxiγ + εi

para distintos valores del exponente γ y donde εi reúne las características de un ruido blanco. En este caso, utilizamos el cuadrado de los residuos estimados como una proxi de la varianza del error. El valor más apropiado para el exponente corresponde a aquel que proporcione la ecuación con el mejor grado de ajuste y el mayor grado de significancia para el parámetro β. Si este parámetro no resulta significativamente distinto de cero para la mejor regresión, se acepta que los errores son homocedásticos. Ejemplo: !" Comandos EViews: • GENR RESIDABS = ABS(RESID): generar una serie que recoja los valores absolutos de los

residuos estimados. • GENR CAP05P = CAPITAL^0.5: generar una serie que contenga los valores para la variable

capital elevados a 0.5. Esta operación se repite para cada una de las variables explicativas según cada uno de los exponentes escogidos.

!" Resultados: Para el ejemplo se eligieron los exponentes: ±2, ±1.5, ±1, ±0.5. Los resultados obtenidos se presentan en el siguiente cuadro.

Variable Prob t-Stad. R-squared Variable Prob t-Stad. R-squared cap^(0.5) 0.0000 9.596160 0.484445 ing^(0.5) 0.0000 11.13309 0.558451 cap^(-0.5) 0.0000 -7.117220 0.340755 ing^(-0.5) 0.0000 -7.737197 0.379213 cap^(1.0) 0.0000 8.598898 0.430037 ing^(1.0) 0.0000 11.39846 0.570034 cap^(-1.0) 0.0000 -5.186988 0.215403 ing^(-1.0) 0.0000 -5.841092 0.258241 cap^(1.5) 0.0000 7.318144 0.353371 ing^(1.5) 0.0000 10.96881 0.551107 cap^(-1.5) 0.0002 -3.893965 0.133992 ing^(-1.5) 0.0000 -4.440802 0.167521 cap^(2.0) 0.0000 6.239572 0.284318 ing^(2.0) 0.0000 10.28565 0.519124 cap^(-2.0) 0.0026 -3.092719 0.088922 ing^(-2.0) 0.0008 -3.477959 0.109869

Los parámetros asociados a todos los regresores sugeridos resultan significativamente

distintos de cero por lo que rechazamos la hipótesis nula de homocedasticidad. vi) Prueba de Park Park utiliza la intuición detrás de la prueba gráfica para plantear una forma funcional que explique el comportamiento de la varianza del término de error. Específicamente, supone la existencia de una relación entre la varianza del error y alguna de las variables explicativas. Este planteamiento es similar al del test de Glejser sólo que la forma funcional sugerida por Park viene dada por:

σi2 = σ2xi

βevi

Esta forma multiplicativa plantea que la varianza del error para cada observación depende de

la varianza bajo el supuesto de homocedasticidad (la cual es constante), una de las variables explicativas del modelo original y el valor e.

Page 202: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

220

Este planteamiento puede, a primera vista, resultar algo complejo, sin embargo, si analizamos el logaritmo de la ecuación anterior notaremos que ésta no difiere mucho de las relaciones planteadas en los demás tests.

ln σi2 = lnσ2 + βlnxi + vi

Al igual que en los casos anteriores, se utiliza el cuadrado de los residuos estimados (ei

2) como aproximación de la varianza del error para cada observación. En este sentido, la ecuación de regresión planteada por Park resulta de la forma:

ln ei

2 = α + βlnxi + vi

Respecto al parámetro α, se recuerda que la varianza bajo el supuesto de homocedasticidad es constante por lo que lnσ2 representa el intercepto. Si β resulta estadísticamente significativo se concluye que la varianza del error para cada periodo depende del valor de la variable explicativa, la cual no es constante a lo largo a lo largo del tiempo. En este sentido, si se logra explicar el logaritmo del cuadrado del residuo en términos del logaritmo de alguna de las variables explicativas se puede afirmar que el término del error presenta un comportamiento heterocedástico. Harvey (1976) propone una prueba similar que consiste en una generalización de la prueba de Park. Específicamente, Harvey propuso una relación multiplicativa de la forma:

ασ ii

ze ′=2

donde z’tα = α1 + α2z2t + ... + αpzpt El test platea estimar por MCO la relación:

ln e2t = α1 + α2z2t + ... + αpzpt + εt

y definir el estadístico:

)1(2

1

935.4

*ˆ*'ˆ−

−≈ pX

D αα (8.28)

donde D representa la matriz de covarianzas asintótica del vector (α2 + ... + αp) que resulta de excluir la primera fila y columna de (z’z)-1. El vector ! *α es el vector de coeficientes excluyendo el término independiente (α1). El valor obtenido para este estadístico se compara contra el valor tabular de un distribución chi-cuadrado con p-1 grados de libertad. Ejemplo: !" Comandos Eviews: • GENR RESID2 = RESID^2: generar una serie que recoja los cuadrados de los residuos

estimados. • GENR LNRESID2 = LOG(RESID2): generar una serie que contengan los logaritmos de los

residuos estimados al cuadrado. Esta operación se repite para cada una de las variables explicativas.

Page 203: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

221

!" Resultados:

Para la variable CAPITAL LS // Dependent Variable is LNRESID2 Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -5.714970 1.929723 -2.961549 0.0038 LNCAPITAL 1.577852 0.206352 7.646399 0.0000 R-squared 0.373672 Mean dependent var 8.916337 Adjusted R-squared 0.367280 S.D. dependent var 3.140146 S.E. of regression 2.497787 Akaike info criterion 1.850608 Sum squared resid 611.4163 Schwarz criterion 1.902711 Log likelihood -232.4242 F-statistic 58.46742 Durbin-Watson stat 0.715509 Prob(F-statistic) 0.000000

Para la variable INGDISP: LS // Dependent Variable is LNRESID2 Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -5.648694 1.716655 -3.290523 0.0014 LNINGDISP 1.740910 0.203194 8.567735 0.0000 R-squared 0.428258 Mean dependent var 8.916337 Adjusted R-squared 0.422424 S.D. dependent var 3.140146 S.E. of regression 2.386461 Akaike info criterion 1.759420 Sum squared resid 558.1292 Schwarz criterion 1.811524 Log likelihood -227.8649 F-statistic 73.40608 Durbin-Watson stat 0.780325 Prob(F-statistic) 0.000000

Para ambos casos se verifica la significancia estadística del parámetro asociado al logaritmo

de la variable explicativa. A partir de esto se concluye que los errores presentan un comportamiento heterocedástico. vii) Prueba de White La prueba de White en un contraste general que no precisa la estructura de la heterocedasticidad. En este sentido, el test plantea un regresión entre el cuadrado de los residuos estimados sobre una constante, los regresores del modelo original, sus cuadrados y sus productos cruzados de segundo orden. Por ejemplo, si el modelo original contiene tres variables explicativas, los regresores del test de White serían x1, x2, x3, x1

2, x22, x3

2, x1x2, x2x3, y x1x3. Formalmente, la prueba implica estimar la siguiente regresión auxiliar.:

ε2 = α + β1ξ1 + β2ξ2 + β3ξ3 +β4ξ12 +β5ξ2

2 + β6ξ32 + β7ξ1ξ2 + β8ξ2ξ3 + β9ξ1ξ3 + ε

Page 204: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

222

Al aumentar el tamaño muestral, el producto TR2 (donde T es el número de observaciones de la muestra y R2 el coeficiente de bondad de ajuste de la regresión auxiliar) se distribuye como una chi-cuadrado con p-1 grados de libertad, donde p es el número de parámetros de la regresión auxiliar (la regresión planteada para el cuadrado de los residuos). Si ninguna de las variables sugeridas en la regresión auxiliar explica adecuadamente a e2 cabe esperar que el valor del R2 tienda a cero. En este caso, el valor calculado TR2 resultará bastante reducido por lo que será muy probable que se acepte la hipótesis nula de homocedasticidad (X2

calc < X2tab).

Ejemplo: !" Comandos EViews: VIEW/RESIDUAL TEST/WHITE HETEROSKEDASTICITY(cross terms) !" Resultados: White Heteroskedasticity Test: F-statistic 25.15290 Probability 0.000000 Obs*R-squared 57.22694 Probability 0.000000 Test Equation: LS // Dependent Variable is RESID^2 Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -34357.41 30111.69 -1.140999 0.2568 CAPITAL 59.83741 15.12959 3.954992 0.0001 CAPITAL^2 -0.000236 0.000223 -1.054001 0.2946 CAPITAL*INGDISP -0.002449 0.001200 -2.040704 0.0441 INGDISP 130.3478 33.85792 -3.849847 0.0002 INGDISP^2 0.007841 0.002267 3.458243 0.0008 R-squared 0.572269 Mean dependent var 100416.0 Adjusted R-squared 0.549518 S.D. dependent var 202765.5 S.E. of regression 136092.1 Akaike info criterion 23.70030 Sum squared resid 1.74E+12 Schwarz criterion 23.85661 Log likelihood -1320.909 F-statistic 25.15290 Durbin-Watson stat 1.810082 Prob(F-statistic) 0.000000

La probabilidad asociada al estadístico (0.0000) indica el rechazo de la hipótesis nula de

homocedasticidad. Específicamente, se verifica que el cuadrado de los residuos puede explicarse en términos de las variables CAPITAL, CAPITAL*INGDIS, INGDISP e INGDISP^2 por lo que se concluye que los errores muestran un comportamiento heterocedástico. Debe mencionarse que esta prueba puede interpretarse como una prueba de mala especificación dado que si se detecta la presencia de heterocedasticidad y uno de los regresores resulta muy significativo en la regresión auxiliar podría interpretarse como que dicha variable puede estar faltando en la regresión de la media condicional. Por ello es deseable incluir tal variable en dicha ecuación a fin de corroborar que su significación estadística. Debe mencionarse que cuando nos referimos a variables omitidas nos referimos a los cuadrados como a los productos cruzados.

Page 205: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

223

viii) Prueba de Breusch y Pagan Partiendo del supuesto de que la varianza del error no es constante para cada observación, resulta factible encontrar un vector de variables zt que explique el comportamiento de la varianza.

σt2 = f (zt’α) = f (α0 + α1z1t + α2z2t + ... +αpzpt)

Si definimos esta forma funcional, el test consiste en verificar la hipótesis nula:

H0: α1 = α2 = ... =απ (8.29)

Nótese que si todos los coeficientes de la combinación lineal zt’α, excepto el término

independiente α0 fuesen cero, entonces el término de error sería homocedástico ya que σt

2=f(α0), el cual es una constante. Asimismo, cabe resaltar que f puede representar cualquier función de modo que el test de Breusch y Pagan no depende de la forma funcional. Ahora, suponiendo que:

!σ 22

= ∑ e

n

t

calculamos la suma de cuadrados de regresión (o suma explicada, SE) de la regresión de et

2 sobre z1, z2, ... ,zp y definimos la función λ de la forma:

λσ

= SE

2 4! (8.30)

la cual se distribuye como una chi-cuadrado con p grados de libertad. La intuición de este test es similar a la del test de White. Para éste último definimos la función TR2 la cual se distribuye chi-cuadrado con p-1 grados de libertad. Trabajando de manera análoga podemos obtener el estadístico TR2 para el caso de Breusch y Pagan donde el coeficiente de bondad de ajuste, al igual que en el test de White, está referido a la regresión auxiliar (en este caso la regresión de et

2 contra z1, z2, ..., zp). Para determinar la relación entre el estadístico TR2 y el test de Breusch y Pagan nótese que: TR2 = Suma de cuadrados de regresión / Var(et

2)3 = SE / Var(et

2)

Ahora, bajo la hipótesis nula de homocedasticidad, el cociente ut2/σ2 se distribuye chi-

cuadrado con 1 grado de libertad. Por tanto, Var (ut2/σ2) =2 dado que la varianza de una chi-

cuadrado es igual a dos veces los grados de libertad. Por tanto: Var (ut

2) = 2σ4. Para muestras grandes, podemos generalizar Var(et2)=Var(ut

2) y !σ σ4 4= . En conclusión, el estadístico propuesto por Breusch y Pagan vendría dado por:

3 Recordemos que R2 =(Suma explicada / Suma total) = (SE / ST). Para el caso específico del test de Breusch y

Pagan, SE / ST =( ! )

( )

e e

e e

t t

t t

2 2 2

2 2 2

−∑∑

, donde el denominador vendría a ser T(Var (et2)).

Page 206: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

224

λσ

= = =SE SE

Var eTR

t2 4 22

! ( )

Al igual que para el caso del test de White, en la medida en que las variables del vector zt no expliquen adecuadamente al estimador de la varianza del error (et

2), el coeficiente de bondad de ajuste se aproximará a cero y será más probable que se acepte la hipótesis nula de homocedasticidad. Ejemplo: !" Comandos EViews: • GENR RESID2 = RESID^2: generar una serie que recoja el cuadrado de los residuos. • Estimar una regresión de los residuos al cuadrado sobre las variables explicativas del modelo

original. • FIT: generar una serie que contenga los valores estimados para el cuadrado de los residuos a

partir de los coeficientes de la regresión anterior. !" Resultados: LS // Dependent Variable is RESID2 Date: 05/31/97 Time: 23:10 Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -41424.48 21929.95 -1.888946 0.0619 CAPITAL -6.101892 2.103838 -2.900362 0.0046 INGDISP 34.10861 6.220116 5.483596 0.0000 R-squared 0.455998 Mean dependent var 100416.0 Adjusted R-squared 0.444782 S.D. dependent var 202765.5 S.E. of regression 151086.6 Akaike info criterion 23.88076 Sum squared resid 2.21E+12 Schwarz criterion 23.95891 Log likelihood -1332.932 F-statistic 40.65416 Durbin-Watson stat 1.440405 Prob(F-statistic) 0.000000

- SE = ( ! )e ei ii

2 2

1

100

−=∑ 2 = 1.856E+12

- σ2 = e

ni

i

2

1

100

=∑ = 100415.975

- λ = SE

2 4σ = 92.0346717

El valor calculado para el estadístico resulta superior al valor tabular de un distribución con

(p = 2) grados de libertad y 95% de confianza (5.991). Por tanto, se concluye que se rechaza la hipótesis nula de homocedasticidad.

Page 207: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

225

8.4.4 Corrección de la Heterocedasticidad Si a través de las pruebas mencionadas anteriormente detectamos la presencia de la heterocedasticidad el siguiente paso es corregir el problema con el fin de obtener estimadores que presenten las propiedades adecuadas. Como sabemos el estimador que nos permite obtener estimados con las propiedades adecuadas es el de mínimos cuadrados generalizados. Sin embargo, dicho estimador es teórico. Por tanto, es necesario trabajar en el campo práctico en donde tenemos que reemplazar nuestra matriz Σ por su estimado, Σ . Esto nos llevará al estimador de mínimos cuadrados generalizados factibles. Las pruebas detalladas en la sección anterior si caen dentro del grupo de las pruebas que hemos denominado correctoras nos sugerirán la forma de la varianza y por tanto podremos construir nuestra matriz Σ y procederemos a realizar la estimación por mínimos cuadrados ponderados factibles lo que se logrará al ponderar cada observación de la variable dependiente y las respectivas variables independientes por la varianza relevante. Este es el procedimiento general. Sin embargo, es pertinente revisar métodos de corrección específicos diseñados para casos particulares. i) Datos agregados

Se supone un modelo que pretende explicar el consumo de las familias a partir de su renta.

ci j = α0 + α1yi

j + εi j

donde: ci

j = consumo de la familia j en el momento i yi

j = ingreso de la familia j en el momento i εi

j = ruido blanco

Sin embargo, si sólo se dispone de datos agregados el modelo a estimar sería de la forma:

ii

i

i

iu

P

Y

P

C ++= 10 ββ

donde:

∑=

=Pi

j

jii cC

1

∑=

=Pi

j

jii yY

1

Tomando sumatorias al modelo original y dividiendo entre la población se tiene:

i

Pi

j

jiii

i

Pi

j

ji

i

i

P

YP

P

c

P

C∑∑

==

++== 1

101

εαα

Page 208: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

226

i

Pi

j

ji

i

i

i

i

PP

Y

P

C∑

=++= 110

εαα

Comparando este resultado con el modelo agregado se tiene que:

i

Pi

j

ji

i Pu

∑==

==

1

11

00

ε

βαβα

Ahora, desarrollando la varianza del término de error (ui) se tiene:

Var uP

Var

P

PP

P

ii

ij

j

Pi

i j

Pi

ii

i

( ) ( )=

=

=

=

=

=

1

1

1

21

22

1

22

2

ε

σ

σ

σ

Lo anterior demuestra que la varianza del error del modelo agregado depende de la población en el momento i presentando, por tanto, un comportamiento heterocedástico. Cabe resaltar, sin embargo, que la presencia de heterocedasticidad no se debe a alguna peculiaridad en la conducta de las familias sino al hecho de haber trabajado con datos agregados. Tal como se indicó anteriormente, la corrección del problema de heterocedasticidad se basa en determinar la estructura de la matriz ∑. Para este caso particular, la varianza del error viene dada por:

=

nP

P

P

UVar

1...

1

1

)( 2

1

donde la matriz cuya diagonal principal contiene la inversa de la población para cada periodo es precisamente la matriz ∑. Por tanto, y tal como se propone en la corrección por MCG, el modelo debe ser premultiplicado por la matriz V-1 donde VV’ = ∑. Específicamente:

V-1 C = V-1 Yβ + V-1 U

Page 209: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

227

donde:

V

P

P

Pn

=

1

1

1

1

2...

Ahora, el error para el periodo i (u*i) vendría dado por:

i

Pi

j

jii

i P

P

u∑

== 1*

ε

por lo que su varianza sería:

Var uP

PVar

P

P

P

P

ii

ii

j

j

Pi

i

i j

Pi

i

i

( * ) ( )=

=

= =

=

=

21

22

1

2

22 2

ε

σ

σ σ

Ejemplo:

Consideremos el siguiente modelo:

Cai = β0 + β1Yai + β2Kai + ui

donde:

CaC

Pii

i

=

YaY

Pii

i

=

KaK

Pii

i

=

P P P1 2 10011 12 110= = =, , .... , Debido a que se ha trabajado con información agregada, es de esperarse que el término de error presente heterocedasticidad. Si suponemos que el modelo micro es de la forma:

ci j = α0 + α1yi

j + εi j

Page 210: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

228

donde: ci

j = consumo de la familia j en el momento i yi

j = ingreso de la familia j en el momento i εi

j = ruido blanco con varianza constante (σ2) la varianza del término de error del modelo agregado vendría dado por:

Var uPi

i

( ) = σ 2

Según la metodología considerada anteriormente, la corrección consistiría en ponderar cada observación por la raíz de la población para cada periodo. Los resultados de la regresión planteada anteriormente son: LS // Dependent Variable is CA Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.193721 0.015199 12.74539 0.0000 YA 0.553360 0.103087 5.367877 0.0000 KA 0.352750 0.095943 3.676679 0.0004 R-squared 0.348472 Mean dependent var 0.189985 Adjusted R-squared 0.335038 S.D. dependent var 0.185834 S.E. of regression 0.151539 Akaike info criterion -3.744287 Sum squared resid 2.227506 Schwarz criterion -3.666132 Log likelihood 48.32052 F-statistic 25.94039 Durbin-Watson stat 1.935025 Prob(F-statistic) 0.000000

Utilizando el cuadrado de los residuos de la regresión anterior como un estimador de la varianza del error notaremos que ésta depende de la población y es, por tanto, variable en el tiempo. !"Comandos EViews: • GENR VAR1=RESID^2 LS // Dependent Variable is VAR1 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.048494 0.006536 7.419264 0.0000 POB -0.000433 9.75E-05 -4.444519 0.0000 R-squared 0.167755 Mean dependent var 0.022275 Adjusted R-squared 0.159262 S.D. dependent var 0.030697 S.E. of regression 0.028146 Akaike info criterion -7.120877 Sum squared resid 0.077637 Schwarz criterion -7.068773 Log likelihood 216.1500 F-statistic 19.75375 Durbin-Watson stat 1.984617 Prob(F-statistic) 0.000023

Page 211: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

229

Tal como se indicó anteriormente, la estrategia para corregir el problema de heterocedasticidad en este caso consiste en multiplicar cada observación por la raíz de la población o, lo que es lo mismo, estimar nuevamente el modelo por MCG. !"Comandos EViews: • QUICK - ESTIMATE EQUATION - OPTIONS - WEIGHTED LS/TSLS • Weight = POB1^(1/2) LS // Dependent Variable is CA Weighting series: POB^(1/2) Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.190451 0.012998 14.65236 0.0000 YA 0.641209 0.103368 6.203181 0.0000 KA 0.389417 0.095255 4.088150 0.0001 Weighted Statistics R-squared 0.428929 Mean dependent var 0.193874 Adjusted R-squared 0.417154 S.D. dependent var 0.174896 S.E. of regression 0.133523 Akaike info criterion -3.997418 Sum squared resid 1.729361 Schwarz criterion -3.919263 Log likelihood 60.97705 F-statistic 36.42814 Durbin-Watson stat 1.819386 Prob(F-statistic) 0.000000 Unweighted Statistics R-squared 0.341124 Mean dependent var 0.189985 Adjusted R-squared 0.327539 S.D. dependent var 0.185834 S.E. of regression 0.152391 Sum squared resid 2.252628 Durbin-Watson stat 1.883187

El modelo presentado anteriormente correponde a la estimación por Mínimos Cuadrados Generalizados de la regresión original. En este caso, la varianza del término de error ya no depende de la población y la perturbación es, por tanto, homocedástica. !"Comandos EViews: • GENR RESP=RESID*POB^(1/2)4 • GENR VAR2=RESP^2 LS // Dependent Variable is VAR2 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.902110 0.251767 3.583118 0.0005 POB 0.001241 0.003756 0.330357 0.7418 R-squared 0.001112 Mean dependent var 0.977176 Adjusted R-squared -0.009080 S.D. dependent var 1.079272

4 Los residuos guardados automáticamente en la serie RESID luego de la estimación por MCG no están ponderados, por lo que resulta necesario realizar la ponderación respectiva a través de este comando.

Page 212: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

230

S.E. of regression 1.084161 Akaike info criterion 0.181410 Sum squared resid 115.1897 Schwarz criterion 0.233514 Log likelihood -148.9644 F-statistic 0.109136 Durbin-Watson stat 2.241412 Prob(F-statistic) 0.741836

ii) Conductas diferenciadas El problema asociado a la presencia de conductas diferenciadas ocurre cuando las respuestas de los agentes difieren a lo largo de la muestra. Frente a esto, la muestra puede dividirse en grupos, cada uno de los cuales contiene un término de error diferente, en el sentido de pertenecer a una distribución distinta para cada grupo. Es lógico suponer que, para cada grupo, el término de error reúne las características de un ruido blanco, sin embargo, si se considera el total de la muestra en conjunto se encontrará que el término de error no presenta una varianza constante ya que los errores para cada submuestra pertenece a una distribución distinta. Este problema se presenta usualmente al trabajar con modelos del tipo de corte transversal. Supongamos que se quiere analizar la relación existente entre el consumo y el ingreso para distintas regiones del país. Evidentemente, frente a distintos niveles de ingreso las respuestas de los agentes (los niveles de consumo) serán distintos. Sin embargo, puede darse el caso que para niveles similares de ingreso nos encontremos con distintos niveles de consumo, en otras palabras, las respuestas de los agentes serán distintas debido a la presencia de conductas heterogéneas entre una región y otra. En este caso, es precisamente la perturbación la que recoge el efecto de las conductas diferenciadas y es por tanto válido suponer que para cada submuestra el término de error pertenezca a una distribución particular. Para ilustrar mejor este caso, supongamos que se pretende estimar un modelo de corte transversal de la forma:

ci = α0 + α1yi + ui donde: ci = consumo de la región i yi = ingreso de la región i ∀ i = 1,2...n Ahora, suponga que la muestra puede dividirse en dos submuestras de la forma: ci1 = α0 + α1yi1 + ui1

∀ i = 1,2, ... ,m cj2 = α0 + α1yj2 + uj2

∀ j = (m+1), ... ,n donde: Var(ui1) = σ2

1

Var(uj2) = σ22

De esta forma, y si se considera la totalidad de la muestra, la varianza del término de error

no es constante ya que depende de la submuestra y por tanto de la respuesta de los agentes. Formalmente:

Var U VarU

U

I

IW( ) =

=

=1

2

21 1

22 2

σ φφ σ

Page 213: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

231

La matriz W resulta proporcional a la matriz ∑ considerada anteriormente y por ello puede ser utilizada para el cálculo del estimador MCG:

β*MCG = (X’ W-1 X)-1 X’ W-1 Y (8.31)

Para esto, y tal como fue descrito para el caso de datos agregados, es necesario premultiplicar el modelo por la matriz A-1, donde W=AA’. Sin embargo, para poder realizar esta corrección es necesario conocer los valores de σ2

1 y σ22. Al respecto, el estimador de mínimos

cuadrados de la varianza del término de error puede ser utilizado para el cálculo de la matriz W. Para el ejemplo presentado líneas arriba, la estrategia consiste en estimar el modelo por MCO para cada submuestra donde el estimador de la varianza del término de error para cada grupo vendría dado por:

e e

m k1 1 2

1'

!−

= σ

e e

n m k2 2 2

2'

( )!

− −= σ

donde k representa el número da variables explicativas, en este caso 1. Ahora, es factible estimar la estructura de la matriz W:

!!

!W

I

I=

σ φφ σ

21 1

22 2

y de esta forma se puede proceder con la corrección a través de Mínimos Cuadrados Generalizados. La estrategia sugerida anteriormente presenta, sin embargo, una dificultad: la elección de las submuestras a ser analizadas. Para el caso planteado líneas arriba convendría dividir la muestra en grupos que reúnan características demográficas similares. Por ejemplo, cabe suponer que la conducta de los agentes en zonas urbanas difiere de la conducta en zonas rurales. Usualmente, la propensión marginal a ahorrar en zonas urbanas tiende a ser mayor debido, en parte, a un mayor desarrollo del sistema financiero, por lo que una alternativa al problema de la elección de las submuestras sería, para este caso, considerar que los grupos seleccionados correspondan a las poblaciones rurales y urbanas respectivamente. Evidentemente, para otros casos la elección de las submuestras dependerá en gran medida del criterio del investigador, sin embargo, el test de Goldfeld y Quandt (diseñado para la detección de heterocedasticidad por grupos) puede darnos una idea acerca de las submuestras a ser analizadas. Ejemplo: Supongamos un modelo de la forma:

C1i = α0 + α1Y1i + α2K1i +ui donde: C1i = consumo de la región i

Page 214: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

232

Y1i = ingreso de la región i K1i = dotación de capital de la región i i = 1,2,...,200 Se busca evaluar la presencia de heterocedasticidad por conductas diferenciadas tenemos la posibilidad de analizar el gráfico de los residuos de la regresión planteada líneas arriba. !"Comandos EViews: • QUICK - ESTIMATE EQUATION C1 c Y1 K1 • VIEW - ACTUAL, FITTED, RESIDUAL - GRAPH

-2

-1

0

1

2

-3

-2

-1

0

1

2

3

20 40 60 80 100 120 140 160 180 200

Residual Actual Fitted

En este caso, el comportamiento que registran los residuos sugiere la presencia de heterocedasticidad. Claramente se observa como alrededor de la observación 150 en adelante la varianza de éstos aumenta, siendo, por tanto, variable a lo largo de la muestra. Este comportamiento nos permite realizar el siguiente supuesto respecto a las submuestras a analizar: C1i1 = α0 + α1Y1i1 + α2K1i1 + ui1

i = 1,2, ... ,150 C1j2 = α0 + α1Y1j2 + α2K1i2 + uj2

j = 151, ... ,200 donde: Var(ui1) = σ2

1

Var(uj2) = σ22 (σ2

1 < σ22)

La estrategia de corrección sugerida en este caso consiste en ponderar cada observación de la primera submuestra por la inversa de la raíz del estimador de la varianza:

Page 215: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

233

21

11 ˆ3150

'σ=

−ee

y cada observación de la segunda submuestra por la inversa de la raíz del estimador de la varianza:

22

22 ˆ350

' σ=−ee

Para estimar la suma de cuadrados del error para cada submuestra es necesario realizar la

estimación MCO de cada una de ellas. !"Comandos EViews: • SMPL 1 150 • QUICK - ESTIMATE EQUATION C1 c Y1 K1 LS // Dependent Variable is C1 Sample: 1 150 Included observations: 150 Variable Coefficient Std. Error t-Statistic Prob. C 0.229483 0.024914 9.210914 0.0000 Y1 0.496267 0.029671 16.72592 0.0000 K1 0.326542 0.024386 13.39055 0.0000 R-squared 0.752930 Mean dependent var 0.230101 Adjusted R-squared 0.749568 S.D. dependent var 0.609727 S.E. of regression 0.305127 Akaike info criterion -2.354258 Sum squared resid 13.68605 Schwarz criterion -2.294045 Log likelihood -33.27141 F-statistic 223.9863 Durbin-Watson stat 1.852706 Prob(F-statistic) 0.000000

Para la primera submuestra, el estimador de la varianza vendría dado por:

e e1 1

150 3

13 68605

147

' .

−=

!"Comandos EViews: • GENR POND1=1/(13.68605/147)^(1/2) • GENR C1P=C1*POND1 • GENR Y1P=Y1*POND1 • GENR K1P=K1*POND1

Ahora, si se trabaja con la segunda submuestra tenemos: !"Comandos EViews: • SMPL 151 200 • QUICK - ESTIMATE EQUATION C1 c Y1 K1

Page 216: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

234

LS // Dependent Variable is C1 Sample: 151 200 Included observations: 50 Variable Coefficient Std. Error t-Statistic Prob. C 0.222016 0.087271 2.543973 0.0143 Y1 0.455394 0.078044 5.835071 0.0000 K1 0.197000 0.099722 1.975498 0.0541 R-squared 0.473585 Mean dependent var 0.300147 Adjusted R-squared 0.451184 S.D. dependent var 0.823803 S.E. of regression 0.610290 Akaike info criterion -0.929517 Sum squared resid 17.50534 Schwarz criterion -0.814796 Log likelihood -44.70900 F-statistic 21.14159 Durbin-Watson stat 1.627309 Prob(F-statistic) 0.000000

En este caso, el estimador de la varianza vendría dado por:

e e2 2

50 3

17 50534

47

' .

−=

!"Comandos EViews: • GENR POND2=1/(17.50534/47)^(1/2) • GENR C1P=C1*POND2 • GENR Y1P=Y1*POND2 • GENR K1P=Y1*POND2 Ahora, trabajando con el total de la muestra, se observa como la varianza de los errores ya no presenta un comportamiento variable. !"Comandos EViews: • SMPL 1 200 • QUICK - ESTIMATE EQUATION C1P c Y1P K1P • VIEW - ACTUAL, FITTED, RESIDUAL - GRAPH

Page 217: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

235

-4

-2

0

2

4

-10

-5

0

5

10

20 40 60 80 100 120 140 160 180 200

Residual Actual Fitted

Otra alternativa para la corrección de heterocedasticidad por conductas diferenciadas es la sugerida por el test de Glejser. En este caso, sin embargo, suponemos que las distintas respuestas de los agentes dependen de alguna de las variables involucradas en el modelo. En este sentido, la varianza del error dependerá del comportamiento de esta variable y será, por tanto, cambiante en el tiempo. Supongamos que se estima un modelo de la forma:

ci = α0 + α1yi + α2ki + ui donde ci = consumo de la familia i yi = ingreso de la familia i ki = dotación de capital de la familia i Al respecto la intuición económica nos indica que aquellas familias con mayores ingresos presentarán una mayor variabilidad en sus decisiones de consumo dada la mayor renta excedente con la que cuentan. En este sentido, cabe esperar que la varianza del término de error se incremente según el nivel de ingresos de las familias. Si la intuición detrás de este razonamiento es correcta, será factible representar la varianza del error de la siguiente manera:

!σ β β ε2 20 1i i i ie y= = + +

En este caso se ha supuesto una relación lineal, sin embargo, también pueden darse casos

donde otras formas funcionales presenten un mejor ajuste. Al respecto, el test de White (donde se incluyen los cuadrados de las variables explicativas) puede dar una idea acerca de la variable que explica la heterocedasticidad y su forma funcional. Una vez determinada la forma funcional más apropiada podemos estimar la estructura de la matriz a ser utilizada en la estimación MCG. Para el ejemplo analizado ésta sería de la forma:

Page 218: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

236

!

! !

...! !

Σ =+

+

β β φ

φ β β

0 1 1

0 1

y

yn

Ejemplo: Supongamos un modelo de la forma:

C1i = β0 + β1Y1i + β2K1i + ui donde: C1i = consumo en el momento i Y1i = ingreso en el momento i K1i = stock de capital en el momento i

Tal como se indicó anteriormente, la intuición económica nos lleva a pensar que la varianza del término de error depende del nivel de ingreso para cada periodo. Para confirmar esto, verfiquemos los resultados del test de White. LS // Dependent Variable is C1 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.326073 0.100931 3.230640 0.0017 Y1 0.697753 0.109240 6.387326 0.0000 K1 0.237217 0.091954 2.579744 0.0114 R-squared 0.330475 Mean dependent var 0.275419 Adjusted R-squared 0.316670 S.D. dependent var 1.217519 S.E. of regression 1.006447 Akaike info criterion 0.042394 Sum squared resid 98.25484 Schwarz criterion 0.120549 Log likelihood -141.0136 F-statistic 23.93939 Durbin-Watson stat 2.219083 Prob(F-statistic) 0.000000

!"Comandos EViews: • VIEW - RESIDUAL TESTS - WHITE HETEROSKEDASTICITY

Page 219: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

237

White Heteroskedasticity Test: F-statistic 24.56897 Probability 0.000000 Obs*R-squared 56.65104 Probability 0.000000 Test Equation: LS // Dependent Variable is RESID^2 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -0.439386 0.255494 -1.719751 0.0888 Y1 0.371889 0.185452 2.005312 0.0478 Y1^2 1.485348 0.152522 9.738594 0.0000 Y1*K1 -0.100854 0.181903 -0.554442 0.5806 K1 -0.114173 0.151505 -0.753594 0.4530 K1^2 0.143806 0.113713 1.264635 0.2091 R-squared 0.566510 Mean dependent var 0.982548 Adjusted R-squared 0.543452 S.D. dependent var 2.398937 S.E. of regression 1.620921 Akaike info criterion 1.024114 Sum squared resid 246.9742 Schwarz criterion 1.180424 Log likelihood -187.0995 F-statistic 24.56897 Durbin-Watson stat 2.227027 Prob(F-statistic) 0.000000

Como se observa, la variable más significativa para explicar el comportamiento de la varianza del error es Y1^2, por lo que se puede sugerir una forma funcional:

!σ β β ε2 20 1

2i i i ie y= = + +

!"Comandos EViews: • GENR VAR1=RESID^2 LS // Dependent Variable is VAR1 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C -0.328041 0.204686 -1.602654 0.1122 Y1^2 1.538236 0.143959 10.68521 0.0000 R-squared 0.538114 Mean dependent var 0.982548 Adjusted R-squared 0.533401 S.D. dependent var 2.398937 S.E. of regression 1.638667 Akaike info criterion 1.007563 Sum squared resid 263.1524 Schwarz criterion 1.059666 Log likelihood -190.2720 F-statistic 114.1738 Durbin-Watson stat 2.268095 Prob(F-statistic) 0.000000

El resultado obtenido anteriormente confirma la intuición acerca de la relación existente entre los niveles de ingreso y la varianza del término de error. Específicamente, el coeficiente

Page 220: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

238

positivo indica que a mayores niveles de ingreso la mayor discrecionalidad de los agentes respecto a sus decisiones de consumo nos lleva a perturbaciones con una mayor varianza. La estrategia de corrección en este caso consiste en multiplicar cada observación por la inversa de la raíz de la varianza estimada para cada periodo. Formalmente, el ponderador utilizado para la observación vendría dado por:

1 1

10 12! ! !σ β βi iY

=+

!"Comandos EViews: • FIT - Estimación de VAR1, variable generada: VAR1F • QUICK - ESTIMATE EQUATION - OPTIONS - WEIGHTED LS/TSLS • Weight = 1/VAR1F^(1/2) LS // Dependent Variable is C1 Weighting series: 1/VAR1F^(1/2) Sample(adjusted): 1 99 Included observations: 67 Excluded observations: 32 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. C 0.161934 0.074944 2.160739 0.0345 Y1 0.426262 0.125126 3.406656 0.0011 K1 0.306240 0.069993 4.375276 0.0000 Weighted Statistics R-squared 0.267881 Mean dependent var 0.144864 Adjusted R-squared 0.245002 S.D. dependent var 0.888657 S.E. of regression 0.772159 Akaike info criterion -0.473386 Sum squared resid 38.15872 Schwarz criterion -0.374669 Log likelihood -76.21044 F-statistic 11.70872 Durbin-Watson stat 2.332090 Prob(F-statistic) 0.000046 Unweighted Statistics R-squared 0.239068 Mean dependent var 0.342569 Adjusted R-squared 0.215289 S.D. dependent var 1.453453 S.E. of regression 1.287526 Sum squared resid 106.0943 Durbin-Watson stat 2.206372

Para verificar que los errores de la nueva regresión son homocedásticos construyamos una regresión del cuadrado de los residuos contra el cuadrado de la variable ingreso. !"Comandos EViews: • GENR RESP=RESID*(1/VAR1F^(1/2)) • GENR VAR2=RESP^2

Page 221: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

239

LS // Dependent Variable is VAR2 Sample(adjusted): 1 99 Included observations: 67 Excluded observations: 32 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. C 1.504632 0.272181 5.528058 0.0000 Y1^2 -0.185154 0.156816 -1.180710 0.2420 R-squared 0.020997 Mean dependent var 1.275835 Adjusted R-squared 0.005935 S.D. dependent var 1.569158 S.E. of regression 1.564494 Akaike info criterion 0.924522 Sum squared resid 159.0968 Schwarz criterion 0.990333 Log likelihood -124.0404 F-statistic 1.394077 Durbin-Watson stat 1.465058 Prob(F-statistic) 0.242020

iii) Corrección de White Las dos correcciones planteadas anteriormente suponen que se tiene alguna idea de la forma de la varianza y por tanto existe algún soporte para poder realizar la ponderación . Sin embargo, ese no es el caso que se presenta con mayor regularidad. En muchos casos no tenemos idea de la forma de la varianza aunque hemos detectado la presencia de heterocedasticidad. Ello nos lleva a pensar en la posibilidad de desarrollar una forma general de corrección que nos permita corregir el problema de la ineficiencia del estimador. Esta alternativa fue desarrollada por White (1980). El plantea una método más general para la obtención del estimador MCG y de su estructura de varianza-covarianza. White sugiere realizar una serie de estimaciones puntuales a través de MCO y utilizar los errores estimados para construir la matriz Σ. Específicamente, plantea estimar Σ como la matriz diagonal que contenga al i-ésimo error MCO como el elemento (i,i):

2

22

21

...ˆ

me

e

e

φ

φ

(8.32)

Ya se sabe que la presencia de heterocedasticidad conduce a la estimación de parámetros ineficientes con una matriz de covarianzas (σ2

u(X’X)-1) inconsistente. Si conocemos el tipo de proceso que genera la heterocedasticidad, este problema puede resolverse fácilmente a través de las transformaciones pertinentes. Sin embargo, y a pesar de que es factible evaluar diferentes procesos generadores del problema y plantear diversas formas funcionales, es difícil conocer a ciencia cierta si el proceso propuesto es el adecuado. En este sentido, y a pesar de que se puede tener una idea acerca del valor de los parámetros del modelo original, será difícil conocer la exactitud de los estimadores y su significancia (estadísticos t), debido a la incosistencia de la matriz de covarianzas. Frente a esto, White propuso un estimador para la matriz de covarianzas que sea consistente con la presencia de heterocedasticidad pero que no dependa de ninguna forma funcional específica para la estructura del problema. White demostró que:

Page 222: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

240

plim ( ' ) ' ! ( ' ) ( ' ) ' ( ' )X X X X X X X X X X X XT

− − − −

→∞

=1 1 1 1Σ Σ

de modo que:

Var X X X X X X( ! ) ( ' ) ' ! ( ' )β = − −1 1Σ (8.33) resulta un estimador consistente de la estructura de varianza-covarianza del estimador, independientemente del proceso generador del problema. El término plim significa que la primera expresión converge en probabilidad a la segunda. En otras palabras, para muestras suficientemente grandes el estimador de la matriz de covarianzas converge a la verdadera matriz, siendo, por tanto, un estimador consistente. Por tanto, la estimación de los parámetros se realiza mediante el estimador de mínimos cuadrados ordinarios y se realiza una corrección a la matriz de varianzas y covarianzas de los parámetros estimados. La racionalidad de esta secuencia descansa en el hecho de que el estimador MCO no es sesgado pero sí ineficiente. El siguiente ejemplo nos permitirá ilustrar la secuencia descrita: Ejemplo: Trabajando con le modelo propuesto anteriormente:

C1i = β0 + β1Y1i + β2K1i + ui donde: C1i = consumo en el momento i Y1i = ingreso en el momento i K1i = stock de capital en el momento i Si se utiliza el estimador consistente de White no es necesario suponer ninguna forma funcional para el proceso de heterocedasticidad. Basta realizar la estimación del modelo a través de MCO y utilizar los residuos para construir la matriz Σ. !" Comandos EViews: • QUICK - ESTIMATE EQUATION - OPTIONS - HETEROKEDASTICITY CONSISTENT

COVARIANCE • White LS // Dependent Variable is C1 Sample: 1 100 Included observations: 100 White Heteroskedasticity-Consistent Standard Errors & Covariance Variable Coefficient Std. Error t-Statistic Prob. C -0.026961 0.095170 -0.283291 0.7776 Y1 0.305391 0.123439 2.474029 0.0151 K1 0.224557 0.084376 2.661387 0.0091 R-squared 0.164876 Mean dependent var -0.025856

Page 223: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

241

Adjusted R-squared 0.147657 S.D. dependent var 1.024561 S.E. of regression 0.945900 Akaike info criterion -0.081696 Sum squared resid 86.78847 Schwarz criterion -0.003541 Log likelihood -134.8090 F-statistic 9.575213 Durbin-Watson stat 1.982183 Prob(F-statistic) 0.000160

En este caso, la matriz utilizada por el programa econométrico para estimar la estructura de covarianza de los estimadores viene dada por:

T

T kX X u x x X Xt t t

t

T

=

−∑( ' ) ' ( ' )1 2

1

1 (8.34)

Tal como se indicó anteriormente, este estimador es consistente con la presencia de errores

heterocedásticos y no depende de la estructura específica del problema. Por otro lado los estimados se obtienen por el estimador MCO. iv) Variables Omitidas

Ya se ha discutido el problema que causa la omisión de una variable sobre la heterocedasticidad. Si la variable omitida presenta variabilidad lo que obtenemos es la presencia de heterocedasticidad que se detectará por las diversas pruebas. Es más, si la variable omitida presenta correlación fuerte con una de las variables que se incluyen en el modelo es posible que se llegue a determinar la forma de la varianza en función a la variable incluida en el modelo y equivocadamente procederíamos a corregir la heterocedasticidad a través de la ponderación de las observaciones por la varianza estimada.

El procedimiento descrito puede ser muy frecuente. Sin embargo queda claro que la

corrección sería errónea. Por ello, para minimizar que suceda la secuencia de hechos aquí descrita es necesario iniciar la estimación con una especificación lo más general posible a fin de evitar esta heterocedasticidad “espúrea” que suele presentarse con una gran frecuencia. Sólo una vez que hemos iniciado nuestra estimación con una especificación general y el problema de heterocedasticidad ha sido detectado podremos estar seguros que el problema responde a la forma de la población y no a una mala especificación.

Page 224: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

242

APENDICE

Programa de la prueba de Spearman.

Programa 8.1 WORKFILE sp1 U 50 GENR Y = 10*NRND+ (@TREND(1)) GENR X1 = 10*NRND + Y +(@TREND(1)) ls y x1 GENR RESIDABS = ABS(RESID) genr obsr=@trend(1)+1 genr obsv=@trend(1)+1 sort residabs genr ordr=@trend(1)+1 store ordr store obsr sort x1 store obsv WORKFILE sp2 U 50 fetch ordr matrix (50,1) ordrv stom(ordr,ordrv) fetch obsr matrix (50,1) obsrv stom(obsr,obsrv) fetch obsv matrix (50,1) obsvv stom(obsv,obsvv) vector b=0 !j=1 !n=0 series orden=0 for !i=1 to 50 smpl 1 50 vector a=@rowextract(obsv,!i) while a<>b and !j<51 vector b=@rowextract(obsrv,!j) !j=!j+1 !n=!n+1 wend !j=1 smpl !i !i orden = !n !n=0 next smpl 1 50 genr dif=abs(orden-ordr) scalar r=1-(6*(sum(dif))^2)*(50*(50^3-1))

88..55.. AAUUTTOOCCOORRRREELLAACCIIÓÓNN

Luego de la discusión de la naturaleza, detección e implicaciones del problema de la heterocedasticidad, debemos centrarnos en otro de los problemas poblacionales más frecuentes y estudiados en el análisis econométrico: la autocorrelación. En las siguientes páginas se buscará dar una idea más o menos acabada de los efectos de este problema sobre las

Page 225: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

243

propiedades del estimador MCO. Como ya se mencionó en las primeras páginas de esta capítulo, la violación del supuesto referido a que la matriz de varianzas y covarianzas de los errores sea diagonal y con elementos constantes a lo largo de ella ocasiona la pérdida de eficiencia del estimador MCO.

En términos más formales, la tercera condición de Gauss-Markov implica que el término de

error para cada observación se determina independientemente de los valores que pueda arrojar en el resto de observaciones de la muestra. Específicamente, la independencia de las perturbaciones implica que su covarianza es cero (Cov (uiuj) = 0 para todo i ≠ j). Cuando esta condición no se cumple se dice que el error presenta autocorrelación.

Específicamente, se puede distinguir dos tipos de autocorrelación. La primera se define

como autocorrelación espacial y se presenta cuando trabajamos con modelos de corte transversal mientras que la segunda, conocida como autocorrelación serial, se presenta al trabajar con series de tiempo. Las siguientes páginas sólo se concentrarán en la discusión de la segunda forma de autocorrelación

8.5.1. Tipos de Autocorrelación

Habiendo mencionado que nos centraremos en la autocorrelación presente en el contexto de los modelos de series de tiempo debemos hacer una presentación de las principales formas de representación estadística de este tipo de característica de la estructura de los errores. Con esto haremos una breve introducción a los modelos de series de tiempo que se analizarán en profundidad más adelante.

La idea detrás de los modelos de series de tiempo es que se puede representar cualquier conjunto de datos ordenados de manera temporal a través de relaciones con otras variables aleatorias que generalmente son valores pasados de la misma variable aleatoria, de otra variable aleatoria o una combinación de ambas. Este conjunto de datos se conoce como proceso estocástico y se plantean distintos modelos estadísticos alternativos que están relacionados entre sí.

El primer modelo sugerido para representar la autocorrelación, basado en los modelos de series de tiempo es el modelo autorregresivo:

tptpttt εµρµρµρµ ++++= −−− .....................2211 (8.35)

Este modelo es conocido por su abreviación. En este caso, el modelo presentado sería un

AR(p). Esto nos indica que la variable en cuestión sólo es explicada por sus valores pasados. Esto implica que existe una correlación serial entre las observaciones de la variable que se estudia que en este caso es el error. El término tε es un ruido blanco y representa los shocks a los cuales está sometido el proceso que gobierna la evolución del término de error.

El otro modelo utilizado como representación estadística de un proceso con autocorrelación

es el que se denomina de medias móviles:

qtqtttt −−− ++++= εθεθεθεµ ..........2211 (8.36)

Este modelo es conocido también por su abreviación. Así, en este caso tendremos que este

modelo será un MA(q). Como se puede apreciar, este proceso supone que el término de error es una combinación lineal de varios shocks pasados. El orden del modelo viene dado por los rezagos de los ruidos blancos incluidos. Debemos tener cuidado de que el nombre no nos lleve a confusión porque implica que los parámetros del modelo deberían sumar 1. Ello no es así. Debemos evitar dicha confusión.

Page 226: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

244

Un tercer modelo que usualmente se utiliza es una combinación de los dos anteriores. Este es

conocido como el modelo Autorregresivo y de Medias Móviles:

qtqttptptt −−−− +++++= εθεθεµρµρµ .................. 1111 (8.37)

Las siglas del modelo son ARMA(p,q). Ello implica que existen p rezagos del error y

también que se incluyen q rezagos de shocks pasados dentro de la estructura del error. Los tres modelos presentados tienen cierta relación entre sí. Existe una propiedad que es la

de isomorfismo que sostiene que todo modelo de series de tiempo puede expresarse en términos de cualquiera de los otros. Esto será visto en más detalle en el capítulo de modelos de series de tiempo.

8.5.2. ¿ Qué implica la autocorrelación? Los problemas asociados a la presencia de autocorrelación son similares a los que

enfrentamos cuando los errores son heterocedásticos. Los estimadores MCO se mantienen insesgados pero dejan de ser eficientes. Esto implica que la varianza aumenta por lo que la volatilidad de los estimadores aumenta. Sin embargo, en términos de la estimación en la práctica ocurre lo contrario. Dado que los programas econométricos utilizan el estimador MCO, lo que ocurre es que calculan la varianza siguiendo la fórmula tradicional de MCO la cual nos da desviaciones estándar menores. Por tanto, éstas son usualmente subestimadas lo que conduce a una sobreestimación de los estadísticos-t y a problemas de inferencia dado que nuestras conclusiones serían erróneas.

Con referencia al problema asociado a la eficiencia de los estimadores MCO, y al igual que

para el caso de heterocedasticidad, basta encontrar otro procedimiento para la estimación de los parámetros que arroje estimadores de menor varianza para descartar la eficiencia de los estimadores MCO. En este sentido, y como alternativa a la estimación MCO, la estimación por mínimos cuadrados generalizados arroja estimadores más eficientes en el sentido de presentar una menor varianza.

8.5.3. ¿Por qué se presenta la autocorrelación? Existen diversas explicaciones de porqué aparece la autocorrelación en un modelo.

Revisaremos algunas de ellas con el fin de que se tengan en cuenta al momento de realizar la estimación de cualquier modelo. Si se quiere realizar una investigación seria debemos conocer nuestros datos y las propiedades de los mismos a fin de tenerlos en cuenta si es que los problemas econométricos son detectados.

• Presencia de ciclos económicos Una de las razones para la aparición de autocorrelación es que muchas de las variables

económicas que analizamos presentan un comportamiento cíclico. Esto está relacionado a la presencia de ciclos económicos. Como sabemos en economías de mercado existe una proclividad a que las series económicas se muevan de manera conjunta y que presenten cierto comportamiento en donde las elevaciones tanto por encima como por debajo de su media muestren cierta persistencia. Esto puede ocasionar que un modelo que incluye variables con este comportamiento presente autocorrelación.

• Presencia de relaciones no lineales

Page 227: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

245

En muchos casos puede ocurrir que a pesar que el modelo es lineal en los parámetros la

relación sea no lineal en las variables. Una de las posibilidades es que la relación sea cuadrática y ello no ha sido incluido en el modelo. Esto podría ser una de las razones por las que se podría encontrar la presencia de autocorrelación en el modelo.

• Mala especificación La perturbación de un modelo recoge la influencia de aquellas variables que afectan el

comportamiento de la variable dependiente pero que no han sido incluidas en el modelo. Por ello, se pretende que el término de error para cualquier observación sea independiente de los valores obtenidos en periodos pasados, los valores de las variables omitidas deberán ser también independientes en el tiempo. En este sentido, la persistencia de los efectos de las variables no incluidas es probablemente la causa más frecuente para la existencia de autocorrelación.

Específicamente, si se busca explicar el consumo de determinado bien sólo a través del

ingreso disponible es probable que se esté omitiendo variables importantes como el clima o la moda. Si lo que se busca es estimar la demanda por helados, por ejemplo, es de esperar que ésta se incremente en verano al margen del ingreso disponible de las familias. En este sentido, será usual encontrar varias observaciones consecutivas donde el error muestra valores positivos si estamos en verano seguidas por observaciones donde el error muestra valores negativos frente al cambio de estación. En otras palabras, la línea de regresión sólo indica la relación existente entre el ingreso disponible y el consumo de helados pero es la estación del año (variable omitida en el modelo) la que explica el carácter cíclico de la demanda. En este ejemplo particular estamos frente a un caso de autocorrelación serial positiva ya que la estación del año determina la presencia de errores consecutivos con un mismo signo.

En general, puede decirse que la mayoría de las veces que se encuentra autocorrelación

puede deberse a la presencia de una mala especificación del modelo. De hecho las dos razones anteriores que se han presentado de alguna manera pueden relacionarse con una mala especificación. Para minimizar la probabilidad de ocurrencia y tener certeza de que el problema está presente una buena estrategia será comenzar por una especificación amplia que incluya todas las variables posibles relevantes para el modelo y sus respectivos rezagos y de allí proceder a la reducción del modelo (eliminación de variables o decantación son expresiones alternativas para este procedimiento), a través de la realización de muchas pruebas, hasta llegar a una representación parsimoniosa que nos permita obtener un buen modelo. Sólo si se ha seguido este proceso se podrá disminuir fuertemente la probabilidad de que la autocorrelación sea realmente una expresión de la distribución de los errores y no de una mala especificación del modelo.

Page 228: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

246

8.5.4 ¿Cómo es la matriz de varianzas y covarianzas del error cuando existe autocorrelación?

Sabemos que cuando los errores son no esféricos, debemos aplicar el estimador MCG. Ello implica determinar la forma de las matrices Σ y V. Analizaremos en este caso las formas de dichas matrices para el caso de un error que sigue un modelo AR(1) y MA(1).

• Proceso AR(1) De conocerse el tipo de proceso que siguen los errores, la corrección del problema de

autocorrelación no debe presentar mayores dificultades. Al respecto, la corrección del problema de autocorrelación serial positiva de primer orden es la que ha recibido mayor atención en la literatura debido a la sencillez de su planteamiento:

ttt ερµµ += −1 (8.38)

donde -1< ρ <1 y εt cumple todas las condiciones de Gauss-Markov. Esta representación implica que ut depende sólo de los valores pasados de εt . Para entender esto veamos la siguiente transformación de la ecuación anterior. Esta expresión puede escribirse de la siguiente manera:

ttt L εµρµ += donde L es el operador de rezago. Este operador tiene la propiedad que si se aplica sobre cualquier variable fechada en un periodo t la rezaga tantas períodos como se aplique el operador de rezago. Formalmente:

11

22

1

+−

=

=

=

tt

tt

tt

xxL

xxL

xLx

(8.39)

Retomando nuestra expresión anterior, podemos hacer la siguiente transformación:

∑∞

=

=

−=

=−

0

)

1

1

it

it

tt

tt

εL(μ

ρL)(

εμ

ερL)(μ

ρ

(8.40)

La última expresión proviene del hecho que, si partimos del supuesto que 1<ρ , tenemos

que la expresión ( )Lρ−11 que es el denominador de la segunda expresión es la suma de una

serie geométrica infinita de orden infinito con módulo menor a 1. Por ello de la segunda expresión pasamos a la tercera que es justamente una serie geométrica de orden infinito. El operador de rezago interviene en la expresión debido a que, aunque no es una variable, no afecta para nada la expresión anterior. Si aplicamos el operador de rezago veremos que obtenemos la siguiente expresión:

uti

t ii

= −=

∑ρ ε0

(8.41)

Page 229: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

247

que es una representación MA de orden infinito. Una condición para poder hacer esta

operación es que 1<ρ , lo cual implica que la serie es estacionaria5. Esto ilustra la propiedad

de isomorfismo mencionada anteriormente: podemos pasar de un proceso AR a un proceso MA. Debemos detenernos un momento a pensar lo que implica el proceso descrito anteriormente.

Como vemos, si 1<ρ , vemos que el efecto de los shocks pasados van teniendo un peso

decreciente conforme nos alejamos en el tiempo. Esto implica que las condiciones iniciales no importan mucho para explicar el presente, lo relevante es el pasado reciente. Por ello se dice que estos procesos tienen memoria corta.

Si queremos obtener la varianza de este tipo de proceso podemos utilizar la representación

MA. Así, aplicando la varianza a dicha expresión obtenemos lo siguiente.

∑∞

=−=

0

2 )()(i

iti

t VarVar ερµ

Esta expresión sólo toma en cuenta la varianza y no las covarianzas de los shocks. Esto

obedece a la naturaleza de ruidos blancos de los shocks. Esta característica implica también que )()( itt VarVar −= εε . Por tanto, si imponemos estas condiciones, el resultado a obtener sería:

Var ut u( ) = =−

σ σρε2

2

21, constante para todo t. (8.42)

Adicionalmente, dado que tµ está autocorrelacionado, la covarianza entre distintas

observaciones del error sería distinta de cero. Utilizando las propiedades ya explicadas, el resultado sería:

[ ]Cov u u E u u E u u E u u u( , ) ( ) ( ) ( )1 2 12 1 2 1 1 2 12 1 22= = = + = + =σ ρ ε ρ ε ρσ

dado que E(u1ε2) = 0

[ ]Cov u u E u u E u u u u( , ) ( ) ( ) ( )1 3 13 1 2 3 1 22 2 2= = + = = =σ ρ ε ρ ρ ρσ ρ σ

En general, de lo anterior se desprende que:

Cov u ut t jj

u( , )− = ρ σ 2 (8.43)

A partir de las relaciones establecidas anteriormente, se puede construir la matriz de

varianzas y covarianzas del término de error:

Cov u u u

t

t

t

t t t t

( )

...

...

...

... ... ... ... ... ...

...

= =

− − − −

σ σ

ρ ρ ρ ρρ ρ ρ ρ

ρ ρ ρ ρ

ρ ρ ρ ρ

2 2

2 3 1

2 2

2 3

1 2 3 4

1

1

1

1

Σ (8.44)

5 El concepto de estacionariedad será revisado más adelante pero podemos adelantar que el concepto implica de cierta manera la existencia de un equilibrio estadístico.

Page 230: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

248

Al igual que en el caso de la corrección de heterocedasticidad, es necesario estimar la matriz

∑ y, a partir de ésta, calcular el estimador por MCG Factibles al reemplazar Σ por su estimado:

! ( ' ! ) ( ' ! )β MCG X X X Y= − − −Σ Σ1 1 1 (8.45)

En este caso, la matriz 1−Σ vendría dada por la siguiente expresión:

−−+−

−+−−+−

=Σ−

10..0

10.0

......

0.10

0.01

0..01

2

2

2

1

ρρρρ

ρρρρρρ

ρ

(8.46)

Una alternativa ya conocida a este procedimiento consiste en premultiplicar el modelo por la

matriz V-1 (∑ = VV’). Para ello, debemos tener en cuenta que la matriz V-1 para esta estructura de autocorrelación:

−−

−−−

=−

10...0

01...0

.......

.......

00.010

00..01

00..001 2

1

ρρ

ρρρ

V (8.47)

Esta vendría a ser nuestra matriz P por la cual habría que premultiplicar los datos para lograr

la transformación que nos permita obtener errores transformados que cumplan con las propiedades deseadas. A manera de ejemplo, podemos notar que el vector que contiene a la variable dependiente queda transformado de la siguiente manera:

−−

=

1

12

12

1

.

.

1

TT yy

yy

y

YV

ρ

ρρ

En la práctica, esta alternativa consiste en transformar el modelo original trabajando con las

cuasidiferencias.

ttttt xxyy ερβρβρ +−+−=− −− )()1( 1211 (8.48)

Si renombramos nuestras variables de la siguiente manera:

Page 231: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

249

)1(*1

1*

1*

ρββρρ

−=

−=

−=

ttt

ttt

xxx

yyy

tenemos:

ttt xy εββ ++= *2

*1

*

Debido a que εt satisface todas las condiciones de Gauss-Markov, se puede aplicar MCO

sobre las variables transformadas y obtener estimadores insesgados y óptimos. Sin embargo, uno de los problemas que se presentan al momento de utilizar este procedimiento radica en que se pierde la primera observación debido a que, evidentemente, no tiene observación precedente.

Todo el análisis presentado implica que se conoce ρ y por tanto la transformación requerida

es fácil de realizar. Sin embargo, este parámetro es desconocido y debe realizarse su estimación. Una vez que se estime este parámetro se podrá realizar la transformación de manera factible. Esto implica el estimador de mínimos cuadrados generalizados factibles.

Para evitar esto, podemos utilizar la transformación de Prais-Winsten que consiste en

ponderar la primera observación de cada variable por 1 2− ρ . En principio, debido a que cada

elemento del vector εt es independiente de ut, no es necesario trabajar con la cuasidiferencia de la primera observación, sin embargo, de ser así, ésta tendría un efecto desproporcionado sobre los estimadores. Es por ello que se sugiere ponderarla por el factor antes mencionado.

Hasta ahora se ha supuesto que se conoce el valor del coeficiente ρ por lo que la formulación

anterior resulta bastante sencilla. En realidad, en la mayoría de casos difícilmente se conoce el verdadero valor de ρ, por lo que resulta necesario considerar procedimientos alternativos.

En el caso de un proceso de medias móviles de orden 1 MA(1), el error sigue la siguiente ecuación:

1−+= tttu θεε

en este caso la varianza del error vendría dada por la siguiente expresión:

( ) ( )( )[ ] )1()()( 2211 θσθεεθεεµµµ ε +=++== −− ttttttt EEVar (8.49)

adicionalmente la covarianza entre el error contemporáneo y el primer rezago del mismo

sería la siguiente:

( )( )[ ] 22111 )( εβσθεεθεεµµ =++= −−−− tttttt EE (8.50)

Estos dos resultados se derivan del hecho que la covarianza entre dos ruidos blancos (cada

uno fechado en distinto período) es cero. En función a lo anterior es de esperarse que dada la estructura de la autocorrelación del error, la covarianza entre dos errores alejados más de dos períodos sea también igual a cero.

Page 232: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

250

( )( )[ ] 0)( 3212 =++= −−−− tttttt EE θεεθεεµµ

De esta manera, la matriz de varianzas y covarianzas de los errores quedaría de la siguiente

manera:

++

++

+

=′

2

2

2

2

2

2

10...0

10..0

.......

.......

0.010

0..01

0...01

)(

θθθθθ

θθθθθθ

θθ

σµµ εE (8.51)

Queda como tarea para el lector determinar la forma de las matrices V y V-1. Una vez

obtenidas éstas sería posible realizar la estimación de mínimos cuadrados factibles siguiendo los pasos sugeridos para el caso de un proceso AR(1).

8.5.5 ¿Cómo se detecta la autocorrelación? Una vez revisada la forma del estimador MCG bajo la presencia de autocorrelación, es necesario indagar acerca de las formas que tenemos a disposición para poder detectar la presencia de este problema. Al igual que el caso de la heterocedasticidad existirán pruebas que nos sugieran la forma de la autocorrelación y otros que nos dirán simplemente que la presencia de la autocorrelación es detectada simplemente. Los principales estadísticos que se utilizan se reseñarán a continuación: i) Test de Durbin Watson:

El test de Durbin-Watson verifica la existencia de autocorrelación de primer orden:

ut = ρut-1 + εt

donde εt reúne las características de un ruido blanco. Específicamente, el estadístico propuesto, a través del cual podemos verificar la hipótesis nula de ausencia de autocorrelación viene dado por:

D

e e

e

t tt

t N

tt

t N=

− −=

=

=

=

( )12

2

2

2

(8.52)

donde et representa al residuo de la regresión MCO para el periodo t. La intuición sobre la que basa el planteamiento de este estadístico sugiere que dado un coeficiente de autocorrelación significativo y positivo, los valores positivos o negativos del término de error (ut) tiendan a ser seguidos de valores positivos o negativos respectivamente. En tales condiciones, la diferencia

Page 233: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

251

(et - et-1) será generalmente menor, en valor absoluto, que el valor de et. En consecuencia (et - et-

1)2 < et

2 ó, lo que es lo mismo, el numerador del estadístico será menor que el denominador. De esta forma, si el coeficiente ρ es cercano a 1 et será aproximadamente igual a et-1 por lo que el valor del estadístico tenderá a cero. Por otro lado, si el coeficiente de autocorrelación presenta un valor negativo, valores positivos para el término del error vendrán seguidos de valores negativos y viceversa. En este caso, el estadístico tenderá a registrar valores elevados dado que el numerador será mayor que el denominador.

La intuición anterior puede verificarse más directamente si replanteamos el estadístico de la

forma:

De e e e

e

t t t t

t=

+ −∑ ∑∑∑

− −2 2

1 1

2

2

Si el número de observaciones es suficientemente grande, e t

2∑ y e t −∑ 12 son

aproximadamente iguales por lo que el estadístico D puede aproximarse por: D = −2 1( ! )ρ ,

donde !ρ = −∑∑

e e

e

t t

t

1

2y representa el estimador del coeficiente de correlación serial de los

errores. Dado que el parámetro ρ fluctúa entre 1 y -1, el estadístico registrará valores entre 0 y 4, con valores próximos a cero cuando exista autocorrelación serial positiva de primer orden y valores cercanos a 4 cuando exista autocorrelación serial negativa de primer orden. Finalmente, de no presentarse ningún tipo de autocorrelación, el valor del coeficiente ρ será cero por lo que es estadístico registrará valores cercanos a 2.

Cabe resaltar que la distribución del estadístico D varía con los valores de las variables

explicativas y, por tanto, es distinta para cada aplicación empírica. Esto torna particularmente difícil la constatación del estadístico, sin embargo, Durbin y Watson obtuvieron cotas superiores (DU) e inferiores (DL) para los niveles de significancia de su estadístico sobre el conjunto de todas sus posibles distribuciones de probabilidad. Estas cotas, presentadas en una serie de tablas publicadas por los autores6 depende del número de observaciones de la muestra y del número de variables explicativas incluidas en el modelo. Específicamente, y bajo el supuesto de autocorrelación serial positiva7 de primer orden, las reglas de decisión para la contrastación estadística serían:

Si D < DL, se rechaza la hipótesis nula de ausencia de autocorrelación Si D > DU, se acepta la hipótesis nula de ausencia de autocorrelación Si DL < D < DU, no se puede concluir nada acerca de la presencia de autocorrelación (zona

de indefinición) Lamentablemente, y debido a que las cotas propuestas fueron obtenidas de entre todas las

distribuciones posibles del vector de residuos MCO, exigir que el valor del estadístico esté por debajo de la cota inferior o supere a la cota superior, es en general un requisito demasiado estricto. Por esto, será común encontrarse dentro de la zona de indeterminación por lo que no podrá concluirse nada acerca de la presencia de autocorrelación. Asimismo, las cotas obtenidas por Durbin y Watson suponen que hay un término constante incluído en el modelo y que todas las variables explicativas son deterministas (exógenas), condiciones que deberán cumplirse para poder aplicar la prueba.

6 Las tablas para la contrastación del estadístico Durbin Watson pueden encontrarse en Gujarati, Econometría (Segunda Edición), Apéndice B. 7 Para el caso de autocorrelación serial negativa de primer orden basta intercambiar DL y DU.

Page 234: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

252

Respecto al supuesto referido a la exogeneidad de las variables explicativas, un caso bastante usual donde no se cumple esta condición es cuando se incluyen dentro del modelo rezagos de la variable endógena. Para aminorar el problema en este caso, Durbin sugirió un estadístico alternativo:

HT

TVar=

−!

( ! )ρ

β1 2 (8.53)

donde Var( ! )β2 denota la varianza del estimador MCO del coeficiente asociado al primer rezago de la variable endógena. De no existir autocorrelación, el estadístico H tiene una distribución que se aproxima a N(0,1) cuando el tamaño muestral tiende a infinito. Dado que la hipótesis alternativa es que exista autocorrelación serial positiva o negativa, el contraste de la hipótesis nula debe ser un contraste de una sola cola, por lo que debe compararse el valor calculado contra 1.645, el valor de la N(0,1) al 95% de confianza. Sin embargo, puede aún aparecer un problema adicional si la varianza del coeficiente MCO es mayor que 1/T , en cuyo caso el término dentro del radical sería negativo. Para estos casos, Durbin demostró que cuando la muestra tiende a infinito, un modo equivalente de llevar a cabo esta prueba consiste en estimar una regresión de los residuos MCO de la regresión original sobre un rezago del mismo, todos los rezagos de la variable endógena incluidos en el modelo y las demás variables explicativas. En este caso, la hipótesis nula se rechaza si el coeficiente de et-1 resulta significativamente distinto de cero.

Estrategias cuando el test de Durbin Watson es significativo: Originalmente, el test de Durbin Watson fue construido para verificar si el término de error

sigue un proceso autorregresivo de primer orden. Sin embargo cuando el valor del estadístico es significativo existen otras tres posibles causas alternativas:

• Que la significancia del estadístico sea una indicación de correlación serial pero que ésta no

sea de primer orden. • Que la correlación serial haya sido causada por omisión de alguna variable. • Que la correlación serial haya sido causada por una mala especificación dinámica.

1. Cuando los errores no siguen un proceso autorregresivo de primer orden AR(1) El hecho de que el estadístico D resulte significativo no necesariamente implica que los

errores sigan un proceso AR(1). De un modo similar, la aceptación de la hipótesis nula del test de Durbin Watson no debe llevar a pensar que no existe algún otro tipo de autocorrelación serial superior a uno. Por ejemplo, si suponemos que los errores siguen un proceso de la forma:

ut = α + ρ4ut-4 + et

el test de Durbin Watson (tal como ha sido planteado anteriormente) bien podría sugerir que no existe autocorrelación. Frente a estos casos, y dada la naturaleza de las observaciones, podemos construir estadísticos alternativos. Por ejemplo, y para el caso concreto de autocorrelación de orden 4 (tal como la planteada líneas arriba), Wallis sugirió utilizar un estadístico (D4) construido de manera análoga al Durbin-Watson con la sola diferencia de utilizar ut-4 en lugar de ut-1.

Por otro lado, y si se rechaza la hipótesis nula de ausencia de autocorrelación serial de primer

orden, sería conveniente determinar si no existen otros rezagos del término del error que también sean significativos. Esto se puede realizar a través de una regresión MCO del error

Page 235: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

253

estimado contra algunos de sus rezagos, donde la intuición acerca del número de rezagos significativos la puede proporcionar el correlograma de los residuos.

2. Autocorrelación causado por variables omitidas La presencia de autocorrelación puede también deberse a la omisión de variables serialmente

correlacionadas. Por ejemplo, consideremos un modelo de la forma: Modelo Verdadero: yt = β0 + β1xt + βxt

2 + ut

Modelo Estimado: yt = β0 + β1xt +vt

donde ut es un ruido blanco. Dado que vt = βxt

2 + ut , si Xt presenta autocorrelación entonces el término de error del modelo estimado (vt) presentará también este problema. Asimismo, y dado que vt no es independiente de Xt, los estimadores MCO no sólo serán ineficientes sino que también sesgados.

Planteemos otro ejemplo que permita analizar un poco más la naturaleza del proceso de

autocorrelación dada la omisión de una variable. Supongamos un modelo de la forma: Modelo Verdadero: yt = β1xt + β2zt + ut

Modelo Estimado: yt = β1xt + wt donde: wt = β2zt + ut Cov (zt,zt-1) = ρzσ2

z 8 (ρz=coeficiente de autocorrelación de primer orden de z) Var(zt) = σ2

z Al igual que en el ejemplo anterior, si Zt está autocorrelacionado, wt también lo estará, sin

embargo, en este caso conviene medir de alguna forma el grado de autocorrelación de los errores de la ecuación estimada (wt). Así, nuestro principal interés recaerá sobre el coeficiente de correlación de los errores wt, que incluye el efecto sistemático de la variable z no incluida en el modelo. Como wt = b2zt + ut, entonces tenemos que:

Cov(wt,wt-1) = β2

2ρzσ2z

Var(wt) = β22σ2

z + σ2u

por lo que el coeficiente de autocorrelación de wt (ρw) dependería del proceso que sigue la variable omitida y vendría dado por:

ρρ

σ β σw

z

u z

=+1 2

22 2/

(8.54)

En este caso, se puede comprobar que la prueba de Durbin Watson presenta algunos problemas

en la detección de autocorrelación. Se ha encontrado que la prueba pierde poder cuando la autocorrelación se explica por la omisión de una variable. Por ello es que se han desarrollado pruebas alternativas que intenten explorar la posibilidad de estructuras de autocorrelación más complejas. En todo caso, una manera de evitar la aparición de este tipo de autocorrelación es realizar una correcta especificación del modelo desde el principio dado que la aparición de un error

8 Recordemos que el coeficiente de autocorrelación de una variable Xt puede ser expresado de la forma: ρk = Cov(xt,xt-k) /Var (xt).

Page 236: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

254

no esférico debida a una mala especificación nos llevaría a realizar una corrección a través de la manipulación de los datos. Esto porque si la variable omitida es autocorrelacionada de primer orden un resultado probable es que el error estimado del modelo nos sugiera la presencia de un modelo AR(1) para el error. Esto nos llevaría a tratar de corregir el problema a través del método de la cuasidiferencias lo cual sería un error. El resultado sería que un problema sería corregido de manera equivocada lo cual haría que nuestro modelo carezca de relevancia. Por ello, a riesgo de ser repetitivos, lo recomendable es iniciar la modelación de una manera lo más general posible para evitar este tipo de problemas.

3. Autocorrelación causado por una mala especificación dinámica

Para comprender el problema de mala especificación dinámica, se parte de un modelo de la

forma:

yt = βxt + ut donde ut = ρut-1 + εt Tomando las cuasidiferencias del modelo planteado se tiene:

yt = ρyt-1 + βxt - ρβxt-1 + εt Se supone ahora un segundo modelo de la forma:

yt = β1yt-1 + β2xt + β3xt-1 + εt Nótese que el primer modelo es igual al segundo bajo la restricción de que β1β2 + β3 = 0 y

que β1 = ρ. En este sentido, un test que verifique si ρ = 0 es un test para β1=0 y β3=0, de modo que si se rechaza la hipótesis nula de ausencia de autocorrelación en realidad se estaría aceptando que ρ es distinto de cero por lo que los parámetros β1 y β3 serían también significativamente distintos de cero de modo que el modelo original estaría mal especificado, ya que estaría omitiendo las variables yt-1 y xt-1 . En otras palabras, de obtener un estadístico D significativo puede ser que se esté frente a un problema de mala especificación dinámica más que ante un proceso autorregresivo en los errores. Nuevamente lo mejor es iniciar el proceso de modelación con una especificación lo más amplia posible que incluya todas las variables necesarias así como todas las consideraciones dinámicas posibles. Ejemplo:

El valor para el estadístico Durbin-Watson lo proporciona el programa EViews al realizar

cualquier regresión: LS // Dependent Variable is CONPRI Date: 06/01/97 Time: 00:36 Sample: 1896 1995 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 208.6535 46.70111 4.467848 0.0000 CAPITAL 0.023852 0.004480 5.323810 0.0000 INGDISP 0.454549 0.013246 34.31568 0.0000

Page 237: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

255

R-squared 0.993622 Mean dependent var 4263.275 Adjusted R-squared 0.993490 S.D. dependent var 3987.850 S.E. of regression 321.7478 Akaike info criterion 11.57708 Sum squared resid 10041598 Schwarz criterion 11.65523 Log likelihood -717.7477 F-statistic 7555.668 Durbin-Watson stat 0.543929 Prob(F-statistic) 0.000000

Intuitivamente se puede suponer la existencia de autocorrelación serial positiva dado lo

reducido del valor obtenido. Sin embargo, se puede plantear el test en términos más formales resolviendo las sumatorias incluidas en el estadístico D.

- D

e e

e

t tt

t N

tt

t N=

− =

==

−=

=

=

=

( ) .

.

.1

2

2

2

2

5461920 67

10030278 5

0 54454327

A partir de las cotas sugeridas por Durbin y Watson en sus tablas, se puede contrastar el

valor obtenido para el estadístico D. Específicamente , y para k = 3 (dos variables explicativas y la constante) y n = 100 (número de observaciones), tenemos que dL = 1.613 y dU = 1.736. Dado que el valor obtenido para el estadístico D resulta menor a la cota inferior, se concluye que existe autocorrelación serial positiva de primer orden.

ii) Los test de Ljung-Box y Box-Pierce: Estos tests se basan en los coeficiente de correlación simple y pueden ser aplicados sólo cuando

el conjunto de variables explicativas son todas exógenas. Formalmente, Box-Pierce define el estadístico Q de la forma:

Q T r i

i

i p

==

=

∑ 2

1

(8.55)

mientras que Ljung-Box presenta un refinamiento del mismo planteando:

Q T Tr

T i

i

i

i p

= +−=

=

∑( )22

1

(8.56)

donde ri es igual al coeficiente de autocorrelación simple de i-ésimo orden definido como:

r

u u

ui

t t it

t T

tt

t T=

−=

=

=

=

∑1

2

1

(8.57)

Page 238: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

256

Nótese que ambos estadísticos, y en especial el de Box-Pierce, son similares al propuesto en el test de Breusch y Pagan. Para los tres casos, la dificultad estriba en la elección del orden p.

La hipótesis nula de ausencia de autocorrelación se aceptará si los estadísticos Q de Ljung-Box

y Box-Pierce resultan menores a los valores tabulares de una distribución chi-cuadrado con p grados de libertad y un 95% de confianza. En esencia lo que se analiza es si los coeficientes de correlación entre los rezagos del error y el valor contemporáneo del mismo son iguales a cero. Esto implica que todos y cada uno son iguales a cero. Si alguno es distinto de cero se no se podrá aceptar la hipótesis nula. Usualmente los programas econométricos lo que hacen es presentar estos estadísticos junto con el correlograma del término de error. Como ejemplo de ello podemos presentar una prueba típica:

En el correlograma tenemos dos columnas una referida a la autocorrelación y la otra referida

a la autocorrelación parcial. Empecemos por la segunda. Tal como se aprecia debajo de dicha columna tenemos unos rectángulos que nos indican la magnitud del coeficiente de autocorrelación correspondiente al máximo rezago incluido en la ecuación estimada para cada fila del cuadro de la derecha. Como vemos, en nuestro caso tenemos quince filas. En la práctica ello tiene significa que el programa ha estimado las siguientes regresiones:

tttttt

tttt

ttt

eeeee

eee

ee

ερρρρ

ερρερ

+++++=

++=+=

−−−−

−−

1515332211

2211

11

...........

................................. (8.58)

Page 239: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

257

Como vemos en cada regresión se va incluyendo un rezago más (y por tanto un parámetro más por estimar). No se incluye un intercepto porque la media de los errores MCO por construcción es cero. Bajo esta perspectiva, cada parámetro que se calcula es el coeficiente de correlación del error contemporáneo con el rezago respectivo. Para poder calcular una correlación limpia de la influencia de los otros rezagos se tienen que incluir a éstos (recordar la interpretación de cada parámetro cuando analizamos el modelo particionado en el capítulo 3). Entonces, el último parámetro de cada ecuación nos mide la correlación del respectivo rezago con el valor contemporáneo del error. Ese valor es que se registra en la columna de autocorrelación parcial. El gráfico correspondiente nos muestra el valor del mismo. Las líneas discontinuas que están a los lados de la línea continua (que representa el valor de cero) son las bandas de confianza para un intervalo centrado en cero. La interpretación del gráfico es entonces que cuando los rectángulos caen dentro del intervalo se puede esperar que los coeficientes de correlación parcial sean estadísticamente iguales a cero. Si los rectángulos salen fuera de la banda se espera que sean diferentes de cero. Como vemos en nuestro gráfico, sólo el primer rezago sale fuera de la banda de confianza, mientras que los demás no lo hacen. La interpretación es entonces que sólo podría haber autocorrelación de primer orden. En la columna de autocorrelación se registran los estadísticos tanto de Ljung-Box como de Box-Pierce. Usualmente se consigna el primero. Como sabemos por las fórmulas presentadas, estos estadísticos toman en cuenta todos los coeficientes de correlación. Por ello se habla de autocorrelación y no de autocorrelación parcial.

Si observamos la última columna de la tabla se presentan las probabilidades del estadístico

consignado. Como nos debemos haber percatado, la hipótesis nula de la prueba es que no existe autocorrelación. Demos una mirada con detenimiento. Si vemos los valores de la probabilidad para cada fila, veremos que en cada una de ellas se rechaza la hipótesis nula. Esto nos llevaría a pensar que incluso tenemos una autocorrelación autorregresiva de orden 15. Esa es una conclusión errónea. Revisando nuestras pruebas, vemos que la hipótesis nula es que no existe autocorrelación de ningún orden. Se utiliza para calcular el estadístico todas las correlaciones parciales. En nuestro caso, como sólo la primera es distinta de cero, el estadístico será grande a pesar de que las demás sean cercanas a cero. Ello explica las bajas probabilidades observadas.

Por lo tanto, vemos que los estadísticos de Ljung-Box y Box-Pierce sólo pueden detectar la

autocorrelación pero no indican el orden de ésta. Por tanto su interpretación debe ser comparada con los gráficos del correlograma para detectar posibles patrones de autocorrelación. En todo caso no son definitivos sino sólo referenciales.

iii) Test de Breusch Godfrey: Una alternativa al test de Durbin-Watson consiste en realizar contrastes donde la hipótesis

alternativa incluya especificaciones más generales que la del modelo autorregresivo de primer orden. De esta forma, se plantea una serie de estadísticos para distintos valores de k:

rku u

u

t t k

t=

−∑∑ 2

El primer estadístico (r1) que correspondería a la estimación MCO del parámetro ρ, fue el

utilizado en la construcción del test de Durbin-Watson. La generalización planteada simultáneamente por Breusch y Godfrey se conoce también como el test de multiplicadores de Lagrange (LM) y consiste en regresionar los residuos MCO sobre sus p rezagos y las variables explicativas del modelo original. El número de rezagos incluidos de los errores debe coincidir con el número de estadísticos rk cuya significación conjunta se pretende contrastar. El estadístico que obtenemos a partir del planteamiento de este test corresponde a TR2 (donde T es

Page 240: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

258

el número de observaciones en la muestra y el coeficiente de bondad de ajuste se refiere a la ecuación planteada líneas arriba). Este estadístico se compara con el valor tabular para una distribución chi-cuadrado con p grados de libertad.

Intuitivamente, se observa que el coeficiente R2 tenderá a cero en la medida en que las

variables explicativas propuestas en la regresión anterior no expliquen adecuadamente a los residuos. Recordemos que de no existir autocorrelación, los residuos no se podrían explicar a partir de sus rezagos, esto, sumado al hecho de que las variables explicativas incluidas son supuestamente ortogonales a los errores, garantizará un valor muy cercano a cero para el R2. En este caso, el valor del estadístico propuesto tendería a cero por lo que se aceptaría la hipótesis nula de ausencia de autocorrelación. Ejemplo:

Comandos EViews: VIEW/RESIDUAL TESTS/SERIAL CORRELATION LM TEST Resultados:

Page 241: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

259

Breusch-Godfrey Serial Correlation LM Test: F-statistic 28.68505 Probability 0.000000 Obs*R-squared 55.23254 Probability 0.000000 Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C 4.931975 31.99916 0.154128 0.8778 CAPITAL 0.001622 0.003220 0.503841 0.6156 INGDISP -0.004797 0.009471 -0.506525 0.6137 RESID(-1) 0.788615 0.101299 7.785007 0.0000 RESID(-2) -0.123128 0.128390 -0.959015 0.3400 RESID(-3) 0.206486 0.128409 1.608036 0.1112 RESID(-4) -0.198072 0.105542 -1.876721 0.0637 R-squared 0.552325 Mean dependent var -8.25E-13 Adjusted R-squared 0.523443 S.D. dependent var 318.4812 S.E. of regression 219.8574 Akaike info criterion 10.85339 Sum squared resid 4495368. Schwarz criterion 11.03575 Log likelihood -677.5632 F-statistic 19.12337 Durbin-Watson stat 1.985940 Prob(F-statistic) 0.000000

La probabilidad asociada al estadístico (0.000) indica el rechazo de la hipótesis nula de

ausencia de autocorrelación. Si queremos tener una idea de cuál es el patrón autorregresivo del error debemos fijarnos en la ecuación auxiliar que se utiliza para construir la prueba. En nuestro caso, observamos que sólo el parámetro asociado al primer rezago es significativo. Esto nos sugiere la presencia de autocorrelación de primer orden. Una estrategia válida es ir reduciendo el número de rezagos incluidos en la medida que no sean significativos. Cuando lleguemos a un modelo auxiliar que presente todos los parámetros asociados a los rezagos incluidos significativos, nos indicará con un alto grado de certeza el patrón de autocorrelación. Un procedimiento que nos permite mejorar lo anterior es incluir el menor número de rezagos de tal manera que el error de la ecuación auxiliar sea ruido blanco.

Esta prueba es una de las más potentes para la detección de autocorrelación porque permite

una especificación mucho más general y no presenta problemas aunque el modelo analizado presente a la variable dependiente rezagada como variable explicativa. En todo análisis de autocorrelación es indispensable su utilización. 8.5.6 ¿Qué hacer frente a la autocorrelación?

Al igual que la heterocedasticidad, la presencia de autocorrelación en los términos del error

origina la estimación de parámetros no eficientes. En este sentido, la corrección de este problema se basa en la utilización de un procedimiento alternativo a MCO que arroje estimadores de menor varianza. Todos los procedimientos que serán analizados en las siguientes páginas se enmarcan dentro de la estimación por MCG, la cual se basa en realizar transformaciones a las variables originales de modo que se garantice la obtención de estimadores más eficientes.

i) Método de la primera diferencia

Page 242: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

260

Este procedimiento se basa en el supuesto extremo de que ρ = ±1, es decir que existe una

autocorrelación positiva o negativa perfecta. Para el caso en que ρ = 1, la ecuación de cuasidiferencia se reduce a la primera diferencia:

Y Y X X u u X Xt t t t t t t t t− = − + − = − +− − − −1 2 1 1 2 1β β ε( ) ( ) ( ) (8.59)

o, lo que es lo mismo:

∆ ∆Y Xt t t= +β ε2 Bajo el supuesto simplificador de que existe autocorrelación serial positiva de primer orden,

la estrategia de corrección consistiría, por tanto, en tomar las primeras diferencias de la variable explicada y las explicativas, y aplicar MCO. Una característica importante del modelo en primera diferencia es que no contiene un intercepto. Si fuera así, se estaría partiendo de un modelo original con tendencia, donde el intercepto en el modelo en diferencias vendría a ser, en realidad, el coeficiente de la variable de tendencia en el modelo original. Para verificar esto, supongamos un modelo de la forma:

Yt = β1 + β2Xt + β3t + ut

donde ut sigue un esquema autorregresivo de primer orden. Tomando la primera diferencia al modelo anterior tenemos:

∆Yt = β2∆Xt + β3 + εt

Tal como se indicó anteriormente, el término de intercepto en el modelo en diferencias

corresponde al coeficiente de la tendencia en el modelo original. Ahora, en lugar de suponer que ρ = 1 se hará el supuesto extremo contrario, esto es, que el

error sigue un esquema autorregresivo de primer orden negativo (ρ = -1). En este caso, el procedimiento de corrección también se basa en el modelo en diferencias el cual, sin embargo, adopta ahora la siguiente forma:

Y Y X X u u X Xt t t t t t t t t+ = + + + + = + + +− − − −1 1 2 1 1 1 2 12 2β β β β ε( ) ( ) ( )

Y Y X Xt t t t t+

= ++

+− −11 2

1

2 2 2β β

ε

Tal como se verifica en la expresión anterior, el procedimiento de corrección cuando ρ = -1

consiste en realizar una regresión de promedios móviles. En los dos casos analizados previamente, se han realizado supuestos bastante simplificadores

respecto al tipo de proceso que caracteriza al error. Evidentemente, de no verificarse el supuesto sobre el que descansa el procedimiento utilizado para corregir el problema de autocorrelación, las estimaciones realizadas pueden incluso resultar peores en términos de eficiencia que las del modelo original. Por esto, resulta útil realizar alguna prueba que permita verificar la validez de los supuestos utilizados.

ii) Prueba de Berenblutt-Webb sobre la hipótesis: ρρρρ = 1 Con el fin de verificar la hipótesis de que los errores siguen un esquema autorregresivo de

primer orden y positivo, estos autores desarrollaron en siguiente estadístico:

Page 243: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

261

g

e

u

t

t

n

t

t

n= =

=

!

!

2

2

2

1

(8.60)

donde !ut son los residuos MCO del modelo original y !et son los residuos MCO del modelo en primeras diferencias. Si el modelo original contiene una constante es factible realizar el contraste de este estadístico en las tablas de Durbin Watson, sólo que en este caso hay que tener presente que la hipótesis nula es que ρ = 1 y no que ρ = 0, como en la prueba de Durbin-Watson original. Ejemplo:

Supongamos que se quiere estimar el modelo:

D1t = β1 + β2Y1t + β3I1t +ut

donde: D1t = demanda de dinero en t Y1t = ingreso en t I1t = tasa de interés en t LS // Dependent Variable is D1 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 2.047960 1.432332 1.429808 0.1560 Y1 1.739924 0.095900 18.14320 0.0000 I1 -0.683569 0.133423 -5.123335 0.0000 R-squared 0.811677 Mean dependent var 9.134013 Adjusted R-squared 0.807794 S.D. dependent var 8.053446 S.E. of regression 3.530736 Akaike info criterion 2.552553 Sum squared resid 1209.211 Schwarz criterion 2.630709 Log likelihood -266.5215 F-statistic 209.0362 Durbin-Watson stat 0.143866 Prob(F-statistic) 0.000000 Ahora, se puede verificar directamente si el error presenta algún esquema autorregresivo con

el test de Breusch Godfrey. Comandos EViews: VIEW - RESIDUAL TESTS - SERIAL CORRELATION LM TEST Breusch-Godfrey Serial Correlation LM Test:

Page 244: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

262

F-statistic 302.8320 Probability 0.000000 Obs*R-squared 86.44143 Probability 0.000000 Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C -0.845271 0.545537 -1.549429 0.1246 Y1 -0.057133 0.036343 -1.572059 0.1193 I1 -0.077066 0.050805 -1.516895 0.1326 RESID(-1) 0.927554 0.103192 8.988652 0.0000 RESID(-2) 0.014394 0.104768 0.137391 0.8910 R-squared 0.864414 Mean dependent var 5.68E-16 Adjusted R-squared 0.858705 S.D. dependent var 3.494890 S.E. of regression 1.313700 Akaike info criterion 0.594402 Sum squared resid 163.9517 Schwarz criterion 0.724660 Log likelihood -166.6139 F-statistic 151.4160 Durbin-Watson stat 1.946818 Prob(F-statistic) 0.000000

Tal como lo indican los resultados anteriores, existe evidencia suficiente para suponer que el

error sigue un esquema autorregresivo de primer orden positivo (el coeficiente asociado al primer rezago es significativo y cercano a uno). Sin embargo, se puede verificar lo anterior con la prueba de Berenblutt-Webb, para lo cual se debe realizar la regresión del modelo en primeras diferencias:

LS // Dependent Variable is D(D1) Sample(adjusted): 2 100 Included observations: 99 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. C 0.084773 0.109872 0.771557 0.4423 D(Y1) 0.839124 0.123092 6.817044 0.0000 D(I1) -0.483509 0.121542 -3.978107 0.0001 R-squared 0.355294 Mean dependent var 0.215021 Adjusted R-squared 0.341863 S.D. dependent var 1.329081 S.E. of regression 1.078225 Akaike info criterion 0.180467 Sum squared resid 111.6067 Schwarz criterion 0.259107 Log likelihood -146.4081 F-statistic 26.45258 Durbin-Watson stat 2.031564 Prob(F-statistic) 0.000000

Prueba de Berenblutt-Webb:

g

e

u

t

t

n

t

t

n= = ==

=

!

!

.

..

2

2

2

1

1116067

1209 2110 092297

Page 245: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

263

Según la tabla de Durbin-Watson para 100 observaciones y dos variables explicativas, DL=1.634 y DU=1.715 (para un nivel de significancia del 5%). Debido a que el valor del estadístico g se encuentra por debajo del límite inferior, se acepta la hipótesis nula de que ρ = 1, por lo que la transformación de primeras diferencias sugerida para corregir la presencia de autocorrelación resulta apropiada. Al respecto, podemos verificar que el problema de hecho se ha corregido, aplicando nuevamente el test de Breusch-Godfrey al modelo en primeras diferencias.

Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.648340 Probability 0.525235 Obs*R-squared 1.347070 Probability 0.509903 Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C 0.003120 0.110319 0.028278 0.9775 D(Y1) 0.001804 0.124221 0.014525 0.9884 D(I1) -0.000194 0.122235 -0.001591 0.9987 RESID(-1) -0.048578 0.104299 -0.465756 0.6425 RESID(-2) -0.110444 0.104173 -1.060199 0.2918 R-squared 0.013607 Mean dependent var -4.49E-18 Adjusted R-squared -0.028367 S.D. dependent var 1.067166 S.E. of regression 1.082197 Akaike info criterion 0.207171 Sum squared resid 110.0881 Schwarz criterion 0.338238 Log likelihood -145.7299 F-statistic 0.324170 Durbin-Watson stat 1.908474 Prob(F-statistic) 0.861133

iii) Estimación de ρρρρ basada en el estadístico de Durbin-Watson El estadístico de Durbin-Watson provee de una forma sencilla de estimar el coeficiente ρ.

Basta recordar que este estadístico puede aproximarse por:

D = −2 1( ! )ρ (8.61) Una vez realizada la estimación, resulta factible realizar la transformación planteada en el

modelo de cuasidiferencias y proceder con la estimación MCO. Una variante de este procedimiento conocido también como el método de dos etapas de

Durbin, implica tomar en cuenta que si existe autocorrelación de primer orden, el modelo transformado para poder realizar la estimación por mínimos cuadrados generalizados queda de la siguiente forma:

ttttt xxyy εβρβρρβ +−++−= −− 1211 )1( (8.62)

Esto implica que tenemos un modelo con tres variables explicativas: x y los primeros

rezagos de x e y. Si estimamos esta ecuación por mínimos cuadrados ordinarios y nos fijamos en el parámetro del primer rezago de y, veremos que precisamente es ρ. Tomando este estimado procedemos a realizar la transformación de las variables.

Page 246: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

264

Ejemplo: Para el modelo planteado anteriormente:

D1t = β1 + β2Y1t + β3I1t +ut

se tiene que:

D

D

= − =

= − =

2 1 0143886

12

0 928067

( ! ) .

! .

ρ

ρ

Nótese que este resultado es bastante similar al valor del coeficiente del primer rezago en el

test de Breusch-Godfrey (0.927554), por lo que éste último también puede ser utilizado como estimador de ρ.

Comandos Eviews: GENR DD1=D1-0.928067*D1(-1) GENR DY1=Y1-0.928067*Y1(-1) GENR DI1=I1-0.928067*I1(-1) LS // Dependent Variable is DD1 Sample(adjusted): 2 100 Included observations: 99 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. C 0.352990 0.154581 2.283520 0.0246 DY1 0.946188 0.118961 7.953790 0.0000 DI1 -0.500170 0.127881 -3.911220 0.0002 R-squared 0.417872 Mean dependent var 0.863142 Adjusted R-squared 0.405745 S.D. dependent var 1.421874 S.E. of regression 1.096093 Akaike info criterion 0.213339 Sum squared resid 115.3364 Schwarz criterion 0.291979 Log likelihood -148.0352 F-statistic 34.45614 Durbin-Watson stat 1.819169 Prob(F-statistic) 0.000000

El modelo anterior ya no presenta el problema de autocorrelación, sin embargo, hay que

tener cuidado al momento de interpretar los resultados. El valor del intercepto (0.352990) corresponde en realidad al valor del intercepto del modelo original ponderado por (1-ρ), esto es: β*1 = β1(1-ρ), por lo que debemos realizar las transformaciones del caso si se busca evaluar los coeficientes originales.

iv) Procedimiento iterativo de Cochrane-Orcutt Este procedimiento presenta una alternativa más precisa para la estimación de ρ, a través de

una serie de regresiones iterativas. Este procedimiento es adecuado cuando se pretende hacer la corrección por mínimos cuadrados factibles siguiendo el patrón que se presentó en el caso de un proceso AR(1) en la sección 8.3.3. Suponiendo que el error sigue un esquema de autorregresivo de la forma:

Page 247: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

265

ut = ρut-1 + εt

esta metodología se resume en:

1. Recoger los residuos MCO de la regresión original, ignorando la presencia (conocida) de

autocorrelación ( !ut ). 2. Estimar el coeficiente ρ a partir de la siguiente relación:

! ! !u u vt t t= +−ρ 1

3. Utilizar el estimado de ρ para estimar el modelo en cuasidiferencias ( ! *β )

4. Debido a que no se sabe, a priori, si !ρ es el mejor estimador, utilizar ! *β para generar una nueva serie de residuos:

u Y Xt t t** *!= − β

5. Estimar nuevamente el coeficiente ρ :

u u wt t t** **!! != +−ρ 1

Este proceso iterativo debe continuar hasta que las estimaciones consecutivas de ρ difieran

en una cantidad muy pequeña, que será el punto de convergencia9. Este procedimiento de estimación puede generalizarse al caso de más de una variable explicativa y de autocorrelación de orden superior a uno, tal como se verá en el ejemplo siguiente. Antes de presentar el ejemplo, conviene preguntarse si los estimadores del modelo original reúnen o no las propiedades óptimas usuales del modelo clásico. Al respecto, cabe recordar que siempre que se utilice un estimador de ρ en lugar de su valor original, los coeficientes estimados a través de MCO tienen las propiedades óptimas usuales sólo asintóticamente, es decir, para muestras grandes. En consecuencia, si se trabaja con muestras pequeñas se debe tener cuidado al momento de interpretar los resultados estimados. Un elemento a destacar es que este método implica perder la primera observación de la muestra. Este se entiende a partir de la construcción de las cuasidiferencias. Para todas las observaciones excepto la primera, siempre habrá una observación anterior.

Ejemplo: Utilizando el modelo anterior:

D1t = β1 + β2Y1t + β3I1t +ut

el test de Breusch-Godfrey permite identificar el tipo de proceso que sigue el error:

Breusch-Godfrey Serial Correlation LM Test: F-statistic 83.69584 Probability 0.000000 Obs*R-squared 78.26002 Probability 0.000000

9 Usualmente si la diferencia entre los parámetros obtenidos en dos iteraciones consecutivas es menor que 0.001 se puede decir que el proceso puede detenerse.

Page 248: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

266

Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C -0.265253 0.165411 -1.603605 0.1122 Y1 -0.152843 0.081069 -1.885348 0.0625 I1 -0.143106 0.070917 -2.017946 0.0465 RESID(-1) 0.313898 0.103924 3.020462 0.0033 RESID(-2) 0.589440 0.109222 5.396709 0.0000 RESID(-3) 0.070033 0.108307 0.646613 0.5195 RESID(-4) -0.023779 0.106255 -0.223797 0.8234 R-squared 0.782600 Mean dependent var 2.62E-16 Adjusted R-squared 0.768574 S.D. dependent var 2.293342 S.E. of regression 1.103251 Akaike info criterion 0.263952 Sum squared resid 113.1962 Schwarz criterion 0.446314 Log likelihood -148.0915 F-statistic 55.79723 Durbin-Watson stat 1.878901 Prob(F-statistic) 0.000000

A partir de esta información, se puede construir un esquema autorregresivo de segundo

orden para el término de error de la ecuación original, de la forma:

ut = 0.31ut-1 + 0.59ut-2 + εt donde: ρ1 = 0.31 ρ2 = 0.59 Sin embargo, una estimación más precisa de los coeficientes ρ1 y ρ2 la proporciona el método

iterativo de Cochrane-Orcutt. Comandos EViews: QUICK - ESTIMATE EQUATION D1 C Y1 I1 AR(1) AR(2). La inclusión de los dos últimos términos es la forma en la cual

se puede instruir al programa estadístico que se esté utilizando para que realice la rutina de estimación de Cochrane-Orcutt.

LS // Dependent Variable is D1 Date: 07/22/97 Time: 17:21 Sample(adjusted): 3 100 Included observations: 98 after adjusting endpoints Convergence achieved after 8 iterations Variable Coefficient Std. Error t-Statistic Prob. C 2.871037 1.775444 1.617081 0.1092 Y1 0.745355 0.098863 7.539253 0.0000 I1 -0.219017 0.103968 -2.106576 0.0378 AR(1) 0.408321 0.088468 4.615476 0.0000 AR(2) 0.535560 0.089713 5.969693 0.0000

Page 249: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

267

R-squared 0.889844 Mean dependent var 1.705326 Adjusted R-squared 0.885107 S.D. dependent var 2.893478 S.E. of regression 0.980771 Akaike info criterion 0.010841 Sum squared resid 89.45783 Schwarz criterion 0.142727 Log likelihood -134.5872 F-statistic 187.8152 Durbin-Watson stat 1.971756 Prob(F-statistic) 0.000000 Inverted AR Roots .96 -.56

Los coeficientes asociados a los términos AR(1) y AR(2) son precisamente los estimados de ρ1 y ρ2 obtenidos a través del método de Cochrane-Orcutt. El modelo presentado anteriormente ya no presenta autocorrelación, tal como lo demuestran los resultados del test de Breusch-Godfrey.

Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.845373 Probability 0.500140 Obs*R-squared 3.587149 Probability 0.464751 Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C 0.020412 1.783038 0.011448 0.9909 Y1 0.014301 0.100126 0.142832 0.8867 I1 0.031968 0.108766 0.293911 0.7695 AR(1) -0.099628 0.442233 -0.225283 0.8223 AR(2) 0.098771 0.431590 0.228854 0.8195 RESID(-1) 0.108719 0.450496 0.241332 0.8099 RESID(-2) 0.027278 0.272334 0.100164 0.9204 RESID(-3) 0.082017 0.176205 0.465462 0.6427 RESID(-4) -0.197602 0.140408 -1.407346 0.1628 R-squared 0.036604 Mean dependent var 1.28E-10 Adjusted R-squared -0.049994 S.D. dependent var 0.960336 S.E. of regression 0.984049 Akaike info criterion 0.055183 Sum squared resid 86.18335 Schwarz criterion 0.292578 Log likelihood -132.7599 F-statistic 0.422686 Durbin-Watson stat 1.928311 Prob(F-statistic) 0.904604 No obstante todas las ventajas reseñadas de este procedimiento debemos tener en cuenta que el

método de Cochrane Orcutt lo que hace es imponer una serie de restricciones sobre el modelo que pueden ser exageradas. Analicemos cómo puede ocurrir esto. Si tomamos como supuesto que los resultados nos arrojan la existencia de un modelo AR(1) el modelo que se estimaría sería el siguiente:

ttttt xxyy ερβρβρ +−+−=− −− )()1( 1211 Desarrollando esta expresión obtendríamos lo siguiente:

ttttt xxyy εβρβρρβ +−++−= −− 1211 )1(

En términos de un modelo estimable, esto es equivalente a:

ttttt xxyy εγγγγ ++++= −− 143121 (8.63)

Page 250: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

268

Este modelo presenta rezagos tanto de la variable dependiente como de la variable

independiente10. Este modelo es estimable via mínimos cuadrados ordinarios. Sin embargo, si queremos verificar si las restricciones impuestas por el método de Cochrane-Orcutt son correctas, podríamos probar si en (8.63) se cumple la siguiente restricción:

432 γγγ −=⋅

Sólo si los parámetros estimados por el modelo sin restringir cumplen con la anterior restricción podremos concluir que el método de Cochrane-Orcutt es un método apropiado. De no ser así, probablemente la estimación de la ecuación sin restringir será lo mejor. Si nos detenemos a observar esta ecuación veremos que responde a una especificación dinámica. La autocorrelación, entonces habría surgido por no haber incluido los rezagos correspondientes. v) Procedimiento de búsqueda de Hildreth-Lu Una estrategia alternativa a la planteada en el caso de Cochrane-Orcutt es estimar ρ a través de una red de búsqueda. Este procedimiento implica aplicar de manera repetida el estimador MCO a la siguiente ecuación:

ttttt xxyy ερβρβρ +−+−=− −− )()1( 1211

utilizando valores de ρ que se ubiquen en el intervalo abierto +1, -1. Por ejemplo podría utilizarse valores de ρ =-0.95, -0.90,....., 0.90, 0.95 para realizar todas las estimaciones. El valor a escoger corresponderá al de la ecuación que arroje la menor suma de residuos al cuadrado (SRC). Se ha demostrado que este tipo de estimación puede ser interpretada como estimados condicionales de máxima verosimilitud dado que la estimación a través de la minimización de la suma de residuos al cuadrado es la misma que la maximización de la función de verosimilitud si es que eliminamos la primera observación (al igual que el método de Cochrane-Orcutt). Dada la eliminación de la primera observación se dice que la maximización es condicional en Y1, dado que se estaría asumiendo que esta observación es constante. v) Procedimiento de dos etapas e iterativo de Prais-Winsten Una de las desventajas de los tres últimos procedimientos descritos es que se pierde la primera observación. En primera instancia, se podría pensar que eliminar una observación no tendría mucho efecto sobre las estimaciones a realizar. Eso es cierto si es que los datos no presentan una tendencia. Sin embargo, si los datos presentan una tendencia y eliminamos una observación podríamos estar alterando el valor de los parámetros al no incluir dicha observación. Un procedimiento que intenta no eliminar esta primera observación es el de Prais-Winsten. Estos autores plantean que una estrategia recomendable para obtener ρ sería minimizar la siguiente expresión:

∑=

−−+−=n

ttt eeeS

2

21

21

2* )()1( ρρ (8.64)

La innovación del método es la inclusión del primer término de la derecha. Si minimizamos esta expresión obtenemos el estimador de Prais-Winsten :

10 Aquí con fines didácticos estamos utilizando un modelo lineal simple, el resultado se puede generalizar a un modelo con un mayor número de variables.

Page 251: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

269

=−

=−

=n

tt

n

ttt

pw

e

ee

3

21

21

ρ (8.65)

Las etapas del proceso son las siguientes:

1. Estimar el modelo original (sin ninguna corrección) por mínimos cuadrados ordinarios. Tomar los errores y calcular pwρ .

2. Una vez calculado pwρ , aplicar MCOal siguiente modelo transformado:

tttt XWY µβα ++= *** (8.66)

donde para t=1:

2*2*2* 1 ,1 ,1 ρρρ −=−=−= ttttt XXWYY

y para t=2,........,n :

1**

1* ,1 , −− −=−=−= ttttttt XXXWYYY ρρρ

si se cumplen estas dos pasos estamos en el llamado proceso de dos etapas de Prais-Winsten. El proceso podría repetirse hasta alcanzar la convergencia al estilo de Cochrane-Orcutt. En dicho caso el recibe el nombre de proceso iterativo de Prais-Winsten. Una variante de este método sería aplicar una estrategia tipo Hildreth-Lu en donde se prueba diferentes estimaciones con diferentes valores de ρ y se escoge aquella que presenta la menor suma de residuos al cuadrado (SRC). Ambos métodos son asintóticamente equivalentes. vii) Planteamiento para un estimador consistente de la matriz de covarianzas con la

presencia heterocedasticidad y autocorrelación (Newey-West) Tal como se indicó en el capítulo referente a la corrección del problema de

heterocedasticidad, White (1980) desarrolló un estimador consistente para la matriz de covarianzas de los coeficientes MCO que no depende de la estructura específica del proceso que genera la presencia de errores heterocedásticos. Sin embargo, este estimador supone que los errores no presentan autocorrelación serial. Al respecto, Whitney Newey y Kenneth West desarrollaron en 1987 un estimador para la matriz de covarianzas que sea consistente con la presencia de ambos problemas.

Para muestras lo suficientemente grandes, Newey y West verificaron que el estimador

MCO puede representarse como:

( )! , !β β≈ N V

luego de demostrar que:

Page 252: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

270

plim !V V

T

=

→∞

de modo que la matriz de covarianzas del estimador MCO vendría dada por:

1

111 1

21

1

')''(1

1''ˆ−

=+=−−−−

= =

=

+

+−+

= ∑∑∑ ∑∑

T

ttt

T

vtttvtvtvtvttt

T

t

q

vtttt

T

ttt xxxeexxeex

q

vxxexxV

(8.67)

La expresión anterior es precisamente el estimador consistente de la matriz de covarianzas,

donde te representa el residuo MCO para el periodo t, y la variable q el número de rezagos que

se supone determina la estructura autorregresiva del error. Al igual que en el caso del estimador consistente de White, la matriz la covarianzas contiene los errores MCO e incluye además el esquema autorregresivo que se supone caracteriza al error. Específicamente, paquetes econométricos como el Econometric Views estima q a partir de la siguiente relación:

qT=

4100

2

9

Este estimador implica calcular la ecuación original por MCO sin aplicar ninguna

corrección. Esto se basa en el hecho que la presencia de autocorrelación y heterocedasticidad no afectan el insesgamiento del estimador. En cambio para la ecuación de varianzas y covarianzas se plantea la corrección presentada líneas arriba. Debe mencionarse que este procedimiento es recomendable cuando no se tiene una idea clara de cuál es el patrón que sigue la autocorrelación pero sí se ha detectado su presencia. Es un estimador asintóticamente eficiente.

88..66.. PPRREEDDIICCCCIIÓÓNN CCOONN HHEETTEERROOCCEEDDAASSTTIICCIIDDAADD YY AAUUTTOOCCOORRRREELLAACCIIÓÓNN Al momento de plantear un modelo lo que se busca generalmente es establecer una relación

entre el vector de variables exógenas o regresores (Xt) y la variable explicada (Yt). En este sentido, el tipo de relación establecida puede ser utilizada para obtener predicciones de Yt, en otras palabras, estimar su valores futuros. Una vez establecida la mejor relación lineal entre Yt y los regresores involucrados en el modelo para el intervalo muestral, cabe suponer que esta relación es también válida para momentos fuera del intervalo muestral, o lo es lo mismo, suponer que los coeficientes estimados son estables a lo largo del tiempo.

Si denotamos Et al valor esperado de un variable sobre la base de la información disponible

en el instante t, la relación planteada para predecir Yt+1 vendría dada por:

Et(Yt+1) = Et(X’t+1β + ut+1) = Et(X’t+1β) + Et(ut+1) = (Et(Xt+1))’ !β t + Et(ut+1) (8.68) Cabe resaltar que la estimación MCO de los coeficientes para el intervalo muestral se denota

!β t debido a que está referida precisamente a esta muestra, que se supone comprende hasta el momento t. Asimismo, se supone que esta estimación es lo suficientemente estable como para poder ser utilizada en la predicción de Yt+1.

Page 253: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

271

Según la expresión anterior, se necesita estimar tanto el valor de las variables explicativas en el periodo t+1 (Xt+1) como el valor esperado del error para el momento t+1 (Et(ut+1)). Usualmente se considera que el valor futuro de las variables explicativas es conocido, especialmente cuando depende de las decisiones de los mismos agentes que buscan realizar la predicción. De no ser así, sin embargo, se requeriría de un análisis de series de tiempo que nos permita conocer el comportamiento de dichas variables a partir de su evolución pasada. En lo que respecta al término de error, cabe recordar que hemos supuesto que éste es una sucesión de variables aleatorias independientes, por lo que la muestra no puede proporcionarnos ninguna información respecto a su comportamiento futuro. Frente a esto, la esperanza matemática resulta la mejor predicción, esto es: Et(ut+1) = E(ut+1) = 0.

A partir de los resultados anteriores y asumiendo que los valores futuros de las variables

explicativas son conocidos, se tiene que la predicción mínimo-cuadrática se reduce a:

Et(yt+1) = (Et(Xt+1))’ !β t = X’t+1!β t

En tal sentido, el error de predicción (definido como la diferencia entre la variable predecir y

su predicción) vendría dado por:

et = Yt+1 - Et(Yt+1) = X’t+1β - X’t+1!β t + ut+1 = X’t+1(β - !β t ) + ut+1

Cabe recordar que et es una variable aleatoria en el momento t, ya que su realización ocurrirá

en el periodo t+1. Asimismo, y debido a que el estimador MCO es insesgado, el error de predicción tiene esperanza cero. Con esto en mente, se pasará ahora a la estimación de la varianza del error de predicción (σ2

e).

[ ][ ][ ][ ]{ }[ ]

σ β β β β β β

β β β β

β β β β

21 1 1 1

21

1 12

1

11 1

12

1

11 1

2e t t t t t t t t

t t t t t

t t t t t t t t t t t t t

t t t t t t t

E X X X u u

X E X E u

X E X X X X u X X X X u X E u

X E X X X ut X X X

= − − + − +

= − − +

= + − + − +

=

+ + + + +

+ + +

+− −

+ +

+− −

' ( ! )( ! )' ' ( ! )

' ( ! )( ! )' ( )

' ( ' ) ' ( ) ( ' ) ' ( ) ' ( )

' ( ' ) ' ( ' ) '[ ]{ }ut X E u

X X X X

t t

u t t t t u

' ( )

' ( ' )

+ +

+−

+

+

= +

12

1

21

11

2σ σ

(8.69) La expresión anterior se basa en el supuesto de que el término de error es independiente en el

tiempo, por lo que [ ]E ut t!β + =1 0 .

A partir de la estimación de la varianza del error de predicción es factible construir un

intervalo de confianza para la predicción de Yt+1. Bajo el supuesto de normalidad del error, podemos afirmar que el error de predicción es una combinación lineal de dos variables normales:

e X u X X X X u ut t t t t t t t t t= − + = ++ + +−

+' ( ! ) ( ' ) '1 1 11

1β β

y tiene, por tanto, una distribución normal (et ∼ N(0,σ2e)). A partir de lo anterior, resulta válido

afirmar que la expresión:

Page 254: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

272

e Y E Yt

e

t t t

e!

( )!σ σ

=−+ +1 1

sigue una distribución Tt-k (donde t es igual al número de observaciones en la muestra y k representa el número de variables explicativas). En este sentido, dada una predicción puntual de Et(Yt+1) y la estimación de la desviación típica del error de predicción, se puede utilizar esta última expresión para construir un intervalo de confianza para el valor de Yt+1. Para esto, se puede aplicar la desigualdad de Chebyshev, a partir de la cual:

[ ]P E Y Yt t t e( )+ +− ≥ ≤1 1 2

1λσλ

(8.70)

y elegir un nivel de confianza adecuado (12λ

= 0.05). Sustituyendo la desviación típica del error

de predicción por su estimado y replanteando la desigualdad anterior se tiene:

[ ]P E Y Y E Yt t e t t t e( ) ! ( ) !+ + +− ≤ ≤ + ≥ −1 1 1 21

1λσ λσλ

De esta forma, se elige un nivel de confianza del 95% (λ=4.472) y a partir de la expresión anterior, se puede afirmar que la probabilidad de que el valor de Yt+1 se halle entre Et(Yt+1) - 4.472 !σ e y Et(Yt+1) + 4.472 !σ e es mayor o igual a 0.95.

Según lo visto anteriormente, resulta obvio que la presencia de una matriz de covarianzas no

escalar o, lo que es lo mismo, frente a la presencia de heterocedasticidad y/o autocorrelación, afecta el poder predictivo de un modelo. Específicamente, este efecto puede verse de dos formas: alterando las estimaciones puntuales o alterando los intervalos de confianza.

En el caso de errores heterocedásticos, se sabe ya que el término σ2

u no es constante en el tiempo, lo que tiene un efecto importante sobre la amplitud de los intervalos de confianza. Específicamente, y dado que la definición del intervalo depende del estimado de la desviación típica del error de predicción (la cual a su vez depende de la varianza del error muestral), su amplitud se vería alterada de presentarse una varianza cambiante a lo largo de la muestra. Recordemos que la varianza del error de predicción viene dada por:

σ σ σ2 21

11

2e u t t t t uX X X X= ++−

+' ( ' ) En este sentido, si se registrase la presencia de errores heterocedásticos σ2

u no sería constante y la varianza del error de predicción se vería alterada. Si suponemos, por ejemplo, que la varianza del término de error depende positivamente de alguna de las variables explicativas, la varianza del error de predicción se vería incrementada lo que ocasionaría una mayor amplitud en el intervalo de confianza para la predicción.

Luego de corregir el problema de heterocedasticidad a través de la estimación por MCG, la

varianza del error de predicción vendría dada por:

[ ]Var e Var u X X X Xt t u t t( ) ( ) ' ( ' )= ++ +− −

+12

11 1

1σ Σ (8.71)

Consideremos un modelo con errores heterocedásticos de modo que:

σ σ2 2 2t t u tVar u X= =( ) . De esta forma, la expresión anterior se reduce a:

Page 255: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

273

Var e X XX

X X Xt

t u t tt

t

t

u t tu

t

u t

( ) = +

= +

= +

+ +

+ +

+

σσ

σσ

σ

2 21

21

2

21

1

2 21

21 2

1

1

2 21

11

1

(8.72)

Por otro lado, si los errores presentan autocorrelación ya no resulta factible asumir que

Et(ut+1) = 0 ya que la muestra de hecho aporta información para la estimación futura de ut+1. En este sentido, la presencia de autocorrelación afecta el valor obtenido en la predicción puntual. Si los errores presentan un esquema autorregresivo de primer orden de la forma:

ut = ρut-1 + et

y se utiliza el modelo en cuasidiferencias para corregir este problema, la expresión para la predicción puntual se reduce a:

E Y X ut t t MCG t( ) ' !+ += +1 1 β ρ

Resulta sencillo verificar lo anterior utilizando la transformación en cuasidiferencias:

( )Y Y X Xt t t t t+ + +− = − +1 1 1ρ ρ β ε'

y tomando la esperanza condicional en el periodo t11:

E Y Y X X

E Y X ut t t t t t

t t t t

( ) ' '

( ) ' !+ + +

+ +

− = − += +

1 1 1

1 1

ρ β ρ β εβ ρ

Ejemplo: Supongamos dos modelos de la forma:

CONS1t = β0 + β1Yt + β2Kt + ut

CONS2t = β0 + β1Yt + β2Kt + εt donde: CONS = cosumo en el periodo t Yt = ingreso en el periodo t Kt = dotación de capital en el periodo t Var(ut) = σ2

u Var(εt) = σ2

uYt2

t = 1,2,...,300

Según el planteamiento anterior, el segundo modelo presenta errores heterocedásticos debido a que su varianza depende positivamente del cuadrado de una de las variables explicativas. Debido a esto, es de esperar que la varianza del error de predicción para el primer modelo sea

11 Evidentemente, la esperanza condicional en t de un valor ya realizado en este periodo es el valor mismo.

Page 256: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

274

menor que la varianza del error de predicción del segundo modelo, dado que ésta depende positivamente de la varianza del error muestral. Ahora, si suponemos que el ingreso (que es la variable que influye sobre la varianza del error del segundo modelo) presenta una trayectoria creciente, debemos esperar que la varianza del error de predicción del segundo modelo también presente este comportamiento. En otras palabras, si realizamos una serie de predicciones sucesivas, el error de predicción deberá presentar una varianza cada vez mayor debido a la influencia de la variable ingreso, la cual presenta un comportamiento creciente.

Para verificar lo anterior, se estima cada modelo para el periodo t = 1,...,100 y se utilizarán

los coeficientes MCO para predecir el consumo para los 200 periodos subsiguientes.

!" Comandos EViews: • QUICK - ESTIMATE EQUATION

CONS1 C Y K

• FORECAST Sample 101 101 La serie CONS1F guarda el valor de la predicción para la variable dependiente

(E100(CONS1101))

• GENR ER1=CONS1-CONS1F Así estimamos el valor del error de predicción para el periodo t=101. Si se realiza esta operación para cada modelo y de modo iterativo modificando la muestra de

la predicción de 100+i a 100+i (i=1,...200), se debe verificar que la varianza del error de predicción para el segundo modelo registra un comportamiento creciente. Para comprobar este último, se comparan los gráficos de las series ER1 y ER2.

-3

-2

-1

0

1

2

3

120 140 160 180 200 220 240 260 280 300

ER1

Page 257: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

275

300000

200000

100000

0

100000

200000

120 140 160 180 200 220 240 260 280 300

ER2

Los gráficos anteriores nos muestran claramente cómo el efecto de la variable ingreso sobre

la varianza del error de predicción (efecto que se da a través de la varianza del error muestral) causa que ésta siga un comportamiento creciente a lo largo del tiempo. Asimismo, la varianza del error de predicción para el primer modelo resulta considerablemente menor que la varianza del error de predicción para el segundo modelo (tal como se verifica al observar entre qué valores fluctúa cada error de predicción), lo que tiene un efecto importante sobre el intervalo de confianza de la predicción, tal como se indicó anteriormente.

Ejemplo: Supongamos ahora un modelo de la forma:

D1t = β1 + β2Y1t + β3I1t +ut donde: D1t = demanda de dinero en t Y1t = ingreso en t I1t = tasa de interés en t t = 1,2,...,300 Definiedo la muestra para las primeras 100 observaciones, se estima el modelo anterior: LS // Dependent Variable is D1 Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.037237 0.115442 0.322557 0.7477 Y1 0.844006 0.104999 8.038228 0.0000 I1 -0.295039 0.109523 -2.693852 0.0083 R-squared 0.474608 Mean dependent var 0.257528

Page 258: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

276

Adjusted R-squared 0.463776 S.D. dependent var 1.485003 S.E. of regression 1.087428 Akaike info criterion 0.197172 Sum squared resid 114.7025 Schwarz criterion 0.275327 Log likelihood -148.7524 F-statistic 43.81208 Durbin-Watson stat 1.401694 Prob(F-statistic) 0.000000 Para verificar si el error presenta algún esquema autorregresivo, apliquemos el test de

Breusch-Godfrey:

Page 259: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

277

Breusch-Godfrey Serial Correlation LM Test: F-statistic 4.784975 Probability 0.010472 Obs*R-squared 9.151722 Probability 0.010297 Test Equation: LS // Dependent Variable is RESID Variable Coefficient Std. Error t-Statistic Prob. C 0.019112 0.111357 0.171628 0.8641 Y1 -0.046911 0.102614 -0.457165 0.6486 I1 -0.023888 0.106056 -0.225242 0.8223 RESID(-1) 0.282882 0.104178 2.715364 0.0079 RESID(-2) 0.060756 0.106760 0.569090 0.5706 R-squared 0.091517 Mean dependent var 1.18E-16 Adjusted R-squared 0.053265 S.D. dependent var 1.076388 S.E. of regression 1.047329 Akaike info criterion 0.141192 Sum squared resid 104.2052 Schwarz criterion 0.271451 Log likelihood -143.9535 F-statistic 2.392488 Durbin-Watson stat 1.971462 Prob(F-statistic) 0.055996 Según los resultados anteriores, resulta factible suponer el siguiente esquema autorregresivo

para el error muestral:

ut = 0.2829ut-1 + εt Ahora, si lo que se busca es realizar una predicción hay que tomar en cuenta que frente a la

presencia de autocorrelación de primer orden en el término de error, la predicción puntual se reduce a:

E Y X ut t t MCG t( ) ' !+ += +1 1 β ρ

Al utilizar el comando FORECAST del EViews, el programa empieza estimando los residuos

del modelo original para las observaciones ubicadas antes de la primera observación de la muestra involucrada en la predicción. Luego, el EViews estima los residuos para el periodo definido en la predicción y finalmente suma estos residuos al producto de las variables explicativas y los estimadores MCG, tal como se indica en la expresión anterior.

Para verificar esto, se corrige la autocorrelación utilizando el método iterativo de Cochrane-

Orcutt y se comparan los resultados con los obtenidos a través del comando FORECAST.

Page 260: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

278

!"Comandos EViews: • SMPL 1 100 • QUICK - ESTIMATE EQUATION

D1 C Y1 I1 AR(1) LS // Dependent Variable is D1 Sample(adjusted): 2 100 Included observations: 99 after adjusting endpoints Convergence achieved after 6 iterations Variable Coefficient Std. Error t-Statistic Prob. C 0.058860 0.155499 0.378523 0.7059 Y1 0.840467 0.106958 7.857891 0.0000 I1 -0.332134 0.111986 -2.965856 0.0038 AR(1) 0.298718 0.099164 3.012377 0.0033 R-squared 0.522706 Mean dependent var 0.264355 Adjusted R-squared 0.507634 S.D. dependent var 1.490982 S.E. of regression 1.046204 Akaike info criterion 0.129902 Sum squared resid 103.9816 Schwarz criterion 0.234755 Log likelihood -142.9051 F-statistic 34.67964 Durbin-Watson stat 1.986982 Prob(F-statistic) 0.000000 Inverted AR Roots .30 Ahora, siguiendo el procedimiento utilizado por el programa estadístico, pasemos a estimar

los residuos para el periodo involucrado en la predicción (t = 101,...,300) a partir del esquema autorregresivo sugerido.

!" Comandos EViews: • GENR RES1=RESID • SMPL 101 300 • GENR RES1=0.298718*RES1(-1)

Finalmente, se estima el valor de la predicción puntual utilizando los coeficientes estimados

y los residuos hallados a partir de la relación anterior:

!"Comandos EViews: • GENR FORE=0.058860 + 0.840467Y1 - 0.332134I1 + RES1

Se comparan ahora los resultados obtenidos con la estimación realizada a través del comando

FORECAST.

!"Comandos EViews: • SMPL 1 100 • QUICK - ESTIMATE EQUATION

D1 C Y1 I1 AR(1) • FORECAST

Sample 101 300 La serie D1F guarda el valor de la predicción para la variable dependiente

Page 261: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

279

Comparando los gráficos de las variables FORE y D1F para la muestra t=101,...,300, se verifica que ambas estimaciones arrojan valores bastante cercanos. Lo anterior demuestra que la estimación realizada por el programa a través del comando FORECAST incorpora el esquema autorregresivo del error muestral al momento de predecir los valores futuros de la variable dependiente.

88..77 EESSTTIIMMAACCIIÓÓNN PPOORR MMÁÁXXIIMMAA VVEERROOSSIIMMIILLIITTUUDD EENN PPRREESSEENNCCIIAA DDEE PPEERRTTUURRBBAACCIIOONNEESS

EESSFFÉÉRRIICCAASS

-4

-2

0

2

4

120 140 160 180 200 220 240 260 280 300

D1F

-4

-2

0

2

4

120 140 160 180 200 220 240 260 280 300

FORE

Page 262: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

280

El empleo del método de máxima verosimilitud (MV) como una técnica alternativa al estimador mínimo cuadrático (MCO) ya ha sido analizada en el Capítulo 5. En él se demostró que los estimadores que se obtenían utilizando esta nueva técnica resultaban ser asintóticamente iguales a los reportados por el empleo del MCO.

A lo largo de este capítulo se ha desarrollado una variación al método MCO para poder

seguir obteniendo estimadores eficientes aun en presencia de perturbaciones no esféricas. Esta técnica recibe el nombre de mínimo cuadrados generalizados (MCG) ya que en ella se contempla el caso en que la matriz de varianzas y covarianzas no cumpla con las condiciones de

Gauss-Markov, lo cual implica que esta matriz está especificada de la siguiente forma: Σσ u2 ,

en donde I≠Σ . Al igual que en el caso del MCO, ahora también podemos demostrar que los estimadores MV son también equivalentes a los obtenidos a través de los MCG.

Para esto es necesario asumir la normalidad de los errores ),0(Nu 2Σσ∼ ; de tal manera que la función de verosimilitud quedaría determinada de la siguiente forma:

β−Σ′β−

σ−

Σσπ=Σσβ − )xy()xy(

2

1exp

)()2(

1),/X,Y(L 1

22/12/n22/n

2 (8.73)

en ella ya ha sido incorporada la matriz Σ . Luego, aplicando logaritmos a esta expresión obtenemos:

)xy()xy(2

1ln

2

n)ln(

2

n)2ln(

2

nLln 1

22 β−Σ′β−

σ−Σ−σ−π−= − (8.74)

Ahora se procede a derivar las condiciones de primer orden para obtener los estimadores, tal

como se vio en la sección 5.3:

yx)xx(ˆ :Llnde 111MV

−−− Σ′Σ′=ββ∂∂

T

ee :

Llnde

1

MV2

2

−Σ′=σσ∂

donde el error está definido como: MVxye β−= 12.

Como se sabe, la estimación por Máxima Verosimilitud representa una alternativa

operacional para el cálculo de estimadores. A través de ella se obtienen estimadores asintóticamente iguales a los obtenidos a través del MCG. La mayoría de paquetes econométricos utilizan esta técnica a través de un proceso iterativo, el cual consiste en asignarle diferentes valores a los parámetros que se quiere estimar hasta encontrar un vector que contenga los valores para cada una de ellos que logre maximizar la función de verosimilitud. El desarrollo de computadoras más veloces a convertido este método en uno de los más empleados.

Hasta el momento se ha supuesto que se conoce la estructura de la matriz Σ, es decir, la

forma en que se presenta la heterocedasticidad o la autocorrelación según sea el caso. Como ya se sabe, esto generalmente no se da por lo que el investigador debe tratar de encontrar la mejor forma de modelarla buscando la vía que más se ajuste a las características de cada problema específico. Sin embargo, la utilización de los procedimientos descritos en las secciones previas

12 Nota: para el cálculo de los errores se pueden emplear los β estimados a partir del procedimiento MCO o de MV.

Page 263: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

281

involucraría el empleo de demasiado trabajo por parte del investigador. El método de MV nos permite realizarlo en una forma mucho más rápida.

ESTIMACIÓN EN PRESENCIA DE HETEROCEDASTICIDAD. A lo largo del presente capítulo se han analizado las causas de la presencia de

heterocedasticidad, cuáles son sus implicancias y la forma en que se emplean diferentes test que buscan identificar no sólo su presencia sino su forma (especificación que puede incluir alguna variable del modelo o bien alguna variable exógena al mismo). Como se sabe, la estimación por MCG consiste en ponderar apropiadamente cada observación de tal forma que la perturbación de nuestro modelo quede libre de este problema. Sin embargo, para poder realizar adecuadas ponderaciones se debe conocer la matriz de varianzas-covarianzas (Σ).

Entre los tests que han sido revisados en la sección 8.2.3, los únicos que buscan determinar

la verdadera estructura de la heterocedasticidad son el test de Glejser, el test de Park y la generalización de este último realizada por Harvey. Como es sabido, el estimador MCG necesita que se haya especificado la estructura completa de la matriz de varianzas y covarianzas (Σ) ex-ante de estimar el valor de β y σ2. Si se revisa la aplicación práctica del test de Glejser efectuada en este capítulo, se observó que se determinaba el grado de ajuste del modelo especificado para

la varianza ( ii212i xe ε+θ+θ= γ )13 para los diferentes valor es que se le asignaba al parámetro

γ:

γθθφ

γθθφγθθ

γθθ

σ=Σσ=σ

),,(z

.....

),,(z

),,(z

),,(z

.

21n

213

212

211

22i

2

donde γ tomaba los valores de ±2, ±1.5, ±1, ±0.5. Del modelo que ajustaba mejor, era de donde se sacaba los valores para los parámetros θi y γ.

De esta manera ya se conocía la forma que adoptaba la matriz Σ, la cual sería empleada para poder estimar la varianza de β y σ2. Se recuerda que la importancia del cálculo estas varianzas radica en su utilización para poder realizar diferentes test de significancia y los intervalos de confianza.

Por este motivo la aplicación de la técnica de MCG es un procedimiento de tres etapas:

primero se calculan los β y σ2, luego se estiman los valores de θi y γ y finalmente se puede determinar el valor de la varianza de β y σ2.

En cambio, el estimador MV no requiere de "dividir" en diferentes etapas todo el proceso de

estimación. Como este método utiliza una rutina de iteración, entonces es posible ir buscando los valores más apropiados para los parámetros que contenga la matriz Σ junto con los valores de β y σ2 y sus respectivas varianzas.

13 El lector deberá tener cuidado en no confundir los parámetros de los dos modelos involucrados en todo este proceso: el primer modelo es aquel donde se aplica el MCG para lograr obtener estimadores eficientes de los parámetros α y βi. El segundo busca modelar la varianza del error del primer modelo (esto es necesario para poder aplicar MCG al primer modelo) y obviamente contiene parámetros que deben ser estimados (θi y γ).

Page 264: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

282

A continuación se utilizará la especificación propuesta por Glejser en su test para ejemplificar la forma en que se aplica la técnica de MV. Así, la varianza de los errores está determinada de la siguiente forma:

γσ=σ i

22i z

(8.75) Para este ejemplo se asumirá que zi representa a una sola variable (más adelante se asumirá

que representa una función de variables en donde también hay que calcular los parámetros θi). El siguiente paso consiste en reemplazar (8.2) en la expresión (8.1):

∑∑=

γ= σ

−γ−Σ−σ−π−=n

1i i

2i

2

n

1ii

2

z

e

2

1zln

2ln

2

n)ln(

2

n)2ln(

2

nLln

(8.76) En esta expresión se cuenta con tres parámetros desconocidos: β, σ2 y γ. Por tanto, si se

deriva la expresión anterior con respecto a cada uno de estos, se obtendrían las denominadas condiciones de primer orden:

γ= σ

=β∂

∂ ∑I

2i

n

1ii

z

e.x

Lln

∑=

γσ+

σ−=

σ∂∂ n

1i i

2i

422 z

e

2

1

2

nLln

∑∑=

γ= σ

+−=γ∂

∂ n

1i i

i2I

2

n

1ii

z

zln e

2

1zln

2

1Lln

Para poder estimar algebraicamente los valores óptimos de cada una de las variables es

necesario utilizar procedimientos no lineales. Por este motivo, la mayoría de los paquetes econométricos utilizan un procedimiento iterativo para realizar estas estimaciones. El rango de los valores en que se esperaría encontrar el γ óptimo es de entre 0 y 3. El computador va asignando diversos valores dentro de este rango y para cada valor que toma γ procede a estimar β y σ2. Finalmente, la computadora elige los valores deγ, β y σ2 que maximicen el valor de la función ln L14.

Si se quiere hallar la matriz asintótica de varianzas-covarianzas, entonces se estima

empleando para ello a la matriz de información de la siguiente manera:

1

i2

i2

i24

Iii212

zln2

1zln

2

10

zln2

1

2

n0

00z/xx1

LlnE

−γ

σ′

σσ′

′σ

=

φ′∂φ∂

∂−

∑∑∑

(8.77)

donde φ representa el vector de los parámetros a estimar: β, σ2 y γ. Los elementos de la diagonal principal son una estimación de la varianza de los estimadores de cada uno de estos parámetros. 14 Este procedimiento de estimación es conocido como el algoritmo de búsqueda y es bastante sencillo aunque no se aplica mucho en la práctica. Existen otros algoritmos de optimización que emplean tanto el vector gradiente (como en este caso) como la matriz hessiana, para de esta manera crear una rutina de búsqueda más compleja.

Page 265: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

283

En general, se puede determinar diferentes funciones de zi (fi) que involucre la estimación de

un vector θ que incluya a todos los coeficientes de las variables, y parámetros en general, que modelen la varianza. De esta manera queda definida la matriz Σ en función de parámetros que serán calculados simultáneamente con los parámetros del modelo principal: α, β y σ2. Se puede generalizar la especificación de la varianza, tal como lo indica Greene15:

)(f i22

i θσ=σ (8.78)

Repitiendo el mismo procedimiento efectuado para el ejemplo anterior, se procede a

reemplazar esta última expresión en la expresión (8.1) y se obtiene la función objetivo a maximizar:

2i

n

1i i2

n

1ii

2 e)(f

1

2

1)(fln

2

n)ln(

2

n)2ln(

2

nLln ∑∑

==

θσ

−θ−σ−π−=

Antes de definir las condiciones de primer grado denotaremos a fi(θ) como fi y al vector de

derivadas θ∂θ∂ )(f i como gi. De esta manera, las condiciones de primer grado serán las siguientes:

i2

in

1ii

f

e.x

Lln

σ=

β∂∂ ∑

=

∑=σ

−=σ∂

∂ n

1i i

2I

422 f

e

2

1

2

nLln

∑=

σ=

θ∂∂ n

1ii

ii2

2i g

f

11

f

e

2

1Lln

de β∂

∂ Lln se obtienen los valores de las k variables que están incorporados en el modelo

original. De 2

Lln

σ∂∂

se estima la varianza de los errores, mientras que de θ∂

∂ Lln se obtiene el

valor de todos los parámetros desconocidos de la matriz Σ. Se asume que dentro de estos parámetros (θ) no se encuentra el valor de algún coeficiente del modelo original β. Los cálculos se realizan de manera simultánea a través de diferentes algoritmos de optimización. El empleo de estos depende generalmente de las características de la matriz de segundas derivadas.

Antes de calcular la matriz de varianzas y covarianzas para este caso general se debe definir

a la matriz G de n x M como aquella en donde cada fila es θ′∂∂ /f i y donde i es un vector nx1 de conformado por 1s:

1

212

124

21

2

GG)2/1(iG))2/(1(0

Gi))2/(1()2/(n0

00XX)/1(Lln

E

−−

Σ′Σ′σ′Σ′σσ′

Σ′σ=

γ∂γ∂

∂−

en donde [ ]θ′σβ′=γ′ ,, 2

15 Greene, William, Econometric Analysis, 3a. ed., Prentice-Hall Inc., 1997.

Page 266: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

284

Generalmente, debido a que la obtención de los parámetros de las condiciones de primer

orden (vector gradiente) es bastante compleja (o imposible) de efectuar analíticamente y, más aun si se desea obtener estimadores de la matriz de varianzas y covarianzas, su cálculo se efectúa a través de algoritmos de optimización. Entre los más conocidos se encuentran el algoritmo de Newton-Raphson y algoritmo de “scoring”. En ambos casos el proceso de cálculo involucra tanto al vector gradiente (primeras derivadas) como a la matriz hessiana (matriz de segundas derivadas)16.

En algunos casos la composición de la matriz de varianzas y covarianza hace posible obtener

la estimación de la varianza de algún parámetro independientemente del valor que adopten el resto de parámetros. Un ejemplo de esto es tratado en el ejercicio 8.4.

ESTIMACIÓN EN PRESENCIA DE AUTOCORRELACIÓN

Al igual que en el caso de la heterocedasticidad, el método MCG brinda los mismos resultados que en el caso en que se emplea el método de máxima verosimilitud si y solo si el investigador conociese el valor del factor de autocorrelación ρ. Sin embargo, como esto no se da en la práctica, al emplear el estimador MCG se puede incurrir en estimaciones no eficientes.

Para entenderlo con mayor claridad se vuelve a escribir el modelo visto en la sección 8.3:

ttt uxy +β=

si se decide que el término de perturbación presenta autocorrelación de primer orden, este puede ser modelado de la siguiente forma:

t1tt uu ε+ρ= − Se había determinado en la sección 8.3 que la forma de calcular estimadores de β eficientes

era transformado las variables a semidiferencias: 1ttt yy*y −ρ−= y 1ttt xx*x −ρ−= . Sin

embargo, el cálculo del factor ρ es efectuado ex-post de la estimación de los parámetros del modelo principal (β), es decir, ha sido calculado con estimadores que no son eficientes. Un algoritmo de optimización que pretenda corregir este defecto podría consistir en una rutina de cálculo: primero se estima los parámetros del modelo principal (β), luego se calcular el coeficiente de autocorrelación ρ, conociendo este factor se procede a transformar las variables (yt,xt) y calcular "eficientemente" los coeficientes de ese modelo (β). Una vez que se tienen los β "eficientes" se vuelve a nuestro modelo original y se calculan los errores (ut) para volver a calcular el factor de autocorrelación (ρ). Este proceso se repite hasta que la diferencia entre los parámetros calculados sea mínimas (el investigador determinará el criterio de convergencia).

Sin embargo, aun subsanando la eficiencia de los estimadores, se está incurriendo en un error

que aunque asintóticamente no produce un efecto importante, sí lo es en el caso de muestras pequeñas. Nos estamos refiriendo a la eliminación de la primera observación para las variables y*t y x*t. No es difícil determinar que es imposible su cálculo para las observaciones y1 y x1

17.

16 El algoritmo de “scoring” utiliza la propiedad de que la esperanza matemática de la matriz hessiana de la función de verosimilitud (la matriz de información cambiada de signo) tiene una expresión analítica más sencilla que la propia matriz de segundas derivadas. Para una revisión intuitiva de la forma en que operan estos algoritmos, el investigador puede revisar el anexo al final de este capítulo. 17 Una alternativa para evitar la eliminación de estas variables consiste en determinarlas de la siguiente manera:

12

1 y)1(*y ρ−= o bien 12

1 x)1(*x ρ−=

Page 267: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

285

Frente a esto, la estimación por máxima verosimilitud ofrece una alternativa bastante interesante para realizar las estimaciones de todos los parámetros involucrados en el modelo. Para esto se asumirá que los errores que se obtienen de regresionar ut contra su rezago se

distribuyen normalmente, esto es: ),0(N 2t σ∼ε . Reemplazando esto en la función de

verosimilitud se obtiene:

σ

ε−

Σπσ=

ε

=

ε

∑2

n

1i

2i2/n

2 2exp

)2(

1L

luego, haciendo las respectivas sustituciones, y diferenciando el valor que toma la primer observación, obtiene:

[ ] [ ][ ]∑

=−− β′ρ−ρ−

σ

−σ+π−−β−σρ−−ρ−−σ+π−=

n

2t1tt1tt2

22112

222

)xx)(yy(2

1-

ln)2ln(2

1n)xy(

2

1)1ln(ln)2ln(

2

1Lln

Las condiciones de primer orden estarían dadas de la siguiente manera:

∑=

∗εσ

=β∂

∂ n

1iit2

x1Lln

donde los errores están definidos como:

)xy(1 112

1 β−ρ−=ε

β′ρ−−ρ−=ε −− )xx()yy( 1tt1ttt ; para t=2,..,n

estas son el resto de condiciones de primer orden:

∑=

εσ

−=σ∂

∂ n

1i

2t422 2

1

2

nLln

22

21

n

2i1tt

1

uu

2

1Lln

ρ−ρ−

σρ

+ε=ρ∂

∂ ∑=

Ahora bien, se tiene la opción de realizar un algoritmo de búsqueda. Esto implicaría que la

computadora le vaya asignando valores a ρ que se encuentre en el rango [ ]1,1− y para cada uno

de estos valores se calcula β. Los valores “óptimos” son aquellos que logren maximizar la función log-verosímil. Sin embargo, también se puede utilizar un algoritmo de optimización, lo cual representa un método más eficiente que el anteriormente mencionado. Para esto es necesario calcular su matriz de información. Este es el resultado al que se llegaría:

Page 268: Casas Econometria Moderna(2)[1]

Econometría Moderna Perturbaciones no esféricas

286

ρ−ρ++

ρ−−

ρ−σρ′

ρ−σρσ′

Σ′σ

=ρσβ

22

2

222

224

2

2

)1(

1

1

2n

)1(0

)1()2/(n0

00XX)/1(

),,(I

Sin embargo, en el caso en que se hubiese ignorado la primera observación, la matriz de

información sería mucho más sencilla:

ρ−−′′

′σ′Σ′σ

=ρσβ

2

4

2

2

1

1n00

0)2/(n0

00XX)/1(

),,(I

Tal como se puede observar, en este caso la varianza del factor de autocorrelación,1n

1 2

−ρ−

, y

de la varianza de σ2,n

2 4σ , se estima independientemente de la varianza de los parámetros β del

modelo original; por este motivo la estimación de β, de ρ y de σ2 se realiza de forma independiente. Es necesario recalcar que la conveniencia o no de incluir la primera observación depende del tamaño de la muestra. Esta observación no es relevante asintóticamente hablando. Sin embargo, puede acarrear problemas para muestras chicas. Incluso podría darse el caso en que el valor que alcanzase el factor de autocorrelación estuviese fuera del rango que se podría esperar [ ]1,1− .

El empleo del método de máxima verosimilitud en el caso de presencia de autocorrelación de

segundo o mayor orden es bastante complicado por lo que no es muy utilizado. Los paquetes econométricos utilizan algoritmos y métodos más apropiados (tales como los algoritmos de Beach y MacKinon18) que no serán tratados al detalle en este libro; sin embargo, el lector interesado puede revisar la bibliografía.

18 Beack, N. y J. MacKinnon. "Full Maximun Likelihood Estimation of Second-Order Autoregressive Error Models", Journal of Econometrics, 7, 1978, pp 187-198.

Page 269: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 99 MMUULLTTIICCOOLLIINNEEAALLIIDDAADD

99..11.. DDEEFFIINNIICCIIÓÓNN DDEELL PPRROOBBLLEEMMAA Barrie Wetherill distingue dos tipos de problemas al aplicar el modelo clásico de regresión

lineal: aquellos relacionados a la especificación del modelo y las perturbaciones y aquellos relacionados a los supuestos sobre la información. El problema de la multicolinealidad está referido a este último y surge al violar los supuestos que establecen que los regresores incluidos en el modelo son independientes, que el número de observaciones debe ser mayor al número de regresores y que debe existir suficiente variabilidad en los valores de estos últimos.

Recordemos que uno de los supuestos del Modelo Lineal General implica que la matriz de

regresores (X) tiene rango completo e igual a k, donde k es el número de regresores o variables independientes. Este supuesto garantiza que las columnas de X sean linealmente independientes o, lo que es lo mismo, que los regresores involucrados no presenten una alta correlación. Si el número de observaciones fuese menor que el número de regresores involucrados (n<k), entonces la matriz X no puede tener rango completo1 y se estaría violando uno de los supuestos del Modelo Lineal General. Sabemos que βMCO = (X’X)-1X’y. Si el número de observaciones (n) es menor que el número de regresores, entonces el determinante de (X’X) es cero2 por lo que (X’X)-1 es indeterminado y, por lo tanto, βMCO no existe.

1 El rango de una matriz se define como:

Rango(A) ≤ min(número de filas, número de columnas) En este sentido, si el número de observaciones fuese menor que el número de regresores, el rango de la matriz X sería menor a k. 2 El determinante de una matriz es distinto de cero sólo si ésta tiene rango completo, esto es, que los vectores que la conforman son linealmente independientes. Pensemos en el determinante de una matriz de 2x2 como el área del parelelograma que se formaría a partir de los vectores de dicha matriz. Si las columnas de esta matriz fueran linealmente dependientes, ambos vectores caerían dentro de una misma línea por lo que dicho paralelograma

Page 270: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

266

La colinealidad está referida a la existencia de una sola relación lineal entre las variables

explicativas y, por lo tanto, la multicolinealidad se refiere a la existencia de más de una relación lineal. Es importante anotar que la multicolinealidad se refiere sólo a relaciones lineales entre las variables independientes y no a cualquier otro tipo de relación, así pues, si xi = xj

2, entonces no existirá multicolinealidad en el modelo. El problema de la multicolinealidad está definido por el alto grado de intercorrelación entre variables explicativas. Dentro de las violaciones de los supuestos del modelo lineal general, la multicolinealidad es un problema de grado y no teórico como la heterocedasticidad o la autocorrelación, más aún, los estimadores obtenidos bajo multicolinealidad, conservan las propiedades que los define como MELI.

En 1934, Ragnar Frisch introdujo por primera vez este término, refiriéndose a una situación

en la que las variables que se trataban estaban sujetas a dos o más relaciones. Él adjudicó el problema a errores en las variables y éste radicaba en la dificultad para estimar las diferentes relaciones lineales entre las variables verdaderas. Es decir, originalmente, la multicolinealidad se atribuía sólo a la existencia de una relación perfecta o exacta entre las variables independientes de un modelo econométrico. Se sabe que un conjunto de vectores es linealmente dependiente si existe al menos una combinación lineal de ellos que es no trivial.3

En la actualidad, y tal como se mencionó anteriormente, se asume que este problema no es

teórico sino de grado. En otras palabras en todo modelo econométrico tenderá a presentarse este problema, sólo que en algunos casos la severidad del problema será mayor. En este sentido, el grado, se refiere a la severidad de la correlación entre las variables explicativas, así pues, la correlación entre una o más variables independientes puede ser perfecta (si, por ejemplo, x1 = ax2) o puede ser menos que perfecta (o imperfecta) (si x1 = ax2 + ni , donde ni es un término de error estocástico). En términos generales se puede afirmar que para el caso de series de tiempo, y más específicamente de series económicas, siempre se tendrá un grado relativamente alto de multicolinealidad. Obsérvese la siguiente tabla:

AÑO PBI PBIPC PBIPCM 1988 1100 11 10.73397401 1989 1200 12 11.83209893 1990 1300 13 13.12691507 1991 1400 14 13.98190954 1992 1500 15 14.39807322 1993 1600 16 15.91166607 1994 1700 17 17.81305959 1995 1800 18 16.12831142 1996 1900 19 19.31642334 1997 2000 20 18.21723033

En la segunda columna se tiene el PBI de un país con una economía en crecimiento, en la

tercera, el PBI per cápita, asumiendo que la población de dicho país permanece constante e igual a 100. Como se observa, la relación lineal entre el PBI y el PBI per cápita es perfecta (PBIPC = PBI/100). En la cuarta columna, se tiene el PBI per cápita pero afectado por un término estocástico que afecta la relación lineal perfecta que sí existía en la columna anterior.

colapsaría y su área sería igual a cero. Este ejercicio puede replicarse en R3, sólo que este caso el determinante de la matriz sería igual al volumen del sólido que formarían los tres vectores. 3 Dado un conjunto de k vectores {x1,…,xn} en el espacio vectorial X (que en este caso es la matriz de observaciones correspondientes a las variables explicativas), una combinación lineal de ellos es cualquier suma de múltiplos escalares arbitrarios de dichos vectores:

α1x1 + α2x2 + … + αkxk en X con α1, α2, … ,αk escalares Observar que si tenemos una combinación lineal igual al vector nulo, donde todos los escalares son cero, ésta es trivial.

Page 271: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

267

Al analizar la matriz de correlación para estas tres variables, y teniendo en cuenta los

valores de la misma4, se nota que la correlación entre estas variables es muy alta:

PBI PBIPC PBIPCM PBI 1 1 0.959027

PBIPC 1 1 0.959027 PBIPCM 0.959027 0.959027 1

Se puede concluir entonces que si PBI y PBIPC fuesen empleadas como variables

explicativas de un modelo, los estimadores de los parámetros asociados a tales variables no podrían ser hallados, pues la correlación entre éstas es perfecta. Sin embargo, si el modelo presentase a la variable PBIPCM, existiría aún el problema de multicolinealidad, pero ya no en forma perfecta. Por tanto, la estimación sería posible, sin embargo, los resultados no serían fiables debido a que la correlación entre las variables PBI y PBIPCM es aún muy alta.

Todo esto puede ser enfocado bajo el diagrama de Ballentine, en el cual se consideran tres

conjuntos, uno para la variable dependiente (y) y otros dos para las independientes (x2 y x3). Supongamos que se quiere explicar el bienestar económico de un país en función el PBI y al PBI per cápita, entonces, se tiene un modelo como:

Y = b1 + b2x2 +b3x3 + u

donde:

- Y = Indicador de bienestar. - x2 = PBI - x3 = PBI per cápita.

Como se verá más adelante, si la variable para explicar el PBI per cápita fuese PBIPC, al

menos uno de los estimadores no podría ser hallado, pero sí se podrían hallar todos si se empleara PBIPCM dado que la correlación entre PBI y ésta no es perfecta. Llevando este análisis al diagrama de Ballentine, se tienen tres posibles estados:

No existe colinealidad Existe colinealidad alta

4 Recordemos que los valores del coeficiente de correlación oscilan entre 1 y -1, indicando estos extremos una correlación perfecta (directa e inversa respectivamente), y valores en la vecindad de éstos una correlación severa.

Page 272: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

268

Existe colinealidad perfecta Como se observa en los tres diagramas, existe una relación entre las variables explicativas y

la explicada. Dicha relación es imprescindible si es que las variables independientes son relevantes (es decir que sí explican a la variable dependiente), tal relación está representada por las intersecciones de Y con x2 y x3 . Además, puede existir una relación entre las variables independientes, representada por la intersección de x2 con x3. Si dicha intersección no existe, entonces no existe correlación entre las explicativas y no hay colinealidad. Si, por el contrario, dicha relación existe entonces sí hay multicolinealidad. Ésta, a su vez, puede ser menos que perfecta (tal como se indica en el segundo gráfico) o perfecta (tal como se indica en el tercer gráfico, representada por el conjunto incluido x3).

Las posibles fuentes de multicolinealidad son cuatro principalmente5 : • El método de recolección de información empleado • Restricciones sobre el modelo o en la población que es objeto de muestreo • Especificación del modelo • Un modelo sobredeterminado6

99..22.. ¿¿QQUUÉÉ IIMMPPLLIICCAA LLAA MMUULLTTIICCOOLLIINNEEAALLIIDDAADD ?? En esta sección analizaremos las consecuencias de trabajar con regresores

colineados sobre los estimadores obtenidos bajo Mínimos Cuadrados Ordinarios. Primero se verá el caso de multicolinealidad perfecta y luego el de la multicolinealidad imperfecta pero severa.

9.2.1 Multicolinealidad perfecta Supóngase el siguiente modelo:

Y = b1 + b2X2 + b3X3 + u

que en desviaciones sería de la forma:

5 En Introduction to Linear Analysis. Douglas Montgomery y Elizabeth Peck. 6 Un modelo es sobredeterminado cuando tiene más variables explicativas que observaciones.

Page 273: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

269

y = b2x2 + b3x3 + u

Matricialmente:

y

y

y

x x

x x

x x

b

b

n n n

1

2

12 13

22 23

2 3

2

3! ! !

=

β

β

2

3

12 2

13 3

12 13

2 3

112 2

13 3

1

=

−x x

x x

x x

x x

x x

x x

x x

y

y

n

n n n

n

n n

"

"

! !

# $%%%%%% &%%%%%%

"

"

!

'

x x

x x x

x x x

i

n

i i

n

i i

n

i

n' =

∑ ∑

∑ ∑

22

12 3

1

2 31

32

1

Para analizar el caso de multicolinealidad perfecta, supongamos que x2 = ax3, entonces:

x xa x a x

a x x

n n

n n' =

∑ ∑

∑ ∑

232

132

1

32

132

1

x x a x a x' * ( ) * ( )= − =∑ ∑232 2 2

32 2 0

Con lo que se concluye que (x’x)-1 es indeterminado y bMCO no se puede estimar. Además, bajo estas condiciones, la varianza de los estimadores sería infinita:

Page 274: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

270

( ) ( )

Varx

x x x x

Varx

a x a x

( )( )

( )

βσ

βσ

2

232

22

32

2 32

2

232

232 2 2

32 2

=−

=−

= ∞

∑∑ ∑∑

∑∑ ∑

En este caso, X = a X2 3

Consecuentemente, los errores estándar de los coeficientes de regresión también serán

infinitos. Como se ha demostrado, en el caso de la multicolinealidad perfecta no es posible hallar una

solución única para los coeficientes de regresión individual pero sí se puede obtener una solución única para combinaciones lineales de estos coeficientes. Así pues, en el caso anterior:

Y = b1 + b2X2 +b3X3 + u Y = b1 + b2aX3 +b3X3 + u Y = b1 + (b2a + b3) X3 + u Y = b1 + b4 X3 + u en donde b4 = b2a + b3

se podrá estimar tanto b1* como b4* bajo el método convencional de MCO pero no se podrá descomponer b4* en sus componentes combinados linealmente b2 y b3. Esto, a no ser que se tenga información adicional como el b2* (o el b3*) obtenidos de otra regresión, por ejemplo. Esto es lo que se conoce como la solución gracias a la posesión de información a priori para eliminar el problema de multicolinealidad.

9.2.2 Multicolinealidad severa En este caso, dado que se conserva el supuesto de perturbaciones esféricas7, los estimadores

de los parámetros de regresión serán MELI. Entonces, ¿dónde radica el inconveniente de trabajar con un grado relativamente alto de multicolinealidad? Al respecto, no debemos olvidar la estrecha relación que existe entre la multicolinealidad y la escasez de observaciones.

“El único efecto de la multicolinealidad tiene que ver con la dificultad de obtener los

coeficientes estimados con errores estándar pequeños. Sin embargo, el mismo problema se tiene al contar con un número reducido de observaciones o al tener variables independientes con varianzas pequeñas (...) Por lo tanto la pregunta “¿qué se debe hacer acerca de la multicolinealidad?” es similar al interrogante “¿qué se debe hacer si no se tienen muchas observaciones?” A este respecto, no se puede dar una respuesta estadística.”8

7 El supuesto de perturbación esférica considera que : E (ui) = 0 y que E (uu’) = σ2I 8 Christopher H. Achen, Interpreting and Using Regression, 1982.

Page 275: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

271

La obtención de estimadores MELI, a pesar de la presencia de multicolinealidad, no es razón

suficiente para no considerar las consecuencias prácticas de este problema. Así, en los casos de multicolinelidad imperfecta pero severa es probable detectar las siguientes consecuencias:

• Los estimadores MCO presentarán varianzas y covarianzas grandes, lo que hace difícil su

estimación precisa. • Debido a lo anterior, los intervalos de confianza serán más amplios por lo que se tenderá a

aceptar más fácilmente la hipótesis nula de cero. • A pesar de lo anterior, el R2 como medida global de la bondad de ajuste puede tener valores

altos. • Los estimadores MCO y sus errores estándar pueden ser bastante sensibles a pequeños

cambios en la información de la muestra. Pasemos ahora a analizar más de cerca cada una de estas consecuencias.

i) Varianzas y covarianzas grandes Consideremos un modelo que involucra sólo dos variables independientes. Al respecto,

sabemos que la varianza del primer estimador MCO puede expresarse de la forma:

Varx ri

( ' )( )

β σ1

2

21

2121

=−∑

y a la covarianza entre éste y el segundo estimador:

Covr

r x xi i

( ' , ' )( )

β βσ

1 212

2

212

21

221

=−

− ∑∑

donde r12 es el coeficiente de correlación entre las variables X1 y X2. A partir de las relaciones planteadas anteriormente, se observa claramente que a medida que el coeficiente de correlación entre las variables independientes aumenta, ambas medidas toman valores cada vez más altos. En el caso extremo de colinealidad perfecta, donde el coeficiente de correlación es igual a uno, tanto la varianza como covarianza de los estimadores tiende a infinito. Esta consecuencia se aprecia claramente si planteamos la varianza del estimador MCO en términos matriciales:

σ σβ µ2 1 2' ( ' )= −X X

Ya sabemos que cuando una de las columnas de la matriz X puede expresarse como una

combinación lineal de otra columna (esto es, que una de las variables independientes está colineada con otra) esta matriz no posee rango completo por lo que su determinante sería igual a cero, ocasionando que la varianza y covarianzas de los estimadores sean infinitas.

Con el fin de analizar esta consecuencia con algo más de detalle, Gujarati9 plantea un

indicador denominado el factor inflador de varianza (FIV) definido como:

9 Damodar N. Gujarati, Econometría (tercera edición, 1997)

Page 276: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

272

FIVr

=−

1

1 212( )

Este factor muestra la forma como la varianza del estimador MCO es inflada por la

presencia de multicolinealidad. Evidentemente, a medida que el coeficiente de correlación entre las variables explicativas X1 y X2 se acerque a uno, el FIV tenderá a infinito. Por otro lado, de no existir colinealidad entre X1 y X2, el FIV será igual a uno.

Partiendo de la definición del FIV, podemos replantear la varianza del estimador MCO de la

forma:

Varx

FIVi

( ' )β σ1

2

21

=∑

lo cual demuestra de la varianza del estimador es directamente proporcional al FIV.

ii) Intervalos de confianza más amplios Debido a la presencia de errores estándar altos, los intervalos de confianza para los

parámetros poblacionales tienden a ser más grandes. Por consiguiente, en casos de alta multicolinealidad, la probabilidad de aceptar hipótesis falsas (Error tipo II) aumenta ya que la muestra resulta compatible con un diverso número de hipótesis. En otras palabras, para un nivel de confianza de 95%, por ejemplo, el rango de valores entre los cuales puede fluctuar el parámetro poblacional se ve incrementado de manera directamente proporcional al error estándar del estimador. Para verificar esto, comparemos dos distribuciones distintas para los parámetros, tal como se presenta en el siguiente gráfico. Para un mismo nivel de confianza (95%), los valores críticos de determinada prueba de hipótesis difieren para ambas distribuciones. Para aquella con mayor varianza, los valores críticos (t-crítico2) se encuentran más alejados de la media por lo que resultará más probable, en este caso, aceptar la hipótesis nula dado el valor para el t-calculado.

Page 277: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

273

iii) Estadísticos t poco significativos y un R2 alto Para confirmar esto, vasta revisar el planteamiento de los estadísticos t de significación

individual:

t ='

'

βσβ

1

1

Evidentemente, ante un aumento considerable en el error estándar del estimador el

estadístico t se vería reducido, aumentando la probabilidad de aceptar la hipótesis nula de que el verdadero parámetro poblacional es igual a cero.

Sin embargo, y a pesar de lo anterior, de existir un alto grado de multicolinealidad entre los

regresores, será frecuente encontrar un R2 alto para la ecuación de regresión. Ante esto será factible, y sobre la base de la prueba F de significación conjunta, rechazar la hipótesis de que β β β1 2 0= = = =... k

A pesar de la influencia del alto grado de colinealidad sobre la varianza de los estimadores

y, por tanto, sobre las pruebas de significación individual (que nos lleva a aceptar la hipótesis de que los regresores incluidos son poco significativos), la presencia de un alto R2 nos indica que, en conjunto, los regresores elegidos son significativos y, por tanto, relevantes para explicar el comportamiento de la variable independiente. Esta conclusión resulta de especial importancia si tomamos en cuenta el objetivo de nuestro modelo. Evidentemente, en un modelo cuyo objetivo es conocer la sensibilidad de la variable dependiente ante cambios en los regresores resultará importante determinar con relativa exactitud los valores de cada uno de los coeficientes involucrados. Según esto, un modelo que presenta un alto grado de colinealidad no sería el más indicado ya que este problema conduce a grandes errores estándar en los estimadores. Por otro lado, si el objetivo de nuestro modelo es predecir el comportamiento de la variable dependiente para periodos fuera del intervalo muestral, la multicolinealidad puede ser obviada. En este caso, lo que nos interesa es que los regresores incluidos, en conjunto, nos ayuden a modelar en comportamiento de la variable dependiente. Tal como se indicó anteriormente, a pesar de la presencia de pruebas-t poco significativas, es factible encontrar modelos con un R2 elevado, lo que nos llevaría a concluir que el modelo estimado es lo suficientemente robusto como para realizar predicciones de la variable de interés. Sin embargo, lo anterior sólo puede ocurrir siempre y cuando los valores de las variables independientes obedezcan a las mismas relaciones lineales halladas para el intervalo muestral. Por ejemplo, si en una regresión estimada se encuentra que X2 = 2X3, en una muestra futura utilizada para pronosticar Y, X2 también deberá ser aproximadamente igual a 2X3.

La presencia de estadísticos t poco significativos y un R2 alto puede verificarse más

claramente desde un punto de vista geométrico. Consideremos para esto el siguiente ejemplo:

Ejemplo10

Consideremos una regresión donde se pretende estimar el consumo de una familia a partir de su ingreso y su riqueza. Sobre la base de información hipotética se obtuvieron los siguientes resultados:

10 Damodar N. Gujarati, op. cit, pp 328-329

Page 278: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

274

)0807.0(

0424.0

)8229.0(

9415.0

)7525.6(

7747.24ˆ32 iii XXY −+=

Variable Estadístico t Intercepto 3.6690 X2i 1.1442 X3i -0.5261 R-cuadrado 0.9635

Los resultados de la regresión muestran que el ingreso y la riqueza explican

conjuntamente alrededor del 96% de las variaciones en el consumo. Sin embargo, ninguno de los coeficientes de las variables involucradas es estadísticamente significativo. Más aún, no sólo la variable riqueza no resulta significativa sino que el signo del coeficiente asociado a esta variable es contrario al esperado. Evidentemente, es de esperar que las variables involucradas presenten un alto nivel de colinealidad, específicamente, se debería esperar una relación positiva entre el consumo y la riqueza. Verifiquemos ahora estas conclusiones desde un punto de vista geométrico. Si establecemos intervalos de confianza11 para β2 y

β 3 notaremos que ambos incluyen el valor de cero. Por tanto, resulta factible que,

individualmente, se acepte la hipótesis nula de que los parámetros son iguales a cero. Sin embargo, al construir el intervalo de confianza conjunto para la hipótesis β β2 3 0= =

(dado por la elipse), resulta evidente que esta hipótesis no puede ser aceptada ya que este intervalo no incluye el origen.

11 Los intervalos de confianza para cada coeficiente se construyen a partir del siguiente planteamiento:

[ ]' ( ')β β± t setab

Page 279: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

275

iv) Sensibilidad de los estimadores y sus errores estándar ante pequeños cambios en la

muestra Siempre y cuando la multicolinealidad no sea perfecta, es posible la estimación de los

coeficientes de regresión. Sin embargo, los estimadores y sus errores estándar se tornan muy sensibles ante cambios en la información contenida en la muestra. Para verificar esto, consideremos el siguiente ejemplo: Ejemplo

Consideremos una regresión donde las variables independientes registran un alto grado de

colinealidad. Específicamente, el coeficiente de correlación entre X1 y X2 asciende a 0.9998. Comparando los resultados de ambas regresiones notaremos que al incluir en la muestra 10 observaciones adicionales, se registra un drástico cambio en el valor de los coeficientes involucrados. Por otro lado, resulta interesante comprobar que para ambas regresiones, si bien los estadísticos t resultan poco significativos, en la prueba de significación conjunta se rechaza la hipótesis nula. Tal como se indicó anteriormente, la presencia de un alto grado de multicolinealidad no permite estimar de un modo preciso los coeficientes de regresión individuales pero que, en conjunto, los regresores incluidos sí explican adecuadamente a la variable dependiente. En otras palabras, resulta factible estimar las combinaciones lineales de estos coeficientes con relativa exactitud. En este sentido, resulta importante comprobar que la suma de los coeficientes para ambas regresiones arrojan valores muy similares (1.0873 v.s. 1.0499).

LS // Dependent Variable is Y Sample: 1 90 Included observations: 90 Variable Coefficient Std. Error t-Statistic Prob. C 0.404438 0.113068 3.576963 0.0006 X1 -0.539482 5.167992 -0.104389 0.9171 X2 1.626773 5.190419 0.313418 0.7547 R-squared 0.550756 Mean dependent var 0.624073 Adjusted R-squared 0.540429 S.D. dependent var 1.552728 S.E. of regression 1.052620 Akaike info criterion 0.135330 Sum squared resid 96.39678 Schwarz criterion 0.218657 Log likelihood -130.7943 F-statistic 53.32944 Durbin-Watson stat 2.164034 Prob(F-statistic) 0.000000 LS // Dependent Variable is Y Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob. C 0.433715 0.107205 4.045670 0.0001 X1 0.340541 5.098772 0.066789 0.9469 X2 0.709403 5.118200 0.138604 0.8901 R-squared 0.520709 Mean dependent var 0.609064

Page 280: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

276

Adjusted R-squared 0.510827 S.D. dependent var 1.509297 S.E. of regression 1.055616 Akaike info criterion 0.137790 Sum squared resid 108.0896 Schwarz criterion 0.215945 Log likelihood -145.7834 F-statistic 52.69113 Durbin-Watson stat 2.173771 Prob(F-statistic) 0.000000

99..33.. ¿¿CCÓÓMMOO DDEETTEECCTTAARR LLAA MMUULLTTIICCOOLLIINNEEAALLIIDDAADD??

Existen diversos indicadores y métodos para constatar la existencia de este problema, los

más útiles son:

9.3.1 R2 alto y t* bajos Este es uno de los indicadores más empleados para justificar la existencia de este problema

ya que es considerado como un “síntoma clásico”. Si el coeficiente de determinación es alto, se podría afirmar que el nivel de significancia es bueno, es decir, que las variables independientes explican a la dependiente con un grado de ajuste bastante alto (R2 alto: R2 > 0.8). Bajo estas circunstancias, el estadístico F indicará que no todos los coeficientes de regresión serán cero a la vez, pues con el coeficiente de determinación se concluyó que las explicativas eran relevantes. Sin embargo, la existencia de t bajos indica que se aceptarán las hipótesis de nulidad de los regresores para varias explicativas consideradas individualmente, contradiciendo los resultados anteriores.

Aunque este diagnóstico es razonable, su desventaja es que “es demasiado fuerte, en el sentido de que la multicolinealidad se considera dañina, únicamente cuando la totalidad de las influencias de las variables explicativas sobre Y no se pueden separar12”

9.3.2 Altas correlaciones entre los regresores Si el coeficiente de correlación simple, de orden cero, o entre dos regresores, es alto (mayor

a 0.8) entonces, la multicolinealidad constituye un problema grave. Sin embargo, esta correlación no es imprescindible para que exista multicolinealidad fuerte. Las correlaciones de orden cero elevadas son una condición suficiente pero no necesaria para la existencia de multicolinealidad debido a que ésta puede existir a pesar de que dichas correlaciones sean comparativamente bajas (menores a 0.5). En los modelos que involucran más de dos variables independientes, el coeficiente de correlación simple no proporciona una guía infalible sobre la presencia de multicolinealidad. Sin embargo, si sólo existen dos variables independientes y están correlacionadas, es obvio que este indicador será suficiente.

9.3.3 Test de Farrar Glauber A pesar de que la prueba de Farrar Glauber ha sido criticada por economistas como T.

Krishna Kumar, John O´Hagan y Brendan McCabe, esta es una de las más completas y fidedignas para detectar multicolinealidad grave en un modelo de regresión, sobre todo si éste consta de más de dos variables explicativas.

12 Jan Kmenta, Elements of Econometrics.

Page 281: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

277

Este test consta de tres etapas: i) Test de Ortogonalidad (χχχχ2):

En esta etapa se busca evaluar la ortogonalidad de las variables independientes. Si el

resultado de la evaluación arroja que se rechaza la hipótesis de existencia de ortogonalidad, entonces se aceptará la posibilidad de existencia de multicolinealidad y se pasa a la segunda etapa. H0 : las X son ortogonales. H1 : las X no son ortogonales.

El estadístico relevante para esta etapa del test se construye a partir de la siguiente relación:

χ2 12 5

6calc n

k= − − − +

( )* ln ( valor del determinante estandarizado)

χ2

calc ❞ χ2 (k(k-1))/2 g.l.

donde:

χ2calc : es el valor estimado de χ2

n : es el tamaño de la muestra k : es el numero de variables asociadas a pendientes (sin incluir el intercepto)

Para hallar el determinante estandarizado se construye la matriz de correlación. Para tres

variables explicativas, por ejemplo, la matriz de correlación vendría dada por:

R

r r

r r

r r

x x x x

x x x x

x x x x

=

1

1

1

2 3 2 4

3 2 3 4

4 2 4 3

|R| = valor del determinante estandarizado

• Si χ2

calc > χ2 tabla se rechaza el supuesto de ortogonalidad, se acepta que los X no son

ortogonales. • Si χ2

calc < χ2 tabla se acepta el supuesto de ortogonalidad.

Mientras más alto sea el χ2 estimado, más severo será el grado de la multicolinealidad entre

las variables explicativas. ii) Test F: En esta segunda etapa, luego de haber detectado que las variables predeterminadas no son ortogonales, se regresiona cada explicativa contra el resto de independientes para ver cuál de éstas está más colineada conjuntamente con las demás. Se observa el coeficiente de determinación de cada regresión y se selecciona aquella variable explicativa que, tras haber sido regresionada con las demás en conjunto, arroje el F estimado más alto.

Page 282: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

278

x2 = f (x3,...,xk) → R2

x2 . x3, x4, ..., xk x3 = f (x2,x4...,xk) → R2

x3 . x2, x4, ..., xk

y así hasta xk H0 : R2

xi . x2,x3, x4, ..., xk = 0 H1 : R2

xi . x2,x3, x4, ..., xk ≠ 0

Fi =−

R x . x ,x , x , .. . , x / (k - 1)(1 - R x . x ,x , x , . . . , x /(n k)

2i 2 3 4 k2

i 2 3 4 k ) ❞ F(k-1, n-k)

• Si Fi > Ftabla se acepta la hipótesis alternante, es decir que la variable xi está colineada con

las demás explicativas. • Si Fi < Ftabla se acepta la hipótesis planteada, entonces la multicolinealidad no existe.

Conociendo el F más alto y contrastándolo contra el valor en tablas, se sabrá cuál es la relación dominante entre las variables explicativas. iii) Test t: En esta última etapa se hallan los coeficientes de correlación parcial para conocer con cual variable explicativa está más relacionada la variable seleccionada en la etapa anterior. H0 : rxixj . x2,x3, x4, ..., xk = 0 H1 : rxixj . x2,x3, x4, ..., xk ≠ 0

t =r x x . x ,x , x , ... , x n - k

(1 - rx x . x ,x , x , ... , xi j 2 3 4 k

i j 2 3 4 k ) ❞ t( n-k)

• Si t > t tabla se acepta la hipótesis alternante, entonces la multicolinealidad es alta. • Si t < t tabla se acepta la hipótesis planteada, es decir que la variable xi no está colineada con

la variable xj entonces, se puede convivir con multicolinealidad. 99..44.. ¿¿QQUUÉÉ HHAACCEERR FFRREENNTTEE AA LLAA MMUULLTTIICCOOLLIINNEEAALLIIDDAADD?? Las siguientes son algunas de las soluciones al problema de multicolinealidad. 9.4.1 Regresión por cordillera Una de las soluciones que se emplea con más frecuencia para curar el problema de la multicolinealidad es el uso de la regresión por cordillera. En términos generales, la idea consiste en añadir una constante (λ) a las varianzas de las variables explicativas (es decir, a los

Page 283: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

279

elementos de la diagonal de la matriz X´X) antes de resolver las ecuaciones normales de modo que las intercorrelaciones se reducen. Ejemplo: Para entender la aplicación del método de regresión por cordillera, se hará uso del siguiente programa: !" Programa 9.1 workfile cordillera u 100 genr x1=nrnd genr x2= x1+nrnd/1000 genr y = x1 + x2+ nrnd/5 equation eq1.ls y x1 x2 c smpl 1 99 equation eq2.ls y x1 x2 c smpl 1 100 matrix (100,3) mtx genr c1=1 group g1 c1 x1 x2 stom(g1,mtx) matrix (3,100) mtxt=@transpose(mtx) matrix (3,3) mtxx = mtxt*mtx matrix (100,1) mty stom(y,mty) matrix (3,1) mtxy =mtxt*mty matrix (3,1) mtb0 = (@inverse(mtxx))*mtxy vector v1=@rowextract(@columnextract (mtxx,3),2) vector v2=@rowextract(@columnextract (mtxx,2),2) vector v3=@rowextract(@columnextract (mtxx,3),3) mtos(v1,s23) mtos(v2,s22) mtos(v3,s33) smpl 1 1 genr r23=(s23*s23)/(s22*s33) smpl 1 100 scalar l1=0.05 scalar l2=0.5 scalar l3=1.5 scalar l4=5 scalar l5=7.5 scalar l6=10 scalar l7=20 matrix (3,3) matri = @identity(3) for !x=1 to 7 matrix (3,3) sum{!x} = l{!x}*matri matrix (3,3) cord{!x} = mtxx+sum{!x} matrix (3,1) mtb{!x} = (@inverse(cord{!x}))*mtxy vector v1{!x}=@rowextract(@columnextract (cord{!x},3),2)

Page 284: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

280

vector v2{!x}=@rowextract(@columnextract (cord{!x},2),2) vector v3{!x}=@rowextract(@columnextract (cord{!x},3),3) mtos(v1{!x},s23{!x}) mtos(v2{!x},s22{!x}) mtos(v3{!x},s33{!x}) smpl 1 1 genr r23{!x}=(s23{!x}*s23{!x})/(s22{!x}*s33{!x}) smpl 1 100 next !" Resultados

LS // Dependent Variable is Y Sample: 1 100 Included observations: 100 Variable Coefficient Std. Error t-Statistic Prob.

X1 -29.18545 24.22895 -1.204569 0.2313 X2 31.16150 24.23263 1.285931 0.2015 C -0.020095 0.024123 -0.833029 0.4069 R-squared 0.987414 Mean dependent var -0.258300 Adjusted R-squared 0.987155 S.D. dependent var 2.108048 S.E. of regression 0.238919 Akaike info criterion -2.833719 Sum squared resid 5.536988 Schwarz criterion -2.755564 Log likelihood 2.792123 F-statistic 3805.078 Durbin-Watson stat 2.235130 Prob(F-statistic) 0.000000

LS // Dependent Variable is Y Sample: 1 99 Included observations: 99 Variable Coefficient Std. Error t-Statistic Prob. X1 -37.74754 24.79090 -1.522637 0.1311 X2 39.72551 24.79477 1.602173 0.1124 C -0.024270 0.024152 -1.004866 0.3175 R-squared 0.987688 Mean dependent var -0.257176 Adjusted R-squared 0.987431 S.D. dependent var 2.118746 S.E. of regression 0.237533 Akaike info criterion -2.845059 Sum squared resid 5.416525 Schwarz criterion -2.766419 Log likelihood 3.355522 F-statistic 3850.559 Durbin-Watson stat 2.174848 Prob(F-statistic) 0.000000

Como se observa, el programa genera series colineales (x1 y x2) y corre dos regresiones: una con todos los elementos del espacio muestral y otra con un elemento menos. Al analizar los resultados y comparar los coeficientes de los regresores, se aprecia un cambio drástico en la magnitud de los mismos, esto es un síntoma evidente de la existencia de la multicolinealidad. Así mismo, los altos coeficientes de determinación en ambas regresiones indican que la bondad de ajuste es buena, de igual manera, el test de probabilidad conjunta (F) indica que se rechaza la hipótesis de nulidad conjunta de los coeficientes de los regresores; sin embargo los test de

Page 285: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

281

probabilidad individual (t) indican que los regresores no son significativos, como ya se explicó, éste es otro síntoma de la existencia de multicolinealidad severa.

Ante este problema, se procede a construir la matriz X´X para poder añadir el coeficiente λ

a la diagonal, así, la matriz original X´X para la muestra completa (100 observaciones) es la siguiente:

MATRIZ X´X c x1 x2 C 100 -12.205275 -12.195719 X1 -12.205275 113.252169 113.233954 X2 -12.195719 113.233954 113.215839

Con estos datos, se puede hallar el coeficiente de correlación entre las variables x1 y x2, que

por los comandos del programa, se sabe, son las variables colineadas13:

( )r

S

S S232 23

2

22 33=

*

( )r23

22113233953713

113 252169258 11321583889= =

.

. * .0.999999136234

El resultado obtenido era esperado, pues al ser las variables x1 y x2 colineadas, el coeficiente

de correlación entre éstas debe ser muy cercano a la unidad. Sin embargo, luego de sumar el coeficiente λ a la diagonal de X´X, los coeficientes de correlación disminuyen puesto que se incrementan los factores que componen el denominador de este estadístico. Así, si λ = 5, se tendrá:

( )r

S

S S232 23

2

22 335 5=

+ +( ) * ( )

( )( ) ( )r23

22113233953713

113252169258 5 11321583889 5=

+ +=

.

. * .0.917209529644

Es fácil observar que se trata de una solución mecánica. A medida que los valores de λ se

incrementen, el coeficiente de correlación irá disminuyendo. λ=0 (ΜΧΟ)λ=0 (ΜΧΟ)λ=0 (ΜΧΟ)λ=0 (ΜΧΟ) λ=0.05λ=0.05λ=0.05λ=0.05 λ=0.5λ=0.5λ=0.5λ=0.5 λ=1λ=1λ=1λ=1 λ=5λ=5λ=5λ=5 λ=7.5λ=7.5λ=7.5λ=7.5 λ=10λ=10λ=10λ=10 λ=20λ=20λ=20λ=20

ρ232 0.999999 0.999117 0.991226 0.974023 0.917210 0.879618 0.844291 0.722309

β0cordillera −0.020095 −0.01781 −0.018216 −0.019085 −0.021924 −0.023775 −0.025491 −0.031210

β1cordillera −29.18545 0.95628 0.980678 0.978272 0.964000 0.953698 0.943573 0.905074

β2cordillera 31.16150 1.01474 0.986394 0.980078 0.964439 0.953942 0.943721 0.905081

Los estimadores hallados por el método de regresión por cordillera son sesgados, puesto que

se obtienen distorsionando la diagonal de la matriz X´X. Referente a este aspecto, cabe mencionar que la transformación de la matriz X´X puede realizarse de dos modos:

13 La segunda línea del programa genera una variable aleatoria distribuida como una normal. En seguida, la tercera línea genera otra variable igual a la anterior más una perturbación poco significativa (observar la división entre 1000)

[X´X + λΙ ]−1X

Page 286: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

282

• El primero de ellos, que da origen al estimador de regresión por cordillera simple consiste en seguir el procedimiento detallado en la sección anterior, es decir sumar un escalar λ a los elementos de la diagonal de X´X:

βcordillera = [X´X + λΙ ]−1X´Y

donde I es una matriz identidad

• El segundo método da origen al estimador por cordillera estricto y consiste en multiplicar los elementos de la diagonal de la matriz X´X por un escalar λ=1+ρ:

βcordillera = [X´X + ρD]−1X´Y

donde D es una matriz diagonal que contiene los elementos de la diagonal de X´X

En el ambos casos,. la adición de λ a las varianzas produce estimadores sesgados14 pero el

argumento es que si la varianza puede reducirse15, bajará el error cuadrático medio. Hoerl y Kennard demuestran que existe siempre una constante λ>0 tal que

MSE i MSE ii

k

i

k

( **) ( *)β β= =∑ ∑<

1 1

donde βi** son los estimadores de βi a partir de la regresión por cordillera, βi* los estimadores MCO y k es el número de regresiones. Por desgracia, λ es una función de los parámetros de regresión y la varianza de error, que son desconocidos. Sin embargo, Hoerl y Kennard sugieren que se pruebe con diferentes valores de λ y se elija el valor de modo que el sistema se “estabilice” o los coeficientes no tengan valores poco razonables, por tanto, argumentos subjetivos. Algunos otros han sugerido obtener estimados iniciales de bi y s2 y después utilizar el λ estimado. Es posible iterar este procedimiento y obtener el estimador por cordillera iterado. La utilidad de este procedimiento también ha sido cuestionada.

Otro problema sobre la regresión por cordillera es el hecho de que no es invariante ante las

unidades de medida de las variables explicativas y transformaciones lineales de las variables. Si se tienen dos variables explicativas x1 y x2 , y x1 se mide en decenas y x2 en millares, no tiene sentido sumar el mismo valor de λ a las varianzas de ambas. Es posible evitar este problema si se normaliza cada variable dividiéndola entre su desviación estándar. Aún sí x1 y x2 se miden en unidades similares, en algunos casos hay diferentes transformaciones lineales de x1 y x2 que tienen la misma sensibilidad.

Existen situaciones diferentes bajo las cuales la regresión por cordillera surge en forma

natural. Estas permiten entender las circunstancias bajo las cuales el método podrá ser útil. A continuación mencionaremos dos de ellas.

i) Mínimos cuadrados restringidos Suponga que se estima los coeficientes de regresión sujetos a la condición de que

14 E [ βcordillera] = [X´X + λΙ ]−1X´Xβ 15 Var [ βcordillera] = σ2 [X´X + λΙ ]−1X´X[X´X + λΙ ]−1

Page 287: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

283

i

k

=∑

1

bi2 = c

entonces se obtendría algo similar a la regresión por cordillera. La λ que se utiliza es el multiplicador de Lagrange en la minimización. Para observarlo, suponga que se tienen dos variables explicativas.

Se tiene el estimador de mínimos cuadrados restringidos minimizado:

S(y - b1x1 - b2x2)2 + λ( b1

2 + b22-c)

donde λ es el multiplicador de Lagrange. Al diferenciar esta expresión con respecto a b1 y b2 e igualar las derivadas con cero, se obtienen las ecuaciones normales:

2S(y - b1x1 - b2x2)(-x1) +2λb1 = 0

2S(y - b1x1 - b2x2)(-x2) +2λb2 = 0

Estas ecuaciones pueden escribirse como

(S11 + λ) b1 + S12 b2 = S1y

S12b1 + (S22 + λ)b2 = S2y

en donde S11 = S x12, S12 = S x1x2 , etcétera. Por lo tanto, se obtiene la regresión por cordillera y

λ es el multiplicador de Lagrange. El valor de λ se decide por el criterio b12 + b2

2 = c. En este caso, el procedimiento para elegir λ es claro.

Rara vez se da el caso en el que se conoce previamente la bi que se encuentra en la forma Sbi

2=c.Pero también puede utilizarse alguna información menos concreta para elegir el valor de λ en la regresión por cordillera. La regresión por cordillera de Brown y Beattie sobre los datos de la función de producción utiliza el conocimiento previo de las relaciones entre los signos de las bi .

ii) Interpretación de los errores de medida Considérese un modelo de dos variables con mínimos cuadrados restringidos. Supóngase

que se añade errores aleatorios con media igual a cero y varianza λ tanto para x1 como para x2. Dado que estos errores son aleatorios, no afectan la covarianza entre x1 y x2. Las varianzas de x1 y x2 se incrementarán en λ. Por lo tanto, se obtiene el estimador de regresión por cordillera. Esta interpretación hace que el estimador por cordillera sea un poco sospechoso. Smith y Campbell dicen que esta interpretación se resume en la frase: “úsense datos menos precisos para obtener estimados más exactos”.

Estas son situaciones en las que es fácil justificar la regresión por cordillera. En casi todos

los demás casos, se involucra un juicio subjetivo que a veces se equipara con una “vaga información previa”. Los métodos bayesianos permiten un análisis sistemático de los datos con una vaga información previa.

Page 288: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

284

Debido a las deficiencias ya discutidas de la regresión por cordillera, este método no se recomienda como solución general al problema de la multicolinealidad. En particular, la forma más sencilla del método (donde una constante λ se agrega a cada varianza) no tiene demasiada utilidad.

9.4.2 Regresión por componentes principales Otra solución que muchas veces se sugiere para el problema de la multicolinealidad es la

regresión por componentes principales. Esta cura implica un procedimiento más sofisticado pero a la vez permite una mejor comprensión intuitiva de la solución al problema de la multicolinealidad. Supongamos que tenemos k variables explicativas. Entonces es posible considerar algunas funciones lineales de estas variables:

z1 = a1x1 + a2x2 + … + akxk

z2 = b1x1 + b2x2 + … + bkxk etc. Supongamos que los coeficientes que acompañan a los regresores xi (ai) se eligen de modo

tal que la varianza de z1 se maximice, sujeta a la condición de que

a12 + a2

2 + … + ak2 = 1

Esto se conoce como condición de normalización. (Es necesaria, o de otro modo la varianza

de z1 se elevará en forma indefinida). Se dice entonces, que z1 es el primer componente principal. Es la función lineal de las x que tiene la mayor varianza (sujeta a la regla de la normalización). Lo que se ha hecho hasta esta etapa es generar combinaciones lineales de los regresores (que originalmente presentaban alta correlación lineal) que presenten conjuntamente una dispersión elevada, se maximiza la varianza. Esto se realiza con el propósito de formar grupos de componentes principales que serán empleados como regresores en lugar de las variables originales (como estos componentes principales tienen alta varianza, no estarán correlacionados entre sí)

El proceso de maximizar la varianza de la función lineal z sujeta la condición de que el

cuadrado de la suma de los coeficientes de las x es igual a uno, produce k soluciones. Correspondiendo a esto, se construyen k funciones lineales, z1,z2,…zk. Estas se conocen como componentes principales de las x. Pueden ordenarse de manera que

var(z1) > var(z2) > . . . > var(zk)

z1, la que tiene mayor varianza, se conoce como primer componente principal, z2 es la siguiente varianza más grande y se conoce como segundo componente principal, y así sucesivamente. Estos componentes principales tienen las siguientes propiedades:

1. var(z1) + var(z2) + … + var(zk) = var(x1) + var(x2) + … + var(xk). 2. A diferencia de las x que están correlacionadas, las z son ortogonales o no correlacionadas.

Por lo tanto no existe multicolinealidad entre ellas. A veces se sugiere que, en lugar de regresionar y sobre x1, x2, … , xk, deberá regresarse

sobre z1, z2, … zk. Pero esto no soluciona el problema de multicolinealidad. Si se regresara y sobre las z y después se sustituyeran los valores de éstas en términos de las x, al final se obtendría las mismas respuestas que antes. El hecho de que las z carezcan de correlación no significa que se obtendrán mejores estimaciones de los coeficientes en la ecuación original de

Page 289: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

285

regresión. De modo que es válido utilizar los componentes principales sólo si se regresa y sobre un conjunto de las z. Pero este procedimiento representa también algunos problemas. Estos son:

1. El primer componente principal z1, si bien es el que tiene la mayor varianza, no

necesariamente tiene la mayor correlación con y. De hecho, no necesariamente existe una relación entre el orden de los componentes principales y el grado de correlación con la variable dependiente y.

2. Es posible pensar en elegir sólo aquellos componentes principales que tengan una alta correlación con y y eliminar el resto, pero se puede usar el mismo tipo de procedimiento con el conjunto original de variables x1,x2, …, xk si se elige primero la variable que tiene la máxima correlación con y, después la que posee la correlación parcial más elevada, y así sucesivamente; esto es lo que hacen los “programas de regresión por pasos”.

3. Muchas veces las combinaciones lineales z no tiene significado en términos económicos. Por ejemplo, ¿qué significa 2 (ingreso)+ 3 (precio)? Este es uno de los inconvenientes más importantes del método.

4. Al cambiar las unidades de medición de las x se modificarán los componentes principales. Es posible evitar este problema si se estandarizan todas las variables para tener una varianza unitaria.

Derivación formal de los estimadores generados por componentes principales. Sea z1 una combinación lineal de todos los regresores, tal que:

z1 = X.c1 16

Como el coeficiente de determinación (R2) de la regresión de cualquier columna de X sobre

z1 será el mismo para cualquier escalar múltiplo de c1, se impone una restricción para levantar esta indeterminación:

z1´z1 = 1

Para cada columna (xk) de la matriz de información (X), la suma de errores al cuadrado será

igual a:

ek´ek = xk´[I - z1 (z1 ´z1)-1 z1´]xk

17

considerando la restricción:

ek´ek = xk´[I - z1 z1´]xk Generalizando, para todas las columnas de X, se busca minimizar :

16 La matriz X de orden nxk contiene en cada columna a las observaciones correspondientes a cada una de las variables explicativas. Uno de los supuestos básicos del modelo de regresión lineal considera que las k columnas deben ser linealmente independientes para garantizar la no singularidad de la matriz X´X. Sin embargo, generalmente se tiene menos de k fuentes de información verdaderamente independientes, es decir menos fuentes de variación. El uso del método de componentes principales es un intento de extraer de la matriz de información X aquellas variables que representen la mayor (o toda) la fuente de variación de X. 17 x = zβ e = x - zβMCO e ‘= x’ - βMCO’.z’ e’e = x’x - x’z βMCO - βMCO’z’x + βMCO’z’z βMCO e’e = x’x - x’z (z’z)-1z’x - x’z(z’z)-1z’x + x’z(z’z)-1z’z(z’z)-1z’x e’e = x’(I- z(z’z)-1z’)x

Page 290: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

286

e e tr X I z z Xk kk

K

k k' ( ' ( ' ) )=∑ = −

1

18

sujeta a la restricción ya enunciada. Esto equivale a maximizar el sustrayendo de esta ecuación, con lo cual se elabora el siguiente Lagrangiano:

L = tr(X’z1z1’X) + λ(1−z1’z1)

Permutando la traza y considerando que z1 = x.c1, se deduce que:

L = c1’(X’X)2c1 + λ(1−c1’(X’X)c1)19

Ahora que se tiene el Lagrangiano en función de c1 se halla la condición de primer orden

derivando L respecto a c1 (recuerde que lo que se pretende es armar los componentes principales, que son combinaciones lineales de los regresores ponderados por coeficientes c1, por ello, se trata de encontrar estos ponderadores):

∂∂

L

c1

= 2(X’X)2c1 - 2 λ(X’X)c1 = 0

(X’X)c1 - λ c1 = 0

((X’X) - λ)c1 = 0

(X’X) =λ 20

Teniendo esto en cuenta se observa que se debe maximizar :

L = c1’(X’X)2c1 + λ(1−c1’(X’X)c1) = λ 2(c1’c1) + λ(1− λ(c1’c1)) pero (c1’c1)=1

entonces:

L = λ 2 + λ(1− λ) = λ

Por lo tanto, para maximizar el lagrangiano, se debe elegir un vector característico (c1)

asociado a la mayor raíz característica (λ). Con esto se habrá obtenido la combinación lineal de mayor varianza (el primer componente principal)

Estos pasos pueden ser repetidos en búsqueda de una segunda combinación lineal de los

regresores originales (columnas de X) teniendo en cuenta el mismo criterio y además que esta segundo componente principal debe ser ortogonal al primero.

18 Como se ve, la suma de errores al cuadrado (ek´ek = xk´[I - z1 z1´]xk) involucra además del componente principal a los elementos de la diagonal de X. Es obvio que para hallar la sumatoria de ek’ek se debe hallar la traza de la matriz generada en esta ecuación puesto que ésta (la traza) se define como la suma de los componentes de la diagonal principal de una matriz. 19 z1 = Xc1 X’z1 = X’Xc1 z1’X = c1’X’X tr (X’z1z1’X) = tr (X’Xc1’c1X’X) = tr (AA’) donde A = X’Xc1’ tr (A2) = tr (X’Xc1’)

2 = c1’(X’X)2c1 20 Ya que c1 no puede ser cero puesto que es el vector de coeficientes que estamos buscando.

Page 291: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

287

Se pueden armar hasta k componentes principales (k es el número de variables contenidas en la matriz de información). Los estimadores por componentes principales se hallan regresionando la variable dependiente contra un conjunto de componentes principales. Si se regresiona la explicada versus todos los componentes principales, se obtendrán resultados equivalentes a regresionar la explicada versus todas las explicativas originales que presentaban el problema de multicolinealidad. Puesto que los componentes principales son ortogonales, en la nueva regresión, la multicolinealidad se elimina.

Ahora, que ya se sabe cómo armar los componentes principales, se procede a hallar los

estimados de los coeficientes de regresión: Suponga que de las k columnas de X se usan L<k componentes principales. Luego se

regresiona y versus XCL (donde CL es una matriz de orden kxL que contiene L vectores característicos, semejantes a c1 de la sección anterior, de X’X) El estimador de la regresión de la explicada versus los componentes principales es:

βz = (Z’Z)-1Z’y

Ahora bien, si se tiene en cuenta que:

Z = XCL

Z’Z = CL’X’XCL = ΛL

donde ΛL es la matriz cuya diagonal contiene los mayores valores propios (o raíces características) de X’X.

Además:

Z’y = (CL’X’)y = CL’X’XβMCO y

CL’X’X = ΛL CL’

Reemplazando (Z’y) y (Z’Z) en βz se obtiene que :

βz = CL’ βMCO Por lo tanto, si se emplean L componentes principales, los coeficientes de regresión

estimados por componentes principales (y vs Z) es una combinación lineal de los coeficientes de regresión estimados por MCO. (Y vs X)

Al igual que los estimados hallados a través del método de regresión por cordillera, los de

componentes principales también son sesgados:

βz = CL’ βMCO

βp = CL βz

βp

= CL CL’ βMCO

9.4.3 Eliminación de variables

Page 292: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

288

El problema de la multicolinealidad es, en esencia, la falta de información suficiente en la muestra, que permita una estimación precisa de los parámetros individuales. En algunos casos, podemos no tener interés en todos los parámetros; entonces, es posible obtener estimadores para aquellos parámetros en los que tenemos interés y que tengan errores cuadráticos medios más pequeños que los estimadores MCO, mediante la eliminación de algunas variables.

Consideremos el modelo

y = b1X1 + b2X2 + u (9.1)

y el problema de que x1 y x2 tienen una correlación muy alta . Supongamos que el interés principal radica en b1. Entonces eliminamos x2 y estimamos la ecuación

y = b1X1 + v (9.2)

Sea b1* el estimador de b1 a partir del modelo completo (1) y b1** el estimador de b1 a partir

del modelo con la variable omitida. b1 * es el estimador MCO y b1 ** es el estimador de la variable omitida. A partir del estimador MCO, sabemos que

E(b1*) = b1

Var (b1*) = s2/(S11 (1 - r122))

Para el estimador de la variable omitida, es preciso calcular E (b1**) y var (b1**). Ahora,

b1** = x y

x1

12

∑∑

Si se sustituye y a partir de (1), se obtiene:

b1** = x x x u

x1 1 1 2 2

12

( )β β+ +∑∑

= b1 + b2 (S12/S11) + x u

S1

11

Nótese que se utilizó S11 = S x1

2 y S12 = S x1 x2. Por lo tanto:

E(b1**) = b1 + b2 (S12/S11) y

var (b1**) = var (x u

S1

11

∑) = s2 S11/S11

2 = s2 /S11

Esto se conoce como estimador ponderado (WTD) y tiene un error cuadrático medio mínimo

si l=t22/(1+ t2

2), donde t2 es la relación t “verdadera” para x2 en la ecuación (1). Una vez más no se conoce t2 y es preciso utilizar su valor estimado 2t . Huntsberger fue el primero en sugerir

este estimador ponderado. El estimador de variable condicional omitida fue sugerido por primera vez por Bancroft. Feldstein estudió el error cuadrático medio de estos dos estimadores para valores de t2 y 2t . El afirma que:

Page 293: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

289

1. Por lo general, no es aconsejable omitir una variable colineal de ruido sobre la base de su estadística t muestral 2t . Es preferible MCO a cualquier estimador COV a menos que se

tenga una fuerte convicción previa de que t2 es <1. 2. Por lo general, es mejor el estimador WTD que el COV. 3. El estimador WTD es superior al MCO para t2 < 1.25 y sólo ligeramente inferior para 1.5 <

|t2| <3.0 4. Lo inadecuado de los datos colineales no deberá disfrazarse con el reporte de los resultados

a partir de la regresión de variables omitidas, Aun si se utiliza un estimador WTD, se debería reportar los estimados MCO y sus errores estándar para hacer que los lectores juzguen el alcance de la multicolinealidad. Toda esta discusión demuestra que la información previa sobre t2 es muy importante, aun

utilizando los estimadores COV o WTD. Esto nos lleva al mismo resultado de la discusión sobre la regresión por cordillera y la regresión por componentes principales, es decir, a la importancia de la información previa. La información previa referente a la omisión de las variables de ruido, tiene que ver con los valores t verdaderas para los coeficientes de las mismas.

Leamer sugiere estudiar la sensibilidad de los estimadores de los coeficientes para las

distintas especificaciones sobre la información previa referente a los mismos. Si bien el enfoque es bayesiano, es posible analizar en forma sencilla la sensibilidad en cada problema, a fin de evaluar el impacto sobre el estimado de los coeficientes de interés debido a cambios en las suposiciones en torno a los coeficientes de parámetros de ruido. Tal análisis de sensibilidad sería más útil que emplear una solución como la regresión por cordillera, la de componentes principales, omitir variables, etc., ya que todas ellas implican, en forma oculta, cierta información previa específica. Con mucha frecuencia, tal vez esta no sea la información previa que desea considerar.

9.4.4 Otras soluciones misceláneas En la literatura se encuentran muchas otras soluciones al problema de la multicolinealidad.

Sin embargo, éstas deberían utilizarse sólo si hay otras razones para hacerlo, y no para resolver el problema de la colinealidad como tal. Estas soluciones se discutirán en forma breve:

i) Uso de razones o primeras diferencias

El método que utiliza las razones se estudió en la discusión de heterocedasticidad, y las

primeras diferencias en la de autocorrelación. Si bien estos procedimientos pueden reducir las intercorrelaciones entre variables explicativas, deberían utilizarse sobre la base de las consideraciones discutidas, y no como una solución al problema de la colinealidad.

ii) Uso de estimados externos

Este método se siguió en los primeros estudios de la demanda. Se demostró que en los datos

de series de tiempo, el ingreso y el precio tenían una alta correlación. Por tanto, ni la elasticidad de precios ni la elasticidad de ingresos podían estimarse con

precisión. Lo que se hizo fue obtener un estimado de la elasticidad del ingreso a partir de los estudios de presupuesto (donde los precios no varían gran cosa), usar este estimado con el fin de “corregir” las series de cantidad para la variación del ingreso y después estimar la elasticidad de precios.

Page 294: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

290

Por ejemplo, si la ecuación a estimarse es:

log Q = a + b1log p + b2log y + u

primero se obtiene b 2 a partir de los estudios de presupuesto y, después, se regresa (log Q - b

2log y) sobre log p para obtener los estimados de a y b 1. En este caso b 2 se conoce como el “estimado externo “. Este procedimiento supone dos problemas principales. Primero, que debería tomarse en cuenta el hecho de estimar b 2 al calcular las varianzas de a y b 2. Por lo general, esto no se realiza, pero podría hacerse.

Segundo, y este problema es más importante, que es posible que el estimado de corte

transversal de b 2 mida algo enteramente diferente de lo que se supone que mide el estimado en la serie de tiempo, Como afirman Meyer y Kuh, el estimado “externo” puede ser en verdad externo.

Supongamos que se desea usar un estimado para un parámetro con base en otro conjunto de

datos. ¿Cuál es el mejor procedimiento para hacerlo? Consideremos la ecuación:

y1 = b1X1 + b2X2 + u (9.3) Supongamos que, debido a la alta correlación entre X1 y X2 no es posible obtener buenos

estimados de b1 y b 2. Se trata de obtener un estimado de b1 a partir de otro conjunto de datos y otra ecuación.

Y2 = b1X1 + gZ + v (9.4) En esta ecuación, X1 y z no tienen una alta correlación y se obtiene una buena correlación

de b1, digamos b1*. Se sustituye esto en la ecuación (9.3) y se regresiona (y1 - b1

* X1) sobre X2 para obtener un estimado b2

* de b2. Este procedimiento se mencionó antes. El estimado de b2

* es

condicional, sobre b1= b1*. Asimismo es preciso corregir la varianza estimada de b2

*, pues el error en la ecuación es, ahora,

(y1 - b1

* X1) = b2X2 + w

donde W = u + (b1 - b1*) X1 no es igual a u. Este procedimiento es aconsejable sólo cuando los

datos detrás de la estimación de la ecuación (9.4) no están disponibles (es decir cuando otra persona hizo el estudio).

Por otra parte si disponemos de dos conjuntos de datos, no existe razón para utilizar este

procedimiento de estimación condicional. Sería mejor estimar las ecuaciones (9.3) y (9.4) de manera conjunta.

Esto fue lo que hizo Maddala con los datos utilizados por Tobin en el estudio sobre la

demanda de alimentos. Asimismo, es posible probar, mediante la estimación conjunta de las ecuaciones (9.3) y (9.4) y la estimación separada de las ecuaciones, que el coeficiente de X1 es el mismo en ambas ecuaciones.

En resumen, como solución al problema de la multicolinealidad, no es aconsejable sustituir

los estimados de parámetros externos en la ecuación.

Por supuesto, es posible acumular los diferentes conjuntos de datos para obtener estimados más eficientes de los parámetros, procediendo a desarrollar también algunas pruebas que permitan ver si los parámetros en las diferentes ecuaciones son ciertamente los mismos.

Page 295: Casas Econometria Moderna(2)[1]

Econometría Moderna Multicolinealidad

291

iii) Obtención de más datos

Una solución al problema de la multicolinealidad, que muchas veces se sugiere, es “salir y

obtener más datos”. En realidad, el caso de los estimadores externos que se discutió también cae en esta categoría (se busca otro modelo con parámetros comunes y el conjunto de datos asociados).A veces, el uso de datos trimestrales o mensuales, en lugar de anuales, ayuda a obtener mejores estimados. Sin embargo, se estaría sumando más fuentes de variación como la estacionalidad. En cualquier caso, debilidad en los datos débiles e información inadecuada son las fuentes del problema y obtener más datos será de gran ayuda.

Page 296: Casas Econometria Moderna(2)[1]

CCAAPPIITTUULLOO 1100 UUNNAA IINNTTRROODDUUCCCCIIÓÓNN AA LLAA TTEEOORRIIAA AASSIINNTTOOTTIICCAA

1100..11 EELL AANNÁÁLLIISSIISS DDEE MMUUEESSTTRRAASS GGRRAANNDDEESS Cuando hablamos de las propiedades de los estimadores en el capítulo 3 se hizo mención que los estos estadísticos usualmente presentan dos grupos de propiedades. El primer grupo de ellas son las llamadas de muestras pequeñas o exactas. Generalmente los libros de texto se centran en el insesgamiento y la eficiencia. Si un estimador cumple con estas dos propiedades podemos estar seguros de hacer una interpretación correcta de los parámetros esperados. Adicionalmente se mencionó que cuando existen estimadores que no cumplen con las dos propiedades a la vez, el criterio a utilizar es el error cuadrático medio a través del cual se toman en cuenta el sesgo y la varianza. El criterio para realizar la elección del estimador es el de escoger aquel estimador que minimice el error cuadrático medio. No obstante toda esta discusión, en muchas oportunidades no es posible contar con estimadores que cumplan con estas propiedades simultáneamente. Adicionalmente, la distribuciones de probabilidad que se utilizan para hacer inferencia son exactas. Estas generalmente son las distribuciones t de student y F. Cuando no se cumplen las propiedades exactas estas distribuciones tampoco son válidas. Por tanto debemos hallar distribuciones con las cuales poder realizar ejercicios de inferencia. La pregunta que surge entonces es ¿qué debemos hacer? Dado que no se pueden comprobar las propiedades exactas, es necesario analizar si los estimadores que estudiamos son buenas aproximaciones a los verdaderos parámetros y también podemos . En este contexto es que debemos utilizar ciertas herramientas que nos permitan analizar los estimadores bajo este contexto. Estas herramientas son los pilares de lo que viene a llamarse teoría asintótica. Esta teoría lo que busca es estudiar el comportamiento de los estimadores a medida que el tamaño muestral crece. En el límite se verá cuáles son la características de estos estimadores cuando la muestra tienda a infinito, de allí el apelativo de asintótica. En este capítulo haremos una simple introducción a los principales conceptos relevantes en la teoría asintótica. La idea será presentar los principales resultados y formas de analizar y obtener las propiedades

Page 297: Casas Econometria Moderna(2)[1]

asintóticas de un estimador. Se dará especial énfasis al límite en probabilidad y la propiedad de consistencia que es una de las más útiles y menos complicadas de trabajar. Debe mencionarse adicionalmente que una de las ventajas de las propiedades asintóticas es que el análisis y sus herramientas son mucho más flexibles que aquellas que se utilizan para el análisis de las muestras exactas. Por ello, muchas veces puede ser más fácil obtener las propiedades asintóticas de un estimador que las propiedades exactas debido a la complejidad de algunos de ellos. Uno de los elementos a tomar en cuenta es que si un estimador cumple con las propiedades exactas también cumplirá con las propiedades aproximadas. Lo contrario no es necesariamente cierto. Por ello, si un estimador cumple con las propiedades asintótica podrá utilizarse con cierta certeza porque serán buenas aproximaciones a los verdaderos parámetros. Esto es válido principalmente en estimadores que son funciones no lineales de variables aleatorias. Habiendo mencionado esto, iniciemos la presentación de los principales elementos que constituyen la teoría asintótica. 1100..22 MMOODDOOSS DDEE CCOONNVVEERRGGEENNCCIIAA Cuando analizamos las propiedades asintóticas estamos estudiando el comportamiento de los estimadores a medida que crece el tamaño de la muestra que analizamos. Si tomamos en cuenta que cada observación es una variable aleatoria per se, una muestra es una colección o una secuencia de variables aleatorias. La teoría asintótica estudia el comportamiento de una secuencia de variables aleatorias a medida que el número de elementos de ésta crece. Teniendo esto en mente presentaremos los distintos modos de convergencia referidos a una secuencia de variables aleatorias.

• Convergencia en Probabilidad Si tenemos una secuencia de variables aleatorias definida por el símbolo { }nx , decimos que esta

secuencia converge en probabilidad a otra variable aleatoria X en probabilidad si cumple la siguiente condición:

( ) 0=>−∞→

εXXPLim nn

Esta expresión nos indica que la convergencia en probabilidad implica que conforme aumenta el tamaño muestral o los elementos de la secuencia de variables aleatorias, un estadístico representativo de esta secuencia estará muy cerca de un valor dado. Este valor puede ser cualquier variable aleatoria o una constante. En el contexto de lo que nos interesa en este texto, esta constante podría representar el verdadero valor del parámetro. El término ε , es un número lo suficientemente pequeño como para decir que el estadístico representativo de la secuencia de variables aleatorias está en el entorno de la variable o constante X. Esto en términos comunes implica que está lo suficientemente cerca del valor X. De manera compacta el cumplimento de esta condición se escribirá alternativamente de las siguientes dos maneras:

XXp

n → ó

XXP n =lim

El término Plim se refiere a límite en probabilidad. Es el más comúnmente utilizado. Veremos sus propiedades más adelante dado que será aquel concepto que utilizaremos de manera profusa en el análisis de los estimadores a lo largo de este texto.

Page 298: Casas Econometria Moderna(2)[1]

• Convergencia en Media n Si tenemos una secuencia { }nx , decimos que converge en media n a X si se cumple lo

siguiente:

( ) 0=−∞→

nn

nXXELim

La expresión presentada implica que la esperanza de la diferencia del estadístico representativo de la secuencia y un valor dado X elevada a una potencia n tiende a cero a medida que crece el tamaño de la secuencia de variables aleatorias. La potencia más utilizada es 2 por lo que el término más utilizado es el de convergencia en media cuadrada. Este modo de convergencia se incluye porque a veces es más fácil de comprobar que el concepto anterior. Esto quedará más claro más delante cuando veamos la relación entre los distintos modos de convergencia. El término reducido que se utiliza para denotar que una secuencia cumple con esta propiedad es el siguiente:

XXM

n →

• Convergencia en distribución

Diremos que una secuencia { }nx convergerá en distribución a X si la distribución Fn de Xn

converge a la función de distribución F de X en cada punto de continuidad de F. El manejo de este tipo de concepto implica una serie de elementos complicados que no mencionaremos aquí. Sin embargo si se cumple con este tipo de convergencia ello se denotará con:

XXd

n →

La distribución F a la cual converge será llamada distribución límite.

• Convergencia casi segura Diremos que una secuencia { }nx converge a X de manera casi segura si se cumple la siguiente

condición: { } 1)()(/ ==

∞→ωωω XXLimP n

n

Este tipo de convergencia implica condiciones más rigurosas que las anteriores porque, como se observa, se requiere una condición de igualdad para el evento sobre el cual se evalúa la probabilidad. Por ello se dice que este tipo de convergencia es de tipo fuerte mientras que los modos como el de convergencia en probabilidad son modos débiles. Estos modos de convergencia son conceptos muy utilizados en el análisis de las propiedades asintóticas. Su operatividad, principalmente el de la convergencia en probabilidad será presentado más adelante. Sin embargo, es deseable mencionar la relación que existe entre estos modos. El siguiente esquema ilustrará este relación:

Page 299: Casas Econometria Moderna(2)[1]

DPM

sa

→→↓

..

Como se puede apreciar, las convergencias en media cuadrada y casi segura (almost surely a.s.) implican a la convergencia en probabilidad que es la que más nos interesa en este texto. A su vez, si existe convergencia en probabilidad (lo que implica que estamos cerca de la media de la distribución) ello implica la convergencia en distribución por lo que podremos decir que existe una distribución asintótica y por tanto tomando en cuenta ésta podremos hacer ejercicios de inferencia. 1100..33 LLEEYY DDEE LLOOSS GGRRAANNDDEESS NNÚÚMMEERROOSS YY TTEERROORREEMMAA DDEELL LLÍÍMMIITTEE CCEENNTTRRAALL La ley de los grandes números y el teorema del límite central son pilares básicos que sirven como fundamento para comprobar muchos de los resultados de la teoría asintótica. De hecho son capítulos enteros de un tratado de fundamentos estadísticos. Sería presuntuoso pretender hacer una presentación extensa y completa en estas líneas1. Sin embargo trataremos de hacer un resumen de las principales ideas referidas a cada uno de estos conceptos. Debe mencionarse que existen muchas versiones de cada uno de estos conceptos por lo que no se puede hablar de una sola versión. Por ello discutiremos de manera intuitiva los principales resultados y las implicaciones relevantes para nuestro análisis.

• La ley de los grandes números Este concepto es de gran utilidad y de manera intuitiva podemos decir que implica que a medida que crece el tamaño muestral, el promedio de dicha muestra tenderá a la media poblacional. En términos un poco más formales y bajo pena de resultar muy simplificado podemos plantear la siguiente expresión:

µ=∑∞→nXLim n

n/

Debe resaltarse una vez más que esta es una simplificación de toda una teoría estadística, pero creemos que resume de manera entendible la esencia de esta teoría2. Una de las condiciones que se requieren es que las distribuciones de cada una de las variables aleatorias que componen la secuencia sean independientes. Algunas versiones requieren además que sean idénticamente distribuidas. Debe mencionarse que las leyes de los grandes números tienen dos vertientes: una referida a las denominadas leyes débiles que analizan la convergencia en probabilidad de la condición anterior y la otra de las denominadas leyes fuertes que analizan la convergencia casi segura de la misma expresión.

• Teorema del Límite Central Este resultado estadístico es de suma utilidad para poder encontrar una distribución asintótica con la cual poder realizar ejercicios de inferencia. Esta distribución es aproximada pero es útil para trabajar con ella. En general, se analiza si es que el promedio de la distribuciones de los

1 Para el lector interesado , existen muy buenos tratados acerca de la teoría asintótica. Especialmente recomendadmos los textos de Amem,iya (1985) “Advanced Econometrics y Spanos (1986) Statistical Foundations of Econometrics Analysis. 2 Amemiya (1985) sostiene que un planteamiento más formal implica analizar las condiciones bajo las cuales la expresión:

( )nn XEX − tiende a cero. nX es el promedio de una secuencia de variables aleatorias.

Page 300: Casas Econometria Moderna(2)[1]

elementos de una secuencia de variables aleatorias tiende a una distribución conocida. En todas sus versiones, la distribución a la cual se converge es una distribución normal estándar. En general lo que se busca es estandarizar las variables aleatorias que componen la secuencia y descubrir cuál es la distribución hacia la cual converge la secuencia. Otra vertiente analiza el comportamiento de la diferencia entre la variable aleatoria y su media simplemente. Como ejemplo podemos tomar una versión sencilla del teorema de Lindberg-Feller3 que es uno de los más utilizados. Este establece que si x1, x2, ...., xn es una muestra aleatoria tomada de una

distribución de probabilidad con media finita µ y varianza finita 2σ y definimos

∑= nn xnx /1 entonces.

( ) [ ]2,0 σµ Nxnd

n →−

como vemos en este caso al analizar la diferencia entre el promedio y la media de la distribución no hemos dividido por la desviación estándar. Este paso lo que hace es asegurar que la media de la distribución resultante tenga media cero. Por otro lado como no dividimos por la desviación estándar, la varianza de la distribución normal estándar que es 1 queda multiplicada por la varianza4. Usualmente lo que se requiere como condición general es que las distribuciones de cada variable aleatoria sea desconocida pero que tenga una media y una varianza conocidas y que las distribuciones sean independientes entre sí. El término por el que se multiplica la

diferencia entre el promedio y la media ( n ) es un artificio que se utiliza comúnmente y la racionalidad de su inclusión será explicada más adelante. Habiendo definido estos conceptos de una manera general podemos empezar la discusión de las propiedades asintóticas de los estimadores. 1100..44 PPRROOPPIIEEDDAADDEESS AASSIINNTTÓÓTTIICCAASS DDEE LLOOSS EESSTTIIMMAADDOORREESS En general estas propiedades se relacionan a la distribución de un estimador cuando el tamaño crece y se aproxima a infinito, de allí el uso del adjetivo asintótico. Usualmente la distribución de un estimador varía conforme el tamaño de la muestra se incrementa. Esta diferencia puede darse en términos de la media, la varianza o su forma matemática. Precisamente el proceso de cambio de la distribución de las medias muestrales de muestras de cualquier población es relevante al teorema del límite central que ya fue expuesto en la sección anterior. Como hemos visto, la distribución a la cual se converge recibe el nombre de distribución asintótica. Debemos ser cuidadosos al momento de analizar y tomar en cuenta el concepto de distribución asintótica dado que si analizamos el procedimiento veremos que estamos calculando el límite de una expresión cuando n tiende a infinito. Esto nos lleva a que debemos converger hacia un punto el recibe el nombre de forma final. Si tenemos un punto, con él no podemos obtener una distribución. En todo caso podemos decir que dicho punto será de manera preferente el verdadero parámetro. La distribución asintótica no es la forma final de la distribución sino es la forma que la distribución tiende a replicar precisamente antes de colapsar en el punto final (suponiendo que esto ocurre). Algo que debe llamar la atención es que la diferencia entre el promedio muestral y la media de la distribución (para el caso de un estimador lo deseable es que la media sea el verdadero valor del parámetro) debe tender a un valor constante. Entonces la pregunta es ¿cómo

obtenemos una distribución? La respuesta a ello viene dada por el término n . Entendamos

3 Aquí tomamos la versión del teorema planteada por Greene (1997) pág 122. 4 Como sabemos si tenemos una distribución normal estándar y la multiplicamos por una constante (en este caso σ) la media queda multiplicada por dicha constante y la varianza por la constante al cuadrado.

Page 301: Casas Econometria Moderna(2)[1]

porqué. Cuando hablamos de la distribución de un promedio, debemos recordar que la varianza

del promedio viene dado por el término n/2σ donde el numerador es aquel que corresponde a la varianza de cada observación (si suponemos que todas la varianzas son iguales) y el denominador es el número de observaciones de la muestra. Es obvio que si el número de observaciones tiende a infinito, tendremos que la varianza tiende a cero y por tanto colapsamos en un punto. Cómo nos interesa tener una distribución y para ello requerimos una varianza, al

multiplicar la distribución por la expresión n eliminamos el término n del denominador de la varianza de la distribución y la varianza por tanto no colapsa a cero. Otra forma de verlo es que conforme el número de observaciones aumenta, la velocidad con la cual se acerca la varianza a

cero es n , por ello al multiplicar la diferencia entre el promedio muestral y la media de la población por la misma expresión eliminamos dicho problema al hacer que el numerador de la varianza crezca a la misma tasa. Tomando en cuenta lo discutido definamos las propiedades asintóticas:

• Insesgamiento asintótico Cualquier parámetro α es un estimador asintóticamente insesgado de α si se cumple:

αα =∞→

)ˆ(ELimn

Esta propiedad implica que la esperanza del sesgo cuando el tamaño muestral tiende a infinito es igual a cero. Es una condición fuerte dado que implica una igualdad estricta. Esta propiedad si bien es importante no es la que comúnmente se utiliza para analizar la pertinencia de un estimador cuando tenemos muestras grandes.

• Consistencia Diremos que un estimador α será un estimador consistente de α si:

αα =ˆlimP Esta propiedad es la más usada para medir la pertinencia de un estimador. Debemos recordar que el límite en probabilidad es un modo de convergencia débil.

• Eficiencia asintótica Un estimador α es asintóticamente eficiente si se cumplen tres condiciones:

1. Si tiene una distribución asintótica con una media y varianza finita 2. Si es consistente 3. No existe otro estimador consistente de α que tenga una varianza asintótica

menor. Las condiciones planteadas para esta propiedad incluyen la consistencia del estimador analizado. Esto está relacionado con lo analizado en la sección anterior en lo referido a que la convergencia en probabilidad (utilizada para analizar la consistencia) implica la convergencia en distribución (lo cual es necesario para poder analizar una varianza) Estas tres propiedades asintóticas son las que formalmente todo estimador debe mostrar con el fin de poder ser utilizado con cierto grado de certeza. Sin embargo, para fines de nuestro análisis sólo nos centraremos en desarrollar el concepto de consistencia. La razón de ello radica en que el modo de convergencia en probabilidad implica a la convergencia en distribución.

Page 302: Casas Econometria Moderna(2)[1]

Adicionalmente, el tratamiento de la convergencia en distribución es más complicado que el uso del límite en probabilidad. 1100..55 CCOONNSSIISSTTEENNCCIIAA DDEE UUNN EESSTTIIMMAADDOORR En términos formales la consistencia de un estimador se analiza a través de la convergencia en probabilidad:

( ) 0ˆPr =>−∞→

εααTLim ó

( ) 1ˆPr =<−∞→

εααTLim

Ambas expresiones son equivalentes entre sí, lo único que cambia es el sentido de la desigualdad. La consistencia hablando desde un punto de vista más intuitivo implica que a medida que el tamaño de muestra va creciendo el centro de la distribución del estimador calculado se va acercando al verdadero valor del parámetro. Un gráfico puede ayudarnos a entender el concepto:

Como se puede observar a medida que aumenta el tamaño muestral , el centro de la distribución se va acercando de manera consistente al valor del verdadero parámetro. Un hecho especial a notar es que conforme aumenta el tamaño muestral, la varianza de la distribución va disminuyendo. Un estimador es consistente si colapsa sobre el punto que denota el valor verdadero del parámetro. Como es imposible tener una muestra que tienda a infinito, el resultado de la consistencia nos indica que con un tamaño de muestra relativamente grande podemos estar relativamente seguros que estamos cerca del valor del parámetro verdadero. Un tema aparte lo constituye el hecho de saber a partir de dónde podemos hablar de una muestra grande. Un hecho que se ha comprobado es que conforme crece el tamaño de muestra a partir de valores pequeños, la velocidad del acercamiento es alta. Conforme nos acercamos, la velocidad va disminuyendo. Esto implica que podemos hacer un punto de corte a partir del cual podemos decir que la muestra es lo suficientemente grande. Existe cierta controversia al respecto. Sin embargo, podemos decir que si tenemos menos de 40 observaciones podemos considerar que tenemos una muestra grande y si tenemos más de 60 observaciones podemos considerar que tenemos una muestra grande. Esto se deriva del hecho que para lograr un acercamiento

Page 303: Casas Econometria Moderna(2)[1]

considerable al verdadero parámetro deberíamos incrementar fuertemente el tamaño muestral, lo cual representa un costo considerable en términos de información. Una buena aproximación se logra a partir de 60 observaciones. Por ello, si queremos que los resultados de teoría asintótica se apliquen nuestra muestra deberá contar con al menos 40 observaciones aunque lo deseable será contar con 60. Un punto importante es que si uno observa la primera propiedad referida al insesgamiento asintótico se creería que su cumplimento seria suficiente para contar con un estimador con propiedades deseadas. Sin embargo, debemos mencionar que el insesgamiento asintótico no implica necesariamente la consistencia de un estimador. La razón es que se requieren propiedades adicionales para asegurar la consistencia. Estas propiedades quedarán claras con un ejemplo. Supongamos que tenemos un estimador cuya esperanza es la siguiente:

TCmE t /)( += µ

Veremos que, si el valor del verdadero parámetro es µ , entonces el estimador es sesgado. Presenta un sesgo aditivo expresado por C/T. Si analizamos su insesgamiento asintótico obtenemos el resultado que presentamos a continuación:

µ=∞→

)( tT

mELim

La expresión anterior nos indica que en el límite la esperanza del estimador es el verdadero parámetro. Para ilustrar la diferencia con la propiedad de consistencia podemos utilizar un resultado útil en estadística que es la desigualdad de Chebychev. Formalmente esta desigualdad se expresa por :

{ } 2/1Pr λλσµ <>−x

σ es la desviación estándar de la distribución de x, µ es la media de la misma distribución y λ es una constante arbitraria. Si fijamos el valor de esta última magnitud en 2, por ejemplo, la desigualdad nos dice que la probabilidad de que una observación está alejada de la media de la distribución en dos desviaciones estándar para ambos lados es menor al 25%. De alguna manera representa la cota superior de la probabilidad de tal evento. Si tomamos en cuenta una distribución normal podemos recordar que aproximadamente el 95% de las observaciones se encuentra dentro del intervalo de dos desviaciones estándar a cada lado de la media. Esto nos indica que la probabilidad de que una observación esté alejada más de dos desviaciones estándar de la media es de 5% lo cual es menor que la cota superior impuesta por la desigualdad de Chebychev. Si utilizamos esta desigualdad para el caso del estimador que estamos analizando, tomaría la siguiente forma:

{ } 2/1)()/(Pr λλµ <>+− tt mVarTCm

Si introducimos la siguiente expresión:

)( tmVarλε =

podemos obtener lo siguiente:

Page 304: Casas Econometria Moderna(2)[1]

22

)(1

ελtmVar

=

Si introducimos estas expresiones en nuestra desigualdad, ésta queda de la siguiente forma:

{ }2

)()/(Pr

εεµ t

t

mVarTCm <>+−

Si aplicamos límites, la expresión anterior se transforma en:

{ }2

)(Pr

εεµ t

t

mVarm <>−

Si el estimador es consistente, debería cumplirse que la probabilidad es cero5. La única forma de que esta condición sea asegurada es que la varianza del estimador converja a cero a medida que la muestra tiende a infinito. Lo anterior nos indica que una condición adicional para asegurar la consistencia de un estimador no es sólo que éste sea insesgado asintóticamente sino que la varianza de la distribución tienda a cero. Ambas condiciones aseguran que la distribución colapsa en el valor del verdadero estimador. El insesgamiento asintótico sólo nos asegura que la media de la distribución coincide con el verdadero estimador pero no implica que la varianza se desvanezca. Una conclusión de lo anterior es que la consistencia implica al insesgamiento asintótico. Una forma más sencilla de denotar al límite en probabilidad es la de Plim. Una de las ventajas de trabajar con el límite en probabilidad es que permite simplificar los cálculos drásticamente debido a que puede aplicarse a funciones no lineales de variables aleatorias. Por ello, muchas veces es mucho más sencillo probar la consistencia de un parámetro que su insesgamiento. La simplicidad del uso del límite en probabilidad quedará ilustrada a partir de las siguientes propiedades: 1. ββ =limP . El límite en probabilidad de una constante es la misma constante. 2. 2121 limlim)lim( ypypyyP +=± . y1 e y2 son variables aleatorias. 3. 2121 limlim)lim( yPyPyyP ⋅=⋅ . y1 e y2 son variables aleatorias.

4. 2

1

2

1

lim

limlim

yP

yP

y

yP =

. El plim de la división de dos variables aleatorias es igual a la

división de los plims de cada una de las variables aleatorias. 5. ( )[ ] ( )[ ]yPgygP limlim = . El límite en probabilidad de una función continua de una

variable aleatoria y es igual a la función del Plim. A partir de las propiedades 4 y 5 queda claro la ventaja de trabajar tomando en cuenta los límites en probabilidad. Por ejemplo, si queremos analizar la esperanza de una razón de variables aleatorias y éstas no son independientes entre sí, la esperanza se tiene que aplicar a

5 Debemos indicar que lo expuesto parece lo inverso de lo mencionado cuando se definió la propiedad de consistencia. Sin embargo, debe notarse que el signo de desigualdad dentro de l corchete no es menor que sino mayor que. Ello explica porqué la probabilidad es igual a 0.

Page 305: Casas Econometria Moderna(2)[1]

toda la expresión en su conjunto y no se puede trabajar el numerador y el denominador por separado. En el caso del límite en probabilidad vemos que sí se puede aplicar por separado a cada una de las expresiones que forman la razón. Esto facilita los cálculos de manera importante. Como complemento a las propiedades ya enunciadas podemos enunciar dos adicionales referidas a la operatividad del Plim en el caso de matrices de variables aleatorias: 6. )lim()lim()lim( BPAPBAP ⋅=⋅ . Donde A y B son matrices conformables.

7. ( ) ( ) 11 limlim −− = APAP . A es una matriz cuadrada no singular. Una vez que hemos definido las propiedades del límite en probabilidad estamos en posición de poder analizar la consistencia de distintos estimadores con el fin de mostrar la operatividad del concepto. Iniciemos nuestro análisis estudiando la consistencia del estimador MCO: Como sabemos el estimador MCO tiene la siguiente fórmula:

YXXX ′′= −1)(β Si reemplazamos el modelo lineal general en la expresión anterior obtenemos la siguiente expresión:

µββ XXX ′′+= −1)(ˆ Esta es la expresión que usualmente se utiliza para analizar el insesgamiento del parámetro. Como sabemos se aplica esperanza a toda la expresión y como las x son fijas el operador de esperanza sólo es aplicable al término de error. Si queremos analizar la consistencia del estimador debemos hacer uso de un procedimiento que es estándar para cada operación de esta tipo. Este procedimiento consiste en dividir cada uno de los elementos de las matrices involucradas por T que es el número de observaciones. Esto ocasiona que cada una de las expresiones estén expresadas en término de sus valores promedios. Así, la expresión anterior queda de la siguiente forma:

+=−

T

X

T

XX µββ1

ˆ

La ventaja de esta transformación radica en que estamos multiplicando y dividiendo la última expresión por el término T, lo cual la deja inalterada. Si queremos hacer explícita la expresión

TXX /′ obtenemos lo siguiente:

=

∑∑∑∑

2221

21211

iii

iii

xxx

xxx

TT

XX

De igual manera se podría representar el vector TX /µ′ . Aplicando los límites en probabilidad la expresión anterior y tomando en cuenta queda transformada de la siguiente manera:

′′

+=−

T

XP

T

XXPP

µββ limlimˆlim1

Page 306: Casas Econometria Moderna(2)[1]

Si la matriz X contiene regresores no estocásticos (fijos) como lo establecen los supuestos del modelo lineal general podemos suponer que según las propiedades del límite en probabilidad:

T

XX

T

XXLimT

′=

′∞→

Esto se deriva a partir de que el Plim de una constante es la misma constante. Ahora bien si la matriz X contiene regresores que son estocásticos podemos suponer que los momentos muestrales convergen a sus momentos poblacionales:

QT

XXP =

lim

Donde Q es una matriz cuadrada no singular que contiene los momentos poblacionales. Ahora, si queremos analizar el término TX /µ′ sus términos serían los siguientes. Si consideramos que x1 es la variable referida al intercepto, el vector quedaría de la siguiente manera:

=

∑∑

ii

i

xT

P

TP

T

XP

µ

µµ

2

1lim

1lim

lim

El primer término del vector tiende a la media de los errores que sabemos es igual a cero. Por otro lado, el segundo término captura la covarianza entre x2 y el término de error. Como sabemos uno de los supuestos es que la covarianza entre dos elementos es igual a cero. El resultado de todo lo anterior es que cada uno de los elementos del vector es igual a cero. Tomando en cuenta todos los resultados obtenidos hasta el momento podemos proceder a unir las piezas para analizar la consistencia de nuestro estimador MCO:

βββ =⋅+= − 0ˆlim 1QP Con esto comprobamos que el estimador MCO es consistente. Debemos recordar que este estimador es insesgado también. Algo que se deriva de esta análisis es que un estimador insesgado también será consistente. La razón de ello radica en que si la distribución tiene como centro el verdadero parámetro a medida que ésta vaya convergiendo a un punto es obvio que colapsará en el verdadero valor del parámetro. Lo discutido con respecto al estimador MCO no se cumple de manera inversa. Todo estimador sesgado no necesariamente es inconsistente. De hecho tenemos muchos estimadores sesgados que son consistentes lo cual asegura que con un muestra grande pueden ser utilizados como buenas aproximaciones. Podemos decir que la mayoría de estimadores son de este tipo. El caso del estimador MCO es un caso especial que cumple con todas las propiedades de muestras pequeñas y grandes. Un caso que nos permitirá ilustrar la discusión precedente es el del estimador por Cordillera que se utiliza para corregir la multicolinealidad y que fue revisado en el capítulo anterior. La fórmula de este estimador es la siguiente:

( ) YXIXXc ′+′= −1ˆ λβ

La lógica del estimador es agregar constantes a la diagonal principal de la matriz X´X con el fin de aumentar su tamaño y hacer que la matriz sea invertible. Si queremos analizar su

Page 307: Casas Econometria Moderna(2)[1]

insesgamiento debemos reemplazar Y por el modelo teórico ( µβ +X ). Realizando esta operación obtenemos la siguiente expresión:

( ) ( ) µλβλβ XIXXXXIXXc ′+′+′+′= −− 11ˆ

de la expresión anterior se deduce fácilmente que si aplicamos el operador de esperanza matemática, el último término de la derecha será igual a cero. Igualmente por simple inspección el primer término de la derecha no será igual al verdadero parámetro por lo que se puede concluir que el parámetro será sesgado y el sesgo tendrá un carácter multiplicativo. Ello no nos debe llevar a pensar que el estimador no tiene ninguna utilidad. Para ello debemos analizar su consistencia. Tomando esta expresión y realizando la transformación ya utilizada (dividir entre T) obtenemos lo siguiente:

T

X

T

I

T

XX

T

XX

T

I

T

XXc

µλβλβ′

+

′+

+

′=

−− 11

ˆ

Si volvemos a utilizar los supuestos planteados para el caso del estimador MCO, podemos imponer las siguientes condiciones:

0=′

=′

∞→

∞→

T

XLim

QT

XXLim

T

T

µ

De manera similar, si analizamos la expresión TI /λ veremos que el numerador es una constante y que conforme T tiende a infinito la expresión colapsará a cero. Ello porque el numerador no crece y el denominador crece sin límite. Utilizando ese resultado podemos proceder a analizar la consistencia del estimador:

( ) ( ) βββ =⋅+++= − 000ˆlim 1 QQQP c

como podemos apreciar el estimador es consistente por lo que si contamos con una muestra grande lo podremos utilizar como una buena aproximación al verdadero parámetro. Con esto hemos ilustrado la conveniencia de trabajar la consistencia de un estimador. Las propiedades de muestras grandes pueden ser de gran utilidad al momento de analizar la bondad de distintos estimadores. Casos como el analizado los iremos estudiando en el resto de capítulos del presente texto. 1100..66 AA MMOODDOO DDEE CCOONNCCLLUUSSIIÓÓNN El presente capítulo ha pretendido hacer una presentación sucinta de algunos de los principales elementos de la teoría asintótica. Se ha incidido en los concepto más relevante para analizar una de las propiedades de muestras grandes más importantes que es la consistencia. De lo discutido aquí se puede decir que si un parámetro converge en probabilidad también lo hará en distribución. La obtención de la distribución asintótica escapa de los objetivos del presente texto debido a que se requieren algunos conceptos y definiciones más complejas. Sin embargo, basta decir que si comprobamos la consistencia de un estimador, podemos suponer que su distribución será normal y podremos usar los procedimientos tradicionales de inferencia estadística. Debe mencionarse que lo expuesto aquí dista mucho de ser una presentación rigurosa pero creemos que brinda las principales herramientas útiles para el análisis de estimadores para un texto de pregrado.

Page 308: Casas Econometria Moderna(2)[1]