Capitulos IV y V

CAPITULO IV. MODELOS ARMA(p,q)

Hasta ahora hemos presentado los modelos clásicos de series de tiempo, los procesos AR(p) y MA(q). En este capítulo introduciremos una familia de series de tiempo estacionarias conocida como procesos de promedio móvil autorregresivo o simplemente, modelos ARMA.

En 1970, Box y Jenkins desarrollaron un cuerpo metodológico destinado a identificar, estimar y diagnosticar modelos dinámicos de series temporales en los que la variable tiempo juega un papel fundamental. Una parte importante de esta metodología está pensada para liberar al investigador de la tarea de especificación de los modelos dejando que los propios datos temporales de la variable a estudiar nos indiquen las características de la estructura probabilística subyacente.

En ocasiones pretendemos predecir el comportamiento de una variable “ ” en un momento futuro t, a partir del comportamiento que la variable tuvo en un momento pasado, por ejemplo, en el período anterior, . Formalmente notaríamos que

, es decir, que el valor de la variable y en el momento t es función del valor tomado en el período t-1.

IV.1. DEFINICIÓN Y PROPIEDADES

En esta sección extenderemos el concepto de causalidad, así como la existencia y unicidad de soluciones estacionarias, discutidos en la sección anterior, a los procesos ARMA.

Los modelos ARMA integran a los modelos AR y a los modelos MA en una única expresión. Por tanto, la variable queda explicada en función de los valores tomados por la variable en períodos anteriores, y los errores incurridos en la estimación. Una expresión general de un modelo ARMA (p, q) viene dada por lo siguiente:

Definición IV.1.1. [Modelo ARMA(p,q)].- es un proceso ARMA(p,q) si es estacionario y tiene como expresión:

donde ~ .

Una solución de la ecuación anterior existe (y es la única solución estacionaria) si y sólo si:

Un proceso ARMA(p,q) es causal si existen constantes tales que y

para todo t.

Obviamente, los modelos AR (p) corresponden al modelo ARMA (p,0), mientras que los modelos MA (q) corresponden al modelo ARMA (0,q).

Para ejemplificar las propiedades de los modelos ARMA(p,q), en la siguiente sección estudiaremos el modelo ARMA(1,1).

IV.2. MODELO ARMA(1,1)

es un proceso ARMA(1,1) estacionario si satisface la siguiente ecuación:

donde ~ , y .

Usando el operador B, el modelo ARMA(1,1) puede ser escrito como:

Para encontrar la función de autocovarianzas del proceso ARMA(1,1) haremos uso del resultado sobre procesos lineales (resultado III.3) del capítulo anterior. Para ello

debemos encontrar los términos de la ecuación: .

Haciendo sustituciones recursivas de las , tenemos:

Usando el resultado III.3, que establece , tenemos:

Para h=0,

Para h=1,

En general,

Antes de discutir más detalles y propiedades de los modelos ARMA(p,q), daremos las bases para llevar a cabo inferencia sobre y y consideraremos el proceso de predicción en procesos estacionarios.

IV.3. PROPIEDADES DE Y

Un proceso estacionario es caracterizado por su media, μ, y su función de autocorrelación, ρ(h). La estimación de μ y de la función de autocorrelación de las observaciones, digamos X1,…,Xn, juega un papel muy importante en problemas de inferencia y en particular, en el problema de ajuste de un modelo apropiado para las observaciones.

En esta parte del capítulo se presenta la estrategia de estimación del parámetro y de , cada una con sus propiedades distribucionales con el fin de llevar acabo inferencias. Cabe destacar que el obtener la distribución del estimador de es muy complicado, por lo que en la práctica se recurre a aproximaciones y o resultados asintóticos.

Con respecto a , dado que es una medida de tendencia central, la media

muestral, , es un estimador insesgado de . Lo que debe esperarse respecto a la distribución de es que, bajo la suposición de que los datos provienen de un proceso estacionario, debe tener sus diferencias respecto al caso de cuando se tiene una muestra aleatoria (caso iid). El siguiente resultado da las propiedades de bajo las condiciones de una muestra estacionaria.

RESULTADO IV.1.- Sea una serie de tiempo estacionaria con media y función de auto-covarianzas para entonces, conforme ,

, si ,

y

si

donde

Demostración.

La demostración del resultado es, primeramente, una aplicación de la varianza de una suma de variables aleatorias. Como es sabido, la varianza de una suma de variables aleatorias es la suma de las covarianzas:

El detalle importante a tomar en cuenta en este caso, es que se refiere a un proceso estacionario, lo que implica que las variables son, en general, correlacionadas. Para facilitar el proceso podemos definir una matriz de covarianzas. Es decir,

.

Sumando todos los componentes de la matriz podemos notar que la suma va desde hasta . Conforme se va avanzando en los valores de , el

número de auto-covarianzas aumenta en uno hasta llegar a y después disminuye en 1 hasta que llega a . Bajo este comentario y considerando la división entre de la suma de covarianzas, la suma queda como:

.

Finalmente, la expresión de la varianza queda como:

Ahora, cuando y , el término de la derecha converge a cero; por lo tanto, converge en error cuadrado medio a m y por lo tanto es un estimador consistente, lo

cual se quería demostrar.///

Con respecto a , el estimador está dado por

De aquí que, el estimador de la función de autocorrelación sea:

Ambos estimadores son sesgados; y aún con denominador , los estimadores siguen siendo sesgados. La razón fundamental de usar es para evitar estimaciones negativas de varianzas. Detalles sobre el tema se pueden consultar en [Brockwell y Davis (1991)].

Como se mencionó en párrafos anteriores, la inferencia sobre se lleva a cabo usando la distribución asintótica del estimador. Barttlet (1966) fue el primero en encontrar la distribución asintótica del vector , el cuál se conoce como fórmula de Barttlet. A continuación se enuncia el teorema de Barttlet (Fórmula de Barttlet).

RESULTADO IV.2.- (TEOREMA DE BARTTLET). Si es un proceso estacionario tal que

con

donde y . Entonces para el vector

se distribuye asintóticamente , donde el -

ésimo elemento de W está dado por:

Demostración.

La demostración se puede consultar en el capítulo VII de [Brockwell y Davis (1991)].///

Ejemplo IV.3.1. Supongamos el proceso AR(1): con ~ y .

Sabemos, del capítulo anterior, que . Aplicando el resultado anterior, tenemos que:

Ahora, si queremos establecer bandas de confianza para ρ(h), basta aplicar la siguiente ecuación:

donde wii está dado por la expresión anterior.

IV.4. PREDICCIÓN EN PROCESOS ESTACIONARIOS (El mejor Predictor Lineal)

El problema es predecir los valores de , h>0, de una serie estacionaria con media conocida μ y función de autocovarianzas , en términos de los valores {Xn,…, X1}.

La idea central de la predicción radica en dos puntos fundamentales:

La forma del predictor es lineal El criterio básico para definir el “mejor predictor” es el error cuadrado medio,

ECM.

El mejor predictor lineal lo denotaremos como , y tendrá la forma:

De aquí, el ECM está dado por:

Nuestro objetivo será encontrar los valores de {a0, a1, a2,…,an} tales que ECM(PnXn+h) sea mínimo. Por otro lado, tenemos que el ECM es una función cuadrática de a0, a1, a2,…,an, por tanto tendrá al menos un valor de {a0, a1, a2,…,an} que la minimiza y que satisface la ecuación:

Derivando e igualando con cero, tenemos:

Tales derivadas igualadas con cero dan origen al sistema de ecuaciones siguiente:

La solución estará dada por .

Dependiendo de la estructura de la matriz Γn, podremos o no resolver el problema de predicción. Suponiendo que la solución existe, el mejor predictor lineal está dado por:

Es decir,

A partir del predictor, podemos obtener el ECM:

donde y Γn están definidas como antes.

IV.4.1. Propiedades del operador Pn

A continuación se enuncian las propiedades más importantes del predictor lineal :

1.2.3.4.

Note que las propiedades uno y dos son equivalentes al sistema de ecuaciones que se obtienen al derivar el ECM, es decir las ecuaciones que se usan para encontrar la solución del vector .

Ejemplo IV.4.1. Considere el proceso estacionario AR(1) dado por: con

~ . Encontrar el predictor lineal de Xn+1, es decir, encontrar Pn Xn+1.

Solución.

Dado que el proceso es un AR(1), del capítulo anterior tenemos que :

Por otro lado, de acuerdo al resultado anterior, tenemos por resolver el sistema . Explícitamente:

Claramente, una solución del sistema es: . Aplicando el resultado anterior, el predictor lineal es:

Dado que el proceso tiene media cero, se tiene:

Para obtener el ECM, aplicamos el resultado del mejor predictor lineal. Obteniendo:

Se puede mostrar que para un proceso AR(1) y para h 1:

Muchas veces se tiene interés en estimar datos perdidos o, simplemente, datos intermedios. El procedimiento de predicción de este tipo se desarrolla enseguida.

Supongamos las variables y con , , momentos de segundo orden finitos y conocidas.

Definamos los siguientes vectores y matriz de covarianzas:

Entonces, el mejor predictor lineal de en términos de está dado por:

donde el vector es una solución del sistema .

Y el correspondiente error cuadrado medio del predictor:

El predictor tiene las propiedades de un operador y otras que se enuncian aquí.

Supongamos dos variables U y V con momentos de segundo orden finitos, el vector de variables independientes con matriz de covarianzas

y las constantes . Entonces, se tienen las siguientes propiedades:

donde es una solución de

Ejemplo IV.4.2. Considere el proceso estacionario AR(1) dado por: con

~ . Suponga que tenemos las observaciones 1 y 3, , y a partir de ellas queremos estimar la observación 2, .Solución.

El vector de coeficientes que queremos encontrar es el que resuelve el sistema dado por: donde:

Dado que el proceso es un AR(1), la función de autocovarianzas es la misma que en el ejemplo anterior. Es decir, tenemos el sistema:

Aplicando el resultado de predicción y usando la condición de media cero, el mejor estimador lineal de dado , está dado por:

Con error cuadrado medio:

Como podemos ver, el procedimiento es el mismo que se sigue cuando se predicen valores futuros en función de observaciones pasadas. Sin embargo, se debe tener cuidado al momento de especificar el vector y matriz de autocovarianzas involucrados en el sistema de ecuaciones.

IV.4.2. Algoritmo de Durbin-Levinson

En casos donde el proceso es definido por un sistema de ecuaciones lineales (como el ejemplo anterior) hemos visto cómo la linealidad del operador Pn puede usarse como una gran ventaja. Para procesos estacionarios más generales, esta “ventaja” nos sirve para predecir en un paso, es decir, PnXn+1 basado en n observaciones previas, Pn+1Xn+2 en función de n+1 observaciones previas y así sucesivamente. Los algoritmos de predicción que se basan esta idea son llamados recursivos. Dos algoritmos recursivos importantes en series de tiempo son el algoritmo de Durbin-Levinson (discutido en esta sección) y el algoritmo de Innovaciones (se discutirá en la siguiente sección).

De acuerdo a Durbin-Levinson, el algoritmo dado por el resultado siguiente resuelve el proceso de predicción de Xn+1 en función de X1,…,Xn:

Con su respectivo error cuadrado medio, definido por:

donde:

Recordemos que el sistema por resolver es:

RESULTADO IV.3.- (Algoritmo de Durbin-Levinson). Si es un proceso estacionario con media cero y función de autocovarianzas igual a . Entonces, los coeficientes del predictor se pueden calcular recursivamente por medio de:

Demostración.

La igualdad garantiza que, para n=1, se cumple: , donde Rn es la matriz de autocorrelaciones, .

La prueba consiste en probar que , definido como en el algoritmo de D-L (recursivamente), satisface la ecuación para toda n. La prueba se lleva a cabo por el método de inducción matemática. Ya hemos visto que para n=1 se satisface;

Supongamos que se cumple para n=k y probaremos que se cumple para n=k+1. Definamos:

Entonces, de acuerdo a (iv.2) y haciendo la partición adecuada de Rn, tenemos:

Sabiendo que para n=k se cumple , obtenemos:

La igualdad anterior significa que se cumple para k+1. Así, por el principio de Inducción Matemática, las ecuaciones recursivas de D-L se cumplen para todo n.

En cuanto al ECM, sabemos que el mejor predictor lineal satisface: . Ahora, por la ecuación (iv.2), tenemos que:

Aplicando, nuevamente, la ecuación del ECM del mejor predictor lineal y agrupando términos, obtenemos:

Finalmente, por la ecuación (iv.1), concluimos que:

De esta forma, queda demostrado el Algoritmo de Durbin-Levinson.///

Definición IV.4.1. [Función de Autocorrelación parcial (PACF)]. Bajo las condiciones del resultado anterior, la función de autocorrelación parcial se define como:

donde es el último componente del vector , y

La estimación de la PACF se obtiene sustituyendo las estimaciones de las autocovarianzas en la expresión .

NOTA1: La función α(h) tiene la propiedad de que en procesos AR(p) se trunca en el valor de p, es decir:

NOTA2: Se puede mostrar que mide la correlación entre los errores de predicción y . Es decir, entre Zh y Z0, y en

general, entre Zt-h y Zt. Para más detalles ver [Box, Jenkins y Reinsel (1994)].

NOTA3: La expresión de la PACF de un modelo ARMA es demasiado extensa del hecho de la expansión del polinomio de promedio móvil. Sin embargo, su gráfica se comporta como la de un modelo puro de promedio móvil, dominada por un exponente mixto que depende de los parámetros y del orden del modelo. Para dejar clara la nota, consideremos el modelo MA(1), con y para k>1 en la ecuación

. Haciendo un poco de álgebra se puede llegar a la expresión de la PACF:

Note que, el signo de la PACF depende del exponente, k, y del valor del coeficiente, θ1. Veamos algunas consecuencias:

Si >0, entonces θ1<0 y la PACF alterna el signo dependiendo de k.Si <0, entonces θ1>0 y la PACF es negativa para todo k.

Ejemplo IV.4.3. Consideremos el proceso AR(2) y apliquemos el algoritmo de Durbin- Levinson para encontrar el mejor predictor.Solución.

El proceso está dado por:

con ~ .

Nuestro objetivo es encontrar el mejor predictor lineal de Xt+1 para el proceso AR(2). Es decir:

Aplicando el algoritmo D-L, tenemos que:

El resultado resulta de que para el proceso AR(2) y con t=3, se tiene la igualdad .

En el método de D-L, se cumple . Es decir, Y así sucesivamente para todo

De este modo, el predictor para un AR(2) queda como:

Por ejemplo, si se tiene X1 y X2 y se desea predecir X4, se procede como sigue:

Note que antes de predecir X4, se debe predecir X3, pues X4 depende de ella.

IV.4.3. Algoritmo de Innovaciones

El algoritmo de innovaciones se caracteriza por ser un algoritmo recursivo, al igual que el algoritmo de Durbin- Levinson.

Este algoritmo es aplicable a todos los procesos con segundo momento finito, sin importar si el proceso es estacionario o no.

Sea un proceso con media cero y segundo momento finito, , defínase:

Así mismo, se introduce el concepto de Innovación, o predicción en un paso, como:

El proceso de innovaciones para un proceso estacionario, para toda n, procede como sigue:

Matricialmente, tenemos:

Como se puede ver, la matriz A es no singular, por tanto existe su inversa. Sea Cn la inversa de A:

De esta forma,

Por otro lado, el vector de predictores en un paso está dado por: . Se puede ver que:

donde

Tal expresión nos da una representación del mejor predictor lineal de Xn en función de las Innovaciones.

Si observamos el proceso de Innovaciones, podemos ver que estas son una estimación del proceso de Ruido Blanco {Zt}. Por lo tanto, las Innovaciones deben satisfacer las condiciones de tal proceso. Es decir, tienen media cero y son no correlacionadas. Esta característica se toma como una ventaja del Algoritmo de Innovaciones sobre el de Durbin-Levinson.

Por otro lado, podemos usar la última expresión de y deducir que:

Lo anterior se resume en el siguiente resultado.

RESULTADO IV.4.- (Algoritmo de Innovaciones). Sea Sea un proceso con

media cero y segundo momento finito, . Entonces, los coeficientes

del mejor predictor de , así como el error cuadrado medio, se pueden calcular recursivamente de las ecuaciones siguientes:

Por estructura, el Algoritmo de Innovaciones es útil para los procesos MA(q) y ARMA(p,q). Esto lo veremos con el ejemplo siguiente.

Ejemplo IV.4.3. Considere el proceso MA(1): ,donde ~ WN(0, ). Apliquemos el A.I para encontrar el mejor predictor de Xn+1.Solución.

Antes, recordemos que para el proceso MA(1) se tiene que:

,

Entonces, si

En general, para el proceso MA(1), se tiene:

IV.5. PRONÓSTICO DE PROCESOS ARMA(p,q)

La manera de llevar a cabo el pronóstico de los procesos ARMA(p,q) es a través del Algoritmo de Innovaciones. Para esto, el A.I se aplica a un modelo transformado el cual hace que el cálculo sea relativamente más sencillo.

Sea el proceso ARMA(p,q) dado por:

con ~

El proceso transformado (sugerido por Ansley-1979) es:

Las autocovarianzas se obtienen a partir de la siguiente expresión:

Aplicando el A.I al proceso se obtiene:

Donde los coeficientes y los errores cuadrados medios se encuentran recursivamente del A.I visto en la sección IV.4.2.

Por otra parte, observe que de la transformación hecha, cada Xn puede ser escrito como un a combinación lineal de Wj j=1,…,n, y viceversa. Esto significa que el mejor predictor lineal de alguna variable Y en términos de {1, X1,…, Xn} es el mismo para la variable Y en términos de {1, W1,…, Wn}. Denotemos a ese predictor como Pn.

Usando la linealidad de Pn podemos ver que:

No olvidemos que nuestro objetivo es encontrar una expresión para calcular . Entonces:

Sustituyendo, tenemos que:

En resumen:

Los coeficientes y los errores cuadrados medios se encuentran recursivamente aplicando el A.I, visto en la sección IV.4.2, al proceso {Wt}.

Una vez calculados los valores , podemos calcular el predictor lineal a distancia h>1 como sigue:

En la práctica, generalmente, se tiene n>m; por lo que generalmente se usa la expresión:

Para calcular el error cuadrado medio de predicción utilizaremos una aproximación para muestras grandes, la cual usa como base la causalidad del modelo. Supongamos que el modelo ARMA(p,q) es causal e invertible, entonces de acuerdo al capítulo III y específicamente a las definiciones de causalidad e invertibilidad, tenemos que:

y

Sea la mejor aproximación a Y. Aplicando este operador, , a las expresiones anteriores, obtenemos:

y

De esta forma, el error cuadrado medio (aproximado) está dado por:

De esta igualdad y del hecho de que {Zt} sigue un proceso de Ruido Blanco, se tiene:

CAPITULO V. MODELACIÓN CON MODELOS ARMA(p,q)

En capítulos anteriores asumimos conocer tanto el modelo, como la forma del proceso. A partir de ahora, lo único que tenemos son datos y estamos interesados en saber qué procesos son adecuados para explicarlos.

La determinación de un modelo ARMA(p,q) apropiado involucra varios aspectos, tales como el orden, es decir, los valores de p y q, los coeficientes

y , y la varianza del ruido blanco. También, la elección de un modelo depende de la bondad de ajuste.

El proceso de ajuste de un modelo de series de tiempo consiste en, primeramente, graficar y si es necesario, se transforman los datos a un proceso estacionario mediante diferenciación. Una vez que se tiene un proceso estacionario, debemos tener herramientas para identificar posibles modelos. Por ejemplo:

Función de autocorrelación: para modelos MA(q) Función de autocorrelación parcial : para modelos AR(p) Criterio del AICC: todos los posibles modelos.

Como se mencionó antes, si algún modelo cumple con ser un “buen modelo”, debemos tener estrategias para decidir qué modelo es mejor que otros. Para ello se llevan pruebas de bondad de ajuste, las cuales incluyen, fundamentalmente, pruebas sobre los residuales. Algunas de las pruebas que se llevan a cabo son:

Probar que los residuales forman un proceso de Ruido Blanco mediante: Gráfica de autocorrelación de los residuales. Pruebas de hipótesis (basadas en autocorrelación).

Probar que los residuales forman una muestra aleatoria mediante: Prueba de Signo ordinario. Prueba de Racha (Run test) Prueba de puntos alternantes.

En este capítulo, el objetivo principal es estimar los parámetros , y cuando se asume que p y q que son conocidos. También, se asume

que los datos han sido corregidos por la media, es decir, si el modelo ajustado es:

entonces el correspondiente modelo para la serie estacionaria original {Yt} se encuentra reemplazando Xt por , donde es la media muestral de los datos originales.

Cuando p y q son conocidos, “buenos” estimadores de y pueden ser encontrados tomando en cuenta los datos como observaciones de una serie de tiempo estacionaria Gaussiana y maximizando la verosimilitud con respecto a los p+q+1 parámetros. Estos estimadores son conocidos como estimadores de máxima verosimilitud. Estos estimadores se encuentran usando la opción de ITSM Model> Estimation>Autofit. S-PLUS ajusta modelos por Máxima Verosimilitud por default y

las instrucciones son Statistics> Time Series> ARIMA Models y elegir las opciones que se deseen en el cuadro de diálogo.

Obviamente, para llegar a un modelo, debemos tener las herramientas necesarias de estimación. Dado que este proceso requiere métodos numéricos, primero debemos tener valores iniciales (una estimación previa) y después llevar a cabo la optimización. Dependiendo del proceso, podemos usar los algoritmos de Yule-Walker o de Burg para modelos AR(p); y el Algoritmo de Innovaciones o de Hannan-Rissanen para modelos MA(q) y ARMA(p,q).

En resumen, para llevar a cabo el ajuste de un proceso (datos) se tienen que seguir los siguientes pasos:

1. Verificar si el proceso es estacionario. Si no lo es, entonces se deben trasformar los datos para lograr estacionaridad (diferenciación, logaritmos, etc.).

2. Identificar posibles modelos mediante la función de autocorrelación, la función de autocorrelación parcial o el AICC.

3. Seleccionar p y q mediante la estimación preliminar (Algoritmos de Yule-Walker, Burg, Innovaciones o Hannan-Rissanen).

4. Llevar a cabo la prueba de bondad de ajuste. 5. Si el modelo elegido aprueba la prueba de bondad de ajuste, el proceso se

termina. En caso contrario, se regresa al paso 2.

Figura3. Ajuste de un proceso ARMA(p,q)

¿Es estacionaria la serie? No Diferenciar la serie

Si

Identificar posibles modelos

Estimación preliminar

Realizar pruebas de bondad de ajuste

¿Se cumplen las pruebas de bondad de ajuste? No

Si

Fin

V.1. ESTIMACIÓN PRELIMINAR.

En esta sección consideraremos las cuatro técnicas de estimación preliminar que se mencionaron arriba.

V.1.1. Estimación de Yule-Walker

Considere el proceso AR(p) causal. Dada esta propiedad, podemos escribir:

………………(5.1)

En este momento, supondremos que a través de alguna técnica construimos el valor de p. El método de Yule-Walker consiste en encontrar los valores de las ’s tales que las ecuaciones de Yule-Walker cumplan con las autocovarianzas. Es decir, multiplicando ambos lados de la ecuación 5.1 por para j=0,1,…,p y tomando valor esperado, obtenemos las ecuaciones de Yule-Walker:

donde

Por otra parte, si reemplazamos las covarianzas por las correspondientes covarianzas muestrales , obtenemos:

Note que, bajo los supuestos iniciales, en este momento el vector de incógnitas es el vector . Ahora, si , entonces es no singular para m=1,2,…. De esta forma, podemos escribir las ecuaciones muestrales de Yule-Walker:

Según Brockwell y Davis, es un estimador consistente de . Ver [Brockwell y Davis (2002), pp. 140].

Si deseamos hacer inferencia sobre podemos usar el hecho de que:

En la práctica no conocemos el verdadero orden del modelo generado por los datos. De hecho, puede suceder que el modelo AR(p) no sea apropiado. Suponiendo que el modelo AR(p) es adecuado, resta encontrar el orden de tal modelo, es decir, el valor

de p. Dos técnicas que se usan en esta parte del proceso de modelación son: aplicando intervalos de confianza para los componentes del modelo y otra, minimizando el AICC.

El programa ITSM grafica la función de autocorrelación muestral junto con las bandas de confianza usando aproximación Normal. De esta gráfica es fácil encontrar el valor de p. S-PLUS también grafica las bandas de confianza en cuestión siguiendo Statistics> Time Series> Autocorrelations.

Si queremos aplicar el criterio del AICC, se considera el valor:

donde L es la verosimilitud. Note que mientras más grande sea L, más pequeño será el valor del AICC, y por lo tanto el modelo es mejor. Para seleccionar p, se ajustan modelos para diferentes valores de p* y aquella p* que minimice el AICC será el estimador de p.

NOTA1: No todos los criterios de selección darán el mismo valor de p.

En resumen, tenemos que el modelo AR(p) ajustado por Yule-Walker es:

Para n grande, los intervalos de confianza al 95% para los componentes de son:

Para probar la hipótesis , consideramos el intervalo anterior, si el valor cero se encuentra en tal intervalo no se rechaza H0, de otro modo, se rechaza.Ejemplo V.1.1. Consideremos los datos del índice de Utilidad Dow Jones de Agosto 28 a Diciembre 28 de 1972. El archivo es DOWJ.TXT.

Solución.

Los datos presentan el siguiente comportamiento:

Número de observaciones = 78Media muestral = .1157E+03

Gráfica19. Serie índice de utilidad Dow Jones Ago-28 a Dic-28 de 1972.

10 30 50 70105

110

115

120

125D

J

Note que es necesario diferenciar la serie para obtener un proceso estacionario. Es decir, tendremos un nuevo modelo: . Por tanto, ajustaremos un proceso AR a esta nueva serie mediante Yule-Walker. La serie diferenciada es:

Gráfica20. Serie índice de utilidad Dow Jones diferenciada a distancia 1.

10 30 50 70

-1.0

-0.5

0.0

0.5

1.0

1.5

DJ

Las instrucciones para llevar a cabo lo anterior en S-PLUS son las siguientes:

dif.DJ<-diff(DOWJ,1,1)guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="DOWJ")guiPlot(PlotType="Y Series Lines", Columns=1,

DataSet="dif.DJ")

donde DOWJ es el nombre del Dataset con los datos del Índice de utilidad Dow Jones.

Las autocorrelaciones muestrales de la serie diferenciada, así como la gráfica de estas, las obtenemos siguiendo Statistics > Time Series> Autocorrelations en el Dataset dif.DJ, entonces aparecerá un cuadro de diálogo en el que seleccionamos Autocorrelation en la opción Estimate Type. Los resultados se presentan enseguida:

Autocorrelation matrix: lag dif.DJ 1 0 1.0000 2 1 0.4219 3 2 0.2715 4 3 0.1617 5 4 0.2270 6 5 0.1490 7 6 0.2006 8 7 0.1721 9 8 0.026210 9 0.040011 10 0.054512 11 0.176713 12 0.0142

14 13 0.194715 14 0.057816 15 -0.075817 16 -0.179618 17 0.076019 18 0.0159

Gráfica21. ACF y PACF Serie del índice de utilidad Dow Jones diferenciada a distancia 1.

La gráfica de la PACF (derecha) sugiere ajustar un modelo AR(1), puesto que

las demás autocorrelaciones son estadísticamente iguales a cero. Para obtener la estimación preliminar por Yule-Walker y con mínimo AICC, agregamos las instrucciones siguientes (en S-PLUS):

yw.dif.DJ<-ar.yw(dif.DJ, aic=T)yw.dif.DJ

El modelo obtenido es:

$order:[1] 1 [,1] [1,] 0.4218786

$var.pred: [,1] [1,] 0.1518409

Así, el correspondiente modelo para Yt, la serie original, es:

El intervalo de confianza para el coeficiente autorregresivo es:

Cabe notar que el intervalo de confianza no contiene al cero, por lo que se concluye que con de significancia.

V.1.2. Algoritmo de Burg

El Algoritmo de Burg estima la función de autocorrelación parcial minimizando sucesivamente la suma de cuadrados de los predictores un paso adelante y un paso atrás con respecto a los coeficientes .

Dadas las observaciones de un proceso estacionario con media cero, definiremos:

Entonces, el estimador de usando el algoritmo de Burg, , se encuentra minimizando la siguiente expresión:

con respecto a . La solución nos dará los valores de y , que se usarán

para encontrar el estimador de y los valores de y . Esto sucede minimizando la nueva expresión:

El proceso de estimación continua de la misma forma hasta obtener el estimador y los correspondientes valores mínimos de .

El cálculo de los estimadores de y descritos arriba es equivalente a resolver las siguientes ecuaciones recursivas:

Algoritmo de burg

La distribución de los coeficientes estimados por el Algoritmo de Burg, para muestras grandes, es la misma que la de los estimadores de Yule-Walker. Sin embargo, no se asegura que las estimaciones (valores) sean “iguales”.

Ejemplo V.1.2. Consideremos los datos del nivel del Lago Hurón (en pies) en los años 1875-1972. El archivo es LAKE.TXT.

Solución.

Esta serie tiene 98 datos . Ajustaremos un modelo AR a los datos sin eliminar algún componente de tendencia, es decir no se diferenciará la serie. Los datos, las funciones de autocorrelación y autocorrelación parcial se muestran en las gráficas siguientes:

Gráfica22. Serie nivel del lago Hurón años 1875-1972.

10 30 50 70 905

7

9

11

lake

Gráfica23. ACF y PACF de la serie nivel del lago Hurón años 1875-1972.

Lag

Par

tial A

CF

0 5 10 15

-0.2

0.0

0.2

0.4

0.6

0.8

Series : Lake$lake

Las gráficas anteriores las obtenemos mediante las instrucciones:

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="Lake")acf(x = Lake$lake, type = "correlation")acf(x = Lake$lake, type = "partial")

donde “Lake” es el nombre del Dataset con la serie en cuestión.

La gráfica de la PACF (arriba a la derecha) sugiere ajustar un modelo AR de orden p=2 a los datos corregidos por la media, .

Para obtener la estimación preliminar del modelo autorregresivo por el Algoritmo de Burg en para los datos corregidos, agregamos las líneas siguientes en nuestro Script File:

Lake.corr<-Lake-mean(t(Lake)) /corrige los datos por la media/

burg.lake<-ar.burg(Lake.corr, aic=T)burg.lake

La opción aic=T asegura que se obtendrá el modelo con mínimo AICC. Los resultados son:

$order:[1] 2

$ar: [,1]

[1,] 1.0450438[2,] -0.2457325

$var.pred: [,1] [1,] 0.4788279

Así, nuestra estimación preliminar queda como:

V.1.3. Algoritmo de Innovaciones

Al igual que el método de Yule-Walker, el Algoritmo de Innovaciones puede usarse como método de estimación preliminar, pero en este caso, para modelos MA(q) y ARMA(p,q).

La idea de aplicar este método radica en que las ecuaciones del Algoritmo de Innovaciones, tanto de las , como de las , se plantean con las autocovarianzas muestrales, quedando como incógnitas las .

Para aplicar el método es necesario tener un valor inicial de q. A continuación se enuncian algunas formas de obtener un valor preliminar de q:

1. Sabemos que para un proceso MA(q), las autocorrelaciones son cero para m > q. Por otro lado, sabemos de la fórmula de Barttlet (Resultado IV.2) que

se distribuye asintóticamente Normal, . Así, podemos usar la gráfica de para obtener una estimación preliminar del orden q como el valor más pequeño de m, tal que sea cero para m > q.

2. Se puede mostrar que si {Xt} sigue un proceso MA(q) invertible

donde con las condiciones y para j > q, entonces los estimadores de Innovaciones tienen la propiedad: Si , m(n) una sucesión de enteros tal que , pero , entonces para cada entero positivo k, se tiene que:

donde la matriz de covarianzas A tiene como componente (i,j) al elemento:

Este resultado nos permite construir intervalos de confianza para los coeficientes y decidir cuales de ellos son estadísticamente diferentes de cero y así decidir el orden q.

3. Al igual que para los procesos AR(p), una aproximación más sistemática para seleccionar el orden de los modelos MA(q) es encontrar el valor de q y

que minimice el valor AICC, dado por:

De esta forma, el modelo MA(m) ajustado por Innovaciones es:

con

Asintóticamente (muestras grandes), un intervalo de confianza para al 95% de confianza se puede obtener como sigue:

Hasta ahora, en el desarrollo del Algoritmo de Innovaciones hemos supuesto que p=0 y q>0. Pero el Algoritmo se puede llevar a casos más generales, es decir, cuando p>0 y q>0.

Recordemos que la causalidad de un proceso ARMA(p,q) garantiza la expresión:

donde los coeficientes se encuentran de las ecuaciones:

j=0,1,…

Con y para j > q.

Para estimar la secuencia , j=1,2,…,p+q, se pueden usar los estimadores del

A.I , ya que el modelo se supone causal. Así, sustituyendo las

por los , obtenemos el sistema de ecuaciones:

Empezamos por resolver las últimas p ecuaciones para encontrar . Es decir, resolvemos:

Una vez que tenemos , podemos determinar la estimación de mediante:

j=1,2,…,q

El estimador de la varianza del proceso de Ruido Blanco está dado por:

donde es el valor de la predicción a un paso usando los coeficientes encontrados

anteriormente y como en la sección IV.5.

Ejemplo V.1.3. Consideremos los datos del nivel del Lago Hurón (ver ejemplo anterior).

Solución.

El paquete S-PLUS no trae la opción de estimación preliminar por Innovaciones, por lo que usaremos ITSM-2000.

En el ejemplo V.1.2 ajustamos un modelo AR(2) a los datos corregidos por la media usando el Algoritmo de Burg. Si ahora queremos ajustar un modelo ARMA(1,1) usando el Algoritmo de Innovaciones, en ITSM tenemos que seguir los pasos: 1) Dar clic en el botón superior de estimación preliminar y seleccionar yes para corregir los datos por la media; 2) Especificar 1 en el orden de AR y 1 en MA y estimación por algoritmo de Innovaciones; y 3) Clic en OK para obtener el modelo estimado:

ARMA Model: X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)WN Variance = .475680AICC = .212894E+03

para los datos corregidos por la media, .

Es interesante notar que el valor de AICC ajustando el modelo ARMA(1,1) es 212.89, el cual es más pequeño al correspondiente valor de AICC (213.57) ajustando un modelo AR(2) por cualquier método. Esto sugiere que el modelo ARMA(1,1) es mejor que el AR(2). Sin embargo, se deben llevar a cabo pruebas de bondad de ajuste de los modelos para poder elegir a uno de ellos.

V.1.4. Algoritmo de Hannan-Rissanen

Recordemos que la secuencia de errores {Zt} es no-observable; no obstante, podemos usar los residuales como una estimación de ella.

El Algoritmo de Hannan-Rissanen consiste en realizar la regresión por mínimos cuadrados de la serie {Xt} sobre los residuales resultantes del ajuste de un modelo autorregresivo. En seguida se describe el procedimiento.

1. Estimar un modelo AR(m) con m “grande” usando el Algoritmo de Yule-Walker de la sección V.1.1. Sea el vector de coeficientes estimados. Entonces calculamos los residuales como la diferencia entre el valor de la observación y la estimación:

, t=m+1,…,n

2. Ahora, podemos llevar a cabo la regresión de Xt sobre y

encontrar el vector de parámetros minimizando con respecto a la cantidad (mínimos cuadrados):

Así, obtenemos el estimador de Hannan-Rissanen como:

donde es un vector de orden n-m-q y la matriz Z es de orden (n-m-q) x (p+q) dados por:

Claramente, si el modelo AR ajustado en el paso1 es de orden 0, la matriz Z sólo contendrá las últimas q columnas.

El estimador de la varianza del Ruido Blanco por este método está dado por:

donde está definida como la suma de errores de estimación al cuadrado.

La estimación preliminar en ITSM por el Algoritmo de Hannan-Rissanen consiste en seleccionar Model>Estimation> Preliminary y seleccionar la opción Hannan-Rissanen del cuadro de diálogo. El programa restringe valores de q entre 0 y 27.

El algoritmo de Hannan-Rissanen incluye un tercer paso, que consiste en llevar a cabo una regresión más.

Definamos las variables:

y para t=1,…,n,

Minimizando la cantidad:

encontraremos el vector . Entonces el estimador mejorado de , dado por , tiene la misma eficiencia (asintótica) que el estimador de máxima verosimilitud, que se muestra enseguida.

V.2. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

Suponga un proceso {Xt} estacionario ARMA(p,q) y deseamos estimar los parámetros y (p y q conocidos).

Para aplicar el método de máxima verosimilitud debemos suponer una distribución del proceso, digamos una distribución Normal con media cero y función de autocovarianzas . Si disponemos de n observaciones de esta distribución, podemos plantear la función de distribución conjunta de como sigue:

donde es la matriz de covarianzas, .

Note que dada la estructura de , diferenciar la función de verosimilitud es muy complicado y por tanto difícil de optimizar. En estos casos, se aplican métodos numéricos con estimadores iniciales dados en la estimación preliminar.

Podemos transformar la distribución conjunta usando las innovaciones y

sus respectivas varianzas calculadas recursivamente por el algoritmo de Innovaciones.

Recordemos que por el algoritmo de innovaciones, se tiene la igualdad:

Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto la matriz de covarianzas de las innovaciones es la matriz diagonal Dn siguiente:

Por la igualdad anterior y la matriz D, se tiene que:

Usando las igualdades anteriores, podemos ver que la forma cuadrática está dada por:

Recordemos, también, que Cn es una matriz triangular con elementos en la diagonal igual a uno, por lo tanto su determinante es uno. De donde:

Sustituyendo, la función de distribución conjunta inicial se reduce a:

Si puede ser expresada en términos de un número finito de parámetros desconocidos, como es el caso de un proceso ARMA(p,q), entonces los estimadores de Máxima Verosimilitud de los parámetros son los valores que maximizan la función L para el conjunto de datos dado.

La verosimilitud para los datos de un proceso ARMA(p,q) puede ser calculada recursivamente por el algoritmo de innovaciones.

Así, el predictor de Xn+1, como su error cuadrado medio están dados por:

donde θnj y rn son determinados por el algoritmo de innovaciones y m=max(p,q). De esta forma, la función de verosimilitud para el proceso ARMA(p,q) es:

Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido blanco y teniendo que y rj son independientes de , encontramos los estimadores de máxima verosimilitud.

El criterio de selección del orden del modelo es la minimización del AICC. Este criterio consiste en escoger p, q, y que minimicen la cantidad:

Una de las opciones del programa ITSM es un “autoajuste” del modelo. Esto se lleva a cabo seleccionando Model>Estimation>Autofit. La selección de esta opción nos permite especificar un rango de los valores de p y de q (el rango máximo es de 0 a 27 para ambos, p y q). El modelo elegido es el que tenga mínimo AICC y una vez que el modelo ha sido determinado, debe ser estimado por máxima verosimilitud. Más adelante se ejemplificará la teoría. En S-PLUS la función de estimación por máxima Verosimilitud es: arima.mle(x, model, n.cond=<< >>, xreg=NULL, ...)

Para hacer inferencia sobre los parámetros se usan resultados asintóticos, es decir, se suponen muestras “grandes”. En este caso, consideremos el vector de parámetros , entonces para una muestra grande:

donde es la matriz Hessiana definida por:

Si se quiere probar la hipótesis H0: parámetro=0, la prueba se lleva a cabo calculando el cociente:

La regla de decisión es rechazar H0 si el cociente anterior se encuentra fuera del intervalo [-1,1].

Ejemplo V.2.1. Consideremos los datos del nivel del Lago Hurón (ver ejemplo V.1.2) y ajustemos un modelo por máxima verosimilitud.

Solución.

Recordemos que en la estimación preliminar se encontró que el mejor modelo ajustado (mínimo AICC) a los datos corregidos por la media fue el modelo ARMA(1,1):

X(t) = Y(t) - 9.0041 Method: Innovations ARMA Model: X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1)WN Variance = .475680AICC = .212894E+03

El siguiente paso es ajustar el modelo por máxima verosimilitud usando como estimación preliminar el modelo ARMA(1,1). Usando la función arima.mle de S-PLUS obtenemos:

Coefficients:AR : 0.75544 MA : -0.30721

Variance-Covariance Matrix: ar(1) ma(1) ar(1) 0.005949613 0.004373168ma(1) 0.004373168 0.012550728Optimizer has convergedConvergence Type: relative function convergenceAIC: 207.81105

Los resultados anteriores se obtienen escribiendo las instrucciones:

Lake.corr<-Lake-mean(t(Lake))mod<-list(ar=-0.7234,ma=0.3596)arima.mle(Lake.corr, model=mod)

donde “Lake” es el nombre del Dataset con la serie del Lago Hurón.

En los resultados también se obtienen las varianzas de los parámetros, con lo cual podemos establecer los siguientes intervalos de confianza al 95% como sigue:

V.3. PRUEBAS DE BONDAD DE AJUSTE

El paso final en el proceso de ajuste de modelos de series de tiempo es verificar qué tan “bueno” es el modelo. Esto se consigue mediante las pruebas de bondad de

ajuste. Tales pruebas consisten en verificar que los supuestos de los residuales se cumplan, es decir, que forman un proceso de Ruido Blanco.

Enseguida se mencionarán algunas de las pruebas que se utilizan para probar los supuestos iniciales (de los residuales). Cabe mencionar que no son las únicas, algunas otras se pueden consultar en [Brockwell y Davis (2002) pp. 35-38].

V.3.1. La función de autocorrelación de residuales

Si {Zt} forma un proceso de Ruido Blanco, entonces las autocorrelaciones de las innovaciones (errores) deben ser estadísticamente iguales con cero. Es decir, con el 95% de confianza, se debe cumplir:

Si calculamos las correlaciones muestrales para más de 40 observaciones y encontramos que más de dos valores caen fuera del intervalo de confianza, entonces rechazaremos la hipótesis de que los errores son independientes. Las bandas

son graficadas automáticamente cuando se grafica la función de autocorrelación en el programa ITSM.

En la siguiente gráfica se muestran las funciones de autocorrelación y autocorrelación parcial de los residuales después de haber ajustado un modelo ARMA(1,1) a los datos del Lago Hurón. Podemos ver que ningún valor cae fuera de las bandas de confianza, por lo que podemos concluir que los residuales, en efecto, son independientes.

La gráfica se logra de la siguiente forma: En el Dataset “Lake”, seguimos Data> Transform y en el cuadro Expression escribimos Lake-mean(t(Lake)). Esto creará una nueva columna de datos corregidos por la media. Enseguida, ajustamos el modelo ARMA(1,1) siguiendo Statistics> Time Series> ARIMA Models y especificamos 1 en Autorregresive (p) y 1 en Moving Avg. (q). Finalmente, en la pestaña Diagnostics marcamos Autocorrelation of Residuals y Plot Diagnostics.

Gráfica24. ACF y PACF de los residuales después de ajustar un modelo ARMA(1,1) a la serie nivel del lago Hurón.

V.3.2. Prueba de puntos cambiantes (turning points)

Esta prueba consiste en determinar si los residuales forman un patrón aleatorio.

Supongamos que tenemos una muestra aleatoria . Se dice que la i-ésima observación es un punto cambiante si:

Si definimos a T como el número de puntos cambiantes en una sucesión de variables aleatorias iid de tamaño n, entonces, dado que la probabilidad de que haya un punto cambiante en el tiempo i es 2/3, el valor esperado de T es:

También, la varianza de T es:

Por otro lado, para una muestra iid “grande”, puede mostrarse que:

Con esto, podemos llevar a cabo la prueba de hipótesis de que los residuales son aleatorios, usando el criterio de decisión:

Rechazar H0: La muestra es aleatoria, al nivel de significancia α si , donde es el cuantil 1- α/2 de la distribución Normal estándar.

V.3.3. Prueba de signo (difference-sign)

En esta prueba se cuenta el número de observaciones i tales que. Definimos a S como el total de tales observaciones. Entonces, bajo

el supuesto de muestra aleatoria, se tiene que:

De la misma forma que para T, para un valor grande de n, se tiene que:

Un valor grande, en valor absoluto, de indicaría la presencia de un incremento (o decremento) en la tendencia de los datos. De aquí que, rechazaremos la hipótesis de tendencia en los datos al nivel α de significancia si , donde

es el cuantil 1- α/2 de la distribución Normal estándar.

Las tres pruebas mencionadas, entre otras, son calculadas por el programa ITSM usando la opción Statistics>Residual Analysis>Test of Randomness. S-PLUS sólo ofrece la estadística de Ljung-Box que se distribuye como Ji-Cuadrada. Para obtenerla, en el cuadro de diálogo que aparece después de Statistics> Time Series> ARIMA Models, en la pestaña Diagnostics marcamos la opción Portmanteau Statistics.

Es claro que, si no se ha ajustado algún modelo a los datos, los residuales son los mismos que las observaciones. Esto significa que podemos llevar a cabo las pruebas para las observaciones (cuando no se ha ajustado algún modelo), como para los residuales.

Ejemplo V.3.1. Consideremos los datos del archivo SIGNAL.TXT. Veremos las opciones que ofrecen ambos programas, ITSM-2000 y S-PLUS, para llevara cabo las pruebas de bondad de ajuste.

Gráfica25. Valores simulados de la serie X(t)=cos(t) +N(t), t=0.1,0.2,…,20, donde N(t) es WN(0,0.25).

30 80 130 180

-3

-2

-1

0

1

2

3

sig

na

l

En primer lugar, veremos la gráfica de la función de autocorrelación.

Gráfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,…,20, donde N(t) es WN(0,0.25).

Las gráficas 25 y 26 son resultado de las instrucciones:

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="signal")acf(x = signal$signal, type = "correlation")

donde “signal” es el Dataset con los datos de la serie simulada.

Note que algunas observaciones (más de dos) salen de las bandas de confianza, por tanto rechazaremos la hipótesis de que la serie es independiente. La estimación preliminar de Yule-Walker sugiere ajustar un modelo AR(7) a los datos corregidos por la media. Ajustando este modelo, podemos verificar si los residuales cumplen con las pruebas de bondad de ajuste.

En ITSM se obtienen mediante Statistics>Residual Analysis> Test of Randomness. Los resultados son:============================================ITSM::(Tests of randomness on residuals)============================================Ljung - Box statistic = 16.780 Chi-Square ( 20 ), p-value = .66719McLeod - Li statistic = 25.745 Chi-Square ( 27 ), p-value = .53278# Turning points = .13600E+03~AN(.13200E+03,sd = 5.9358), p-value = .50039# Diff sign points = .10300E+03~AN(99.500,sd = 4.0927), p-value = .39245Rank test statistic = .10083E+05~AN(.99500E+04,sd = .47315E+03), p-value = .77864Jarque-Bera test statistic (for normality) = 3.8175 Chi-Square (2), p-value = .14826Order of Min AICC YW Model for Residuals = 0

El programa ITSM nos da el p-value. La regla es rechazar la hipótesis nula al nivel de significancia α si α > p-value. Si establecemos un nivel de significancia del 5%, podemos ver que, utilizando cualquier estadística, no se rechaza la hipótesis nula de que los residuales forman una serie iid.

En S-PLUS seleccionamos la opción Statistics> Time Series> ARIMA Models, especificamos 7 en Autorregresive (p), y marcamos las opción Portmanteau Statistics y Plot Diagnostics en la pestaña Diagnostics. Obteniendo:

En conclusión, el modelo propuesto para los datos corregidos por la media, AR(7), resulta “bueno”, pues los residuales cumplen satisfactoriamente con las pruebas de bondad de ajuste.

Documents

Capitulos IV y V