88
Instituto Politécnico Nacional Centro de Investigación en Computación “Análisis de la Predictibilidad de Series de Tiempo usando algoritmos de extracción de reglas gramaticales” Tesis que para obtener el grado de: Maestro en Ciencias en Ingeniería de Cómputo Presenta el: Ing. Oscar Ricardo Delfín Santiesteban Director de tesis Dr. Jesús Guillermo Figueroa Nazuno México D. F., Junio 2006

Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

Instituto Politécnico Nacional Centro de Investigación en Computación

“Análisis de la Predictibilidad de Series de Tiempo usando algoritmos de extracción de reglas gramaticales”

Tesis que para obtener el grado de:

Maestro en Ciencias en Ingeniería de Cómputo

Presenta el:

Ing. Oscar Ricardo Delfín Santiesteban

Director de tesis

Dr. Jesús Guillermo Figueroa Nazuno

México D. F., Junio 2006

Page 2: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

2

Page 3: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

3

Page 4: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

4

A quien resulte responsable: agradecimientos.

Quiero agradecer, en primer lugar, al Dr. Jesús Guillermo Figueroa Nazuno, por

haberme dado la oportunidad de cerrar este ciclo. Un ciclo difícil, lleno de trampas y

esfuerzos inútiles. Me gustaría decir que mi paso por CIC fue, hasta antes de

conocerlo, aventurado y prodigioso; más sin embargo, no ha sido así. Quienes me

conocen, saben mi historia, quienes no, no tienen porque saberla. Gracias Doctor, por

su confianza y el tiempo dedicado a todas mis inquietudes. Por haber puesto en orden

mis ideas, por los jalones de oreja y por el entrenamiento a patadas. Quiero decirle,

que puede usted estar tranquilo, aprendí mucho de su persona y todo eso lo plasmare

con mis estudiantes. Gracias.

Agradezco a mi Padre que desde chamaco, a través de su ejemplo, me inculco

el hábito del estudio y la curiosidad. No sé si he sido un buen hijo, pero tú si haz sido

un buen padre. A mi madre, que siempre ha estado es todo momento a mi lado y al

pendiente de todo. No sé si he sido un buen hijo, pero tú si haz sido una buena madre.

Agradezco a mi esposa Elizabeth y a través de este medio le digo lo siguiente:

sé que este proyecto nos ha traído desavenencias y discusiones interminables. Sé que

he cometido errores irreparables y que no habrá modo alguno de recuperar lo perdido.

De cualquier forma, quiero que sepas que tú fuiste parte fundamental de esto y que,

desde el sitio donde siempre estoy pensando en ti, te agradezco profundamente que

hayas estado a mi lado.

Gracias al Instituto Politécnico Nacional y al CIC por haberme dado la

oportunidad de seguir avanzando en la búsqueda de mi verdad.

Quiero agradecer de forma especial a todas las personas que no fueron parte

de este trabajo. Gracias a ustedes, entes mezquinos y sucios, que lejos de ayudar,

estorban; tuve la necesidad de buscar otras alternativas. Búsqueda que culmina con

esta tesis bajo la tutela del Dr. Nazuno. Gracias.

Vale, pues, a quien resulte responsable: Gracias a todos los que directa o

indirectamente, responsable o irresponsablemente me ayudaron.

Page 5: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

5

Abstract

In this work is presented an experimental study of time series predictability using

algorithms for extracting grammar rules. Firstly, we discuss the concepts of Forecasting and

Predictability, then we describe the difference among both of them and finally we emphasize

their importance. The employed algorithms were designed for classifying DNA-patterns and for

information compressing respectively, both occupy free-context grammars for their purposes.

Afterward, we show the manner on how the obtained indexes are integrated for estimating

predictability on time series, in order to generalize their use on any series. Finally, we describe

the advantages for using our method while it is compared with others.

Page 6: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

6

Resumen

En este trabajo de Tesis se presenta un estudio experimental sobre la predictibilidad de

Series de Tiempo utilizando algoritmos de extracción de reglas gramaticales. Se mostrará los

conceptos de Predicción y Predictibilidad, describiendo la diferencia entre ambos y cual es la

importancia de su estudio. Explicaremos la operación de dos algoritmos que fueron diseñados

para clasificar y comprimir información respectivamente, y que utilizan Gramáticas Libres de

Contexto para tal propósito. Presentaremos la forma en que hemos integrado los índices que

se obtienen de estos dos algoritmos para estimar la predictibilidad de Series de Tiempo,

tratando de generalizar su uso a cualquier Serie. Además, expondremos las ventajas que se

tienen al utilizar nuestra metodología en comparación con otras.

Page 7: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

7

Índice Abstract Resumen A quién resulte responsable: agradecimientos Capítulo 1. Introducción.

1.1 Motivación………………………………………………………………………………….9 1.2 Objetivos………………………………………………………………………………….10 1.3 Descripción del contenido de la Tesis…………………………………………………10

Capítulo 2. Análisis de la predictibilidad de Series de Tiempo. 2.1 Introducción……………………………………………………………………………….12 2.2 Series de tiempo………………………………………………………………………….13

2.2.1 Series de tiempo de origen natural y de origen artificial……………….14 2.3 Predicción y Predictibilidad……………………………………………………………...16 2.4 Técnicas de Predicción……………….………………………………………………….18

2.4.1 Técnicas Estadísticas……………………………………………………...19 2.4.2 Técnicas de Inteligencia Artificial…………………………………………21 2.4.3 Predicción en el espacio de fase (Dinámica de Sistemas no

Lineales)……………………………………………………………………..28 Capítulo 3. Índices de predictibilidad de Series de Tiempo.

3.1 Introducción……………………………………………………………………………….32 3.2 Métodos de extracción de reglas gramaticales……………………………………….34

3.2.1 Gramáticas Libres de Contexto…………………………………………..34 3.2.2 Algoritmo Sequitur…………………………………………………………36 3.2.3 Algoritmo NvoGramm……………………………………………………..39

3.3 Extracción de reglas gramaticales cómo indicador de predictibilidad……………..40 3.3.1 Índice de Predictibilidad Gramatical (IPG, Algoritmo Sequitur)………40 3.3.2 Complejidad Gramatical (Algoritmo NvoGramm)………………………42

3.4 Indicadores de predictibilidad…………………………………………………………..43 3.4.1 Estadísticas…………………………………………………………………43 3.4.2 Teoría de Sistemas Dinámicos no Lineales…………………………….43 3.4.3 Teoría de la información…………………………………………………..44 3.4.4 Análisis de mapas de recurrencia………………………………………..44 3.4.5 Teoría de la computación…………………………………………………44

Capítulo 4. Procedimiento experimental y análisis de resultados. 4.1 Introducción………………………………………………………………………………46 4.2 Procedimiento experimental……………………………………………………………46

4.2.1 Descripción del conjunto experimental de Series de Tiempo………………………………………………………….48

4.2.2 Parámetros obtenidos de los algoritmos estudiados…………………..62 4.2.3 Parámetros conocidos…………………………………………………….63 4.2.4 Primer análisis de correlación……………………………………………66 4.2.5 Parámetros en el espacio de fase……………………………………….67 4.2.6 Segundo análisis de correlación…………………………………………68

4.3 Análisis de resultados, comparación de metodologías y alcances……………..……………………………………………………………………71

Capítulo 5. Contribuciones, conclusiones y líneas de trabajo futuro. 5.1 Contribuciones……………………………………………………………………………73 5.2 Conclusiones……………………………………………………………………………..73 5.3 Líneas de trabajo futuro…………………………………………………………………77 Apéndice A…………………………………………………………………………………………….75 Apéndice B…………………………………………………………………………………………….77 Referencias……………………………………………………………………………………………88

Page 8: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

8

Capítulo 1

Introducción

“La verdadera ciencia enseña, por encima de todo, a dudar y a ser ignorante.”

Miguel de Unamuno

1.1 Motivación. 1.2 Objetivos. 1.3 Desarrollo de la tesis.

Page 9: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

9

1.1 Motivación

Desde el año de 1684, cuando Sir Isaac Newton formalizó matemáticamente el

conocimiento empírico de diversas observaciones de fenómenos astronómicos en su obra

Philosophiae Naturalis Principia Mathematica; la caída libre de una piedra desde lo alto de un

edificio, el disparo de un proyectil cuya trayectoria precisa una parábola o la colisión de un par

de bolas de billar; son tan solo algunos ejemplos de sistemas cuyos modelos matemáticos

permiten realizar predicciones con alto grado de certidumbre.

Sin embargo, sistemas más complejos como: la generación de una serie de números

primos, un conjunto de ecuaciones diferenciales cuya trayectoria en el espacio de fase cambia

en función de las condiciones iniciales, el doble péndulo, etc., presentan algunas limitantes en

el momento de tratar de construir sus respectivos modelos matemáticos con los que podamos

modelar y predecir su dinámica. Esto ha motivado el desarrollo de diversas técnicas no

tradicionales como los modelos algorítmicos, que permiten resolver el problema (modelar y

predecir) a partir de los datos experimentales que arroja el sistema. Las técnicas de análisis

que estudian este conjunto de datos (Series de Tiempo), son el primer paso para la

determinación de las características de la dinámica de un sistema a través de las cuales

podemos hacer una clasificación, construir un modelo y/o realizar una predicción.

Existen numerosas técnicas de análisis de Series de Tiempo que provienen de diferentes

disciplinas como: Análisis de Fourier, Estadística, Análisis Espectral Singular, Teoría de

Sistemas Dinámicos No Lineales, Teoría de la Información y Teoría de la Computación; y cada

una de ellas aportan información que nos ayudan a comprender mejor la dinámica de un

sistema.

Dentro del área de la Teoría de la Computación encontramos dos técnicas de análisis:

Complejidad Relativa LZ y Análisis de Gramáticas. La primera es una medida de la complejidad

algorítmica que mide el número de nuevas subcadenas descubiertas conforme una secuencia

de símbolos evoluciona de izquierda a derecha. En tanto que, la segunda, tiene su base en la

dinámica simbólica y es útil en la identificación de patrones dentro de una serie de tiempo [1].

Existen dos algoritmos que utilizan el Análisis de Gramáticas para representar el

comportamiento dinámico de una Serie de Tiempo: Sequitur, que fue diseñado en 1996 por

Craig G. Nevill-Manning en la Universidad de Waikato, Nueva Zelanda, cuyo propósito fue

mostrar en forma automática la existencia de cadenas de símbolos repetidas dentro de una

secuencia de datos que bien puede ser de tipo musical, algún texto en algún idioma,

información genética, bases de datos genealógicos, lenguajes de programación, etc., y que

podría ser utilizado para la compresión de información entre muchas otras aplicaciones[Nevill];

y el algoritmo NvoGramm, que fue propuesto en 2003 por Miguel A. Montaño en la Universidad

de Veracruz y fue diseñado para detectar patrones significativos en cadenas de DNA, RNA y

clasificación de proteínas [Montaño].

En este trabajo de tesis, estudiaremos estos dos algoritmos (Sequitur y NvoGramm) y

veremos como es posible integrarlos para obtener indicadores de predictibilidad.

Page 10: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

10

1.2 Objetivos

En el apartado anterior mencionamos que existen dos algoritmos llamados Sequitur y

NvoGramm, que emplean el Análisis de Gramáticas para detectar patrones de símbolos dentro

de una secuencia de datos. Pues bien, estos algoritmos serán el punto de partida de esta tesis

y a continuación, comenzaremos señalando los objetivos que se persiguen.

Objetivo General:

☞ Proporcionar un Índice de Predictibilidad basado en las Reglas de Producción

que generan las Gramáticas Libres de Contexto para evaluar un método de

predicción.

Objetivo Particular:

☞ Explorar sí la incorporación de las técnicas de análisis gramatical (Algoritmo

Sequitur y NvoGramm) aportan información relevante e independiente sobre

la predictibilidad de una Serie de Tiempo. 1.3 Descripción del contenido de la Tesis

Comenzaremos el desarrollo de esta tesis en el capítulo siguiente, donde

definiremos formalmente el concepto de Serie de Tiempo y sus diferentes orígenes.

Además, estableceremos la diferencia entre los conceptos de Predictibilidad y Predicción

y finalizaremos con una breve descripción de las Técnicas de Predicción que existen.

Posteriormente, en el capítulo 3, presentamos a detalle la forma en que operan los dos

algoritmos empleados para la extracción de reglas gramaticales. El capítulo 4,

expondremos la metodología con la que integramos los algoritmos mencionados para

obtener indicadores de predictibilidad y finalmente, mostramos las conclusiones que se

derivan de nuestro trabajo, las referencias bibliografícas e información adicional en los

apéndices.

Page 11: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

11

Capítulo 2

Análisis de la predictibilidad

de Series de Tiempo

2.1 Introducción. 2.2 Series de tiempo.

2.2.1 Series de tiempo de origen natural y de origen artificial. 2.3 Predicción y Predictibilidad. 2.4 Técnicas de Predicción.

2.4.1 Estadística clásica. 2.4.2 Inteligencia Artificial. 2.4.3 Predicción en el espacio de fase.

(Dinámica de Sistemas no Lineales).

“No hay cosas sin interés, tan solo personas incapaces de interesarse. El que no posea el don de maravillarse, más le valdría estar muerto, porque sus ojos están cerrados”.

Albert Einstein

Page 12: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

12

2.1 Introducción

Las series de tiempo son un conjunto de valores que representan la información que

describe la dinámica de un fenómeno y al estudiarlos buscamos básicamente dos cosas: un

modelo matemático o un conjunto de algoritmos que extraigan la mayor cantidad de

información que posee de manera intrínseca una serie, de tal forma que reproduzca su

comportamiento, o bien, un modelo de predicción que se encargue de extrapolar su dinámica.

Existen, sin embargo, algunas limitantes en los modelos que hasta el momento se han

construido: están hechos para un tipo de serie en particular, es decir, no son generalizables a

otro tipo de series que no sea para el cual fue diseñado.

Por otra parte, el proceso de predicción también está limitado por la dinámica de las

series; influye directamente en la dificultad para ser predecidas por algún modelo, dado que,

todas las series tienen diferentes comportamientos. Estas limitaciones nos obligan a la

búsqueda de nuevos parámetros que caracterizarán a una serie y, a través de éstos, definir un

indicador de predictibilidad que ayuden a identificar que tan difícil será su predicción.

Para comenzar, en la sección 2.2 de este capítulo describiremos formalmente lo que es

una serie de tiempo, posteriormente, expondremos la clasificación básica de las mismas. A

continuación, en el apartado 2.3, explicaremos qué es lo que se entiende por predictibilidad,

bajo qué criterios y métodos sean hecho medidas de ésta y cual es su relación con las series

de tiempo. Finalmente, en la última sección, veremos las técnicas de predicción que se han

utilizado.

Page 13: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

13

2.2 Series de Tiempo

Una serie de tiempo es un conjunto de datos numéricos obtenidos a partir de una

observación experimental o mediante el cálculo numérico de las ecuaciones de evolución de un

sistema. Contiene información sobre sus variables independientes que determinan su dinámica

y la extracción de está información nos ayuda a construir modelos que reproduzcan o

extrapolen el comportamiento de la serie.

Una Serie de Tiempo es un conjunto

( ) ( ) ( ) ( ) ( ){ }1 , 2 , 3 , , , ,ST x x x x t x N= K K

Siendo una secuencia de datos experimentales para un intervalo de tiempo T N= de una

variable observable ( )x t de un sistema.

Las series de tiempo se caracterizan porque se evolución temporal no depende

explícitamente de la variable tiempo, sino de los valores de la serie en instantes anteriores o

incluso de otras variables temporales que pudieran afectar a la evolución de la serie. En la

figura 2.1 se muestra un ejemplo de serie de tiempo conocida como logística cuyo

comportamiento viene dado por la ecuación de diferencias:

1 (1 )n n nx rx x+ = − (2.1)

donde n = año, x= número de insectos que nacen y r número de huevos puestos por cada

insecto que eclosionan al año n+1.

Page 14: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

14

0 100 200 300 400 500 600 700 800 900 1000-4

-2

0

2

4

6

8

t

y

2.2.1 Series de Tiempo de Origen Artificial y Natural

En la naturaleza existen sistemas que llamamos de origen natural tales como los de

tipo biológico, por ejemplo: sistemas de organismo multicelular, bioquímicos, ecológicos, etc.

Otros sistemas de origen natural son del tipo físico como los de dinámica atmosférica y

oceánica, energía solar, velocidad del viento, temperatura máxima diaria, etc. Existen también

los sistemas de origen artificial como de tipo socio-económico: tasa de desempleo, tasa de

inflación, índice de precios, índices demográficos, entre otras. Estos dos tipos de fenómenos

son estudiados en forma experimental y se puede medir una gran cantidad de información

expresada como una secuencia de datos numéricos, mismos que en la sección anterior hemos

definido como Serie de Tiempo.

Figura 2.1 Ejemplo de una Serie de Tiempo.

Page 15: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

15

Otra forma de generar series de tiempo, es a partir del estudio de la dinámica de

sistemas que surgen de experimentos computacionales como por ejemplo los autómatas

celulares. También es posible obtener series de tiempo a partir de la solución numérica de

expresiones matemáticas de modelos físicos como en el caso del sistema de ecuaciones

diferenciales de Lorenz [2]1 o de construcciones matemáticas abstractas como el problema de

Collatz en Teoría de Números [1]. A continuación se muestra un cuadro sinóptico con la

clasificación de series de tiempo de acuerdo a su origen.

1 Edward Lorenz, meteorólogo norteamericano nacido en 1916 en West Hartford, pionero en el estudio del Caos determinista.

Series de Tiempo

Series de tipo Natural

Series de tipo Artificial

Físicas: Meteorología, Temperatura máxima diaria, Velocidad del viento, Energía Solar. Geofísica: Sismología. Económicas: Tasas de desempleo, Tasa de inflación, Índice de precios. Demográficas: Crecimiento poblacional, tasa de natalidad, Censos poblacionales. Transporte: Tráfico.

Matemático: Sistemas de ecuaciones diferenciales no lineales

Figura 2.2 Una clasificación de las series de Tiempo.

Page 16: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

16

2.3 Predicción y predictibilidad

Antes de hablar de la predictibilidad, es preciso comentar que es predicción. De forma

general, el problema de predicción de series de tiempo se puede plantear del siguiente modo:

dado un conjunto de muestras en la serie, conocer los valores después de la última muestra, es

decir, su evolución a lo largo del tiempo. Bajo esta idea tenemos dos casos:

• Predicción en un paso de tiempo

La predicción en un paso de tiempo consiste en conocer el valor de la serie en

el instante de tiempo inmediatamente siguiente al instante actual t, a partir de

las muestras disponibles hasta dicho instante de tiempo. Es decir, conocer el

valor x(t + 1) utilizando el número de muestras anteriores x(t), x(t - 1), x(t - 2).

• Predicción en múltiples pasos de tiempo

Esta consiste en conocer el comportamiento de la serie, no únicamente en el

instante siguiente del último, sino en un futuro más lejano, concretamente en el

llamado intervalo de predicción [t + 1, t + h + 1], siendo h un número natural que

representa el horizonte de predicción. Es decir, consiste en conocer los valores

x(t + 1), x(t + 2),… y x(t + h +1) a partir de la información disponible en el

instante t.

Una vez que hemos definido predicción, es muy importante recordar cuales son los

problemas a los que nos enfrentamos al predecir una serie de tiempo:

• Como mencionamos en la introducción, los modelos actuales de predicción de

Series de Tiempo están construidos para un tipo particular de series y por tanto

no son generalizables. Además, dado que los modelos son aproximados, existe

un error en la predicción, el cual, bajo ciertos criterios no es muy aceptable.

• La dificultad de predicción depende sustancialmente del comportamiento

dinámico de las series de tiempo. Dado que, existen series que poseen

comportamientos periódicos y estables que pueden ser explicados y

predecidos utilizando modelos basados en técnicas clásicas. Sin embargo,

existen otras series más complejas, para las cuales éstas técnicas podrían ser

deficientes.

Page 17: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

17

Ya que hemos explicado en que consiste la predicción, a continuación expondremos

que es, a lo largo de los estudios de series de tiempo, lo que se ha entendido por predictibilidad

y que características presenta.

En relación con las investigaciones realizadas en la predicción de series de tiempo, la

predictibilidad es un concepto que no ha gozado de gran interés en su estudio. En los primeros

trabajos se define como las varianzas relativas del error de predicción [1], es decir, es el error que

se tiene en la predicción dado un modelo. Este concepto ha surgido de las áreas de Estadística

y Econometría y significa que la predictibilidad se considera como dependiente del modelo y no

se le atribuye a la dinámica de la serie.

Otros ejemplos de predictibilidad en estas mismas áreas fueron desarrolladas por

Kaboudan (1998) y una variante de la misma por Duan & Povinelli (2001) las cuales la definen

como la capacidad de que un algoritmo de Programación Genética pueda generar un modelo

para una serie en particular.

En el área de Teoría de Sistemas Dinámicos no Lineales, el concepto es manejado de

forma similar a las anteriores pero la forma de medirlo es diferente. Para cuantificarlo se

considera el horizonte de predicción, es decir, la expansión que va tomando del error de

predicción a medida que transcurre el tiempo y es calculado usando el exponente de

Lyapunov4.

A diferencia de los anteriores, la predictibilidad se considera como dependiente tanto

del modelo como de la dinámica de la propia serie. Además, en la Teoría de Sistemas

Dinámicos no Lineales, la predictibilidad es considerada, junto con otras métricas, como un

conjunto de parámetros que caracterizan de forma particular a una serie de tiempo.

Otra forma de entender la predictibilidad es a través de diferentes parámetros derivados de

la Teoría de la Información: Entropía de Shannon, Entropía condicional, Información Mutua y

Funcionales de Información [1]. También se ha propuesto medidas de predictibilidad que sirven

como indicadores de la complejidad de una serie como diferentes medidas de complejidad de tipo

algorítmico como las de Kolmogorov5.

En resumen, la predictibilidad es un indicador que nos permite caracterizar a un

sistema que es representado por medio de una serie de tiempo, además, es un indicador que

estima la dificultad de una serie para ser predecida con un determinado modelo. Bajo esta idea,

la predictibilidad está en función del modelo utilizado y la dinámica de la serie. La

predictibilidad es problematizar el proceso de predicción; es decir, el estudio de los fenómenos

y herramientas que participan en el proceso de predicción.

4 Aleksandre Mikhailovich Lyapunov, matemático soviético (1857-1918). Realizó importantes trabajos sobre ecuaciones diferenciales, teoría de funciones potenciales, estabilidad de sistemas y teoría de la probabilidad. Su labor se concentró en la estabilidad del equilibrio y la rotación uniforme de un fluido. El “método Lyapunov” introducido en 1899, proporciona formas de determinar la estabilidad de sistemas de ecuaciones diferenciales. 5 Andreí Nicoláievich Kolmogorov, matemático soviético (1903-1987) Sus trabajos sobre Lógica, topología y probabilidades revolucionaron la estadística que hoy parte de su definición de la ley de azar.

Page 18: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

18

2.4 Técnicas de predicción

La predicción de una serie de tiempo requiere la construcción de un modelo adecuado;

que se ajuste a una serie en particular cuando esto sea posible y debido a esto, no es posible

generalizar la capacidad de predicción de un modelo para que se adapte a un conjunto Series

con comportamientos muy diferentes entre sí.

Ya que en el apartado anterior hablamos de predicción, definimos predictibilidad y

establecimos que ambas tienen una estrecha relación, es oportuno finalizar este capitulo

comentando brevemente los modelos de predicción que se han utilizado en las series de

tiempo que se estudiaron en este trabajo. Y, para comenzar, a continuación mostraremos, en

un cuadro sinóptico estos modelos.

Técnicas de predicción

Estadísticas

Inteligencia Artificial

Teoría de SistemasDinámicos no Lineales

Modelos Autoregresivos

ARIMA

Perceptrón Multicapa Red Neuronal FIRNet Red Neuronal Probabilística Máquinas de Soporte Vectorial Funciones de Base Radial Árboles de decisión Autómatas Sistemas basados en conocimiento

Modelo Lineal en el Espacio de Fase Funciones Polinomiales en el Espacio de Fase K-Vecinos Cercanos

Figura 2.3. Clasificación de las técnicas de predicción.

Page 19: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

19

2.4.1 Técnicas Estadísticas Los modelos de series de tiempo han cobrado fuerza en las últimas décadas en

aplicaciones de todo tipo. La filosofía de los modelos estadísticos se basa en el hecho de que

la gran mayoría de las series temporales, muestran una fuerte correlación con sus valores en

instantes pasados. La metodología propuesta por Box y Jenkins de la década del setenta, para

el análisis y modelado de series de tiempo, se convirtió en una de las herramientas más

difundidas cuando se cuenta con número grande de muestras. Básicamente, estos modelos

permiten hacer estimaciones de la serie, expresando el valor futuro como una combinación

lineal de los valores que tomó la serie en instantes precedentes [3].

El auge de estos modelos se ha traducido en un gran número de trabajos que utilizan

esta estructura de modelación en el pronóstico de series de tiempo. Sin embargo, los

principales problemas de estos modelos derivan del hecho de que los registros estadísticos

suelen ser de mala calidad debido a la existencia de perturbaciones en las mediciones en el

caso de series de tipo natural y además, al ser modelos estadísticos, serán tanto mejores

mientras más grande sea el registro disponible para ajustar sus parámetros.

Veremos a continuación la familia de modelos que deriva de la metodología propuesta

por Box y Jenkins conocidos como modelos autoregresivos.

Modelo autoregresivo En un modelo de series de tiempo autoregresivo de orden p , el valor real observado

de una serie tX en el instante t , es expresado como una combinación lineal de los p valores

previos del proceso, más un ruido blanco, llamada innovación y que estructura al modelo como

estocástico. Es decir, un modelo autoregresivo se compone de dos partes, una determinística,

construida como una combinación lineal de los valores recientes pasados y una estocástica

determinada por al innovación.

Denotemos a los valores que toma el proceso a intervalos de tiempo equiespaciado

, 1,...,t t t p− − por 1, 2,...,,t t t t pX X X X− − − . Sean también 1, 2,...,,t t t t pX X X X− − − las

desviaciones de dichos valores con respecto a la media μ , t tX X μ= − . Con esto escribimos:

1 21 2 ...t t t t pp tX X X Xφ φ φ ε− − −= • + • + + • + (2.2)

Page 20: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

20

Si una serie sigue una relación como el de la expresión anterior, se dice que es un

proceso Autoregresivo de orden p (AR (p)). El factor tε es el ruido o innovación y el modelo se

construye de manera que sea ruido blanco, es decir, se impone que sea no correlacionado en

el tiempo y que se distribuya en forma normal 2(0, )N εσ en cada instante. Este modelo se

ajusta de manera que estas condiciones sobre la innovación se satisfagan.

Modelo Autoregresivo de Medias Móviles (ARMA) En un modelo autoregresivo de Medias Móviles de orden (p, q), ARMA (p, q), el valor

observado de la series tX en el instante t, no solo se expresa como una combinación lineal de

los p valores pasados, sino que además, se toma en cuenta los q ruidos o innovaciones

pasados de ésta, más la innovación tε en el instante t . Así, la formulación matemática es:

2 11 1

p q

t t ii t i ti i

X Xφ ε φ θ ε− −= =

= • + − •∑ ∑ (2.3)

Es necesario recordar que este modelo sólo es valido para series que presentan

comportamiento estacionario y periódico. Esto resulta obvio dado que, sí los parámetros del

modelo tienen un valor fijo invariante en el tiempo, las propiedades estadísticas de la serie

serán las mismas en todo instante, por lo que la serie seguirá una relación como la ecuación

anterior.

Existe un gran número de modelos dentro de la familia propuesta por Box y Jenkins

que intentan superar las limitaciones de los modelos ARMA. Se distinguen los modelos ARIMA2

diseñados para la modelación de series no estacionarias, los SARMA3 para la aplicación en

series que poseen una componente estacional, y los modelos mixtos SARIMA.

Estos modelos presentan básicamente las mismas limitaciones de los modelos ARMA

clásicos; sí bien permiten modelar la estacionalidad, siguen estando limitados por su estructura

estática en el tiempo.

2 Autoregresive Integrated Moving Averange, por siglas en íngles. 3 Stational ARMA, por sus siglas en inglés.

Page 21: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

21

Modelo PARMA Existe un tipo adicional de modelos de predicción de series de tiempo que permiten

abordarlas con características estacionarias, evitando así, las dificultades propias de los

modelos SARIMA. Este modelo denominado PARMA4 se basa en la idea de que las

características periódicas de las series estacionarias pueden ser modeladas permitiendo que

los coeficientes del modelo ARMA, ,i iφ θ presentado en la ecuación 2.3, cambien también en

forma periódica, permitiendo así, que el modelo no sea estático en el tiempo.

En general, los modelos PARMA son los más adecuados para la modelación de series

estacionarias, permitiendo interpretar el comportamiento futuro de una serie en función de su

pasado reciente con una estructura de dependencia que cambia en el tiempo

2.4.2 Técnicas de Inteligencia Artificial Dentro de la Inteligencia Artificial, se distingue un área que en las últimas décadas han

tomado gran importancia: las Redes Neuronales Artificiales. Las neuronas artificiales, son

elementos de proceso que poseen un estado interno llamado nivel de activación y recibe

señales que le permiten cambiar de estado. Este cambio de estado esta condicionado por una

función a la cual se le denomina función de activación. Las señales que recibe cada neurona

pueden provenir del exterior o de las neuronas a las cuales está conectada.

En la figura 2.4 se muestra un modelo que representa esta idea. En este ejemplo, dos

entradas x1 y x2 son introducidas a una neurona. Cada una de estas señales se multiplica por

su peso asociado w1 y w2 para posteriormente, aplicar la sumatoria de estos elementos.

(2.4)

Esta sumatoria es, además, procesada por la función de activación, misma que

determinará la salida final del elemento de proceso. Existen modelos muy diversos de redes

neuronales en los cuales se siguen condiciones de diseño y reglas de aprendizaje. En el

4 Periodic ARMA, por sus siglas en inglés.

Figura 2.4 Esquema de una unidad de proceso típica.

1

D

i ii

y f w x b=

⎛ ⎞= +⎜ ⎟⎝ ⎠∑

Page 22: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

22

siguiente apartado describiremos los que comúnmente se utilizan para la predicción de series

de tiempo.

Red Neuronal Multicapa hacia Adelante Este modelo neuronal llamado Perceptrón, fue introducido por Rosenblatt5 a finales de

los años cincuenta. Este es un modelo unidireccional compuesto en su forma básica por dos

capas de neuronas. La operación de este tipo de red, con n neuronas de entrada y m de salida

se expresa como sigue:

1

( ) ( ), ,1n

i ij j i ij

y t f w x i mθ=

= − ∀ ≤ ≤∑ (2.5)

Las neuronas de entrada no realizan ningún tipo de cómputo, únicamente envían la

información a las neuronas de salida como se muestra en la figura 2.3. La función de activación

de las neuronas de la capa de salida puede ser de tipo escalón, de tipo sigmoide o bien, de tipo

logística. Figura 2.6.

La importancia histórica del perceptrón radica en su carácter de dispositivo entrenable,

pues el algoritmo de aprendizaje permite determinar en forma automática los pesos sinápticos

que predicen un conjunto de patrones a partir de otros [6].

5 Frank Rosenblatt. Sicólogo Norteamericano (1928 - 1969) creador del Perceptrón que fue simulado por primera vez en una IBM 704. Este modelo supone la unión entre el Pandemoniium de Selfridge y las neuronas de McCulloch y Pitts.

Figura 2.5 Perceptrón con D entradas y M salidas.

Figura 2.6. Funciones de activación típicas en arquitecturas neuronales. A) Tangencial, B) logística

y C) escalón.

Page 23: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

23

Partiendo de un Perceptrón monocapa y observando sus limitaciones computacionales,

se llegó a la arquitectura multicapa (figura 2.7) y aplicándolo a numerosos problemas se

comprobó experimentalmente que éste era capaz de representar complejos mappings y

abordar problemas de clasificación y predicción de gran dificultad. Esta arquitectura suele

entrenarse mediante el algoritmo denominado retropropagación de errores y es considerado un

aproximador universal de funciones.

Este algoritmo de aprendizaje es de tipo supervisado: una vez que se ha aplicado un

patrón de entrada como estímulo de la red, éste se propaga desde la primera capa hasta la

última generando una salida. Esta se compara con un patrón deseado y se calcula un error

para cada una de las salidas.

Posteriormente el error se propaga hacía atrás, partiendo de la capa de salida a través

de las capas ocultas. Este proceso se repite, capa por capa, hasta que todas las neuronas de

la red hayan recibido el error correspondiente a su contribución relativa al error total. Dado el

error recibido, se actualizan los pesos de las conexiones de cada neurona para hacer la red

converja hacía un estado que permita clasificar correctamente todos los patrones de

entrenamiento.

Red Neuronal FIRNet La red FIRNet posee una arquitectura de red neuronal multicapa en la cual cada peso

sináptico está formado por un filtro lineal FIR (Respuesta de impulso finito). Esto implica que

para una excitación de una entrada de duración finita, la salida del filtro también es de duración

finita. Figura 2.8.

Figura 2.7 Perceptrón multicapa con D entradas y M salidas.

Page 24: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

24

Para este filtro, la salida ( )y k corresponde a una suma ponderada de los valores

pasados retardados de la entrada:

0

( ) ( ) ( )T

n

y k w n x k n=

= −∑ (2.6)

Observe que la ecuación anterior corresponde a una componente de promedio móvil de

un modelo autoregresivo (ARMA). El algoritmo de aprendizaje es una modificación del de

retropropagación; la diferencia consiste en las relaciones temporales implícitas y las

operaciones de filtrado y, debido a esto se le denomina retropropagación temporal.

Ahora bien, si deseamos modelar una serie ( )y k , para cada paso de tiempo la entrada

a la red FIR es el valor conocido ( 1)y k − y la salida $( ) [ ( 1)]qy k N y k= − que es la estimación

del valor original de la serie. Entonces, el modelo queda de la forma:

$( ) [ ( 1)] ( )qy k N y k e k= − + (2.7)

Durante el entrenamiento, el error cuadrático medio (RMS), $2 2( ) (( ( ) ( ))e k y K y K= − ,

se minimiza utilizando la retro-propagación temporal, tomando a ( )y K como repuesta

deseada. Una vez que la red es entrenada la red, la predicción, la predicción a largo plazo se

logra tomando la estimación $( )y K y alimentando ésta de regreso a la entrada de la red [6].

Figura 2.8. Red FIRNet.

Page 25: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

25

Red Neuronal Probabilística Este tipo de red es básicamente un clasificador cuyas bases formales se encuentran en

la Teoría de Probabilidad. Fue diseñada como un algoritmo de clasificación que se entrena con

miembros de una o más clases, para posteriormente asignar nuevos elementos a las clases

conocidas. Esta red se basa en la estadística de Bayes6, lo que implica conocer la función de

densidad de probabilidad y para inferirla a partir de los datos de entrenamiento, se aplica el

método de estimación de la densidad de Parzen, el cual estima la función de densidad

univariada a partir de una muestra aleatoria, el estimador converge en forma asintótica a la

distancia verdadera conforme la muestra de daEos se incrementa.

Éste método utiliza una función de peso ( )W d llamada kernel, la cual tiene su valor

más grande en 0d = , mismo que decrece rápidamente conforme el valor absoluto de d se

incrementa. Estas funciones de peso están centradas en cada dato de entrenamiento y el valor

de cada función de la muestra de datos está determinado por su distancia d respecto del dato

muestra.

Matemáticamente la función de densidad de probabilidades para una muestra de

n datos se expresa como:

1

1( ) ( )n

i

i

x xg x Wnσ σ=

−= ∑ (2.8)

El parámetro de escalamiento define el ancho de la curva de campana que rodea a

cada muestra. La función de peso W más usada es la función Gaussiana. La arquitectura de

esta red consiste de una capa de entrada, una capa de patrones, una capa que suma las

funciones de densidad de probabilidad y una capa de salida [6].

6 Thomas Bayes. Matemático Británico (1702 - 1761) que estudio el problema de la determinación de la probabilidad de las causas a través de los efectos observados. El teorema que lleva su nombre se refiere a la probabilidad de un suceso que se presenta como suma de diversos sucesos mutuamente excluyentes [7].

Page 26: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

26

Capa de Kernel producto interno

Support Vector Machines Las SVM son sistemas de aprendizaje introducidos por Vladimir Vapnik7 que utilizan un

espacio de hipótesis de funciones lineales en un amplio espacio de características, las cuales

son entrenadas con un algoritmo de optimización que implementa una tendencia de

aprendizaje estadístico.

Estas máquinas pueden ser aplicadas a resolver el problema de predicción de series

de tiempo mediante la siguiente representación: si tenemos una serie de tiempo

1 2{ , ,..., }NST x x x= podemos separarla en ventanas 1( ,..., )i i pw x x + −= de tamaño p. En la

figura 2.9 se muestra su arquitectura.

La característica de estos modelos, es el uso de funciones de kernel para extender la

clase de funciones de decisión al caso no lineal. Esto se hace mapeando los datos desde el

espacio de entrada X a un amplio espacio de características χ mediante una función Φ y

resolviendo el problema de aprendizaje lineal enχ. La función real Φ no necesita ser conocida,

es suficiente tener información del kernel k que calcule el producto interno en espacio de

características. Para las series de tiempo, se ha demostrado que información dentro de una

ventana puede ser obtenida de otras que son similares en términos de la distancia euclidiana

entre ellas [1].

7 Vladimir Naumovich Vapnik. Matemático Soviético pionero en la Teoría del Aprendizaje. Trabajo en el “Institute of Control Science” en Moscú de 1961 a 1990. Con su teoría de Support Vector Machina demostró su utilidad en numerosos problemas en el área de Machina Learning.

Figura 2.9 Arquitectura de una Máquina de Soporte Vectorial.

Page 27: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

27

Funciones de Base Radial Este modelo es unidireccional empleado para aproximación de funciones que puede

considerarse de tipo híbrido porque puede implementarse tanto con aprendizaje supervisado

como no supervisado.

Como sucede en el caso de los MLP8, las RBF12 permiten modelar con relativa

facilidad sistemas no lineales, con la particularidad de que el tiempo requerido para su

entrenamiento suele ser mucho más reducido que el del BackPropagation Clásico.

Las redes de base radial se caracterizan porque están formadas por una única capa

oculta y cada neurona posee un carácter local, en el sentido de cada neurona oculta se activa

en una región diferente del espacio de patrones de entrada. Este carácter local viene dado por

el uso de las llamadas funciones de base radial como funciones de activación. Las neuronas de

la capa de salida simplemente realizan una combinación lineal de las activaciones de las

neuronas ocultas. Figura 2.10.

Las RBF y el MLP son redes de ajuste funcional muy relacionadas: ambas son

arquitecturas en capas y unidireccionales. El aprendizaje de las RBF es más rápido que el del

BP, aunque en fase de ejecución las primeras son más lentas, debido a que normalmente

precisan de un elevado número de nodos ocultos. La razón es que las neuronas intermedias de

las RBF actúan localmente, mientras que las del MLP lo hacen globalmente [8].

8 Multi-Layer Perceptron, Perceptrón Multi-Capa por sus siglas en íngles. 12 Radial Basis Function, Funciones de Base Radial por sus siglas en íngles.

Figura 2.10 Arquitectura de las Funciones de Base Radial.

Page 28: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

28

2.4.3 Predicción en el espacio de fase. Las siguientes tres técnicas de predicción se realizan en lo que se conoce como

espacio de fase; una representación gráfica que describe la dinámica de un sistema. A

continuación explicaremos brevemente en que consiste esta idea para posteriormente describir

cómo se realiza la predicción sobre la misma.

La representación en el espacio de fase se utiliza frecuentemente en física e ingeniería

para representar la evolución de un sistema. Normalmente, la magnitud utilizada como

referencia es el tiempo y el lugar geométrico de los puntos que describen la secuencia llamada

trayectoria en un espacio vectorial de dos dimensiones. Cuando las trayectorias convergen en

el tiempo en un patrón determinado, se dice entonces que el espacio de fase es un atractor. En

la figura 2.11 se presenta un diagrama en el espacio de fase de la series de tiempo de Lorenz

[1].

El espacio de fase de una serie de tiempo se puede obtener empleando la técnica de

Delay Coordinate Embeding (DCE) que consiste en calcular para cada una de las muestras

( )x t de la serie un vector m-dimensional ( )y i dado por:

{ }( ) ( ), ( ), (1 2 ),..., ( ( 1) )y i x i x i d x D x i m d= + + + − (2.9)

donde:

i es el índice del eje temporal,

d es el retardo temporal (Time Delay) y

m es la Dimensión Embebida (Embedded Dimention).

Figura 2.11. Diagrama de fase de la serie de Lorenz.

Page 29: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

29

Como se advierte en la figura 2.11, el espacio de fase es tan solo una trayectoria que

describe como evoluciona, a través del tiempo, el comportamiento de un sistema. El proceso

de predicción de un sistema que está representado por medio de una serie de tiempo, consiste

en estimar las trayectorias siguientes a partir de las anteriores [1]. En el capítulo 4, Análisis de

resultados, se describe el conjunto de predictores que fueron utilizados en [1] y comentaremos,

además, otras características de los mismos que nos servirán para comparar nuestros

resultados.

Modelo Lineal en el Espacio de Fase (Nstep) Este modelo de predicción consiste en asumir que es posible ajustar un modelo lineal

de carácter local para cada punto del sistema en el espacio fase para resolver la siguiente

ecuación:

1 ( )n ns f s+ = (2.10)

donde ( )nf s es una función suave no conocida. Realizando la aproximación local para esta

función mediante una expansión de Taylor es posible encontrar la solución a la expresión

anterior. El requisito que se pide en este modelo es la minimización de la varianza de los

puntos. La predicción en este caso es:

1n n n ns a s b+ = + (2.11)

El problema de minimizar la varianza se resuelve mediante un sistema de ecuaciones

lineales acopladas [1].

Modelo de Funciones Polinomiales en el Espacio de Fase (Polynomp)

En este modelo se considera la construcción de un modelo de carácter global que

ajuste los puntos del sistema mapeados en el espacio de fase. La expresión a resolver es:

2 21( ( ))n p n

ns f sσ += −∑ (2.12)

donde pf es una función no lineal en forma cerrada con p parámetros con respecto a los

cuales la expresión anterior debe ser minimizada. Es posible utilizar polinomios, funciones de

base radial, redes neuronales, polinomios octagonales, etc. Los resultados dependen de que

esta función pf sea adecuada para modelar la función no lineal desconocida y de qué tan

deterministas son los datos a modelar.

Page 30: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

30

K-Vecinos cercanos (K-Nearest-Neighbours) La idea principal detrás de este método es predecir el valor objetivo de una nueva

observación a partir de observaciones realizadas en el pasado. La nueva observación es

comparada con todos los elementos de la base de casos. Las k observaciones pasadas más

similares son seleccionadas como referencias para el nuevo candidato. La medida de similitud

se define frecuentemente como la distancia entre las nuevas y las viejas observaciones. Los

valores objetivo de las k referencias son combinadas con un promedio simple para obtener el

valor objetivo de la nueva observación. Este método imita la habilidad humana de reaccionar a

una nueva situación con la ayuda de la experiencia pasada y pertenece a la clase de

algoritmos de aprendizaje basados en el campo de aprendizaje de máquina (Machine Learning).

En el caso de la predicción de series de tiempo, la aplicación de este método consiste

en la reconstrucción del atractor en el espacio fase para después identificar los k vecinos

cercanos que corresponden a estados similares del sistema y que pertenecen a trayectorias

cercanas a otras donde se predice el estado siguiente no conocido [1].

Page 31: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

31

Capítulo 3

Índices de Predictibilidad

de Series de Tiempo

3.1 Introducción. 3.2 Métodos de extracción de reglas gramaticales.

3.2.1 Gramáticas Libre de Contexto. 3.2.2 Algoritmo Sequitur. 3.2.3 Algoritmo NvoGramm.

3.3 Extracción de reglas gramaticales cómo métrica de predictibilidad. 3.3.1 Índice de Predictibilidad Gramatical (algoritmo Sequitur). 3.3.2 Complejidad Gramatical (algoritmo NvoGramm).

3.4 Indicadores de predictibilidad. 3.4.1 Estadísticas. 3.4.2 Teoría de Sistemas Dinámicos no Lineales. 3.4.3 Teoría de la Información. 3.4.4 Análisis de mapas de recurrencia. 3.4.5 Teoría de la computación.

“Hacer preguntas es prueba de que se piensa”

Tagore

Page 32: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

32

3.1 Introducción

El considerar un solo parámetro para medir la predictiblidad como el exponente de

Lyapunov o la entropía de Shannon, no proporciona información suficiente sobre la dinámica

de las series de tiempo, dadas las diferentes interacciones y relaciones entre sus variables. De

este modo, resultaría poco probable determinar si dicho parámetro es un buen indicador de

predictibilidad.

Entre más parámetros o mediciones podamos hacer a un mismo sistema, visto como

una serie de tiempo, con mayor facilidad podremos inferir estas relaciones, construir un modelo

adecuado para, finalmente, determinar su comportamiento futuro. Existen diferentes métricas

de predictibilidad que se han derivado de diferentes campos de estudio: Estadística, Teoría de

Sistemas Dinámicos no Lineales, Teoría de la Información, Análisis de Mapas de Recurrencia y

Teoría de la Computación. De esta última, se desprende el estudio de las reglas de producción

que las gramáticas libres de contexto generan.

Ésta técnica es particularmente interesante, ya que, en vez de analizar una serie bajo

un orden numérico, se realiza a través de secuencias de símbolos que se van repitiendo en

función de la dinámica del sistema, es decir, esta secuencia de símbolos llamadas

producciones, van absorbiendo el comportamiento de la serie, de forma tal, que al final

obtenemos solamente un número total de reglas en las cuales, se encuentra el comportamiento

dinámico de toda la serie.

En este capítulo, describiremos una serie de índices de predictibilidad9 tomadas de [1]

que cumple dos funciones: mostrar un panorama de todos los indicadores desarrollados hasta

el momento tomando en cuenta sus diversos orígenes y serán el punto de referencia con el

cual compararemos nuestros resultados en el capítulo siguiente. Además, en el apartado 3.3

describiremos con detalle las gramáticas libre de contexto y los métodos de extracción de

reglas gramaticales. Y, para finalizar, cual es el indicador que proporciona cada técnica.

9 En la figura 3.1 se muestra, a través de un cuadro sinóptico, un resumen de todas las métricas de predictibilidad de acuerdo a su origen.

Page 33: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

33

I

Índices de predictibilidad

Estadística

Teoría de Sistemas Dinámicos no Lineales

Teoría de la información

Análisis de mapas de recurrencia

Teoría de la Computación

Correlación de Pearson Tiempo de correlación Exponente de Hurst

Exponente de Lyapunov Dimensión de Capacidad Dimensión de Correlación Dimensión Fractal Dimensión Embebida

Información Mutua Promedio Entropía de Shannon

Entropía Espacio-Temporal Porcentaje de Determinismo Porcentaje de Recurrencia

Complejidad relativa Complejidad gramatical

Figura 3.1. Índices de predictibilidad de acuerdo a su base teórica.

Page 34: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

34

3.2 Métodos de Extracción de Reglas Gramaticales

A continuación definiremos formalmente el concepto de Gramáticas Libres de Contexto y

enseguida, veremos como son utilizadas por los dos algoritmos que hemos seleccionado para

nuestro estudio experimental.

3.2.1 Gramáticas Libre de Contexto Definición

Una gramática libre de contexto (GLC) es una cuádrupla ( , , , )N P SΣ donde:

• N es un conjunto finito no vacío de símbolos llamados No Terminales.

• Σ es un conjunto finito no vacío de símbolos llamados Terminales, con N ∩ Σ = ∅.

• S ∈ N, símbolo especial llamado símbolo inicial.

• P es un conjunto finito de reglas de producción de la forma β∞→ y denominada

“∞ se rescribe como β ” tal que , Pβ∞ ∈

Por convención, representaremos a los símbolos No Terminales con letras mayúsculas

y a los Terminales con minúsculas. De esta forma, una regla de la forma S xN→ significará

que el No Terminal S puede rescribirse como el Terminal x seguido por el No Terminal N .

Se dice que una gramática genera una cadena de terminales si, al comenzar con el

símbolo de inicio, se puede producir esa cadena sustituyendo sucesivamente los patrones que

se encuentran en el lado izquierdo de las reglas de producción de la gramática con las

expresiones correspondientes de la derecha, hasta que solo queden terminales. La secuencia

de pasos de este proceso se le conoce como derivación de la cadena.

A diferencia de otro tipo de gramáticas10, las gramáticas libres de contexto no tienen

restricciones con respecto a la forma del lado derecho de sus reglas de producción, se requiere

tan solo, que el lado izquierdo de cada producción tenga un solo no terminal [4].

El término “libre de contexto” refleja el hecho de que, como el lado izquierdo de cada

regla gramatical únicamente puede contener un solo No Terminal, la regla puede aplicarse sin

importar el contexto donde se encuentre dicho No Terminal. Por ejemplo, considere una regla

de producción como xNy xzy→ . Esta regla dice que el No Terminal N puede sustituirse con

el Terminal z sólo cuando esté rodeado por los Terminales x y y . Por tanto, la capacidad de

eliminar N aplicando la regla dependerá del contexto en vez de ser independiente.

10 Por ejemplo Gramáticas Regulares, Irrestricta [10].

Page 35: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

35

Analizaremos un sencillo ejemplo que demuestra por qué este tipo de gramáticas

resulta el método idóneo como algoritmo indicador de predictibilidad. Al generar una gramática como la de la figura 3.2, el primer paso produce la cadena

zMNz , que presenta la opción de reemplazar el No Terminal M o N en el siguiente paso.

S zMNzM aMaM zN bNbN z

→→→→→

Por consiguiente, para generar la cadena zazabzbz, se puede producir la derivación

siguiendo la regla de aplicar siempre una producción al No Terminal situado más a la izquierda,

dando origen a lo que llamamos derivación por la izquierda. Figura 3.2.

S zMNz zaMaNz zazaNz zazabNbz zazabzbz⇒ ⇒ ⇒ ⇒ ⇒

También puede producirse la derivación aplicando la regla de producción al No

Terminal situado más a la derecha, que daría como resultado una derivación por la derecha.

Figura 3.3

S zMNz zMbNbz zMbzbz zaMabzbz zazabzbz⇒ ⇒ ⇒ ⇒ ⇒

Con esto hemos mostrado que el orden en que se apliquen las reglas gramaticales no

afecta en la generación de la cadena final y resulta evidente cuando reconocemos que, si una

cadena puede generarse a partir de alguna derivación, entonces puede ser generada por una

derivación por la izquierda [4].

Una vez que se ha explicado a detalle lo que son las gramáticas libre de contexto,

continuaremos describiendo dos algoritmos de extracción de reglas gramaticales que se

proponen como métricas de predictibilidad, mismos que más adelante se utilizarán para

compararlos con otras técnicas.

Figura 3.2. Gramática libre de Contexto

Figura 3.3. Derivación por la izquierda

Figura 3.4. Derivación por la derecha

Page 36: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

36

3.2.2 Algoritmo Sequitur

Sequitur es un algoritmo que infiere la estructura jerárquica de una secuencia de

símbolos reemplazando las repeticiones encontradas por una regla gramatical llamada regla de

producción [5]. La secuencia de símbolos mostrada en la figura 3.5, es una secuencia que

contiene la cadena repetida bc. Sequitur forma una regla A → bc, que como se observa

remplaza las cadenas repetidas.

La secuencia de la figura 3.6 muestra como las reglas pueden ser reusadas en reglas

más largas.

Observe como en el ejemplo anterior es posible generar la regla A → abcdbc y

reemplazarla dos veces en la gramática S; o bien, generar en primer lugar la regla B → bc y

posteriormente introducirla en S.

La generación de las reglas tienen dos propiedades: 1) ningún par de símbolos

adyacentes, variables o terminales, aparecen más de una vez en la gramática, si esta

propiedad es violada, el algoritmo añade una nueva variable con su respectiva producción y 2)

cada regla es usada más de una vez, cuando esta propiedad no se cumple la regla es borrada.

La figura 3.7 muestra qué es lo que ocurre cuando estas dos propiedades son violadas.

Secuencia Gramática S → abcdbc S → aAdA A →bc

Figura 3.5. Secuencia con una repetición.

Secuencia Gramática S → abcdbcabcdbc S → AA A → aBdB B → bc

Figura 3.6. Secuencia con varias repeticiones

Page 37: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

37

La primer gramática contiene dos repeticiones de bc, por lo que, la propiedad uno no se

cumple. En la segunda gramática, la regla B solo es utilizada una vez, por tanto la propiedad

dos es violada. Hasta ahora la longitud máxima de las reglas ha sido de solo dos símbolos. Las

reglas de una longitud mayor son formadas por efecto de la restricción de utilidad, con la que

se asegura que cada regla es usada más de una vez.

Este mecanismo se logra ya que si existe una regla corta y después de ésta le siguen

símbolos con los cuales sea igual una ocurrencia en cualquier otro lado, permitirá crear una

nueva regla que contenga símbolos (ya sean Terminales o No Terminales), colocándola en

lugar de estos.

En la figura 3.8 se muestra el resultado de procesar la secuencia de símbolos

abcdbcabcd. En la segunda columna muestra cómo se va leyendo la cadena de caracteres y la

tercera cómo el algoritmo va generando las reglas y de que manera resuelve la violación a las

restricciones que hemos mencionado.

Cuando SEQUITUR advierte el carácter c en el paso 6, el patrón repetido es bc; por

tanto se genera una regla A que lo reemplaza en ambas repeticiones. Notar que el hecho de

que aparezcan patrones duplicados no siempre resultará en una nueva regla. Si un nuevo

patrón aparece en el lado derecho de una regla que ya existe, entonces, no es necesario crear

otra diferente. Esto se refleja en el símbolo 9, en el que el patrón bc se vuelve a repetir. Pero,

como la regla A ya ha sido creada, ésta se vuelve a utilizar reemplazándolo nuevamente. Esto

forma el patrón aA que forma la regla B que lo reemplaza.

Hasta ahora, el lado derecho de las reglas gramaticales ha sido de dos símbolos

únicamente. Las reglas más grandes son formadas por la “regla de utilidad” que asegura que

una regla es usada más de una vez. Esto se muestra en el símbolo 10 de la figura 3.3. Cuando

d aparece en la regla S, el nuevo patrón Bd pudiera generar la regla C. Sin embargo, con la

formación de esta regla, B solo se utilizaría una vez, violando la segunda restricción de

Sequitur. Entonces se remueve B y se utiliza para formar la regla C que la contiene. Este

proceso se realiza exhaustivamente asegurando que efectivamente una regla sea utilizada más

de una vez.

Secuencia Gramática S → abcdbcabcdbc S → AA

A → abcdbc S → CC A → bc B → aA C → BdA

Figura 3.7. Dos gramáticas que violan las dos propiedades

Page 38: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

38

Figura 3.8 Procesamiento de una cadena con el algoritmo SEQUITUR

1 a S → a_________ 2 ab S → ab________ 3 abc S → abc_______ 4 abcd S → abcd______ 5 abcdb S → abcdb_____ 6 abcdbc S → abcdbc_____ bc aparece mas de una vez S → aAdA

A → bc________ 7 abcdbca S → aAdAa

A → bc________ 8 abcdbcab S → aAdAab A → bc________ 9 abcdbcabc S → aAdAabc A → bc S → aAdAaA B → aA S → BdAB_____ 10 abcdbcabcd S → BdABd A → bc B → aA C → Bd________ S → CAC A → bc C → aAd

Page 39: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

39

3.2.3 Algoritmo NvoGramm El algoritmo NvoGramm fue diseñado para detectar patrones significativos en cadenas

de DNA, RNA y clasificación de proteínas. Este es un algoritmo, que estima una medida de

complejidad dentro de una secuencia de símbolos. En comparación con el algoritmo Sequitur,

éste opera de manera más sencilla.

NvoGramm toma un par de símbolos consecutivos de la cadena original y lo busca de

forma exhaustiva a lo largo del resto de la cadena. Si este par se repite más de dos veces le es

asignada una regla, en caso contrario se buscarán el siguiente par. Después, toma

nuevamente dos símbolos, Terminales o No Terminales, vuelve a hacer su búsqueda y lo

asigna a otra regla si se cumple con la condición mencionada. Una vez que ha terminado de

buscar todos los pares o bien, no ha encontrado ninguno; procede a buscar conjuntos de tres

símbolos que estén repetidos al menos dos veces y nuevamente generará reglas de acuerdo a

la condición mencionada. El algoritmo seguirá aumentando en uno el conjunto de símbolos que

buscará y finalizará cuando haya terminado con todos los No terminales de la secuencia

original. Se advierte de inmediato, que las reglas que se van formando pueden ser parte de

otras reglas [11]. Para tener una mejor idea de la operación de ese algoritmo mostraremos un

ejemplo. Por comodidad, escogemos la misma cadena que utilizamos en el algoritmo anterior:

abcdbcabcd. En la figura 3.9 se detalla la explicación.

abcdbcabcd abcdbcabcd aAdAaAd BAB

El par ab es tomado y buscado a lo largo de toda la cadena y solo se repite dos veces, por tanto no es candidato. El par bc es asignado a una regla porque se repite más de dos veces. A bc→ El par aA y Ad solo se repiten dos veces. Entonces se toma la terna aAd que se repite al menos dos veces y se le asigna una regla. B aAd→ De esta manera el conjunto de reglas generadas de la secuencia original son:

S BABA bcB aAd

→→→

Figura 3.9. Generación de Reglas de producción.

Page 40: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

40

3.3 Extracción de Reglas Gramaticales como indicador de Predictibilidad Una vez que hemos explicado la operación de los dos algoritmos que extraen reglas de

producción gramatical, a continuación, mostraremos los indicadores de predictibildad que cada

uno de ellos genera.

3.3.1 Índice de Predictibilidad Gramatical (IPG, Algoritmo Sequitur)

Como se dijo en secciones anteriores, Sequitur genera reglas gramaticales que

extraen la dinámica de una serie de tiempo. Además, este algoritmo nos proporciona el número

de reglas de producción encontradas en cada instante conforme va leyendo la cadena de

símbolos. En la figura 3.10 se muestra esta gráfica para el caso particular de la función seno de

la que se generaron 23 reglas de producción.

0

5

10

15

20

25

30

35

1 100 199 298 397 496 595 694 793 892 991

Serie1

Estas gráficas indican si la búsqueda del número de reglas de producción se estabiliza

después de cierto tiempo o no, en este último caso, significa que el algoritmo seguirá

encontrando reglas.

Número de muestras de la serie.

Figura 3.10. Gráfica de reglas de producción contra el tamaño de la muestra

Page 41: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

41

Si trazamos una recta que se ajuste a la dinámica de la curva como se muestra en la

figura 3.10 y tomamos una pareja de puntos (número de muestras leídas, reglas encontradas),

podemos encontrar fácilmente la pendiente aproximada con la siguiente expresión∗:

m = 12

12

xxyy

−−

(3.1)

Con el valor de esta pendiente, hemos encontrado un índice de complejidad de

predicción de la serie de tiempo analizada. Por comodidad y para que el manejo de este

indicador sea más claro lo hemos multiplicado por 100 para expresarlo como un porcentaje.

Cabe señalar que, el cálculo de este índice en algunos casos, requiere del trazo de varias

rectas, dado que algunas gráficas muestran un comportamiento que no permite hacerlo con

una sola. Ahora bien, ¿por qué decimos que es un indicador de predictibilidad?. Observe que,

si la recta que hemos trazado llega en un momento determinado a ser paralela al eje y, su

pendiente tenderá al infinito, lo que habrá significado que el número de reglas de producción se

incrementa continuamente por tanto, el comportamiento posterior de la serie será poco

probable de ser predecible. Caso contrario, si la línea es paralela al eje x, entonces, el

comportamiento posterior de la serie puede ser descrito con las mismas reglas que ya se

generaron, lo cual implica que, la predicción se puede llevar acabo.

∗ En el apéndice B encontraremos un ejemplo detallado del cálculo de este índice y se mostrarán las graficas que relacionan las reglas de producción contra el número de muestras de todas las series estudiadas.

Figura 3.11. Trazo de un recta para encontrar el Índice de Predictibilidad Gramatical

y = mx + b

Page 42: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

42

3.3.2 Complejidad Gramatical (Algoritmo NVOGRAMM)

Esta medida de complejidad propuesta por Ebeling y Jiménez-Montaño en 1980,

representa un intento por determinar el algoritmo de complejidad de una secuencia. La esencia

de este concepto es comprimir una secuencia de símbolos introduciendo nuevas variables. La

longitud de la secuencia comprimida es tomada como medida de complejidad. Sin embargo,

existen diferentes maneras de medir el tamaño de la secuencia comprimida. El conjunto de

todas las cadenas finitas formadas por los miembros del alfabeto X es llamado semigrupo libre

generado por X denotado por X*. Un lenguaje sobre un alfabeto X es cualquier subconjunto de

X*. Si p y q son símbolos de X*, entonces su concatenación pq es también miembro de X*.

Como se mencionó en apartados anteriores, una gramática libre de contexto es una 4-

tupla G = {N, T, P, S} donde: N es un conjunto finito de elementos llamados no terminales,

incluyendo en símbolo de inicio, T es un conjunto finito de símbolos llamados símbolos

terminales, P es un conjunto de pares ordenados A → q, llamados reglas de producción, tal que

q ∈ (N ∪ T) y A es un miembro de N.

Consideremos una gramática G tal que L(G) = w, el lenguaje generado por G cosiste

en la secuencia w. Estas gramáticas son llamadas descripciones de w. Entonces, la

complejidad gramatical libre de contexto esta definida como:

La complejidad de una regla de producción A → q esta definida por la estimación de la

complejidad de la palabra del lado derecho: q → a1v1… am

vm:

K(A → q) = Σ{[log vi]+1}, (3.2)

donde aj ∈ (N ∪ T), para toda j = 1,2,3,…,m. Donde [x] denota la parte integral del número real.

La complejidad K (G) de una gramática G es obtenida sumando las complejidades de las reglas

individuales. Finalmente, la complejidad de la secuencia original es:

K (w)=K (G (w)) = min {K (G) | G → w} (3.3)

Page 43: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

43

3.4 Indicadores de Predictibilidad A continuación se enlistan algunos indicadores de predictibilidad.

3.4.1 Estadísticas Correlación de Pearson (CP). La correlación mide la relación entre las variables o un rango

de ordenes están relacionados, en particular el coeficiente de Pearson es una medida de

asociación lineal.

Tiempo de Correlación (TC). Es el intervalo de tiempo correspondiente a la correlación entre

una variable y otra variable o consigo misma.

Exponente de Hurst (EH). El exponente de Hurst permite determinar si el fenómeno

representado por la serie de tiempo presenta correlaciones de largo alcance (memoria y

persistencia de largo alcance). Si la serie de tiempo posee un comportamiento con persistencia

de tendencia positiva entonces EH > 0.5, si no hay comportamiento predecible entonces EH =

0, o bien, hay un comportamiento con persistencia de tendencia negativa si EH < 0.5.

3.4.2 Teoría de Sistemas Dinámicos no Lineales Exponente de Lyapunov (EL). El exponente de Lyapunov, mide la evolución de trayectorias

vecinas en el espacio de fase. Mide la inestabilidad de la dinámica del sistema debido a

cambios en sus condiciones iniciales.

Dimensión de Capacidad (DCA). La dimensión de capacidad mide el grado de auto-similitud

del sistema (comportamiento invariante ante cambios de escala espacial), permite cuantificar el

grado de heterogeneidad de la señal a diferentes escalas.

Dimensión de Correlación (DCO). La dimensión de correlación mide la cantidad de veces que

la trayectoria del atractor del sistema pasa por una vecindad dada en el espacio de fase,

cuantifica la correlación espacial local entre puntos de la trayectoria en el espacio de fase, sin

tomar en cuenta el grado de correlación temporal.

Dimensión Fractal (DF). La dimensión fractal mide el número de estados N del sistema

presentes en un volumen de radio R.

Dimensión Embebida (DE). Define la dimensión para la reconstrucción del espacio de fase

donde se encuentra la trayectoria de la dinámica del sistema representado por la serie de

tiempo.

Page 44: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

44

3.4.3 Teoría de la información Información Mutua Promedio (IMP). Mide el promedio de información que poseen en común

una medición en el instante t1 respecto a una medición en el instante t2.

Entropía de Shannon (ES). La entropía de Shannon, es una medida de la cantidad de

información que se obtiene al tomar una medida para especificar el estado del sistema.

3.4.4 Análisis de Mapas de Recurrencia

Entropía Espacio-Temporal (EET). La entropía espacio-temporal, cuantifica de forma global

grado de no correlación de los datos mediante el análisis de recurrencia. A mayor porcentaje

de EET menor cantidad de estructuras en el mapa y por lo tanto menor correlación entre los

datos.

Porcentaje de Determinismo (DET). Permite medir el grado de determinismo en el sistema

por medio del análisis de mapas de recurrencia.

Porcentaje de Recurrencia (REC). Permite medir el grado de recurrencia (periodicidad y

estructura) entre los datos de la serie de tiempo. Indica la presencia de patrones repetitivos en

la serie de tiempo por medio de mapas de recurrencia.

3.4.5 Teoría de la Computación

Reglas de Producción (RP). La generación de gramáticas a partir de una serie de tiempo

permite dar una medida de complejidad (computacional) en la cual a mayor número de reglas

de producción necesarias para generar una gramática, mayor es la dificultad para la predicción

o modelado de la serie. Abundaremos más en este tema en el próximo apartado.

Complejidad Relativa LZ (CRLZ). Mide el número de nuevas subcadenas descubiertas

conforme la secuencia evoluciona de izquierda a derecha. Cada nueva subcadena incrementa

en 1 la complejidad. Esta medida esencialmente toma en cuenta las repeticiones de

subcadenas a todos los niveles estructurales tomando en cuenta no solo la dinámica de la

cadena sino también su jerarquía.

Page 45: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

45

Capítulo 4

Procedimiento experimental y

análisis de Resultados

4.1 Introducción. 4.2 Procedimiento experimental.

4.2.1 Descripción de las series de estudio. 4.2.2 Parámetros obtenidos de los algoritmos estudiados. 4.2.3 Parámetros conocidos. 4.2.4 Primer análisis de correlación. 4.2.5 Parámetros en el espacio de fase. 4.2.6 Segundo análisis de correlación.

4.3 Análisis de resultados, comparación de metodologías y alcances.

“Hasta el más grande de los viajes empieza dando un paso”.

Benjamín Franklin

Page 46: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

46

4.1 Introducción

Hasta el momento se han definido las técnicas de predicción en tres diferentes campos:

Estadística Clásica, Inteligencia Artificial y predicción en el Espacio de Fase. También, se ha

explicado como operan los algoritmos de extracción de reglas gramaticales y qué índices de

predictibilidad proporcionan cada uno de ellos. En este capítulo describiremos el método

experimental que se ha desarrollado, la metodología que se llevó a cabo para evaluar los dos

algoritmos de extracción de reglas gramaticales utilizados, analizaremos resultados obtenidos y

finalmente haremos una reflexión acerca de los mismos.

4.2 Procedimiento Experimental La metodología realizada para analizar los algoritmos de extracción de reglas

gramaticales es la siguiente:

1. Describiremos el conjunto de series de tiempo que fueron utilizadas.

2. Este conjunto de series se someterán a los algoritmos de extracción de reglas

gramaticales que fueron descritos en el capítulo anterior (Algoritmo Sequitur y

Algoritmo NvoGramm) y se mostraran los resultados correspondientes.

3. Se mostrarán los índices de predictibilidad que fueron tomados de [1].

4. Realizaremos un primer análisis de correlación con estos resultados.

5. Mostraremos los errores asociados con la predicción de series de tiempo en el espacio

de fase tomados de [9].

6. Se realizará un segundo análisis de correlación del índice de complejidad de predicción

y complejidad gramatical con estos últimos.

En la figura 4.1 se muestra un diagrama a bloques de la metodología propuesta.

Page 47: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

47

Esta metodología nos permitirá observar cual es el comportamiento de los resultados que

reportan las técnicas gramaticales en función de los que se obtienen con otras técnicas para,

finalmente, corroborar si efectivamente la hipótesis planteada corresponde con lo que se

obtuvo.

Descripción de 25 Series de Tiempo,

normalizadas a 1000 datos

cada una

Extracción de parámetro que caracterizan a las Series de

tiempo

14 parámetros conocidos

Índice de Predictibilidad gramatical de Algoritmo

Sequitur(IPG)

Complejidad Gramatical del algoritmo NvoGramm

Correlación de Pearson entre todos los índices

Primer Resultado: Ortogonalidad de

parámetros

Medición del error RMSE de la predicción en

el espacio de fase.

Correlación de Pearson

entre El error RMSE y los índices de técnicas

gramaticales

Segundo Resultado:

elección de un predictor en base

al valor de correlación

Figura 4.1. Metodología propuesta para el análisis de predictibilidad de Series de Tiempo

Page 48: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

48

4.2.1 Descripción del Conjunto Experimental de Series de Tiempo

Para realizar el análisis se seleccionaron un conjunto de 25 series. Este conjunto es

una muestra representativa de las series de tiempo utilizadas en el análisis y evaluación de

técnicas de predicción que se han reportado en la literatura especializada [1]. Son también

representativas de una clasificación básica de referencia, en este caso, en base a su

comportamiento dinámico (periódico, cuasi periódico, caótico, complejo y estocástico) y fue

propuesta originalmente por Figueroa-Nazuno et. al. en diversas publicaciones [1]. Es

importante señalar que este conjunto de series fue estandarizado a los primeros 1000 datos. A

continuación se describe cada una de las series estudiadas en esta tesis.

1. Serie Seno. Serie Periódica de diez ciclos generada por la función: ( ) ( )f x seno x=

Figura 4.2. Serie Seno.

Page 49: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

49

2. Vanderpol: Serie periódica generada por la ecuación diferencial que es un modelo de un circuito oscilador de un tubo de vacío. Su ecuación es de la forma:

2

2 22 ( ) 0d y dyy y

dt dtη ω+ − + =

3. Serie Qperiodic2. Serie cuasi-periódica obtenida de la medición de una variable de

velocidad (cm/s) en un experimento anular para reproducir un flujo de Coutte (Reológía). Nota:

las condiciones experimentales no se proporcionan en la literatura.

Figura 4.3. Serie Vanderpol.

Figura 4.4. Serie Qperiodic2.

Page 50: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

50

4. Serie Qperiodic3. Serie cuasi-periódica obtenida de la medición de una variable de

velocidad (cm/s) en un experimento anular para reproducir un flujo de Coutte (Reológía). Nota:

las condiciones experimentales no se proporcionan en la literatura.

5. Mackey-Glass. Serie caótica generada por una ecuación diferencial de retardo temporal:

modelo de formación de células sanguíneas blancas (linfoncitos). La ecuación es de la forma:

10

( )( )1 [ ( )]

dx ax tbx tdt x t

ττ

−= − +

+ −

Figura 4.5. Serie Qperiodic3.

Figura 4.6. Serie Mackey-Glass.

Page 51: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

51

6. Logistic. Serie Caótica generada por un mapa: este mapa se puede pensar como un

modelo ecológico de las variaciones anuales de insectos. Su expresión matemática es:

1 (1 )n n nx rx x+ = −

donde n = año, x= Número de insectos que nacen y r número de huevos puestos por cada

insecto que eclosionan al año n+1.

7. Lorenz. Serie caótica generada por un sistema de ecuaciones diferenciales: modelo de

convección de fluidos (convección Rayleigh-Benard) la cual se presenta en la

atmósfera terrestre. El sistema de ecuaciones es de la forma:

dX X YdtdY XZ rX YdtdZ XY bZdt

σ σ= − +

= − + −

= −

%

%

donde σ , r% , b% son parámetros adimensionales, X es proporcional a la velocidad del flujo de

fluido circulatorio, Y caracteriza la diferencia de temperatura entre regiones de fluido

ascendentes y descendentes y Z caracteriza la distorsión del perfil de temperatura vertical con

respecto de su variación de equilibrio.

Figura 4.7. Serie Logistic.

Page 52: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

52

8. Rossler. Series caótica generada por un sistema de ecuaciones diferenciales: modelo

simplificado de Lorenz; el sistema de ecuaciones tiene la forma:

( )

0.2

0.4 5.7

x y z

y x y

z xz z

= − +

= +

= + −

9. Ikeda. Serie caótica generada por un mapa: modelo de la dinámica de pulsos de luz que

viajan a través de un medio no lineal. La expresión matemática es como sigue:

2

( 1) *exp( ( ))(1 ( ) )

pz n a R iz n

φ+ = + −+

donde ( )z n representa al pulso que viaja a través de dicho medio.

Figura 4.8. Serie Lorenz.

Figura 4.9. Serie Roosler.

Page 53: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

53

10. Henon. Serie caótica generada por un mapa. Modelo simplificado del mapa de Poincaré

para el modelo de Lorenz. La expresión matemática es de la forma:

2

1.40.3

( 1) 1 * ( ) ( )( 1) * ( )

abx n a x n y ny n b x n

==

+ = − ++ =

11. Cantor. Serie caótica generada por el conjunto de Cantor (teoría de conjuntos), el cual es

un conjunto cerrado que consiste enteramente de puntos de frontera cada uno de los cuales es

un punto límite de dicho conjunto [1].

Figura 4.10. Serie Ikeda.

Figura 4.11. Serie Henon.

Page 54: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

54

12. D1 (Concurso Santa Fe). Serie compleja generada por el modelo de la dinámica de una

partícula amortiguada en un potencial de interacción. El potencial de interacción es de la forma:

( ) 122 2 2 2 2 2

4 1 2 3 4 2 1 2 1 1( * ) *V a x x x x a x x a x= + + + − −

La fuerza se expresa como:

( )* *F A Sen w t=

en la dirección 3x y la disipación es igual a:

*disipación velocidadγ= − . El valor de 1a tiene un pequeño desplazamiento producido por

la integración de una variable aleatoria Gaussiana. El observable que se obtiene es:

( ) ( )2 2 2 21 2 3 40.3 0.3x x x x− + − + +

Figura 4.12. Serie Cantor.

Page 55: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

55

13. Láser (Concurso Santa Fe). Serie compleja obtenida a partir de mediciones experimentales

de la intensidad de pulsos de láser NH3 infrarrojo lejano. Condiciones de la frecuencia:

frecuencia serie láser ≥ 3*frecuencia serie A1 [1].

Figura 4.13. Serie D1.

Figura 4.14. Serie Láser.

Page 56: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

56

14. Dow Jones. Serie compleja obtenida a partir del Índice Dow Jones del NYSE

(New York Stock Exchange).

15. Kobe. Serie compleja obtenida a partir de un acelerograma del sismo de Kobe del 16 de

enero de 1995.

Figura 4.15. Serie Dow Jones.

Figura 4.16. Serie Kobe.

Page 57: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

57

16. El niño. Serie compleja obtenida a partir de la medición experimental de la dinámica de una

variable del fenómeno climático del El niño.

17. HIVDNA. Serie compleja obtenida a partir del código del DNA del virus de

Inmunodeficiencia Humana HIV (1=A, 2=C, 3=G, 4=T).

Figura 4.17. Serie El niño.

Figura 4.18. Serie HIVDNA.

Page 58: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

58

18. Human DNA. Serie compleja obtenida a partir del código del DNA humano.

19. Lovaina (Concurso Universidad Lovaina). Serie compleja generada a partir de datos en

formato ASCII.

Figura 4.19. Serie Human DNA.

Figura 4.20. Serie Lovaina.

Page 59: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

59

20. Plasma. Serie compleja generada a partir de la medición de una variable de un

experimento con plasma.

21. PRIMOS. Serie compleja generada a partir de la generación de números primos.

0 100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

35

22. S&P500. Serie compleja obtenida a partir del Índice financiero de Standard & Pool para las

500 empresas más importantes de la bolsa de valores de Nueva York.

Figura 4.21. Serie Plasma.

Figura 4.22. Serie Primos.

Page 60: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

60

0 100 200 300 400 500 600 700 800 900 1000-3

-2

-1

0

1

2

3

4

23. Star. Serie compleja obtenida a partir de la medición de la intensidad luminosa de una

estrella variable.

0 100 200 300 400 500 600 700 800 900 1000-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

24. Browian Motion. Serie estocástica generada a partir del modelado del movimiento

browiano (proceso de ruido blanco integrado).

Figura 4.23. Serie S&P500.

Figura 4.24. Serie Star.

Page 61: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

61

0 100 200 300 400 500 600 700 800 900 1000-4

-2

0

2

4

6

8

25. White noise. Serie estocástica generada a partir del modelado de proceso de ruido blanco

(ruido aleatorio uniforme).

0 100 200 300 400 500 600 700 800 900 10000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 4.25. Serie Browian Motion.

Figura 4.26. Serie White Noise.

Page 62: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

62

4.2.2 Parámetros obtenidos de los algoritmos estudiados A continuación se muestran las tablas con los resultados obtenidos de los algoritmos

Sequitur y NvoGramm de extracción de reglas gramaticales. En la figura 4.30 encontraremos

los resultados obtenidos con el algoritmo Sequitur: ICP y número de reglas. La figura 4.31

muestra los correspondientes al algoritmo NvoGramm: complejidad gramatical.

Serie de tiempo

Número de

Reglas

IPG (%)

Browian motion 84 20.0 Cantor 11 10.0 D1 91 60.6 Dow jones 64 50.4 El niño 82 60.6 Henon 68 30.6 Hivdna 72 50.5 Humandna 50 40.2 Ikeda 8 10.0 Kobe 78 40.5 Laser 65 40.0 Logistic 60 50.0 Lorenz 60 14.2 Lovaina 79 23.0 Mackey glass 74 17.0 Plasma 90 36.0 Primos 76 28.0 Qperiodic2 65 37.0 Qperiodic3 74 19.0 Rossler 71 27.0 S&p500 82 21.0 Sine 26 25.0 Star 89 34.0 Vanderpol 27 15.0 whitenoise 72 37.0

Figura 4.27. Tabla de Número de reglas de producción e IPG del algoritmo Sequitur.

Page 63: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

63

4.2.3 Parámetros conocidos

En la figura 4.32 se muestra la lista de parámetros, derivados de las técnicas de

Sistemas Dinámicos no Lineales, con los cuales haremos el análisis de correlación.

Serie de tiempo

Complejidad Gramatical

Browian motion 649 Cantor 806 D1 711 Dow jones 554 El niño 674 Henon 507 Hivdna 466 Humandna 435 Ikeda 335 Kobe 776 Laser 661 Logistic 381 Lorenz 416 Lovaina 650 Mackey glass 782 Plasma 668 Primos 600 Qperiodic2 532 Qperiodic3 676 Rossler 596 S&p500 746 Sine 170 star 777 Vanderpol 342 whitenoise 934

Figura 4.28.Tabla de complejidad gramatical del algoritmo NvoGramm.

Page 64: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

64

Seri

e d

e T

iem

po

Exp

onen

te d

e L

yapu

nov

Dim

ensi

ón d

e co

rrel

ació

n

Dim

ensi

ón d

e ca

paci

dad

Dim

ensi

ón

frac

tal

Dim

ensi

ón

embe

bida

Ent

ropí

a es

paci

o te

mpo

ral

(%)

Rec

urre

ncia

Browian motion

2.043 1.103 0.907 2.78 5 0 11.77

Cantor 5.728 0.658 0.661 0 5 84 2.193 D1 1.288 2.053 0.986 1.05 7 39 3.30 Dow jones 0.144 1.035 0.887 2.31 12 2 98.85 El niño 2.322 1.637 0.971 2.59 9 65 0.32 Henon 2.301 0.991 0.997 1.67 2 51 9.43 Hivdna 0.00 5.017 0.953 0.00 8 0 0.004 Humandna 0.322 1.037 0.983 0.55 12 0 24.915 Ikeda 1.452 1.019 0.983 4.14 5 53 0.548 Kobe 1.102 1.053 0.904 1.8 6 78 57.046 Laser 0.949 2.096 0.961 1.94 9 47 10.71 Logistic 0.76 0.93 0.941 1.28 2 78 8.61 Lorenz 0.601 1.025 0.965 1.44 5 57 32.88 Lovaina 1.069 1.027 0.958 2.39 5 47 0.547 Mackey glass 1.481 1.025 0.983 2.25 7 50 0.510 Plasma 3.383 0.967 0.821 0.52 10 81 1.683

Primos 0.594 3.55 0.044 0.79 3 80 9.705

Qperiodic2 0.925 0.923 0.679 1.1 5 0 16.13 Qperiodic3 1.383 0.96 0.605 2.76 5 0 16.13 Rossler 1.049 1.026 0.994 1.82 2 0 6.38 S&p500 3.569 1.0260 0.859 0.6 3 87 20.86 Sine 0.517 0.228 0.246 0.85 2 0 19.55 star 3.289 1.144 0.963 3.39 7 53 16.43 Vanderpol 1.864 0.984 0.989 1.14 2 0 7.82 whitenoise 1.606 2.086 0.983 6.09 10 79 0

Figura 4.29 .Medición de las características de las Series de Tiempo (1).

Page 65: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

65

Seri

e d

e T

iem

po

Det

erm

inis

mo

Ent

ropí

a de

sh

anno

n

info

rmac

ión

mut

ua p

rom

edio

Frec

uenc

ia

dom

inan

te

Com

plej

idad

re

lativ

a L

Z

Exp

onen

te d

e H

urst

Cor

rela

ción

de

Pear

son

Browian motion

62.19 3.71 23 0 0.169 0.537 0.991

Cantor 0 0 1 0.421 1.056 0.0008 -0-023 D1 60.22 0.852 7 0 0.229 0.312 0.960 Dow jones 98.88 6.43 26 0 0.199 0.563 0.995 El niño 44.212 3.52 8 0 0.209 0.447 0.982 Henon 0.637 0.020 17 0.460 0.637 -0.033 -0.32 Hivdna 31.33 1 4 0 0.807 0.0013 0.005 Humandna 98.24 7.28 20 0 0.049 0.5624 0.998 Ikeda 0.00 0 6 0.323 0.787 -0-019 -0.244 Kobe 44.36 3.74 2 0.225 0.787 0.015 0.493 Laser 71.46 2.93 2 0.130 0.378 0.087 0.531 Logistic 0.851 0.035 9 0.397 0.717 -0.059 -0.514 Lorenz 92.06 4.78 17 0.0005 0.179 0.755 0.998 Lovaina 69.79 5.57 9 0 0.308 0.509 0.986 Mackey glass 37.51 0.159 4 0.0685 0.478 0.0781 0.852 Plasma 0.748 2.86 3 0.0795 0.976 0.061 0.400 Primos 0.412 1.29 3 0.499 0.976 -0.009 -0.0622 Qperiodic2 97.76 2.44 18 0.13 0.149 0.0015 0.997 Qperiodic3 36.73 4.23 6 0.447 0.438 -0.007 0.942 Rossler 88.04 2.45 13 0.017 0.169 0.561 0.993 S&p500 4.38 2.58 2 0.035 1.036 0.0146 0.158 Sine 62.19 3.71 3 0.0005 0.059 0.94 0.999 star 11.137 3.102 13 0.0185 0.587 0.164 0.879 Vanderpol 66.35 4.98 7 0.112 0.079 0.496 0.968 whitenoise 0 0 1 0 1.066 0.00179 0.0315

Figura 4.30 .Medición de las características de las Series de Tiempo (2).

Page 66: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

66

4.2.4 Primer análisis de correlación.

Para tener una idea de la relación que existe entre las variables de la tabla 4.32 con las

que hemos obtenido de los algoritmos de extracción de reglas gramaticales, recurrimos al

Análisis de Correlación Bivariada. En el apéndice A se describe a detalle en qué consiste este

análisis. En la figura 4.24 se muestran los resultados.

Variables Reglas de Producción ICP Complejidad

Gramatical

Exponente de lyapunov -0.0003 0.0149 0.4357(*)

Dimensión de correlación 0.2957 0.2565 0.0567

Dimensión Capacidad 0.0980 0.1433 0.2478

Dimensión Fractal 0.1170 0.0884 0.4666(*)

Dimensión Embebida 0.2482 0.3905(*) 0.3279

Entropía Espacio-Temporal 0.1090 0.1337 0.4539(*)

Recurrencia -0.0351 -0.0483 -0.1432

Determinismo -0.1186 -0.1020 -0.3451

Entropía de Shannon -0.0164 0.0002 -0.3265

Información Mutua Promedio -0.0267 0.0649 -0.2009

Frecuencia Dominante -0.1853 -0.1883 0.0188

Complejidad Relativa LZ 0.1328 0.1368 0.4709(*)

Exponente de Hurst 0.4093(*) 0.3551 -0.1587

Correlación de Pearson 0.4134(*) 0.3561 -0.2321

Reglas de Producción 1.0000 0.9516(**) 0.3771

ICP 1.0000 0.4401(*)

Complejidad Gramatical 1.0000

Figura 4.31. Tabla del primer análisis de correlación entre los datos de las técnicas de predicción y los datos de los algoritmos estudiados.

Page 67: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

67

En la tabla anterior podemos observar que algunos valores están marcados con uno o

dos asteriscos; esto indica el grado de independencia de unas variables con otras. Esto es,

vemos que las reglas de producción tiene un grado significativo de correlación con la

Correlación de Pearson y el Exponente de Hurst, lo que indica que, la información que

proporciona las Reglas de Producción puede ser la misma que las otras dos. En cambio, con el

resto de las variables, no existe tal correlación, lo que implica que son ortogonales, es decir,

existe nueva información que las demás no tienen.

Se observa también, que el Índice de Complejidad de Predicción (ICP) está

correlacionada con las Reglas de Producción y con la Dimensión Embebida y es ortogonal al

resto. Finalmente, podemos apreciar que la Complejidad Gramatical está correlacionada con el

ICP, Complejidad Relativa LZ, Entropía Espacio-Temporal, Dimensión Fractal y el Exponente

de Lyapunov. Más adelante abundaremos más acerca de estos resultados y lo que significa;

por lo pronto, daremos paso, al segundo análisis de correlación realizado.

4.2.5 Parámetros en el Espacio de Fase.

Como se mencionó en el Capítulo 2, la predicción en el espacio de fase consiste en

estimar las trayectorias que describe el comportamiento de un sistema. Como es de esperar,

esta técnica de predicción no está exenta de presentar errores. Pues bien, en este segundo

análisis de correlación, mediremos la relación que existe entre los resultados obtenidos de los

algoritmos de extracción de reglas gramaticales con los errores derivados de la predicción en el

espacio de fase que se hizo en [6] con el mismo conjunto de series de tiempo.

Estos errores fueron obtenidos utilizando cuatro predictores, diferentes funciones de

base radial y diferentes tipos de distancias. En la figura 4.34 se muestran estas características.

Predictores empleados ☞ Nearest Neighbor

☞ Locally Constant

☞ Radial Basis ☞ Locally Linear

Funciones de Base Radial empleadas ☞ Linear

☞ Cubic

☞ Thin Plate Spline ☞ Guasssian ☞ Multicuadric

Distancias empleadas ☞ Euclidean

☞ Manhattan

☞ Max Norm ☞ Distancia by Cosine ☞ Distance by

Correlation

Figura 4.32. Relación de Predictores, Funciones de Base Radial y Distancias empleadas en el cálculo de errores de

predicción en el espacio de fase.

Page 68: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

68

En [9] se realiza una combinación de todos estos elementos, dando como resultado el

error de predicción en el espacio de fase de cada una de estas combinaciones. Por ejemplo, se

combina el predictor Nearest Neighbor con la función de base radial llamada Linear y con una

distancia Euclidean, posteriormente se hace la medición del error con el mismo predictor pero

con Cubic como función de base radial y con distancia Euclidean, y así sucesivamente. Para

identificar cada una de estas combinaciones, se mostrará una tabla donde se exhiben cada una

de ellas. Figura 4.35.

4.2.6 Segundo análisis de Correlación

En este segundo análisis, correlacionaremos los resultados obtenidos de los algoritmos

de extracción de reglas gramaticales con los errores obtenidos al realizar la predicción en el

espacio de fase. En la figura 4.36 se muestra la correlación realizada de los algoritmos

estudiados con el error que se obtiene de un predictor de referencia y, en la figura 4.37,

mostramos la correlación con el RMSE que se obtuvo.

Thin Plate Spline Cubic Multicuadric Linear

Euclidean A

Manhattan Block B Max Norm C

By Cosine D

By Correlation E

Euclidean F

Manhattan Block G Max Norm H

By Cosine I

By Correlation J

Euclidean P

Manhattan Block Q Max Norm R

By Cosine S

By Correlation T

Euclidean K

Manhattan Block L Max Norm M

By Cosine N

By Correlation O

Euclidean Z

Manhattan Block AA Max Norm BB

By Cosine CC

By Correlation DD

Nearest Neighbor Euclidean EE

Manhattan Block FF Max Norm GG

By Cosine HH

By Correlation II

Euclidean JJ

Manhattan Block KK Max Norm LL

By Cosine MM

By Correlation NN

Locally Linear Locally Constant

Predictor RBF Distancia Identificador

Euclidean U Manhattan Block V Max Norm W By Cosine X By Correlation Y

RADIAL BASIS

Page 69: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

69

Reglas de

Producción ICP Complejidad Gramatical

Reglas de Producción 1 IPG 0.952(**) 1 Complejidad Gramatical 0.377 0.440(*) 1 A -0.294 -0.369 -0.529(**) B -0.294 -0.368 -0.529(**) C -0.294 -0.368 -0.529(**) D -0.294 -0.368 -0.528(**) E 0.004 0.044 -0.134 F -0.294 -0.368 -0.529(**) G -0.074 0.002 -0.187 H -0.294 -0.368 -0.529(**) I -0.085 -0.018 -0.190 J -0.108 -0.039 -0.239 K -0.204 -0.299 -0.331 L 0.126 0.058 0.191 M -0.255 -0.250 -0.196 N 0.095 0.068 0.072 O -0.286 -0.395(*) -0.324 P -0.046 0.092 0.142 Q -0.088 0.068 0.172 R -0.104 0.059 0.131 T 0.069 -0.004 -0.023 U -0.098 -0.024 -0.213 V -0.098 -0.023 -0.212 W -0.294 -0.368 -0.529(**) X 0.018 0.049 -0.106 Y -0.102 -0.027 -0.214 Z 0.221 0.216 0.190 AA 0.260 0.299 0.219 BB -0.294 -0.368 -0.575(**) CC 0.023 0.047 -0.122 DD -0.074 0.004 -0.200 EE -0.097 -0.023 -0.247 FF -0.095 -0.022 -0.247 GG -0.099 -0.025 -0.243 HH -0.097 -0.023 -0.385 II -0.117 -0.045 -0.328 JJ -0.203 -0.136 -0.462(*) KK -0.178 -0.112 -0.474(*) LL -0.587(*) -0.585(*) 0.280 MM -0.174 -0.112 -0.487(*) NN -0.188 -0.069 -0.434

Figura 4.34. Correlación con los errores RMSE en el espacio de fase.

Page 70: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

70

4.3 Análisis de Resultados, comparación de metodologías y alcances.

Como hemos podido observar, el análisis de correlación nos permite determinar el grado

de asociación entre dos o más variables. En el caso del primer análisis de correlación, en la

figura 4.33 vemos por ejemplo que la Complejidad Gramatical que se deriva del algoritmo

NvoGramm tiene una correlación alta con el Exponente de Lyapunov, la Dimensión Fractal,

Entropía Espacio-Temporal, Complejidad Relativa LZ y como era de esperarse con el ICP. Esto

quiere decir que la información que el algoritmo extrae de la serie de tiempo no es nueva ya

que, un incremento de cualquiera de estos indicadores, exige un incremento de la complejidad

gramatical y viceversa. No así en el caso de los parámetros restantes, donde la Complejidad

Gramatical es ortogonal a todos ellos. Lo mismo ocurre con el ICP y las Reglas de Producción.

Esta situación nos siguiere, que sí todos los parámetros conocidos son indicadores de

predictibilidad y la Complejidad Gramatical es ortogonal a ellos, entonces ésta última también

es un índice de predictibilidad ya que se obtiene información nueva, información que no poseen

el resto de los parámetros. Además, con esta información podemos calcular el Coeficiente de

Complejidad de Predicción (CCOP) y las Métricas de Predictibilidad (CDP1 y CDP2) que

sugiere [1], esperando mejorar la predictibilidad y en consecuencia el proceso de predicción.

Para el caso del segundo análisis de correlación, cuyos resultados se muestran en la

figura 4.32 y 4.33, vemos que en la primera, la complejidad gramatical presenta una correlación

alta con los predictores A, B, C, D, F, H, W, AA, JJ, KK y MM pero en forma negativa. Esto

significa que si una Serie de Tiempo que es sometida al algoritmo NvoGramm presenta un

valor muy alto de Complejidad, el error de predicción en el espacio de fase utilizando estos

predictores será muy pequeño. Lo mismo ocurre para el indicador ICP con los predictores O y

LL, y para la Reglas de Producción con el predictor LL.

En [1] se propone una metodología para el estudio de la predictibilidad que incluye:

☞ Cálculo de 14 parámetros ortogonales y

☞ Teniendo lo anterior, se determinan 3 métricas utilizando parámetros libres

conocidas como CCOP, CDP1 y CDP2.

Page 71: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

71

En comparación con nuestra metodología, solamente tenemos que determinar el Índice

den Complejidad Gramatical (IPG) que se deriva del algoritmo Sequitur y la Complejidad

gramatical del algoritmo NvoGramm. Esto nos lleva a presentar las siguientes ventajas:

☞ Menos costo computacional.

☞ Más rápido.

☞ Permite determinar la elección de algún predictor.

En cuanto a los alcances del método, basta decir que si queremos utilizar este método

con una Serie distinta al conjunto que hemos descrito, tenemos que acotarla a los primeros

1000 puntos para que sea congruente con los experimentos realizados y, de esta manera

garantizar que los resultados sean confiables.

Page 72: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

72

Capítulo 5

Contribuciones, Conclusiones

y líneas de

trabajo futuro

5.1 Contribuciones.

5.2 Conclusiones.

5.3 Líneas de trabajo futuro.

“No hay cosas sin interés, tan solo personas incapaces de interesarse. El que no posea el don de maravillarse, más le valdría estar muerto, porque sus ojos están cerrados”.

Albert Einstein

Page 73: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

73

5.1 Contribuciones

Enumeraremos a continuación las contribuciones de este trabajo de investigación:

☞ Una metodología para estudiar la predictibilidad de Series de Tiempo de forma

rápida en comparación a al metodología propuesta por [1].

☞ Demostración de dos procedimientos diferentes que permiten extraer la

complejidad de una Serie de Tiempo basado en Análisis Gramatical.

☞ Se demuestra que estos dos procedimientos tienen correlación muy alta entre sí.

☞ Demostración experimental de que otras técnicas de medición de las

características de las Series de Tiempo, no son buenos indicadores de

predictibilidad.

☞ Se demuestra la relación que existe entre la complejidad de una técnica gramatical

con dos diferentes métodos de predictibilidad.

5.2 Conclusiones

En la actualidad existe un gran esfuerzo en tratar de analizar las series de tiempo por

métodos no convencionales, ya que para muchos sistemas no se han encontrado los modelos

matemáticos que garanticen una predicción suficientemente confiable, siendo la serie de

tiempo la única información con que se cuenta para tratar de comprender el comportamiento de

tales sistemas

En el presente trabajo de tesis, se desarrolló un estudio experimental sobre la

predictibilidad de series de tiempo utilizando algoritmos que extraen reglas de producción

gramatical a partir de una secuencia de símbolos que representa la dinámica de un sistema.

Para llevarlo a cabo, fue necesario el estudio de dos algoritmos que fueron diseñados para

comprimir información, detectar patrones significativos en cadenas de DNA, RNA y clasificación

de proteínas.

Page 74: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

74

Las conclusiones que se derivan de este trabajo son:

☞ Se confirma estadísticamente la hipótesis de que el análisis con el algoritmo

Sequitur nos da un indicador de predictibilidad.

☞ Se demostró que las técnicas de análisis gramatical son ortogonales a algunas

técnicas que existen ara caracterizar las Series de Tiempo.

☞ Se demostró que las dos técnicas de análisis gramatical son diferentes pero miden

la mismo.

☞ Se demuestra como los resultados, derivados por las dos técnicas, pueden ser

usados como indicadores de predictibilidad en el sentido de cantidad de reglas de

producción que presenta una serie.

☞ Se demuestra que la técnica NvoGramm, cuando se compara con medidas

específicas de técnicas de predicción, puede proporcionar reglas en cuanto al uso

de alguna técnica de predicción en particular. 5.3 Líneas de trabajo futuro

A continuación, se enlistan algunas líneas futuras para trabajos relacionados con el

presente.

☞ Elaboración de una herramienta que permita obtener distintos parámetros para

evaluar la predictibilidad de Series de Tiempo.

☞ Emplear los índices de predictibilidad descritos como criterio de selección del

predictor a emplear.

☞ Evaluar si estos índices de predictibilidad pueden ser también empleados como

entradas de un predictor.

☞ Verificar si el uso de estos índices de predictibilidad mejoran las métricas de

predictibilidad CDP1 y CDP2 que propone [1].

Page 75: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

75

Apéndice A Teoría de Correlación

En este apéndice se mostrará en qué consiste la correlación. Se considerará el

problema de medir la relación entre las dos variables y . Por ejemplo, si y

representan la longitud y la circunferencia de una clase particular de hueso en el cuerpo de un

adulto, se podría llevar a cabo un estudio antropológico para determinar si valores grandes de

se asocian con valores grandes de y viceversa. Por otro lado, si X representa la

antigüedad de un automóvil usado y Y su valor en libros, se esperaría que valores grandes de

X correspondieran a valores pequeños de Y y que pequeños valores de X correspondieran

a valores grandes de Y . El análisis de correlación intenta medir la fuerza de tales relaciones

entre dos variables por medio de un simple número que recibe el nombre de coeficiente de correlación.

En teoría se supone con frecuencia que distribución condicional ( | )f x y de Y , para

valores fijos de X , es normal con la media Yμ y la varianza 2Yσ y que, de la misma manera,

X tiene distribución normal con media Xμ y con variancia 2Xσ . La densidad conjunta de X

y Y es entonces:

221 1 ( )( | ) exp

2 2X

X X

xy xf x y μα βπσ σ σ σ

⎧ ⎫⎡ ⎤⎛ ⎞−− +⎪ ⎪⎛ ⎞ ⎛ ⎞⎢ ⎥= − +⎨ ⎬⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭

para x−∞ < < ∞ y y−∞ < < ∞ .

Escribimos la variable aleatoria Y en la forma:

Y X Eα β= + +

donde X es ahora una variable aleatoria independiente del error aleatorio E . Dado que la

media del error aleatorio E es 0, se sigue,

Y Xμ α βμ= +

y

2 2 2 2Y Xσ σ β σ= + .

Page 76: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

76

Al sustituir α y 2σ en la expresión anterior para ( | )f x y , se obtiene la distribución normal

bivariada,

2 2

22

1 1( , ) exp 22(1 )2 1

X X Y Y

X X Y YX Y

x x y yf x y μ μ μ μρρ σ σ σ σπσ σ ρ

⎧ ⎫⎡ ⎤⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞− − − −⎪ ⎪⎢ ⎥= − − +⎨ ⎬⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟− ⎢ ⎥− ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭ para x−∞ < < ∞ y y−∞ < < ∞ , donde

222 2

2 21 X

Y Y

σσρ βσ σ

= − =

La constante σ (rho) recibe el nombre de coeficiente de correlación y juega un

papel muy importante en muchos problemas de análisis de datos de dos a más variables. Es

importante entender la interpretación física de este coeficiente de correlación. Un valor de σ

igual a 1+ implica una relación lineal perfecta con una pendiente positiva, mientras que un

valor de σ igual que 1− resulta de una relación lineal perfecta con una pendiente negativa. Se

podría decir que estimaciones muestrales de σ cercanas a la unidad en magnitud implican

buena correlación o asociación lineal entre X y Y , mientras que valores cercanos a cero

indican poca o ninguna correlación.

Page 77: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

77

Apéndice B Cálculo del Índice de Predictibilidad Gramatical (IPG).

Como se menciona en el capítulo 3, el algoritmo Sequitur genera reglas gramaticales

que extraen la dinámica de la serie de tiempo y proporciona el número de ellas que va

formando conforme va leyendo la cadena de símbolos. Si graficamos estas dos variables

(número de reglas encontradas contra la cantidad de símbolos), obtendremos una curva que

indica si la búsqueda del número de reglas de producción se estabiliza después de cierto

número de símbolos o no, en este último caso, significa que el algoritmo seguirá encontrando

nuevas reglas. A continuación mostraremos las curvas correspondientes a cada serie de

tiempo que fueron estudiadas.

0 100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

Cantiadad de Símbolos

Núm

ero

de re

glas

Figura B.1. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Seno.

Page 78: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

78

0 100 200 300 400 500 600 700 800 900 1000

0

5

10

15

20

25

30

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 10000

10

20

30

40

50

60

70

Cantiadad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 10000

10

20

30

40

50

60

70

80

Cantidad de Símbolos

Npu

mer

o de

Reg

las

Figura B.2. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Vanderpol.

Figura B.3. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Qperiodic2.

Figura B.4. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Mackey-Glass.

Page 79: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

79

0 100 200 300 400 500 600 700 800 900 10000

10

20

30

40

50

60

70

Cantiadad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

2

4

6

8

10

12

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.6. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Lorenz.

Figura B.5. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Logistic.

Figura B.7. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Rossler.

Page 80: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

80

0 100 200 300 400 500 600 700 800 900 1000

0

1

2

3

4

5

6

7

8

9

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

2

4

6

8

10

12

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.8. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Ikeda.

Figura B.9. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Henon.

Figura B.10. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Cantor.

Page 81: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

81

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

100

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.11. Número de reglas de producción encontradas contra la cantidad de muestras de la serie D1.

Figura B.12. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Laser.

Figura B.13. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Dow Jones.

Page 82: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

82

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.14. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Kobe.

Figura B.15. Número de reglas de producción encontradas contra la cantidad de muestras de la serie El Niño.

Figura B.16. Número de reglas de producción encontradas contra la cantidad de muestras de la serie HIVDNA.

Page 83: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

83

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

Cantidad de Símbolos

Núm

eros

de

Reg

las

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

Cantidad de Símbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

100

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.17. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Human DNA.

Figura B.18. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Lovaina.

Figura B.19. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Plasma.

Page 84: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

84

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

Cantidad de Símbolos N

úmer

o de

Reg

las

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

Cantidad de Símbolos

Num

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

Cantidad de Símbolos

Núm

ero

de R

egla

s

Figura B.20. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Primos.

Figura B.21. Número de reglas de producción encontradas contra la cantidad de muestras de la serie S&P500.

Figura B.22. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Star.

Page 85: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

85

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

90

Cantidad de Simbolos

Núm

ero

de R

egla

s

0 100 200 300 400 500 600 700 800 900 1000

0

10

20

30

40

50

60

70

80

Cantidad de Símbolos

Núm

ero

de R

egla

s

Ahora, mostraremos la forma en que hemos calculado el Índice de Complejidad de

Predicción (ICP). En esta ocasión, tomaremos como ejemplo la gráfica de la figura B.13 que

corresponde a la serie Dow Jones. Como se mencionó en la sección 3.3.1 del capítulo 3, si

trazamos una línea recta que se ajuste a la dinámica de la curva como se muestra en la

siguiente en la figura B.25 y tomamos una pareja de puntos (Cantidad de Símbolos, Número de

reglas encontradas), podemos calcular la pendiente de esta recta con la siguiente expresión:

2 1

2 1

y ymx x−

=−

(B1)

Figura B.23. Número de reglas de producción encontradas contra la cantidad de muestras de la serie Browian Motion.

Figura B.24. Número de reglas de producción encontradas contra la cantidad de muestras de la serie White Noise.

Page 86: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

86

En este caso en particular, es necesario el trazo de varias rectas, dado que el

comportamiento de la curva así lo requiere para, posteriormente, promediar las pendientes

obtenidas y, de esta forma, tener un indicador más confiable.

Las parejas de puntos que fueron tomadas para este caso, se ilustran en la siguiente

tabla.

Cantidad de Símbolos leídos

x1

Número de Reglas formadas

y1

Cantidad de Símbolos leídos

x2

Número de Reglas formadas

y2

l1 900 61 989 65

l2 480 40 900 61

l3 231 25 435 35

l1

l2

l3

Figura B.25. Trazo de rectas para la obtención del IPG de la serie Dow Jones

Tabla B.1. Parejas de puntos para el cálculo de la pendiente del indicador ICP

Page 87: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

87

Aplicando la expresión B1a cada pareja de puntos, se tiene:

1

65 61 4 0.0449989 900 89lm −

= = =−

2

61 40 21 0.05900 480 420lm −

= = =−

3

35 25 10 0.0490435 231 204lm −

= = =−

Haciendo un promedio de las tres pendientes y multiplicando por cien, obtenemos lo

que se define como Índice de Complejidad de Predicción (ICP) para la serie de tiempo Dow

Jones.

50.4DowJonesICP =

Page 88: Instituto Politécnico Nacional Centro de Investigación en ...tesis.ipn.mx/jspui/bitstream/123456789/1182/1/1007... · mis ideas, por los jalones de oreja y por el entrenamiento

88

REFERENCIAS [1] E.Bautista. “Medición de la predictibilidad de series de tiempo: un estudio

experimental”, Tesis de Doctorado, Instituto Politécnico Nacional.

Centro de Investigación en Computación, 2004.

[2] Edward Ott, Chaos in Dynamical Systems. Cambridge University Press, 2000.

[3] S. Palacios.”Modelado de Series de Tiempo Hidrológicas”.Tesis de Maestría, Facultad

de ciencias Físicas y Matemáticas, Universidad de Chile, 2004.

[4] Brookshear, Teoría de la computación. Editorial Mc Graw Hill.

[5] Craig G. Nevill-Manning. Inferring Sequential Structure. Tesis de Doctorado, University

of Waikato, New Zeland.

[6] Bonifacio Martín del Brío. Redes Neuronales y Sistemas Difusos, Alfaomega. Zaragoza,

España. 2002.

[7] Murria R. Spiegel. Estadística, Mc Graw Hill, 2001.

[8] Pedro Isasi Viñuela. Redes de Neuronas Artificiales, Pearson-Prentice Hall, 2004.

[9] O.Herrera Alcántara. Análisis de la Predictibilidad de Series de Tiempo usando la

matriz de recurrencia y el espacio de fase. Congreso.

[10] John Martin. Lenguajes Formales y Teoría de la Computación, Mc Graw Hill, 2004.

[11] Miguel A. Jiménez Montaño. Information Hidden in Signals and Macromolecules I.

Symbolic Time-Series Analysis. Nonlinear Dinamics, and Life Sciences, Vol.8, No.4,

204.