Inteligencia Artificial: estudio comparativo de ... · de Víctor Rubio Torroba, dirigido por Angel...

Víctor Rubio Torroba

Angel Luis Rubio García

Facultad de Ciencias, Estudios Agroalimentarios e Informática

Grado en Ingeniería Informática

2014-2015

Título

Director/es

Facultad

Titulación

Departamento

TRABAJO FIN DE GRADO

Curso Académico

Inteligencia Artificial: estudio comparativo de herramientas y entornos de simulación existentes con

aplicación en el ámbito empresarial

Autor/es

publicaciones.unirioja.esE-mail: publicaciones@unirioja.es

Inteligencia Artificial: estudio comparativo de herramientas y entornos de simulación existentes con aplicación en el ámbito empresarial , trabajo fin de

gradode Víctor Rubio Torroba, dirigido por Angel Luis Rubio García (publicado por la

Universidad de La Rioja), se difunde bajo una LicenciaCreative Commons Reconocimiento-NoComercial-SinObraDerivada 3.0 Unported.

Permisos que vayan más allá de lo cubierto por esta licencia pueden solicitarse a los ᬁ

titulares del copyright.

INTELIGENCIA ARTIFICIAL: ESTUDIO COMPARATIVO DE

HERRAMIENTAS Y ENTORNOS DE SIMULACIÓN

EXISTENTES CON APLICACIÓN EN EL ÁMBITO

EMPRESARIAL

VICTOR RUBIO TORROBA 2

Resumen La ciudad de Sevilla dispone de un servicio de alquiler de bicicletas denominado SEVICI. Este

servicio busca poner a disposición de todos los habitantes y visitantes de Sevilla la posibilidad

de desplazarse a través de un medio de transporte que proporciona numerosas ventajas tanto

para el medio ambiente como para la salud del usuario. La gran cantidad de población y turistas

en Sevilla puede llegar a proporcionar problemas para atender a tal demanda de usuarios, por

lo que resultaría de gran ayuda disponer de algún mecanismo para gestionar dicha demanda.

El Big Data, y más concretamente el Machine Learning o aprendizaje automático, permite crear

programas capaces de generalizar comportamientos a partir de información suministrada en

forma de ejemplos también denominado como un proceso de inducción de conocimiento.

Gracias a esta rama de la inteligencia artificial podemos entrenar un modelo al cual

suministraremos información tanto del servicio de alquiler ya mencionado, como de otros

agentes externos que se crean que pueden ser influyentes en el alquiler de bicicletas por parte

de usuarios, para así poder conseguir predicciones sobre la demanda en tiempo real de dicho

servicio.

Para ello, en primer lugar ha sido necesario recoger todos estos datos lo cual no se ha

conseguido de manera directa en todos los casos. Tanto para almacenar dichos datos como para

adecuarlos correctamente a los intereses del proyecto se ha utilizado la distribución Cloudera

CDH de Hadoop. Una vez estos datos han sido adaptados al problema a resolver, se ha realizado

un estudio en profundidad de cada uno de ellos, analizando la influencia que podían tener para

nuestro problema a resolver; lo cual se ha realizado con el lenguaje de programación para

análisis estadístico R.

Finalmente, tras la selección de los datos relevantes para el proyecto, se ha creado y entrenado

una red neuronal capaz de aprender de dichos datos y llegar a predicciones reales sobre la

demanda de alquileres. Para ello ha sido necesario realizar análisis y pruebas sobre las múltiples

posibilidades de ajustes de dicha red, de forma que esta genere predicciones lo más precisas

posibles para este problema concreto. Todo este trabajo se ha realizado mediante tareas de

programación utilizando el lenguaje Python y la librería de aprendizaje automático PyBrain.

Abstract Seville city has bicycle rental service called SEVICI. This service aims to make available to all

residents and visitors of Seville the possibility of travelling through a conveyance which provides

a lot of benefits to both the environment and the health of the user. The large population and

tourists in Seville could provide problems to meet this demand of users, that is why it would be

helpful to have some mechanism to manage this demand.

Big Data and more concretely Machine Learning, can create programs able to generalize

behaviors from information provided as examples, also referred as a knowledge induction

procedure. Thanks to this branch of artificial intelligence we are able to train a model whom we

will provide information of the rental service already mentioned, as other external agents that

could be influential in the rental of bicycles by users, so we can get predictions about the real-

time demand of this service

To be able to get this done, firstly it was necessary to collect all this data which has not been

achieved directly in all cases. Both for storing this data as for properly adapt them to the

interests of the project, Hadoop´s distribution Cloudera CDH has been used. Once all this data

has been adapted to the problem to be solved, a thorough study of all this data has been done,

analyzing the impact they could have on the problem to be solved; which was carried out with

the statistical analysis programming language R.

Finally, after the selection of the relevant data for the project, a neural network has been created

and trained to be able to learn from all this data and come up with realistic predictions of bicycle

rental demand. To get this done it has been necessary to make analysis and testing of all the

multiple possibilities of the different settings of this network, so it generates predictions as

accurate as possible for this particular problem. All this work was performed using the Python

language and machine learning library PyBrain.

Índice de contenido 1. Introducción .............................................................................................................................. 7

1.1 Contexto .............................................................................................................................. 7

1.2 ¿Qué es el Big Data? ............................................................................................................ 7

1.3 ¿Qué tipos de datos puedo explorar y qué técnicas puedo utilizar? .................................. 7

1.4 Problema a resolver ............................................................................................................ 9

2. Alcance del proyecto ................................................................................................................. 9

2.1 Hitos del proyecto ............................................................................................................. 14

2.2 Reuniones ......................................................................................................................... 14

3. Problema detallado ................................................................................................................. 14

4. Tecnologías a utilizar ............................................................................................................... 17

4.1 Cloudera CDH .................................................................................................................... 17

4.2 HDFS (Hadoop Distributed File System) ............................................................................ 18

4.3 MapReduce ....................................................................................................................... 18

4.4 Otras herramientas ........................................................................................................... 19

5. Selección de variables ............................................................................................................. 20

5.1 Obtención de eventos: MapReduce .................................................................................. 20

5.2 Transformación de eventos: Parser Java .......................................................................... 20

6. Preprocesado .......................................................................................................................... 25

6.1 ETAPAS DEL A.E.D. ............................................................................................................. 25

6.2 Variable RENTS (alquileres de bicicletas) .......................................................................... 26

6.2.1 Medidas descriptivas .................................................................................................. 26

6.2.2 Histograma ................................................................................................................. 27

6.2.3 Gráfico de densidad .................................................................................................. 27

6.2.4 Diagramas de dispersión ............................................................................................ 28

6.2.5 Matriz de covarianzas................................................................................................. 30

6.2.6 Correlaciones .............................................................................................................. 32

7. Transformación de variables ................................................................................................... 34

8. Algoritmos de Data Mining ..................................................................................................... 36

8.1 Estructura de una red neuronal ........................................................................................ 36

8.1.1. Capas de una red neuronal ....................................................................................... 37

8.1.2 Función de errores ..................................................................................................... 37

8.2 Metodología a utilizar ...................................................................................................... 39

8.3 Pruebas iniciales ................................................................................................................ 39

8.4 Elección de las funciones de activación de las capas ................................................... 43

8.5 Elección del número de capas y neuronas de la red neuronal .................................... 43

8.6 Ajuste de parámetros del modelo ..................................................................................... 46

9. Seguimiento ........................................................................................................................... 51

10. Conclusiones.......................................................................................................................... 53

11. Agradecimientos ................................................................................................................... 54

12. Bibliografía ............................................................................................................................ 55

Índice de tablas

Tabla 1: Estimación temporal de tareas ...................................................................................... 10

Tabla 2: Medidas descriptivas de la variable RENTS ................................................................... 26

Tabla 3: Cuantiles de la variable RENTS ...................................................................................... 26

Tabla 4: Matriz de covarianzas de la variable RENTS 1/2 ........................................................... 31

Tabla 5: Matriz de covarianzas de la variable RENTS 2/2 ........................................................... 31

Tabla 6: Matriz de correlaciones de la variable RENTS 1/2 ......................................................... 33

Tabla 7: Matriz de correlaciones de la variable RENTS 2/2 ......................................................... 33

Tabla 8: Comparación de errores en red neuronal arbitraria 1/2 .............................................. 41

Tabla 9: Comparación de errores en red neuronal arbitraria 2/2 .............................................. 42

Tabla 10: Comparativa de los errores con diferentes funciones de activación .......................... 44

Tabla 11: Resultados de las funciones de activación escogidas .................................................. 44

Tabla 12: Evaluación de resultados de la estructura de red 1 .................................................... 45

Tabla 15: Tabla de evaluación de resultados del parámetro deltamax ...................................... 47

Tabla 16: Tabla de evaluación de resultados del parámetro etaminus ...................................... 47

Tabla 17: Tabla de evaluación de resultados del parámetro deltamin ....................................... 47

Tabla 18: Contraste entre la estimación inicial y el coste real de tareas .................................... 52

Índice de figuras Figura 1: Tipos de datos más comunes en Big Data ...................................................................... 8

Figura 2: Estructura de descomposición de tareas del proyecto ................................................ 11

Figura 3: Diagrama Gantt 1/2 ...................................................................................................... 12

Figura 4: Diagrama Gantt 2/2 ...................................................................................................... 13

Figura 5: Infraestructura de CDH ................................................................................................ 17

Figura 6: Distribución de datos de HDFS ..................................................................................... 18

Figura 7: Distribución de la computación en MapReduce .......................................................... 19

Figura 8: Gráfico de la variable RENTS ........................................................................................ 26

Figura 9: Histograma de la variable RENTS ................................................................................. 27

Figura 10: Función de densidad de la variable RENTS ................................................................ 28

Figura 11: Gráfico de dispersión fragmentado de la variable RENTS .......................................... 29

Figura 12: Gráfico de dispersión de todas las variables .............................................................. 30

Figura 13: Ejemplo de datos normalizados ................................................................................. 35

Figura 14: Estructura de una red neuronal ................................................................................. 36

Figura 15: Diferencias entre distintos ratios de aprendizaje ...................................................... 39

Figura 16: Tabla clasificatoria del proyecto de alquiler de bicicletas de Kaggle ......................... 48

Figura 17: Contraste entre valores estimados y predichos de alquileres ................................... 50

Índice de fragmentos de código Código 1: Clases Map y Reduce utilizadas para la obtencion de eventos ................................... 21

Código 2: Código utilizado para obtener el número de eventos por día .................................... 22

Código 3: Código utilizado para parametrizar los eventos 1/2 ................................................... 23

Código 4: Código utilizado para parametrizar los eventos 2/2 ................................................... 24

Código 5: Implementación de la red neuronal arbitraria............................................................ 40

1. Introducción 1.1 Contexto

Big Data es desde hace algo más de un año el término de moda dentro del mundo de la

informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60% de los artículos de

opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para

las empresas de cualquier sector, declarando que aquéllos que no se sumen a este nuevo

movimiento se quedarán “obsoletos” en cuanto a la capacidad de reacción en sus decisiones,

perdiendo competitividad y oportunidades de negocio contra su competencia.

1.2 ¿Qué es el Big Data?

Es un término que hace referencia a una cantidad de datos tal que supera la capacidad del

software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El

volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre

una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. Para

entenderlo correctamente, se suele describir mediante 5 Vs:

Volumen: Se generan enormes cantidades de datos cada segundo, por ejemplo mensajes de

twitter, fotos, videoclips…

Velocidad: Referida a la velocidad a la que se generan los datos y son distribuidos.

Variedad: Estos datos corresponden a diferentes tipos de datos, tanto estructurados como no

estructurados.

Veracidad: referida a la autenticidad o fidelidad de los datos, lo cual no siempre se cumple.

Valor: Si somos capaces de acceder a todos estos datos, pero no somos capaces de

transformarlos en algo significativo, estos perderán toda su utilidad.

1.3 ¿Qué tipos de datos puedo explorar y qué técnicas puedo

utilizar?

Realmente, uno se debería preguntar ¿qué problema estoy tratando de resolver? Realmente no

se puede decir con total certeza que datos son útiles y cuáles no lo son, pero siempre viene bien

tener un “framework” base, como se recoge en la Figura 1.

Figura 1: Tipos de datos más comunes en Big Data

Uno de los métodos más utilizados en el Big Data es el aprendizaje automático (Machine

Learning). En ciencias de la computación el aprendizaje automático o aprendizaje de máquinas

es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las

computadoras aprender. De forma más concreta, se trata de crear programas capaces de

generalizar comportamientos a partir de una información no estructurada suministrada en

forma de ejemplos. Es, por lo tanto, un proceso de inducción del conocimiento.

Dentro del aprendizaje automático hay distintos tipos de algoritmos; en este proyecto nos

centraremos en el aprendizaje no supervisado. En este algoritmo todo el proceso de modelado

se lleva a cabo sobre un conjunto de ejemplos formado solo por entradas, se desconoce el

resultado, por lo que el sistema tiene que ser capaz de reconocer patrones para los datos de

entrada suministrados y así poder “etiquetarlas”.

Finalmente, el paradigma de aprendizaje y procesamiento que se quiere utilizar para obtener

resultados tangibles va a ser el de redes neuronales artificiales, las cuales están inspiradas en el

comportamiento del sistema nervioso.

1.4 Problema a resolver

Sevilla es una ciudad con gran población y turismo, por lo que es importante que servicios como

el alquiler de bicicletas urbano funcionen correctamente. En este proyecto nos centraremos más

concretamente en la demanda de dicho alquiler; es primordial que siempre haya bicicletas

disponibles para aquellas personas que quieran contratar el servicio, pero el problema no acaba

ahí, ya que la solución más obvia seria aumentar dicho número de vehículos hasta una cantidad

desmesurada, sino en que dicha suma no difiera del alquiler real en una gran medida.

La demanda del servicio no depende únicamente de factores tan evidentes como la población

de Sevilla, sino que existen otras circunstancias que afectan a la demanda no tan evidentes como

pueden ser la meteorología, el calendario de eventos de la ciudad…

El objetivo final de este proyecto es conseguir estimar el volumen de bicicletas alquiladas en la

ciudad de Sevilla a partir de los factores ya mencionados, y para ello se utilizaran tecnologías

relacionadas con los términos Big Data y Machine Learning ya definidos previamente.

Este problema se ha planteado en la empresa Dimartel donde he realizado las prácticas

curriculares y he investigado acerca de los campos de desarrollo e investigación de la inteligencia

artificial, y más concretamente del Big Data. Esta disciplina es capaz de obtener conocimiento a

partir del análisis y el descubrimiento de patrones recurrente dentro de cantidades inmensas de

datos, por lo que la empresa estaba interesada en abordar un problema real y ver qué era capaz

de obtener a partir de únicamente un conjunto de datos. Únicamente faltaba el problema a

resolver u optimizar, y ante la falta de clientes reales se realizó una búsqueda para obtener un

problema “de prueba” con datos reales, y finalmente se decidió que se iba a trabajar con el

servicio de alquiler de bicicletas de Sevilla.

2. Alcance del proyecto Con este trabajo se pretende por un lado ganar experiencia al realizar un proyecto de

dimensiones razonables y en un entorno real, así como también profundizar en el campo del Big

Data y del aprendizaje automático, con el objetivo de lograr un modelo predictivo con un error

razonable para dichas dimensiones, de forma que se logren predicciones con un grado de

precisión aceptable.

El alcance de proyecto se va a definir de acuerdo a su estructura de descomposición de trabajo

recogida en la Figura 2. Además el cronograma presente en la Figura 3 y Figura 4 contiene la

localización de cada paquete de trabajo en el calendario. Las tareas principales a realizar y su

estimación temporal están reflejadas en la Tabla 1.

1.1 Tecnologías a utilizar: Análisis y elección de las tecnologías y herramientas a usar en el

proyecto; diseño del Data Warehouse

1.2 Selección de variables: Identificar datos más relevantes, recopilar e integrar la

información, aplicar técnicas de muestreo adecuadas, selección primaria de variables.

1.3 Preprocesado: Análisis ocular, análisis exploratorio de datos, identificar correlaciones,

eliminar variables no útiles.

1.4 Transformación: Conversión de atributos (Discretización o normalización), reducción o

aumento de dimensionalidad.

1.5 Algoritmos de Data Mining: Creación y validación de modelos o reglas.

1.6 Interpretación y evaluación: Verificar, identificar y evaluar los resultados obtenidos.

2.1 Planificación del proyecto: Objetivos del proyecto, tareas a realizar y estimación

temporal.

2.2 Seguimiento: Control de la evolución del proyecto, contraste entre el coste temporal

estimado inicialmente y el realizado, asi como de las desviaciones con respecto a la

planificación si las hubiere.

2.3 Memoria: Confección de un documento, de acuerdo a los requisitos establecidos por la

Universidad de La Rioja, con toda la información asociada al proyecto realizado.

3.1 Material para la presentación: Desarrollo de todos los elementos a utilizar en la

exposición del proyecto.

3.2 Exposición: defensa del proyecto ante el tribunal, de una duración aproximada de 15

minutos.

Código Tarea Estimación (Horas)

1.1 Tecnologías a utilizar 20

1.2 Selección de variables 15

1.3 Preprocesado 30

1.4 Transformación 30

1.5 Uso de algoritmos de Data Mining 80

1.6 Interpretación y evaluación 30

2.1 Planificación del proyecto 20

2.2 Seguimiento 20

2.3 Memoria 25

3.1 Material para la presentación 20

3.2 Exposición 10

Total 300

Tabla 1: Estimación temporal de tareas

Figura 2: Estructura de descomposición de tareas del proyecto

Figura 3: Diagrama Gantt 1/2

Figura 4: Diagrama Gantt 2/2

1https://data.lab.fiware.org/dataset/alquiler-de-bicicletas

2.1 Hitos del proyecto Los principales hitos del proyecto son los siguientes:

Presentación de la planificación: Semana 2 (9-15 febrero)

Data Warehouse: Semana 4 (23 febrero-1 marzo)

Final del estudio inicial: Semana 7 (16-22 marzo)

Obtención del modelo: Semana 16 (18-24 mayo)

Entrega del proyecto: Semana 21 (24-30 junio)

Defensa del proyecto: Semana 24 (8-15 julio)

2.2 Reuniones Se llegó al acuerdo con el tutor de la empresa de realizar reuniones semanales, generalmente el

primer día de cada semana, con el objetivo presentar los avances obtenidos, las tareas que se

van a realizar y discutir el procedimiento de realizarlas.

Por otro lado, se acordarán reuniones con el tutor de la universidad, correspondientes a la

consecución de los hitos ya mencionados en la planificación, además de una reunión cada dos

semanas de control de proceso.

3. Problema detallado La finalidad de este proyecto es realizar una aproximación en el mayor grado posible de un

proyecto real de Big Data y Machine Learning, pero dada la falta de experiencia, se elige un

problema que podríamos denominar de “testeo”; es decir, al no haber un cliente real se eliminan

riesgos como pueden ser el abandono por parte del cliente, presentación de los entregables en

los plazos solicitados por dicho cliente u otros problemas más propios del ámbito del modelado

como el llegar a un nivel determinado de precisión por parte del modelo para satisfacer los

requisitos del cliente. El hecho de que el problema no sea real, no exime al desarrollador de la

imposición de responsabilidades y toma de decisiones asociadas al proyecto, así como de lograr

un producto con un nivel de calidad razonable.

Dado que el problema a resolver es la obtención de un modelo predictivo del alquiler de

bicicletas de Sevilla, nos encontramos con la necesidad de obtener tanto la información de los

alquileres de bicicletas, como de otros elementos que en primera instancia puedan tener

influencia sobre dicha actividad; temperatura, precipitaciones, rachas de viento, eventos que

hayan tenido lugar…

A la hora de realizar un modelado es importante tener una buena base de datos de

entrenamiento para el modelo, pero es igual de importante conseguir otra base de datos igual

de significativa para el testeo de dicho modelo, de forma que el modelo no se sobreajuste y

“aprenda” a generalizar. En este caso hemos obtenido los mismos datos de las mismas fuentes

pero para el año 2013, esta última base de datos será usada para el testeo mientras que los

datos referentes a 2012 serán usados para el entrenamiento del modelo.

La información asociada al alquiler de bicicletas la encontramos en la página: fiware.org1, en

dicha web encontramos una tabla con información sobre la fecha, número de suscriptores a

largo plazo, suscriptores a corto plazo, tarjetas nuevas y bicicletas alquiladas.

1http://www.tiempoensevilla.es/wxdatasummary.php?year=2012&data=mintemp 2http://onsevilla.com/archivo-2012 3http://es.wikipedia.org/wiki/Hopfield_%28RNA%29 4http://es.wikipedia.org/wiki/Propagaci%C3%B3n_hacia_atr%C3%A1s

Los datos atmosféricos han sido extraídos página web tiempoensevilla.com1; estos a su vez han

sido extraídos de la página oficial de la AEMET. En este problema nos centraremos en los datos

de temperatura máxima, media, mínima, precipitaciones, nivel de humedad, y rachas de viento.

Por último, y quizás el trabajo más laborioso tanto de obtención de la información, como de su

procesamiento, son los eventos que hayan tenido lugar en Sevilla en el año 2012 y 2013. Esta

información ha sido extraída de la página onsevilla.com2, donde podemos encontrar una lista

con todos los eventos. El principal problema encontrado es que estos eventos no contenían su

fecha de una forma directa, por lo que se tuvo que visitar cada link de manera individual y

extraer su información, aumentando así el coste temporal previsto inicialmente.

A la hora de realizar el modelo, el paradigma de aprendizaje a utilizar será la red neuronal,

el cual ha resurgido a partir de los años 80 gracias al desarrollo de la red de Hopfield 3 y el

algoritmo de aprendizaje de retropropagación4, utilizado en los perceptrones multicapa.

Las principales ventajas de usar redes neuronales son:

Auto organización: la red neuronal crea su propia representación de la información,

liberando de esa tarea al usuario

Tolerancia a fallos: debido a que almacena la información de forma redundante

Flexibilidad: resistente a ruidos y otros cambios no importantes en la entrada

Tiempo real: dado que la estructura de una red neuronal es paralela, se pueden obtener

respuestas en tiempo real ante los eventos de entrada.

Finalmente cabe destacar la existencia de “dificultades” o limitaciones que puedan afectar a la

calidad del producto final.

En primer lugar, el proyecto tiene que ser realizado en un espacio de tiempo limitado,

generalmente estos proyectos suelen durar años, y el hecho de que este proyecto tenga una

duración “corta” en comparación a los anteriores, limita las posibilidades de probar nuevos

algoritmos o combinaciones de estos, ajustes más detallados del modelo, entre otras. En

proyectos reales, la duración del proyecto se estima principalmente en función del volumen de

datos y de la precisión que el cliente desea en dicho modelo.

Por otro lado, el tamaño de la base de datos es pequeño, o incluso muy pequeño, en

comparación con otros proyectos del ámbito del Big Data. Esto tiene una repercusión directa en

el modelo; aunque esto no sea siempre cierto, a la hora de entrenar un modelo basado en redes

neuronales, una mayor cantidad de datos permite a la red neuronal aprender operaciones más

complejas y así aumentar el grado de ajuste de dicha red con respecto a nuestro problema. Esto

proporciona grandes beneficios en el caso de que dicho modelo se sobreajuste; esto es, que

pierda la capacidad de generalizar, ya que la finalidad de un modelo es que sea capaz de

responder de una forma más o menos correcta, ante situaciones distintas (que no se encuentren

presentes en la base de datos de testeo), por lo que si dicha red neuronal se sobreajusta, el

algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los

datos, que no tengan ninguna relación o importancia en la función objetivo.

1http://blogthinkbig.com/mare-nostrum-big-data/

Otra de las limitaciones encontradas en este proyecto es la infraestructura hardware disponible;

las grandes empresas o equipos disponen de distintos clústeres de servidores, como puede ser

la supercomputadora Mare Nostrum1 núcleo del Centro de Supercomputación de Barcelona.

Esto permite por ejemplo un procesamiento de datos mucho más completo en muy poco

tiempo, o también la posibilidad de entrenar distintos modelos en paralelo, disminuyendo en

gran medida los costes asignados a la etapa de modelado, así como entrenar redes más

complejas (Deep Learning, o en nuestro caso las Deep Neural Networks, formadas por múltiples

capas ocultas), o trabajar con una mayor cantidad de dimensiones. En este proyecto al ser la

base de datos pequeña no se produce, pero en proyectos de mayor envergadura hay que tener

muy presente la maldición de la dimensionalidad. En la empresa donde se realiza el proyecto se

dispone de un único servidor, con una capacidad de procesamiento pequeña para lo que suele

ser normal en equipos de este ámbito.

Finalmente, y quizás la limitación más importante es la inexperiencia del ejecutor del proyecto,

tanto a la hora de realizar el proyecto en sí, como en los conocimientos necesarios para la

creación y ajuste del modelo. Si tomamos como referencia proyectos reales, el equipo suele

estar formado por matemáticos, estadísticos e informáticos, ya que el trabajo informático como

tal no suele ser tan complicado como un buen preprocesado de datos, selección de las variables

y la posterior creación y ajuste del modelo. En nuestro caso por ejemplo, se podrían haber

implementado otras funciones de activación, otros tipos de funciones de entrenamiento, o

incluso combinar distintos algoritmos con la propia red neuronal: las posibilidades son infinitas.

Para conseguir un buen modelo basado en una red neuronal es necesario comenzar realizando

un análisis de las tecnologías o infraestructuras a utilizar; en especial para el Data Warehouse o

almacén de datos, lo cual es recogido en el apartado 4 de esta memoria. Después, se llevará a

cabo una fase inicial de selección de aquellos datos o variables a usar para la obtención de dicho

modelo (sección 5) y tras dicha elección se procederá a un procesado inicial de estos datos con

el fin de obtener las posibles relaciones que tengan entre ellos, o el grado de influencia de cada

uno de ellos en nuestra variable de salida, u objetivo a predecir, mostrado en el apartado 6.

Previo a comenzar con la implementación de la red neuronal, es necesario realizar una

transformación de las variables para proporcionar a esta red datos “correctos”, o en un formato

adecuado, para obtener el mejor rendimiento posible, esto corresponde al apartado 7 de la

memoria. Una vez realizada esta fase menos “práctica” se comenzara con la implementación de

la red neuronal.

A la hora de implementar una red neuronal hay que tener en cuenta diversos factores como el

tipo de neuronas, capas, funciones de activación o métodos de entrenamiento de los que se

hablarán más adelante, por lo que es necesario un análisis exhaustivo de dichas características

para así intentar que las predicciones sean lo más exactas posibles; todo este estudio está

contenido en la sección 8 de este documento.

Finalmente, se llevara a cabo una fase de interpretación y evaluación de resultados con algún

otro proyecto similar para conocer si los errores obtenidos con nuestra red neuronal son

aceptables o por el contrario, si se pueden mejorar; sección 9.

4. Tecnologías a utilizar La elección de las herramientas y tecnologías a utilizar fue responsabilidad del propio alumno;

En el periodo de prácticas se había realizado un análisis de las distintas herramientas

disponibles, y tras ponerlas en conformidad con la empresa, se procedió a su instalación y uso.

Para el almacén de datos (Data Warehouse), así como para el modelado y preprocesado se

utilizará la distribución Cloudera de Hadoop, la cual integra diversas herramientas de Hadoop.

4.1 Cloudera CDH

Distribución más popular, completa y testeada de Apache Hadoop y de sus proyectos

relacionados. Su infraestructura se puede ver en la Figura 5.

Ofrece de forma unificada SQL interactivo, búsquedas interactivas, control de acceso basado en

roles, así como procesamiento por lotes.

Figura 5: Infraestructura de CDH

4.2 HDFS (Hadoop Distributed File System)

Sistema de archivos distribuido tolerante a fallos y con mecanismos de recuperación ante estos,

diseñado para convertir un cluster de servidores industriales en un pool de almacenamiento

escalable y masivo. Desarrollado específicamente para el procesamiento de cargas de trabajo

de gran escala facilitando dicha escalabilidad, así como flexibilidad y rendimiento. Las claves de

HDFS son arquitectura de escalado, alta disponibilidad, tolerancia a fallos, acceso flexible,

balanceo de carga, replicación y seguridad. Destacar que los datos en HDFS son replicados en

múltiples nodos para conseguir mayor protección de datos y rendimiento, como se puede ver

en la Figura 6.

Figura 6: Distribución de datos de HDFS

4.3 MapReduce

Framework de procesamiento masivo escalable y de procesamiento en paralelo que trabaja de

forma cooperativa con HDFS, como viene explicado en la Figura 7. La computación se realiza en

la ubicación de los datos, en vez de mover dichos datos a la localización del computador, de

forma que el almacenamiento y la computación coexisten en los mismos nodos físicos del

clúster.

MapReduce procesa grandes cantidades de datos sin verse afectado por “cuellos de botella”

como el ancho de banda, aprovechándose de la proximidad de los datos. Contiene un gestor de

recursos que emplea los datos locales y los recursos del servidor para determinar las

operaciones de computación óptimas, también es flexible, dichos procedimientos pueden ser

escritos en prácticamente cualquier lenguaje de programación. Además, dispone de

rastreadores de trabajo y tareas para asegurar que los trabajos fallan independientemente, sin

perjudicar a otros, y que se reinician automáticamente.

Figura 7: Distribución de la computación en MapReduce

Las principales infraestructuras a utilizar serán:

Hive: Infraestructura de almacén de datos que contiene herramientas para realizar

consultas, análisis y resúmenes de datos de grandes bases de datos gracias a su lenguaje

muy parecido a SQL denominado HiveQL cuyo esquema convierte de forma

transparente al usuario las consultas en tareas Map/Reduce, Apache Tez o Spark.

Flume: servicio distribuido, confiable, robusto y tolerante a errores, cuyo objetivo es

realizar la obtención, agregación y transporte de grandes cantidades de datos

provenientes de logs con una arquitectura basada en flujos de datos.

4.4 Otras herramientas Para el estudio estadístico se utilizará el entorno de programación R, el cual proporciona una

gran cantidad de técnicas estadísticas (modelado lineal y no lineal, test estadísticos clásicos,

clasificación, clustering…) y gráficas, además de ser altamente extensible.

Además proporciona una gran cantidad de herramientas intermedias para el análisis de datos,

así como facilidades gráficas para dicho análisis, y su muestra en pantalla o su exportación.

También contiene un lenguaje de programación simple y efectivo, con funcionalidades básicas

como condicionales, bucles, recursividad…así como la posibilidad de enlazar código C, C++ o

Fortran para ser llamados en tiempo de ejecución.

Por otra parte se prevé el uso de PyBrain, librería de redes neuronales en lenguaje Python, para

el modelado de los datos, aunque no se descarta el uso de otras librerías (Scikit-learn) o

lenguajes (Octave) para el contraste y generación de distintos modelos no basados en redes

neuronales.

PyBrain es una librería modular de fácil uso que puede ser usada por usuarios con un

conocimiento básico, pero también proporciona la flexibilidad y algoritmos para la investigación

state-of-the-art.

Contiene algoritmos para redes neuronales: aprendizaje reforzado, aprendizaje no supervisado

y evolución. Su librería está construida alrededor de redes neuronales en el kernel y en todos

los métodos de aprendizaje aceptan una red neuronal como instancia a ser entrenada.

Por último, aquellas funcionalidades extras que se necesiten, como pueden ser las tareas

Map/Reduce de Hadoop o el parseo de ficheros, se realizarán bajo el lenguaje Java.

5. Selección de variables Las principales tareas a la hora de identificar los datos más relevantes, así como de recopilar e

integrar la información dentro del sistema han sido:

1. Obtención de eventos: clase MapReduce

2. Transformación de eventos: clase Parser Java

5.1 Obtención de eventos: MapReduce Nuestra tabla de eventos mencionada en la sección 3 donde se detalla el problema a resolver,

tiene el formato siguiente:

N.Evento1 FechaEvento1

Nuestro objetivo es conseguir para cada día del año todos los eventos que tienen lugar, para

ello usamos MapReduce.

MapReduce leerá archivos del fichero, y tras la función Map, la cual se ejecuta por cada fila,

construiremos pares de valores con el formato (FechaEventoX, N.EventoX) en los cuales la fecha

del evento actuará como clave.

La salida de la función Map, después del procesamiento de todas las líneas, puede ser vista como

un array con el siguiente formato:

(Fecha,Evento) (Fecha,Evento) (Fecha,Evento) …

Estos stream serán proporcionados a las tareas Reduce con el siguiente formato.

(FechaX,Iterator<Evento>)

Para cada fecha única encontrada, de ahí que esta sea la clave, MapReduce incluirá en un

Iterator aquellos valores proporcionados en la función Map.

Finalmente en la operación Reduce, nos bastará con o bien contar cuantos elementos hay en el

iterador, o bien devolver la lista de eventos para cada fecha (nuestro caso), obteniendo una

salida del tipo:

FechaEvento1 N.Evento1 | N.Evento2 | N.Evento3…

FechaEvento2 N.Evento8 | N.Evento123

5.2 Transformación de eventos: Parser Java Recalcando lo mencionado en el apartado anterior, la salida de nuestro programa MapReduce

es un fichero en el que cada línea contiene el siguiente formato:

FechaEventoX N.Evento1|N.Evento2|….

Es decir, por cada día encontrado en el fichero fuente de eventos, obtenemos todos los eventos

registrados. A la hora de introducir esto en nuestra base de datos, necesitamos buscar una

transformación de dicha variable (la lista de eventos registrados en un día determinado), ya que

de por sí esta información es bastante irrelevante. A continuación se presenta el código utilizado

para el proceso MapReduce.

public static class Map extends MapReduceBase implements

Mapper<LongWritable, Text, Text, Text> {

private final static Text fecha = new Text();

private Text evento = new Text();

public void map(LongWritable key, Text value,

OutputCollector<Text, Text> output, Reporter reporter)

throws IOException {

String line = value.toString();

StringTokenizer tokenizer = new StringTokenizer(line,"\t");

if (tokenizer.hasMoreElements()) {

evento.set(tokenizer.nextToken());

fecha.set(tokenizer.nextToken());

output.collect(fecha, evento);

public static class Reduce extends MapReduceBase implements

Reducer<Text, Text, Text, Text> {

public void reduce(Text key, Iterator<Text> values,

OutputCollector<Text, Text> output, Reporter reporter)

throws IOException {

String s = "";

while (values.hasNext()) {

s = s + values.next().toString();

if(values.hasNext())

s=s+ "|";

output.collect(key, new Text(s));

Código 1: Clases Map y Reduce utilizadas para la obtencion de eventos

Una primera aproximación es tener en cuenta el número de eventos por día, en vez del listado

de eventos. Es bastante comprensible que en un día que tenga un gran número de eventos, sea

más probable que haya personas que usen el servicio de alquiler de bicicletas que en otro día

con pocos eventos. Para ello hemos utilizado un parser de ficheros simple, en el que en primer

lugar contamos el número de eventos por día, del fichero obtenido como salida de MapReduce,

y después nos aseguramos que estén presentes todos los días; si un día no contiene ningún

evento este día no estaba incluido en la página de donde se extrajo la información. Por lo que

un día determinado del año 2012 no estará presente si no contiene eventos.

El método utilizado para parsear el fichero se adjunta a continuación:

public class Parser { public static void main(String args[]) { /* * args[0]= nombre fichero entrada * args[1]= separador de columna, en este caso \t * args[2]= separador de eventos, en este caso | * args[3]= fecha inicio, en este caso 2012-01-01 * args[4]= fecha final, en este caso 2012-12-31 * args[5]= nombre fichero salida */ BufferedReader br = null; String linea = ""; StringTokenizer st; PrintWriter pw=null; try { br = new BufferedReader(new FileReader(args[0])); Map<String, Integer> map = new HashMap<String, Integer>(); while ((linea = br.readLine()) != null) { String aux = linea.split(args[1])[1]; st = new StringTokenizer(aux, args[2]); map.put(linea.split(args[1])[0], st.countTokens()); } LocalDate start = LocalDate.parse(args[3]); LocalDate end = LocalDate.parse(args[4]); List<String> totalDates = new ArrayList<>(); DateTimeFormatter dtf = DateTimeFormat.forPattern("dd/MM/yyyy"); while (!start.isAfter(end)) { totalDates.add(start.toString(dtf)); if (!map.containsKey(start.toString(dtf))){ map.put(start.toString(dtf), 0); } start = start.plusDays(1); } pw=new PrintWriter(args[5],"UTF-8"); for (String clave : map.keySet()) { pw.println(clave+"\t"+map.get(clave)); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (br != null) { try { br.close(); pw.close(); } catch (IOException e) { e.printStackTrace(); } } } } }

Código 2: Código utilizado para obtener el número de eventos por día

El estudio de una gran cantidad de datos individuales de una población puede resultar

inoperativo y confuso, por lo que es necesario realizar un “resumen” que permita tener una idea

global de la población, bien para compararla con otras, o para comprobar su ajuste a un modelo

ideal. En nuestro caso de estudio, hemos decidido utilizar como una primera aproximación

intervalos de eventos; estos intervalos distaran en cinco unidades y empezaran a etiquetarse

con el valor 0. Por ejemplo si un día concreto tiene 20 eventos, dicho día tomara como valor de

parámetro 3; ya que es el parámetro que corresponde al intervalo (15,20], o equivalentemente

[16,20]. A continuación se presenta el código utilizado; es bastante sencillo realizar una

parametrización de dicho método, así como no tener que usar tanto condicional (en este caso

con obtener el cociente de la división del número de eventos restándole una unidad entre 5,

obtendríamos el mismo resultado, considerando los límites inferiores y superiores), pero se ha

preferido esta implementación para mostrar claramente como hemos realizado la

parametrización de los eventos.

public class FileParam { public static void main(String args[]) { /* * args[0]= uri fichero * args[1]=separador * args[2]= fichero salida */ String uri = "ficheros/fich.csv"; BufferedReader br = null; String linea = ""; String split = "\t"; PrintWriter pw = null; try { br = new BufferedReader(new FileReader(args[0])); pw = new PrintWriter(args[2], "UTF-8"); while ((linea = br.readLine()) != null) { pw.println(linea.split(args[1])[0] + "\t" + parseaValor(linea.split(args[1])[1])); }

} catch (FileNotFoundException e) {

e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (br != null) { try { br.close(); pw.close(); } catch (IOException e) { e.printStackTrace(); } } } }

Código 3: Código utilizado para parametrizar los eventos 1/2

public static int parseaValor(String val) { int valor = Integer.parseInt(val); if(valor<6) return 0; else if(valor<11) return 1; else if(valor<16) return 2; else if(valor<21) return 3; else if(valor<26) return 4; else if(valor<31) return 5; else if(valor<36) return 6; else return 7; } }

Código 4: Código utilizado para parametrizar los eventos 2/2

6. Preprocesado

Se ha realizado un estudio básico de todas las variables que en un principio se consideran

influyentes. Por motivos de espacio en esta memoria sólo se considera una variable, pero el

estudio completo se puede encontrar en el Anexo 1.

La finalidad de este preprocesado de los datos es examinar dichos datos previo a la aplicación

de cualquier modelo; para ello se llevara a cabo la técnica conocida como Análisis Exploratorio

de Datos (A.E.D).

El Análisis Exploratorio de Datos es un conjunto de técnicas estadísticas cuya finalidad es

conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables

analizadas. Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos

para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos,

tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers)

y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes

(normalidad, linealidad, homocedasticidad).

6.1 ETAPAS DEL A.E.D. A la hora de realizar el A.E.D. se aconseja seguir las siguientes etapas:

1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.

2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un

análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los

datos.

3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis

descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.

6.2 Variable RENTS (alquileres de bicicletas) En primer lugar, es buena idea tener una idea visual de la variable, para ello realizamos un gráfico

de dichos alquileres en función del tiempo, como se puede ver en la Figura 8.

Figura 8: Gráfico de la variable RENTS

6.2.1 Medidas descriptivas El siguiente paso, es obtener una serie de medidas descriptivas para dicha variable, las cuales

se recogen a continuación.

Mínimo 1º cuantil Mediana Media 3º cuantil Máximo

3197 8781 13610 13530 18410 24420

Tabla 2: Medidas descriptivas de la variable RENTS

Cuantiles

0% 25% 50% 75% 100%

3197.00 8781.25 13608.00 18407.50 24415.00

Tabla 3: Cuantiles de la variable RENTS

Media recortada al 5% (más robusta al

ruido)

13535.57

Desviación típica

5604.473

Desviación media absoluta (respecto a la

media)

4982.667

mediana)

7149.838

6.2.2 Histograma

Un histograma es una representación gráfica de una variable en forma de barras, donde la

superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en

forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama,

de la distribución de la población, o la muestra, respecto a una característica, cuantitativa y

continua, de la misma y que es de interés para el observador. De esta forma, se puede evidenciar

comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores

de todas las partes que componen la población o la muestra, o, en contraposición, pueden

permitir observar el grado de variabilidad, y por ende, la dispersión de todos los valores que

toman las partes. El histograma de la variable RENTS está recogido en la Figura 9.

Figura 9: Histograma de la variable RENTS

6.2.3 Gráfico de densidad La función de densidad de probabilidad de una variable aleatoria continua describe la

probabilidad relativa según la cual dicha variable aleatoria tomará un determinado valor.

La probabilidad de que la variable aleatoria “caiga” en una región específica del espacio de

posibilidades estará dada por la integral de la densidad de esta variable entre uno y otro límite

de dicha región. Dicha función de densidad viene recogida en la Figura 10.

Figura 10: Función de densidad de la variable RENTS

6.2.4 Diagramas de dispersión Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas

cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que

determina la posición en el eje horizontal y el valor de la otra variable determinado por la

posición en el eje vertical.

En primer lugar, en la Figura 11, podemos observar el gráfico de dispersión fragmentado de la

variable alquileres a lo largo de los meses del año; en lugar de utilizar la representación como

un conjunto de puntos, se han utilizado diagramas de cajas (boxplots), la parte superior y la

inferior de cada caja representan el recorrido intercuartílico (entre el primer y tercer cuantil), el

segmento que divide la caja corresponde al valor de la mediana, mientras que los extremos que

sobresalen de las cajas corresponden a los valores máximo y mínimo y son denominados bigotes.

Figura 11: Gráfico de dispersión fragmentado de la variable RENTS

Finalmente, en la Figura 12, se recogen los gráficos de dispersión de todas las variables

(extremo inferior izquierda), mientras que en la parte superior derecha se representa el

valor de sus correlaciones. El valor de sus correlaciones se hace más visible a medida que

este aumenta; es decir, en variables con poca correlación, este valor será muy poco visible.

Figura 12: Gráfico de dispersión de todas las variables

6.2.5 Matriz de covarianzas

La covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias.

Es el dato básico para determinar si existe una dependencia entre ambas variables y además es

el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación

lineal.

Cuando a grandes valores de una de las variables suelen mayoritariamente corresponderles los

grandes de la otra y lo mismo se verifica para los pequeños valores de una y la otra, se corrobora

que tienden a mostrar similar comportamiento lo que se refleja en un valor positivo de la

covarianza.

Por el contrario, cuando a los mayores valores de una variable suelen corresponder en general

los menores de la otra, expresando un comportamiento opuesto, la covarianza es negativa.

El signo de la covarianza, por lo tanto, expresa la tendencia en la relación lineal entre las

variables.

Si hay dependencia directa (positiva), es decir, a grandes valores de x

corresponden grandes valores de y.

Si este valor se interpreta como la no existencia de una relación lineal entre

las dos variables estudiadas.

Si hay dependencia inversa o negativa, es decir, a grandes valores de x

corresponden pequeños valores de y.

A continuación se muestra la matriz de covarianzas; Tabla 4 y Tabla 5.

RENTS TMAX TMED TMIN VIENTO

RENTS 31410115 -2445.9606 -2983.8711 -4238.3020 -1806.1210

TMAX -2983.871 65.922483 55.376386 47.126527 2.077882

TMED -2445.961 55.376386 48.853613 43.260415 3.233438

TMIN -4238.302 47.126527 43.260415 40.925023 3.700774

VIENTO -1806.121 2.077882 3.233438 3.700774 14.338383

HUMED -10187.126 -52.150817 -38.709802 -23.848954 -10.179344

PRECIP -4815.308 -5.89770 -3.0508246 -0.5744788 0.8636471

EVENTOS -5472.609 -7.177443 -3.4657534 -0.0238356 -1.0829224

PARAM -106.066 -1.424523 -0.7045857 0.0016259 -0.1887941

Tabla 4: Matriz de covarianzas de la variable RENTS 1/2

HUMED PRECIP EVENTOS PARAM

RENTS -10187.126 -4815.3081668 -0.005472609 -1000.106066

TMAX -52.15082 -5.8897699 -7.177443 -1.424523

TMED -38.70980 -3.0508246 -3.465753 -0.7045857

TMIN -23.84895 -0.5744788 0.02383562 0.00162587

VIENTO -10.17934 0.8636471 -1.08292 -0.1887941

HUMED 188.64859 16.2983681 20.726484 5.452953

PRECIP 16.298368 17.8544673 5.090776 1.154907

EVENTOS 27.264840 5.0907763 44.49680 7.953425

PARAM 5.452953 1.1549068 7.953425 1.533079

Tabla 5: Matriz de covarianzas de la variable RENTS 2/2

6.2.6 Correlaciones

Para poder contar con un indicador que nos permita, por un lado, establecer la covariación

conjunta de dos variables, y por otro, que tenga la universalidad suficiente para poder establecer

comparaciones entre distintos casos, se utiliza el coeficiente de correlación (lineal, de Pearson).

La correlación es por lo tanto una medida de covariación conjunta que nos informa del sentido

de esta y de su relevancia, que está acotada y permite la comparación entre distintos casos.

El coeficiente de correlación entre dos variables puede definirse como la covarianza existente

entre sus dos variables tipificadas y tiene por expresión de cálculo:

Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido inverso.

A valores altos de una de ellas le suelen corresponder valor bajos de la otra y

viceversa.

Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A

valores altos de una le corresponden valores altos de la otra e igualmente con los

valores bajos.

Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún

sentido de covariación.

Una propiedad importante es la siguiente: Si dos variables son independientes estarán

incorrelacionadas aunque el resultado recíproco no es necesariamente cierto.

En la Tabla 6 y Tabla 7 se recoge la matriz de correlaciones de la variable RENTS, los valores

resaltados con azul oscuro, representan correlaciones positivas importantes; aunque la

correlación entre las temperaturas media, máxima y mínima es obvia, en esta matriz se destacan

para explicar la existencia de una correlación fuerte, de forma que en futuros proyectos ya se

cuente con un ejemplo de dicho nivel de correlación.

RENTS TMAX TMED TMIN VIENTO

RENTS 1.0000000 -0.0537524 -0.0761723 -0.1182123 -0.0851064

TMAX -0.0537524 1.0000000 0.9757970 0.9073069 0.0675856

TMED -0.0761723 0.9757970 1.0000000 0.9674931 0.1221704

TMIN -0.1182123 0.9073069 0.9674931 1.0000000 0.1527735

VIENTO -0.0851064 0.0675856 0.1221704 0.1527735 1.0000000

HUMED -0.1323397 -0.4676464 -0.4032235 -0.2714239 -0.1957235

PRECIP -0.2033368 -0.1716754 -0.1032989 -0.0212523 0.0539775

EVENTOS -0.1463845 -0.1325222 -0.0743336 0.0005586 -0.0428729

PARAM -0.1593911 -0.1417002 -0.0814148 0.0002053 -0.0402676

Tabla 6: Matriz de correlaciones de la variable RENTS 1/2

HUMED PRECIP EVENTOS PARAM

RENTS -0.1323397 -0.20333675 -0.146384555 -0.1593910782

TMAX -0.4676464 -0.17167541 -0.132522177 -0.147001740

TMED -0.4032235 -0.10329884 -0.07433356 -0.0814147739

TMIN -0.2714239 -0.02125231 0.000558557 0.002052623

VIENTO -0.1957235 0.05397750 -0.042872898 -0.0402676261

HUMEDAD 1.0000000 0.28083026 0.297585501 0.3206437187

PRECIP 0.2808303 1.00000000 0.180611814 0.2207451903

EVENTOS 0.2975855 0.18061181 1.00000000 0.9629583899

PARAM 0.3206437 0.22074519 0.962958390 1.00000000

Tabla 7: Matriz de correlaciones de la variable RENTS 2/2

7. Transformación de variables Uno de los principales requerimientos para poder conseguir un buen algoritmo de Machine

Learning, es proporcionar a dicho algoritmo los datos “correctos” para el problema que se quiere

resolver. Aunque se tengan buenos datos, hay que asegurarse de que estos estén en una escala

útil, así como en un buen formato y que todos los atributos significativos sean incluidos; parte

de este último punto lo hemos realizado en la fase previa de preprocesado.

Tres principales métodos de transformación de atributos que se suelen llevar a cabo, o al menos

tener en consideración son los siguientes:

Escalado: si nuestros datos preprocesados contienen atributos con gran variedad de

escalas para diversas cantidades. Algunos algoritmos de Machine Learning se

comportan mejor si estos atributos tienen sus valores en el rango de 0 a 1.

Descomposición: si hay características que representan un concepto complejo, en

ocasiones es mejor dividir dicha característica en atributos más consistentes. Un

ejemplo puede ser un atributo que almacene la fecha y la hora de un evento, en

ocasiones simplemente puede ser más relevante trabajar con la hora o día del evento

que con el conjunto completo.

Agregación: puede haber características que puedan ser incorporadas como un atributo

único que pueda ser más relevante para el problema que deseamos resolver. Este caso

se ha realizado previamente con la variable eventos. En primera instancia teníamos una

lista con todos los eventos que tenían lugar en todos los días del año; esto ocasionaba

una gran cantidad de tuplas, ya que hay días que tenían un gran número de eventos,

por lo que se añadió una característica nueva con el conteo de los eventos que tienen

lugar en un día determinado.

La transformación de atributos es una fase muy importante a la hora de conseguir un buen

modelo, por lo que el tiempo dedicado en dicha fase puede ser muy beneficiosa para el

rendimiento del algoritmo.

Centrándonos en nuestro problema determinado, dado que el número de atributos no es tan

grande, ni contiene datos complejos a excepción de la variable eventos mencionada

anteriormente, el primer paso a realizar ha consistido en el escalado de dichos atributos para

lograr que estos tomen un valor entre 0 y 1; para ello se ha utilizado lo que se conoce como

normalización lineal uniforme; destacar que esta normalización es muy sensible a la presencia

de valores anómalos (outliers), por lo que hay que garantizar que la existencia de dichos valores

no tenga efectos negativos en nuestro modelo. La fórmula de la normalización utilizada es la

siguiente, donde v se corresponde con el valor real de un atributo:

𝑣′ =𝑣 − 𝑚𝑖𝑛

max − 𝑚𝑖𝑛

Esto se conseguiría en R con el siguiente comando:

DatoNormalizado <- (ATRIBUTO-min(ATRIBUTO))/(max(ATRIBUTO)-

min(ATRIBUTO))

En la Figura 13 podemos ver una porción de los datos normalizados.

Figura 13: Ejemplo de datos normalizados

8. Algoritmos de Data Mining Una vez llegados a este punto, tenemos los datos preparados para ser utilizados en algún

algoritmo; dado que en este proyecto nos vamos a centrar en el uso de las redes neuronales,

tenemos que tener presentes las diversas posibilidades que estas ofrecen para su correcto uso.

Para ello en primer lugar es necesario conocer la estructura de una red neuronal.

8.1 Estructura de una red neuronal Una red neuronal, como su propio nombre indica, se trata de un sistema de interconexiones de

neuronas que colaboran entre sí para producir un estímulo de salida. Esta red está compuesta

de un conjunto paralelo de unidades de proceso, o neuronas, y es en las conexiones entre dichas

unidades donde reside la “inteligencia” de la red; la reorganización de estas conexiones se

modela mediante un mecanismo de pesos, que son ajustados durante la fase de aprendizaje. En

una red neuronal entrenada, es el conjunto de los pesos el que determina el “conocimiento” de

la red y tiene la propiedad de resolver el problema para el que dicha red ha sido entrenada.

Además de los pesos y las conexiones, otro elemento a tener en cuenta es que cada neurona

tiene asociada una función matemática denominada función de transferencia o función de

activación. Esta función es la encargada de generar las señales de salida a partir de las señales

de entrada de la neurona. La entrada de la función es la suma de todas las señales de entrada

de la neurona multiplicada por el peso asociado a la conexión de entrada de la señal.

Figura 14: Estructura de una red neuronal

8.1.1. Capas de una red neuronal Dentro de la estructura de esta red se pueden distinguir tres capas:

Capa de entrada: formada por neuronas las cuales se encargan de introducir los datos o patrones

en la red; en la capa de entrada no se produce procesamiento.

Capa oculta: capa intermedia entre la entrada y la salida.

Capa de salida: la salida de estas neuronas se corresponden con la salida de toda la red.

El número de neuronas entre capas no tiene por qué ser el mismo, pueden existir redes con un

gran número de neuronas en las capas intermedias y solo un pequeño número en las de salida

o entrada; conseguir una buena elección es una fase importante a la hora de realizar el

modelado.

Todo problema capaz de ser separado linealmente se puede resolver con redes sin capas

ocultas; pero dado que nuestro problema es no lineal, lo único que sabemos certeramente es

que vamos a necesitar al menos una capa oculta. Un gran número de capas intermedias no

garantiza un algoritmo más potente, pero si un mayor coste computacional y temporal a la hora

de entrenar el modelo, por lo que se hace necesario conseguir un equilibrio los dos costes

mencionados anteriormente. A la hora de elegir en número de neuronas en cada capa, no

existen reglas escritas que lo describan, pero si recomendaciones para su elección. Una de las

formas de elegir dicho número es en función de la convergencia lograda, otra forma puede ser

en función de los resultados del método conocido como Principal Component Analysis (PCA),

seleccionando una cantidad de neuronas en función del número de variables que expliquen un

porcentaje de la varianza en torno al 70-90%. Pero en la mayor parte de los casos la mejor

manera de seleccionar dicho número se consigue mediante la experimentación.

8.1.2 Función de errores Dado que este proyecto se basa en aprendizaje supervisado, queremos construir un modelo que

prediga ciertos valores deseados y para ello es necesario especificar tanto los valores de entrada

como de salida. La calidad de la aproximación del modelo obtenido se medirá según los valores

de salida obtenidos por dicho algoritmo.

Generalmente, la especificación de dichos valores de entrada y de salida se realiza con un

conjunto consistente de pares de vectores con entradas reales con la forma (𝑋, 𝑌), donde 𝑋 es

el conjunto de parámetros de entrada e 𝑌 el de salida. Un algoritmo de aprendizaje

generalmente calcula los parámetros de una función determinada, denominada 𝑊, de una

función N(X; W) que permite aproximar los valores de salida en el conjunto de entrada o

entrenamiento.

Si (𝑋𝑞 , 𝑌𝑞 ), 𝑐𝑜𝑛 𝑞 = 1, … , 𝑛 son los elementos del conjunto de entrenamiento, el error o la

calidad de la aproximación en un ejemplo determinado 𝑞 se puede medir a través del error

cuadrático con función:

𝐸(𝑋𝑞; 𝑊) =1

2||𝑁(𝑋𝑞; 𝑊) − 𝑌𝑞||2

Donde || . || es la norma euclidiana.

El error total es la suma de los valores de los errores de los ejemplos, con formula:

𝐸(𝑊) = ∑ 𝐸(𝑋𝑞; 𝑊)

𝑞=1

Hay diversos métodos para minimizar dichos errores, el más básico consiste en actualizar los

datos de manera iterativa, en el que el nuevo valor de los parámetros se obtendría al sumar un

incremento, generalmente denotado como ∆𝑊, al valor actual del error. La condición de parada

de dicho algoritmo suele ser la convergencia de 𝑊 o bien una cota de error mínima, especificada

por el usuario.

𝑊 = 𝑊 + ∆𝑊

Otro método más sofisticado y más usado en problemas reales es el gradiente descendiente.

Este método lo que nos indicaría es cómo un pequeño cambio en un peso determinado 𝑊𝑖,𝑗,

siendo éste el peso que une la neurona 𝑗 de una capa determinada con la neurona 𝑖 de la capa

posterior a la actual, afectaría al error total 𝐸. El gradiente para un peso determinado se

calcularía como:

𝐺 =𝛿𝐸

𝛿𝑊𝑖,𝑗= −(𝑌𝑖 − 𝑁(𝑋; 𝑊)𝑖) ∗ 𝑁(𝑋; 𝑊)𝑗

Donde 𝑌𝑖 es el valor de salida real, 𝑁(𝑋; 𝑊)𝑖 se corresponde con el valor obtenido por el modelo

en la neurona de salida del peso del que se va a calcular el gradiente y 𝑁(𝑋; 𝑊)𝑗 es el valor de

salida obtenido en la neurona de entrada en este peso determinado.

El resultado de este método se aplica con el incremento explicado anteriormente de forma que

su cálculo pasa a ser:

∆𝑊𝑖,𝑗 = ∆𝑊𝑖,𝑗 + (𝑌𝑖 − 𝑁(𝑋; 𝑊)𝑖) ∗ 𝑁(𝑋; 𝑊)𝑗

Destacar que en la fórmula de actualización de los pesos 𝑊 se suele añadir otro factor

denominado factor de aprendizaje, denotado generalmente con el símbolo 𝛾 𝑜 𝜇, el cual

controla el tamaño de los cambios en el peso o bias en el aprendizaje del algoritmo. Si es muy

pequeño el algoritmo tardará más tiempo en converger pero si es demasiado grande el

algoritmo puede llegar a tener una divergencia fuera de control, como se puede ver en la Figura

Figura 15: Diferencias entre distintos ratios de aprendizaje

8.2 Metodología a utilizar Una vez se han descrito los elementos de una red neuronal, es necesario describir una

metodología a seguir para la obtención de un modelo que se ajuste a las necesidades del cliente;

dicha metodología va a consistir en el orden de estimación de algunos parámetros mencionados,

como pueden ser el número de neuronas o las funciones de activación de cada una de ellas. Así

pues, el orden elegido para la obtención de modelo es el siguiente:

1. Selección de los atributos más significativos junto al tipo de red y métodos de

entrenamiento.

2. Estudio de los resultados y elección de aquellas redes y atributos que mejor resultado

nos hayan dado.

3. Uso de las distintas capas de activación y combinaciones entre ellas, con su estudio

posterior.

4. Elección de la estructura de la red: número de capas y neuronas en cada capa, así como

las conexiones entre ellas, a partir de esta fase se llevará a cabo también el testeo con

su base de datos correspondiente.

5. Ajuste de los parámetros de las redes que mejor resultado hayan otorgado para

conseguir optimizar los resultados.

8.3 Pruebas iniciales Como se ha mencionado anteriormente, en esta fase se va a seleccionar aquellos atributos más

significativos, aunque en el preprocesado ya se dio una idea bastante clara de que atributos son

influyentes y dado que la base de datos no es tan amplia como para que el tiempo de

entrenamiento de un modelo sea un factor muy influyente en el coste temporal, se probarán las

diversas combinaciones posibles de los atributos.

En este apartado solo se mostrará una pequeña porción de las pruebas realizadas; el resto están

disponibles en el Anexo 2.

Pybrain proporciona un tipo de red que ellos denominan arbitraria, el algoritmo de

entrenamiento para dicha red elegido ha sido la propagación hacia atrás (Backpropagation) y el

número de iteraciones o épocas por defecto en todos los casos de estudio se ha estimado a

1000. Una época es una medida del número de veces que han sido usados todos los datos de

entrenamiento para actualizar los pesos. En este caso todos los datos de entrenamiento han

pasado por nuestra red neuronal simultáneamente en lo que se denomina una época, antes de

que los pesos se hayan actualizado.

En la Tabla 8 y Tabla 9 se pueden ver unas tabla comparativa entre los errores de la red neuronal

ante los distintos atributos, la salida proporciona el error medio, la mediana de los errores y el

error máximo obtenido. El método para obtener dichos errores ha sido el Error Cuadrático

Medio (MSE) con formula:

𝐸𝐶𝑀 =1

𝑛∑(�̂�𝑖 − 𝑌𝑖)

𝑖=1

El código Python asociado a esta red es el siguiente:

from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers import BackpropTrainer from pybrain.tools.shortcuts import buildNetwork from pybrain.structure import TanhLayer from pybrain.rl.environments import Task import csv ds=SupervisedDataSet(2,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['ENORM']), (row['RNORM'],)) print ds net = buildNetwork(2,2,1, bias=True, hiddenclass=TanhLayer) trainer = BackpropTrainer(net,ds) trainer.trainOnDataset(ds,400) trainer.testOnData(verbose=True)

Código 5: Implementación de la red neuronal arbitraria

Atributos Error

TMEDNORM ('Average error:', 0.034455981838630391) ('Max error:', 0.13919123448164714, 'Median error:', 0.025037704450937934)

TMINNORM ('Average error:', 0.03484471566883611) ('Max error:', 0.1592077348998579, 'Median error:', 0.023589101665501946)

TMAXNORM ('Average error:', 0.034603982733588411) ('Max error:', 0.14441633112151447, 'Median error:', 0.023684189224626652)

VNORM ('Average error:', 0.034899099684498044) ('Max error:', 0.14940824119779961, 'Median error:', 0.024452728202024585)

HNORM ('Average error:', 0.034168441356756757) ('Max error:', 0.14652640777250714, 'Median error:', 0.023531557149624242)

ENORM ('Average error:', 0.033871454199997694) ('Max error:', 0.14434282917435212, 'Median error:', 0.023335805455503702)

PNORM ('Average error:', 0.03307213617835339) ('Max error:', 0.12933836779832181, 'Median error:', 0.023587077570537077)

PNORM,ENORM ('Average error:', 0.032693780654721075) ('Max error:', 0.14871529283489315, 'Median error:', 0.023143954975969605)

PNORM,HNORM ('Average error:', 0.033019515926496691) ('Max error:', 0.13695177167643249, 'Median error:', 0.022187212369620103)

TMEDNORM, ENORM ('Average error:', 0.033063807532791631) ('Max error:', 0.1859039203967586, 'Median error:', 0.020446041217533909)

Tabla 8: Comparación de errores en red neuronal arbitraria 1/2

Atributos Error

TMEDNORM,HNORM ('Average error:', 0.029075846931424142) ('Max error:', 0.13675282634492178, 'Median error:', 0.021774416994258524)

TMEDNORM,VNORM ('Average error:', 0.031863710317301848) ('Max error:', 0.14026388430493197, 'Median error:', 0.024862376553660814)

TMEDNORM,HNORM,VNORM ('Average error:', 0.027209637476496247) ('Max error:', 0.16482248469531005, 'Median error:', 0.020253320494362584)

TMEDNORM,PNORM ('Average error:', 0.029248298672450768) ('Max error:', 0.1409924233219908, 'Median error:', 0.023564768435226483)

TMEDNORM,PNORM,HNORM

('Average error:', 0.027700588727169979) ('Max error:', 0.14837029747605049, 'Median error:', 0.022849627765128479)

TMEDNORM,PNORM,HNORM,VNORM ('Average error:', 0.026325564418503696) ('Max error:', 0.16537707406506391, 'Median error:', 0.02006210198695595)

TODO ('Average error:', 0.024250420139181748) ('Max error:', 0.20310604131972432, 'Median error:', 0.018010661014907899)

Tabla 9: Comparación de errores en red neuronal arbitraria 2/2

Este estudio se ha realizado para todos los tipos de redes que proporciona PyBrain, así

como los distintos métodos de entrenamiento. Una vez finalizado dicho estudio las dos

redes que mejor resultado proporcionaron, en la base de datos de entrenamiento fueron:

Red recurrente, con algoritmo de entrenamiento denominado RProp. Se llegó a

conseguir un MSE de 0.023232 con los atributos de temperatura media, viento,

humedad, eventos y precipitaciones.

Red de prealimentacion, más conocida como feedforward, con algoritmo de

entrenamiento RProp. Se llegó a conseguir un MSE de 0.021947 con el mismo

conjunto de atributos que el mencionado en el caso anterior.

En total se han realizado 53 pruebas con distintos tipos de redes, atributos y entrenamientos

con 1000 épocas en todos los casos; aproximadamente cada una de estas pruebas ha tomado

entre 8 y 10 minutos de media para poder entrenar la red.

8.4 Elección de las funciones de activación de las capas Como ya se ha mencionado previamente, cada neurona tiene una función de activación

asociada, la cual coge como entrada el sumatorio del producto de los pesos de las distintas

conexiones que recibe de otras neuronas por el valor de salida de las mismas, y proporciona una

salida. En su forma simplificada la salida de esta función es binaria, 1 si se activa la neurona y 0

si no se activa. Pybrain ofrece varias posibilidades a la hora de seleccionar la función de

activación de una neurona; para este problema, tenemos cuatro funciones disponibles:

Lineal

Sigmoide: con la fórmula 𝑠𝑖𝑔𝑚𝑜𝑖𝑑𝑒(𝑡) =1

1+𝑒−𝑡 la cual transforma los argumentos al

rango (0,1)

Tanh: tangente hiperbólica de formula tanh(𝑡) =𝑒𝑡−𝑒−𝑡

𝑒𝑡+𝑒−𝑡 la cual toma argumentos de

valor real y los transforma al rango (-1,1).

Softmax: esta función toma un vector de argumentos de valor real y lo transforma en

otro cuyos elementos quedan comprendidos en el rango (0,1) y suman 1. Su fórmula es

𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑡𝑘) = 𝑒𝑡𝑙

∑ 𝑒𝑡𝑗

Dado que aunque se pueda tener una idea sobre que funciones van a ser más “efectivas” en

cada una de las capas, probar las diferentes combinaciones posibles para ver cuales producen

los mejores resultados es una inversión de tiempo que más adelante en el proyecto se verá

recompensada, dado que la elección de estas funciones de activación tendrán un gran impacto

en los resultados finales del modelo. Para ello en una de las dos redes que mejores resultados

proporcionaron; en este caso la red de prealimentación, se han realizado todas las

combinaciones posibles entre las diferentes funciones de activación. Los resultados se han

recogido en unas tablas las cuales se adjuntan en el Anexo 3, y de las que a continuación se

muestra una porción de ella, en la Tabla 10.

8.5 Elección del número de capas y neuronas de la red neuronal Tras los resultados de las pruebas mencionadas anteriormente, las funciones de activación que

proporcionaron un menor error se corresponden con una función lineal en la capa de entrada,

(esta función no tiene ningún tipo de efecto en los resultados, ya que como se ha mencionado

previamente en la capa de entrada no se produce procesamiento, y funciones de activación)

sigmoides en las capas ocultas y de salida. Este resultado se recoge en la Tabla 11, la cual es un

pequeño extracto de las pruebas realizadas.

Capa Entrada

Capa Oculta

Capa Salida

Lineal Lineal Lineal epoch 430 total error 0.03193 avg weight 0.87806 (Invariable desde la época 200)

Lineal Lineal Sigmoid epoch 420 total error 0.031737 avg weight 1.0672 (Invariable desde la época 200)

Lineal Lineal Tanh epoch 480 total error 0.03191 avg weight 0.9364 (Converge más lentamente)

Lineal Lineal SoftMax epoch 226 total error 0.16628 avg weight 1041.6

Lineal Sigmoid Sigmoid epoch 999 total error 0.021621 avg weight 649.09

Lineal Sigmoid Lineal epoch 999 total error 0.023705 avg weight 360.61

Lineal Sigmoid Tanh epoch 999 total error 0.022236 avg weight 39.293

Tabla 10: Comparativa de los errores con diferentes funciones de activación

Linear Linear SoftMax epoch 999 total error 0.16628 avg

weight 3768

Linear Sigmoid Sigmoid epoch 999 total error 0.022107 avg

weight 44.523

Linear Sigmoid Linear epoch 999 total error 0.02353 avg

weight 16.328

Tabla 11: Resultados de las funciones de activación escogidas

El siguiente paso consiste en definir la estructura de la red neuronal; esto es, el número de

capas ocultas y de neuronas de dichas capas. Como bien hemos visto antes un mayor

número de neuronas o capas ocultas permite resolver problemas más complejos, pero

aumentar estas dimensiones hasta una cantidad irrelevante solo conseguiría una mayor

lentitud del programa, un derroche de recursos y unas mejoras minúsculas para todos los

inconvenientes ya nombrados, ya que si el problema es más simple de resolver que con una

red neuronal con una estructura compleja, las mejoras en términos de errores conseguidas

serán minúsculas.

Para ello se ha empezado con una red neuronal simple con una única capa oculta y con el

mismo número de neuronas en dicha capa que en la capa de entrada; una vez realizadas

estas pruebas básicas y estudiados los resultados, se modificarán tanto el número de capas

ocultas como el número de neuronas, estudiando si las mejoras obtenidas suplen el mayor

coste de recursos y tiempo de entrenamiento.

Dado que teníamos dos redes seleccionadas, una feedforward y otra recurrente, estas

pruebas se han realizado en ambas. La única diferencia es que la red recurrente, como su

propio nombre indica, contiene recurrencia en sus neuronas ocultas, por lo que también es

necesario hacer un estudio de dicha recurrencia; por ejemplo, en el caso que que se usen

dos capas ocultas, se pueden obtener mejores errores usando recurrencia únicamente

entre las capas ocultas de las neuronas que entre las propias neuronas. Como no se puede

predecir el comportamiento de esta red neuronal, el mejor método es la prueba y error de

dichas posibilidades y el posterior estudio de resultados.

A continuación, se muestran unos pequeños extractos de las pruebas realizadas en ambas

redes, Tabla 12, Tabla 13 y Tabla 14; el método de evaluación de los resultados será

mediante el error cuadrático medio o RMSE (las pruebas completas se recogen en el Anexo

Red neuronal recurrente con dos capas ocultas de 5 neuronas sin recurrencia añadida epoch 999 total error 0.02334 avg weight 11.524 RMSE 0.335014115024 epoch 999 total error 0.021315 avg weight 232.86 RMSE 0.369633646521 epoch 999 total error 0.020189 avg weight 18.545 RMSE 0.346790132002

Tabla 12: Evaluación de resultados de la estructura de red 1

Red neuronal recurrente con dos capas ocultas de 10 neuronas con recurrencia únicamente entre capas

epoch 999 total error 0.019618 avg weight 99.576 RMSE 0.377686826069 epoch 999 total error 0.016594 avg weight 309.73 RMSE 0.263416874075 epoch 999 total error 0.016384 avg weight 161.94 RMSE 0.399432058845

Red feedforward con dos capas ocultas de 10 neuronas epoch 999 total error 0.02003 avg weight 579.96 RMSE 0.296771536211 epoch 999 total error 0.020553 avg weight 525.06 RMSE 0.296686205643 epoch 999 total error 0.020451 avg weight 128 RMSE 0.274950220518

Tras las pruebas realizadas, los mejores resultados obtenidos se corresponden con una red

con dos capas ocultas de cinco neuronas sin recursividad añadida en el caso de la red

recursiva, con un RMSE medio en torno a 0.275 y una red con una sola capa oculta con diez

neuronas en el caso de la red feedforward con un error algo superior, en torno a 0.285.

8.6 Ajuste de parámetros del modelo Una vez decidida la estructura de las redes neuronales el último paso del modelado pasa por

realizar un ajuste lo más minucioso posible en los parámetros del modelo, para así seguir

reduciendo el error; dado que en nuestro caso nos hemos apoyado en una librería como es

PyBrain, no tenemos control total sobre dicha red. Si por ejemplo hubiésemos implementado la

red neuronal y el algoritmo de entrenamiento desde cero, estos ajustes serían mucho más

específicos, pero el coste de realizar dicha implementación se saldría del alcance de este

proyecto, por lo que este estudio se realizara en función de los parámetros que PyBrain

proporciona para ajustar el algoritmo de entrenamiento que previamente hemos decidido en el

apartado 8.3 Pruebas iniciales, RProp.

Los parámetros mencionados anteriormente para el algoritmo de entrenamiento RProp son los

siguientes:

etaminus: factor por el que se disminuye la anchura del paso cuando se excede la

anchura del paso.

etaplus: factor por el que se incrementa la anchura del paso al seguir el gradiente.

deltamin: mínima anchura del paso.

deltamax: máxima anchura del paso.

delta0: anchura del paso inicial.

A la hora de realizar un ajuste correcto de estos parámetros hay que tener en cuenta los

problemas mencionados a la hora de seleccionar el ratio de aprendizaje; un ratio de aprendizaje

muy pequeño provocara que el algoritmo converja muy lentamente, mientras que un ratio muy

grande el algoritmo puede divergir fuera de control, siendo de vital importancia no caer en

ninguno de estos dos extremos.

Dadas las dos redes elegidas tras la fase de obtención de su estructura, se han realizado pruebas

de ajuste de todos los parámetros mencionados. A continuación se muestra un pequeño

extracto de dichas pruebas, aunque el proceso completo se muestra en el Anexo 5.

Red feedforward, parámetro deltamax=3.5

epoch 999 total error 0.025707 avg weight 7.8625 RMSE 0.265427162917

Tabla 15: Tabla de evaluación de resultados del parámetro deltamax

Red recurrente, parámetro etaminus=0.75

Tabla 16: Tabla de evaluación de resultados del parámetro etaminus

Red recurrente, parámetro deltamin=0.0001

Tabla 17: Tabla de evaluación de resultados del parámetro deltamin

Tras la ejecución de todas las pruebas pertinentes para todos los parámetros posibles, las

redes con menores errores obtenidas han sido:

Red recurrente con 0.25181752948 de RMSE

Red feedforward con 0.260459010296 de RMSE

Como se puede comprobar, el factor recursivo se ha traducido en una mejora substancial

en el error, aun sin significar un aumento significativo en el coste de entrenamiento de los

modelos.

La estimación del número de pruebas realizadas tanto para decidir la estructura de la red

como para ajustar todos los parámetros es en torno a 700-750 pruebas; esto es,

aproximadamente 125 horas de pruebas las cuales se han ido realizando simultáneamente

mientras se avanzaba en otras fases. Estas pruebas realizadas se recogen, como ya se ha

mencionado previamente, en los anexos 2, 3, 4 y 5.

1 https://www.kaggle.com/c/bike-sharing-demand

Finalmente, es necesario un contraste con otra aplicación real relacionada, para saber si

los resultados obtenidos son realmente significativos; para ello nos basaremos en un

proyecto muy similar a este propuesto por la página de Data Science , Kaggle 1.

Kaggle es una plataforma que organiza competiciones de modelado predictivo y analítico en la

cual tanto las compañías como los investigadores publican sus datos y los distintos estadísticos

o data miners de todo el mundo compiten para conseguir el mejor modelo. Dichas

competiciones se organizan del siguiente modo:

El host de la competición prepara los datos y una descripción del problema a resolver

Los participantes experimentan con diferentes técnicas y compiten entre ellos para

conseguir el mejor modelo; estos modelos son calificados inmediatamente basándose

en la precisión obtenida en relación a un fichero oculto (en nuestro caso la base de datos

de testeo) y este resultado es reflejado en un ranking en tiempo real.

Después de que se sobrepase la fecha límite, el host de la competición paga el premio

de esta a cambio de una licencia libre de responsabilidades, perpetua e irrevocable a

nivel mundial sobre el modelo ganador (esto incluye software, algoritmo y la propiedad

intelectual de dicho modelo).

Este proyecto de Kaggle busca conseguir predicciones de alquileres de bicicletas en

Washington D.C. basadas en unos datos muy similares a los de este proyecto; con la

diferencia de que sus predicciones se realizan para cada hora, y las nuestras para cada día.

También es necesario mencionar que ellos disponen de una mayor cantidad de datos, lo

que aunque no garantiza una mejora de los resultados, si garantiza mayores posibilidades

de entrenamiento. Tomando como referencia la clasificación proporcionada en su página

web, nuestro mejor resultado se encontraría en la tercera posición a día de la redacción de

este documento, lo que parece indicar que el resultado obtenido es bastante satisfactorio,

como se puede ver en la Figura 16.

Figura 16: Tabla clasificatoria del proyecto de alquiler de bicicletas de Kaggle

El modelo obtenido ha sido logrado tras una primera fase de selección de variables, donde se

han intentado obtener aquellos factores que se han creído influyentes en el alquiler de

bicicletas, como la temperatura, humedad o eventos que tengan lugar en un día determinado.

Después se ha realizado un preprocesado de dichas variables, usando el lenguaje R y obteniendo

valores reales de la influencia de las variables como el índice de correlación. El siguiente paso ha

sido realizar una correcta transformación de las variables, de forma que el formato de estas

favorezca en la mayor medida posible un mayor aprendizaje por parte de la red neuronal.

Llegados a este punto se comenzó con el uso de algoritmos de Data Mining, más concretamente

con algoritmos de redes neuronales con la librería PyBrain de Python; seleccionando en primer

lugar las variables más significativas y posteriormente la estructura de la red: número de capas

y de neuronas, funciones de activación, algoritmos de entrenamiento. Por último, se procedió

al ajuste de los parámetros de red neuronal; cada parámetro fue ajustado de la forma más

precisa posible para reducir así el RMSE utilizado para la posterior validación del modelo

obtenido con los datos referentes a los alquileres de bicicletas en Sevilla en el año 2013.

Finalmente, en la Figura 17 se muestra el contraste entre los alquileres reales de bicicletas en el

año 2013, marcados en negro, y los alquileres predichos por el modelo obtenido con menor

RMSE, marcados en rojo. Se puede ver como el modelo ha logrado captar gran parte del

comportamiento real de los alquileres de bicicletas y adaptarse a él, siendo el modelo un

mecanismo con un buen grado de fiabilidad para realizar las predicciones de los alquileres, que

era el objetivo de este proyecto. También se puede apreciar un desajuste del modelo desde el

mes de marzo hasta junio. Tras revisar los datos de las tablas, la media de alquileres en el año

2012 es mucho mayor que la de 2013; 11019 en el año 2013 frente a 13570 en el año 2012,

además la temperatura en dichos meses es mayor en el año 2012, en algunos casos incluso diez

grados mayor, y además la situación económica en el año 2012 era mejor que en el 2013, y esto

puede tener una influencia en el número de alquileres en estos años. Esto unido a que como

bien se ha remarcado en el apartado 3, el tamaño de la base de datos es pequeño para lo que

suele ser en problemas de Big Data, hace difícil obtener un modelo que se ajuste correctamente

en ese rango de meses. Ante este inconveniente tendríamos dos opciones; obtener más datos,

útiles se entiende, para entrenar este modelo, lo cual casi seguro lograría un ajuste más preciso

en esos meses, o bien entrenar un nuevo modelo cuyo objetivo fuese obtener un

comportamiento lo más preciso posible en esos meses, y usar dicho modelo para las

predicciones en ese rango de tiempo, y el obtenido en este proyecto para los meses restantes.

Figura 17: Contraste entre valores estimados y predichos de alquileres

9. Seguimiento A continuación se muestra el contraste entre los costes temporales estimados inicialmente y los

reales, así como las desviaciones significativas en cada tarea:

Planificación del proyecto: Realizado en la estimación prevista.

Definición de alcance y objetivos: Realizado en la estimación prevista.

Selección de variables: Realizado en la estimación prevista.

Preprocesado: Realizado en la estimación prevista.

Transformación: Realizado en menor tiempo del estimado inicialmente.

Como bien se ha explicado en el apartado correspondiente, debido a las dimensiones

del conjunto de variables no han sido necesarias tantas horas como se había estimado

inicialmente, solo se ha realizado un estudio básico del conjunto de datos, y su posterior

normalización.

Uso de algoritmos de Data Mining: Realizado en mayor tiempo del estimado

inicialmente.

Debido a un malentendido con la documentación de la librería, y a ciertos algoritmos

incompletos, el número de horas dedicadas a esta tarea han sido mayor de las previstas,

ya que se intentó terminar de implementar dichos algoritmos incompletos, y se perdió

parte del trabajo realizado debido al malentendido mencionado, por lo que se tuvo que

comenzar el ajuste desde cero tras el descubrimiento de dicho error.

Interpretación y evaluación: Realizado en menor tiempo del estimado inicialmente.

Esta tarea se ha ido realizando conforme se entrenaban los modelos; el haber

encontrado un proyecto muy semejante al que se presenta en este documento en la

página web de Kaggle, ha facilitado en gran medida la interpretación y evaluación de los

resultados obtenidos.

Reuniones: Realizado en menor tiempo del estimado inicialmente.

Dado que el tutor y el alumno compartían horario lectivo, se ha podido comentar el

avance del proyecto al finalizar dichas clases, por lo que no ha sido necesario realizar el

número de reuniones estimadas inicialmente.

Realización de la memoria: Realizado en la estimación prevista.

Seguimiento: Realizado en la estimación prevista.

Material para la presentación: Por realizar.

El material para la defensa del proyecto se realizara una vez se presente la

documentación asociada a este proyecto.

En la Tabla 18 se recoge el contraste entre la estimación inicial de las tareas realizada al

comienzo del proyecto, y el coste real para cada una de ellas.

Tarea Estimación (Horas)

Tiempo dedicado

Desviación (%)

Planificación del proyecto 20 20 0

Tecnologías a utilizar 20 20 0

Selección de variables 15 15 0

Preprocesado 30 30 0

Transformación 30 20 50

Uso de algoritmos de Data Mining

80 100 25

Interpretación y evaluación 30 25 16.66

Reuniones 20 15 25

Realización de la memoria 25 25 0

Seguimiento 20 20 0

Material para la presentación

10 -(Por realizar) -

Total 300 290(Sin concluir)

Tabla 18: Contraste entre la estimación inicial y el coste real de tareas

10. Conclusiones

El desarrollo de un modelo predictivo ha permitido al alumno profundizar en el amplio campo

del Big Data y más concretamente del Machine Learning, dado que al comienzo del proyecto se

tenían unos conocimientos relativamente pequeños de estos campos y estos han aumentado

hasta ser capaz de realizar un proyecto íntegro de esta rama de la inteligencia artificial. Además,

se han fortalecido y aumentado los conocimientos sobre el lenguaje de programación Python,

del que se tenía un conocimiento básico al comenzar este proyecto, de la librería de Machine

Learning PyBrain, así como del preprocesado de datos con R, y de la distribución Cloudera CDH.

Centrándonos en las competencias transversales, el realizar un proyecto de cierta amplitud de

forma individual y dirigido por el propio alumno, ha fortalecido sus capacidades de toma de

decisiones, de planificación y de resolución de problemas; sin olvidarnos de que este proyecto

ha sido realizado dentro de una empresa, proporcionando un punto de vista real sobre el

trabajado en una compañía y resultando en una experiencia enriquecedora y positiva.

A esto hay que añadir que las reuniones, tanto con el tutor de la universidad como con el tutor

de la empresa, han servido para apreciar el grado de repercusión e importancia de realizar un

buen seguimiento y una comunicación constante con todas las partes implicadas en el proyecto.

Finalmente, también cabe destacar que el hecho de tener que redactar una documentación y

memoria sobre el proyecto, ha permitido obtener una mayor experiencia y soltura a la hora de

redactar textos formales.

11. Agradecimientos

En primer lugar, me gustaría agradecer a toda mi familia y en especial a mis padres por haberme

apoyado tanto en este proyecto, como en mis estudios en todo momento, ya que sin ellos no

hubiera llegado hasta aquí.

También tengo que agradecer a todos mis compañeros y amigos, y en especial a Álvaro y

Eduardo, ya no solo por el apoyo que me han proporcionado; sino por hacer este trabajo mucho

más llevadero y ameno.

A Ángel Luis Rubio por haber sido mi tutor y brindarme toda su experiencia y resolver todas las

dudas que me han ido surgiendo.

A la empresa Dimartel, y en especial a Juan Antonio Ruiz y Roberto Díaz, por permitirme hacer

las prácticas en primer lugar, y por brindarme la oportunidad de realizar este gran proyecto.

Finalmente, también quiero agradecer a la Universidad de La Rioja, y más concretamente a los

profesores del Grado en Ingeniería Informática, por haberme formado y proporcionado los

conocimientos que tengo a día de hoy.

12. Bibliografía

1. Curso de Machine Learning de Coursera

https://class.coursera.org/ml-008

2. Wikipedia

https://es.wikipedia.org

3. StackOverflow

http://stackoverflow.com/

4. Portal del Proyecto R

http://cran.r-project.org/

5. Repositorio de trabajos de final de grado de la universidad de la rioja

http://biblioteca.unirioja.es/

6. Reddit Big Data

https://www.reddit.com/r/bigdata/

7. Reddit Machine Learning

http://www.reddit.com/r/MachineLearning/

8. Apuntes y trabajos realizados durante el grado

ANEXO 1: PREPROCESADO DE DATOS

VÍCTOR RUBIO TORROBA 2

Índice de contenido Introducción .................................................................................................................................. 5

Variable RENTS (alquileres) ........................................................................................................... 5

Gráfico básico ............................................................................................................................ 5

Medidas descriptivas ................................................................................................................. 5

Histograma ................................................................................................................................ 6

Gráfico de densidad .................................................................................................................. 6

Gráfico de dispersión ................................................................................................................ 7

Variable TMAX (temperatura máxima) ......................................................................................... 8

Gráfico básico ............................................................................................................................ 8

Medidas descriptivas ................................................................................................................. 8

Histograma ................................................................................................................................ 9

Gráfico de densidad .................................................................................................................. 9

Gráfico de dispersión .............................................................................................................. 10

Variable TMIN (temperatura mínima) ........................................................................................ 11

Gráfico básico .......................................................................................................................... 11

Medidas descriptivas ............................................................................................................... 11

Histograma .............................................................................................................................. 12

Gráfico de densidad ................................................................................................................ 12

Variable TMED (temperatura media) .......................................................................................... 14

Gráfico básico .......................................................................................................................... 14

Histograma .............................................................................................................................. 15

Variable VIENTO .......................................................................................................................... 17

Gráfico básico .......................................................................................................................... 17

Histograma .............................................................................................................................. 18

Variable HUMEDAD ..................................................................................................................... 20

Gráfico básico .......................................................................................................................... 20

Histograma .............................................................................................................................. 21

Variable PRECIP (precipitaciones) ............................................................................................... 23

Gráfico básico .......................................................................................................................... 23

Histograma .............................................................................................................................. 24

Variable EVENTOS ....................................................................................................................... 25

Gráfico básico .......................................................................................................................... 25

Histograma .............................................................................................................................. 26

Variable PARAM (eventos parametrizados) ................................................................................ 28

Gráfico básico .......................................................................................................................... 28

Histograma .............................................................................................................................. 29

Biplots con respecto a la variable rents ...................................................................................... 31

TMAX ....................................................................................................................................... 31

TMIN ........................................................................................................................................ 31

TMED ....................................................................................................................................... 32

HUMEDAD ............................................................................................................................... 32

PRECIP ..................................................................................................................................... 33

VIENTO .................................................................................................................................... 33

EVENTOS .................................................................................................................................. 34

PARAM .................................................................................................................................... 34

Biplot TMIN-TMED (Comprobando la correlación) ..................................................................... 35

Biplot TMAX-TMED (Comprobando la correlación) .................................................................... 35

Código R ...................................................................................................................................... 36

Sliced Scatterplot .................................................................................................................... 36

Biplot ....................................................................................................................................... 36

MEDIANA (mas robusta al ruido) ............................................................................................ 38

Rango ....................................................................................................................................... 38

Desviacion típica...................................................................................................................... 39

Desviación media absoluta ..................................................................................................... 39

Respecto de la media .......................................................................................................... 39

Respecto de la mediana ...................................................................................................... 40

Matriz de covarianzas ............................................................................................................. 40

Correlaciones ........................................................................................................................... 41

Histograma .............................................................................................................................. 42

Densidad .................................................................................................................................. 42

Funcion de correlaciones ........................................................................................................ 43

Scatterplot con dicha funcion ................................................................................................. 43

Estudio básico ......................................................................................................................... 43

RENTS (Alquileres) ............................................................................................................... 43

EVENTOS .............................................................................................................................. 44

PARAM (Eventos parametrizados) ...................................................................................... 44

TMAX ................................................................................................................................... 45

TMIN .................................................................................................................................... 45

TMED ................................................................................................................................... 46

VIENTO ................................................................................................................................ 46

PRECIP ................................................................................................................................. 47

HUMEDAD ........................................................................................................................... 47

Introducción En este anexo se presentan todas las pruebas realizadas en la fase de preprocesado con todas

las variables, ya que en la memoria solo se mostraba el estudio de una única variable. En primer

lugar se muestran las medidas descriptivas de cada atributo, así como los gráficos más

significativos, y finalmente el código necesario para obtener este preprocesado.

Variable RENTS (alquileres) Gráfico básico

Medidas descriptivas Mínimo 1º cuantil Mediana Media 3º cuantil Máximo

3197 8781 13610 13530 18410 24420

Cuantiles

0% 25% 50% 75% 100%

3197.00 8781.25 13608.00 18407.50 24415.00

ruido)

13535.57

Desviación típica

5604.473

media)

4982.667

mediana)

7149.838

Histograma

Gráfico de densidad

Gráfico de dispersión

Variable TMAX (temperatura máxima)

Gráfico básico

Medidas descriptivas

10.60 18.40 22.75 25.19 32.70 44.80

Cuantiles

0% 25% 50% 75% 100%

10.60 18.40 22.75 32.70 44.80

ruido)

24.89966

Desviación típica

8.119266

media)

7.084153

mediana)

9.11799

Histograma

Variable TMIN (temperatura mínima)

Gráfico básico

0.80 9.25 13.85 14.57 20.40 27.40

Cuantiles

0% 25% 50% 75% 100%

0.80 9.25 13.85 20.40 27.40

ruido)

14.64388

Desviación típica

6.397267

media)

5.553825

mediana)

8.82147

Histograma

Variable TMED (temperatura media)

Gráfico básico

6.20 13.90 17.55 19.37 26.00 35.30

Cuantiles

0% 25% 50% 75% 100%

6.20 13.90 17.55 26.00 35.30

ruido)

19.23061

Desviación típica

6.989536

media)

6.089891

mediana)

9.19212

Histograma

Variable VIENTO

Gráfico básico

3.70 8.00 11.00 11.11 13.58 22.30

Cuantiles

0% 25% 50% 75% 100%

3.70 8.00 11.00 13.58 22.30

ruido)

10.92381

Desviación típica

3.786606

media)

3.064754

mediana)

4.37367

Histograma

Variable HUMEDAD

Gráfico básico

37.00 69.00 80.50 78.18 89.00 100.00

Cuantiles

0% 25% 50% 75% 100%

37.0 69.0 80.5 89.0 100.0

ruido)

79.38435

Desviación típica

13.73494

media)

11.13388

mediana)

15.5673

Histograma

Variable PRECIP (precipitaciones)

Gráfico básico

0.00 0.00 0.00 1.01 0.00 51.20

Cuantiles

0% 25% 50% 75% 100%

0.0 0.0 0.0 0.0 51.2

ruido)

0.05034

Desviación típica

4.225455

media)

1.010383

mediana)

Histograma

Variable EVENTOS

Gráfico básico

0.00 10.00 14.00 14.33 17.00 56.00

Cuantiles

0% 25% 50% 75% 100%

0 10 14 17 56

ruido)

13.90476

Desviación típica

6.670592

media)

4.836066

mediana)

4.4478

Histograma

Variable PARAM (eventos parametrizados)

Gráfico básico

0.00 1.00 2.00 2.28 3.00 7.00

Cuantiles

0% 25% 50% 75% 100%

0 1 2 3 7

ruido)

2.187075

Desviación típica

1.238176

media)

0.8743169

mediana)

1.4826

Histograma

Biplots con respecto a la variable rents

HUMEDAD

PRECIP

VIENTO

EVENTOS

Biplot TMIN-TMED (Comprobando la correlación)

Biplot TMAX-TMED (Comprobando la correlación)

Código R

Sliced Scatterplot plot(RENTS ~ i.group, xlab="Fecha", ylab="Alquileres",ann=F,axes=F) axis(1, at=c(0:12),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) title("Gráfico de dispersión fragmentado") plot(HUMEDAD ~ i.group, xlab="Fecha", ylab="Humedad(%)",ann=F,axes=F) axis(1, at=c(0:12),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) title("Gráfico de dispersión fragmentado") plot(VIENTO ~ i.group, xlab="Fecha", ylab="V.Viento(Km/h)",ann=F,axes=F) axis(1, at=c(0:12),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) title("Gráfico de dispersión fragmentado") plot(TMIN ~ i.group, xlab="Fecha", ylab="T.Mínima(ºC)",ann=F,axes=F) axis(1, at=c(0:12),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) title("Gráfico de dispersión fragmentado") plot(TMED ~ i.group, xlab="Fecha", ylab="T.Media(ºC)",ann=F,axes=F) axis(1, at=c(0:12),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) title("Gráfico de dispersión fragmentado")

Biplot plot(i,TMAX,axes=F,xlab="Fecha",ylab="T.Máxima(ºC)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres")

plot(i,TMIN,axes=F,xlab="Fecha",ylab="T.Mínima(ºC)",col="red") axis(2) par(new=T) plot(i,TMED,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"T.Media(ºC)") plot(i,TMED,axes=F,xlab="Fecha",ylab="T.Media(ºC)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres") plot(i,VIENTO,axes=F,xlab="Fecha",ylab="V.Viento(Km/h)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres") plot(i,HUMEDAD,axes=F,xlab="Fecha",ylab="Humedad(%)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres") plot(i,PRECIP,axes=F,xlab="Fecha",ylab="Precipitaciones(mm)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres")

plot(i,EVENTOS,axes=F,xlab="Fecha",ylab="N.Eventos",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres") plot(i,PARAM,axes=F,xlab="Fecha",ylab="N.Eventos(param)",col="red") axis(2) par(new=T) plot(i,RENTS,pch=3,ylab="",axes=F,col="blue",xlab="") axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(side=4) mtext(side=4,line=3.8,"Alquileres")

MEDIANA (mas robusta al ruido) median(RENTS) [1] 13608 median(TMAX) [1] 22.75 median(TMIN) [1] 13.85 median(TMED) [1] 17.55 median(VIENTO) [1] 11 median(HUMEDAD) [1] 80.5 median(EVENTOS) [1] 14 median(PARAM) [1] 2 mean(PRECIP) [1] 1.010383

max(RENTS)-min(RENTS) [1] 21218 max(TMAX)-min(TMAX) [1] 34.2 max(TMED)-min(TMED) [1] 29.1 max(TMIN)-min(TMIN) [1] 26.6 max(VIENTO)-min(VIENTO) [1] 18.6 max(HUMEDAD)-min(HUMEDAD) [1] 63 max(EVENTOS)-min(EVENTOS) [1] 56 max(PARAM)-min(PARAM) [1] 7 max(PRECIP)-min(PRECIP) [1] 51.2

Desviacion típica

sd(RENTS) [1] 5604.473 sd(TMAX) [1] 8.119266 sd(TMED) [1] 6.989536 sd(TMIN) [1] 6.397267 sd(VIENTO) [1] 3.786606 sd(HUMEDAD) [1] 13.73494 sd(EVENTOS) [1] 6.670592 sd(PARAM) [1] 1.238176 sd(PRECIP) [1] 4.225455

Desviación media absoluta

Respecto de la media Función dma<-function(x,fun=median){

mean(abs(x-fun(x))) }

dma(RENTS) [1] 4982.667 dma(TMAX) [1] 7.084153 dma(TMED) [1] 6.089891 dma(TMIN) [1] 5.553825 dma(VIENTO) [1] 3.064754 dma(HUMEDAD) [1] 11.13388 dma(EVENTOS) [1] 4.836066 dma(PARAM) [1] 0.8743169 dma(PRECIP) [1] 1.010383

Respecto de la mediana mad(RENTS) [1] 7149.838 mad(TMAX) [1] 9.11799 mad(TMED) [1] 9.19212 mad(TMIN) [1] 8.82147 mad(VIENTO) [1] 4.37367 mad(HUMEDAD) [1] 15.5673 mad(EVENTOS) [1] 4.4478 mad(PARAM) [1] 1.4826

Matriz de covarianzas

cov(tablaF2012[,2:10])

RENTS TMAX TMED TMIN VIENTO HUMED

RENTS 31410115 -2445.9606 -2983.8711 -4238.3020 -1806.1210 -10187.126

TMAX -2983.871 65.922483 55.376386 47.126527 2.077882 -52.15082

TMED -2445.961 55.376386 48.853613 43.260415 3.233438 -38.70980

TMIN -4238.302 47.126527 43.260415 40.925023 3.700774 -23.84895

VIENTO -1806.121 2.077882 3.233438 3.700774 14.338383 -10.17934

HUMED -10187.126 -52.150817 -38.709802 -23.848954 -10.179344 188.64859

PRECIP -4815.308 -5.89770 -3.0508246 -0.5744788 0.8636471 16.298368

EVENTOS -5472.609 -7.177443 -3.4657534 -0.0238356 -1.0829224 27.264840

PARAM -106.066 -1.424523 -0.7045857 0.0016259 -0.1887941 5.452953

PRECIP EVENTOS PARAM

RENTS -4815.3081668 -0.005472609 -1000.106066

TMAX -5.8897699 -7.177443 -1.424523

TMED -3.0508246 -3.465753 -0.7045857

TMIN -0.5744788 0.02383562 0.00162587

VIENTO 0.8636471 -1.08292 -0.1887941

HUMED 16.2983681 20.726484 5.452953

PRECIP 17.8544673 5.090776 1.154907

EVENTOS 5.0907763 44.49680 7.953425

PARAM 1.1549068 7.953425 1.533079

Correlaciones

cor(tablaF2012[,2:7])

RENTS TMAX TMED TMIN VIENTO HUMED

RENTS 1.0000000 -0.0537524 -0.0761723 -0.1182123 -0.0851064 -0.1323397

TMAX -0.0537524 1.0000000 0.9757970 0.9073069 0.0675856 -0.4676464

TMED -0.0761723 0.9757970 1.0000000 0.9674931 0.1221704 -0.4032235

TMIN -0.1182123 0.9073069 0.9674931 1.0000000 0.1527735 -0.2714239

VIENTO -0.0851064 0.0675856 0.1221704 0.1527735 1.0000000 -0.1957235

HUMED -0.1323397 -0.4676464 -0.4032235 -0.2714239 -0.1957235 1.0000000

PRECIP -0.2033368 -0.1716754 -0.1032989 -0.0212523 0.0539775 0.2808303

EVENTOS -0.1463845 -0.1325222 -0.0743336 0.0005586 -0.0428729 0.2975855

PARAM -0.1593911 -0.1417002 -0.0814148 0.0002053 -0.0402676 0.3206437

PRECIP EVENTOS PARAM

RENTS -0.20333675 -0.146384555 -0.1593910782

TMAX -0.17167541 -0.132522177 -0.147001740

TMED -0.10329884 -0.07433356 -0.0814147739

TMIN -0.02125231 0.000558557 0.002052623

VIENTO 0.05397750 -0.042872898 -0.0402676261

HUMEDAD 0.28083026 0.297585501 0.3206437187

PRECIP 1.00000000 0.180611814 0.2207451903

EVENTOS 0.18061181 1.00000000 0.9629583899

PARAM 0.22074519 0.962958390 1.00000000

Histograma

hist(RENTS,xlab="Alquileres",ylab="Frecuencia",main="Histograma de alquileres") hist(VIENTO,xlab="Velocidad máxima(km/h)",ylab="Frecuencia",main="Histograma de velocidad máxima del viento") hist(TMED,xlab="Temperatura media(ºC)",ylab="Frecuencia",main="Histograma de temperaturas medias") hist(TMIN,xlab="Temperatura mínima(ºC)",ylab="Frecuencia",main="Histograma de temperaturas mínimas") hist(TMAX,xlab="Temperatura máxima(ºC)",ylab="Frecuencia",main="Histograma de temperaturas máximas") hist(HUMEDAD,xlab="Humedad(%)",ylab="Frecuencia",main="Histograma de nivel de humedad") hist(EVENTOS,xlab="N.Eventos",ylab="Frecuencia",main="Histograma de número de eventos") hist(PRECIP,xlab="Precipitaciones(mm)",ylab="Frecuencia",main="Histograma de precipitaciones") hist(PARAM,xlab="N.Eventos",ylab="Frecuencia",main="Histograma de número de eventos")

Densidad

plot(density(RENTS),main="Densidad de alquileres",ylab="Densidad") plot(density(TMAX),main="Densidad de temperaturas máximas",ylab="Densidad") plot(density(TMIN),main="Densidad de temperaturas mínimas",ylab="Densidad") plot(density(TMED),main="Densidad de temperaturas medias",ylab="Densidad") plot(density(VIENTO),main="Densidad de la velocidad del viento",ylab="Densidad") plot(density(HUMEDAD),main="Densidad de la humedad",ylab="Densidad") plot(density(PRECIP),main="Densidad de las precipitaciones",ylab="Densidad") plot(density(EVENTOS),main="Densidad de eventos",ylab="Densidad")

Funcion de correlaciones

panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...) { usr <- par("usr"); on.exit(par(usr)) par(usr = c(0, 1, 0, 1)) r <- abs(cor(x, y)) txt <- format(c(r, 0.123456789), digits=digits)[1] txt <- paste(prefix, txt, sep="") if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt) text(0.5, 0.5, txt, cex = cex.cor * r) }

Scatterplot con dicha funcion

pairs(~RENTS+TMAX+TMED+TMIN+VIENTO+HUMEDAD,data=tablaF2012,lower.panel=panel.smooth,upper.panel=panel.cor,pch=20,main="Scatterplot")

Estudio básico

RENTS (Alquileres)

plot(RENTS, axes=F, ylim=c(0,25000),typ='l', ann=F) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,25000,5000)), col="lightgray", lty="dotted") title(main="Alquileres de Bicicletas en Sevilla en 2012",sub="Meses del año",ylab="Nº alquileres") summary(RENTS) Min. 1st Qu. Median Mean 3rd Qu. Max. 3197 8781 13610 13530 18410 24420 mean(RENTS,trim=0.1) MAS ROBUSTO [1] 13535.57 quantile(RENTS,seq(0,1,0.25)) 0% 25% 50% 75% 100% 3197.00 8781.25 13608.00 18407.50 24415.00

EVENTOS

plot(EVENTOS, axes=F, ylim=c(0,60),typ='l', ann=F) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,60,10)), col="lightgray", lty="dotted") title(main="Eventos de Sevilla en 2012",sub="Meses del año",ylab="N. Eventos") summary(EVENTOS) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 10.00 14.00 14.33 17.00 56.00 mean(EVENTOS,trim=0.1) [1] 13.90476 quantile(EVENTOS,seq(0,1,0.25)) 0% 25% 50% 75% 100% 0 10 14 17 56

PARAM (Eventos parametrizados) plot(PARAM,axes=F,ylim=c(0,7),typ='l',ann=F) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,7,1)), col="lightgray", lty="dotted") title(main="Eventos de Sevilla en 2012",sub="Meses del año",ylab="N. Eventos") summary(PARAM) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 1.000 2.000 2.279 3.000 7.000 mean(PARAM,trim=0.1) [1] 2.187075 quantile(PARAM,seq(0,1,0.25)) 0% 25% 50% 75% 100% 0 1 2 3 7

TMAX plot(TMAX, axes=F, ylim=c(10,50),typ='l', ann=F)

par(tcl= -0.5)

axis(1,

at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","ma

r","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2)

axis(2)

abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(10,50,10)), col="lightgray", lty="dotted") title(main="Temperaturas máximas de Sevilla en 2012",sub="Meses del año",ylab="Temperatura(ºC)") summary(TMAX) Min. 1st Qu. Median Mean 3rd Qu. Max. 10.60 18.40 22.75 25.19 32.70 44.80 mean(TMAX,trim=0.1) [1] 24.89966 quantile(TMAX,seq(0,1,0.25)) 0% 25% 50% 75% 100% 10.60 18.40 22.75 32.70 44.80

plot(TMIN, axes=F, ylim=c(0,30),typ='l', ann=F) par(tcl= -0.5) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,30,5)), col="lightgray", lty="dotted") title(main="Temperaturas mínimas de Sevilla en 2012",sub="Meses del año",ylab="Temperatura(ºC)") summary(TMIN) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.80 9.25 13.85 14.57 20.40 27.40

mean(TMIN,trim=0.1) [1] 14.64388 quantile(TMIN,seq(0,1,0.25)) 0% 25% 50% 75% 100% 0.80 9.25 13.85 20.40 27.40

plot(TMED, axes=F, ylim=c(0,35),typ='l', ann=F) par(tcl= -0.5) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,35,5)), col="lightgray", lty="dotted") title(main="Temperaturas medias de Sevilla en 2012",sub="Meses del año",ylab="Temperatura(ºC)") summary(TMED) Min. 1st Qu. Median Mean 3rd Qu. Max. 6.20 13.90 17.55 19.37 26.00 35.30 mean(TMED,trim=0.1) [1] 19.23061 quantile(TMED,seq(0,1,0.25)) 0% 25% 50% 75% 100% 6.20 13.90 17.55 26.00 35.30

VIENTO

plot(VIENTO, axes=F, ylim=c(0,25),typ='l', ann=F) par(tcl= -0.5) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,25,5)), col="lightgray", lty="dotted") title(main="Máxima velocidad media del viento en Sevilla en 2012",sub="Meses del año",ylab="Velocidad(km/h)") summary(VIENTO) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.70 8.00 11.00 11.11 13.58 22.30 mean(VIENTO,trim=0.1) [1] 10.92381 quantile(VIENTO,seq(0,1,0.25)) 0% 25% 50% 75% 100% 3.700 8.000 11.000 13.575 22.300

PRECIP

plot(PRECIP, axes=F, ylim=c(0,100),typ='l', ann=F) plot(PRECIP, axes=F, ylim=c(0,55),typ='l', ann=F) par(tcl= -0.5) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(0,50,10)), col="lightgray", lty="dotted") title(main="Precipitación total del dia en Sevilla en 2012",sub="Meses del año",ylab="Precipitación(mm)") summary(PRECIP) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 0.00 0.00 1.01 0.00 51.20

mean(PRECIP,trim=0.1)

[1] 0.05034014

quantile(PRECIP,seq(0,1,0.25))

0% 25% 50% 75% 100%

0.0 0.0 0.0 0.0 51.2

HUMEDAD

plot(HUMEDAD, axes=F, ylim=c(35,100),typ='l', ann=F) par(tcl= -0.5) axis(1, at=c(0,31,61,91,122,152,182,213,245,274,305,335,366),labels=c("","ene","","mar","","may","","jul","","sep","","nov",""),lwd=1,lwd.ticks=2) axis(2) abline(v=c(0,31,61,91,122,152,182,213,245,274,305,335,366), col="lightgray", lty="dotted") abline(h=(seq(40,100,10)), col="lightgray", lty="dotted") title(main="Humedad máxima en Sevilla en 2012",sub="Meses del año",ylab="Humedad(%)")

summary(HUMEDAD) Min. 1st Qu. Median Mean 3rd Qu. Max. 37.00 69.00 80.50 78.18 89.00 100.00 mean(HUMEDAD,trim=0.1) [1] 79.38435 quantile(HUMEDAD,seq(0,1,0.25)) 0% 25% 50% 75% 100% 37.0 69.0 80.5 89.0 100.0

ANEXO 2: TESTEO DE DIFERENTES TIPOS DE REDES

NEURONALES

VÍCTOR RUBIO TORRBA 2

Entrenamiento .............................................................................................................................. 3

Tipo red arbitraria, entrenamiento Backpropagation (X-X-1), volumen 100% BD, iteraciones

1000 ........................................................................................................................................... 3

ESQUELETO ............................................................................................................................ 5

Prueba de iteraciones ............................................................................................................... 5

Tipo red recurrente, entrenamiento Backpropagation (X-X-1), volumen 100% BD, iteraciones

1000 ........................................................................................................................................... 6

ESQUELETO ............................................................................................................................ 7

Tipo red recurrente, entrenamiento Rprop(X-X-1), volumen 100% BD, iteraciones 1000 ....... 7

ESQUELETO ............................................................................................................................ 9

Tipo red feedforward, entrenamiento RProp (X-X-1), volumen 100% BD, iteraciones 1000 ... 9

ESQUELETO .......................................................................................................................... 10

Tipo red feedforward, entrenamiento BackPropTrainerMix (X-X-1), volumen 100% BD,

iteraciones 1000, Gauss=3 ...................................................................................................... 11

ESQUELETO .......................................................................................................................... 12

Tipo red feedforward, entrenamiento RPropMinusTrainerMix (X-X-1), volumen 100% BD,

iteraciones 1000, Gauss=3 ...................................................................................................... 13

ESQUELETO .......................................................................................................................... 14

Tipo red FeedForward entrenamiento Backpropagation (X-X-1), volumen 100% BD,

iteraciones 1000 ...................................................................................................................... 15

ESQUELETO .......................................................................................................................... 16

Perceptrón multicapa WEKA ................................................................................................... 16

Introducción En este anexo se recogen las pruebas iniciales realizadas con diferentes redes neuronales, así

como el código de cada tipo de red neuronal entrenada. En estas pruebas se busca obtener

aquellos atributos más influyentes en el alquiler de bicicletas en Sevilla, los cuales serán usados

en posteriores pruebas, y los tipos de redes neuronales que mejores resultados proporcionen

en este problema concreto.

Entrenamiento

Tipo red arbitraria, entrenamiento Backpropagation (X-X-1), volumen 100% BD,

iteraciones 1000

Atributos Error

TMEDNORM ('Average error:', 0.034455981838630391)

('Max error:', 0.13919123448164714,

'Median error:', 0.025037704450937934)

TMINNORM ('Average error:', 0.03484471566883611)

('Max error:', 0.1592077348998579,

'Median error:', 0.023589101665501946)

TMAXNORM ('Average error:', 0.034603982733588411)

('Max error:', 0.14441633112151447,

'Median error:', 0.023684189224626652)

VNORM ('Average error:', 0.034899099684498044)

('Max error:', 0.14940824119779961,

'Median error:', 0.024452728202024585)

HNORM ('Average error:', 0.034168441356756757)

('Max error:', 0.14652640777250714,

'Median error:', 0.023531557149624242)

ENORM ('Average error:', 0.033871454199997694)

('Max error:', 0.14434282917435212,

'Median error:', 0.023335805455503702)

PNORM ('Average error:', 0.03307213617835339)

('Max error:', 0.12933836779832181,

'Median error:', 0.023587077570537077)

PNORM,ENORM ('Average error:', 0.032693780654721075)

('Max error:', 0.14871529283489315,

'Median error:', 0.023143954975969605)

PNORM,HNORM ('Average error:', 0.033019515926496691)

('Max error:', 0.13695177167643249,

'Median error:', 0.022187212369620103)

TMEDNORM, ENORM ('Average error:', 0.033063807532791631)

('Max error:', 0.1859039203967586, 'Median error:',

0.020446041217533909)

TMEDNORM,HNORM ('Average error:', 0.029075846931424142)

('Max error:', 0.13675282634492178,

'Median error:', 0.021774416994258524)

TMEDNORM,VNORM ('Average error:', 0.031863710317301848)

('Max error:', 0.14026388430493197,

'Median error:', 0.024862376553660814)

TMEDNORM,HNORM,VNORM ('Average error:', 0.027209637476496247)

('Max error:', 0.16482248469531005,

'Median error:', 0.020253320494362584)

TMEDNORM,PNORM ('Average error:', 0.029248298672450768)

('Max error:', 0.1409924233219908,

'Median error:', 0.023564768435226483)

('Average error:', 0.027700588727169979)

('Max error:', 0.14837029747605049,

'Median error:', 0.022849627765128479)

TMEDNORM,PNORM,HNORM,VNORM ('Average error:', 0.026325564418503696)

('Max error:', 0.16537707406506391,

'Median error:', 0.02006210198695595)

TODO ('Average error:', 0.024250420139181748)

('Max error:', 0.20310604131972432,

'Median error:', 0.018010661014907899)

ESQUELETO

from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers import BackpropTrainer from pybrain.tools.shortcuts import buildNetwork from pybrain.structure import TanhLayer from pybrain.rl.environments import Task import csv ds=SupervisedDataSet(2,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['ENORM']), (row['RNORM'],)) print ds net = buildNetwork(2,2,1, bias=True, hiddenclass=TanhLayer) trainer = BackpropTrainer(net,ds) trainer.trainOnDataset(ds,400) trainer.testOnData(verbose=True)

Prueba de iteraciones TMEDNORM,PNORM,HNORM,VNORM,ENORM 8000 iteraciones

('Average error:', 0.023374125628375757)

('Max error:', 0.18553878157581272, 'Median error:', 0.016322666352749982)

Tipo red recurrente, entrenamiento Backpropagation (X-X-1), volumen 100% BD,

iteraciones 1000

TMEDNORM,VNORM,HNORM,ENORM,PNORM ('Average error:', 0.024980240139553408)

('Max error:', 0.15521238891539405,

'Median error:', 0.01709927824527795)

TMEDNORM,HNORM,VNORM ('Average error:', 0.026845101564794742)

('Max error:', 0.16103141373460078,

'Median error:', 0.020129783774724155)

TMEDNORM,PNORM ('Average error:', 0.029725280197220445)

('Max error:', 0.14734273111954371,

'Median error:', 0.024516069050342777)

('Average error:', 0.0271758949203523)

('Max error:', 0.12567525204282934,

'Median error:', 0.021013247198490379)

TMEDNORM,PNORM,HNORM,VNORM ('Average error:', 0.026039795237926721)

('Max error:', 0.15279378437747695,

'Median error:', 0.019930980752616137)

TMEDNORM,HNORM ('Average error:', 0.028227481227800676)

('Max error:', 0.13349132092054797,

'Median error:', 0.021798988001022632)

ESQUELETO

from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers import BackpropTrainer from pybrain.tools.shortcuts import buildNetwork from pybrain.structure import TanhLayer from pybrain.rl.environments import Task from pybrain.structure import LinearLayer, SigmoidLayer import csv ds=SupervisedDataSet(5,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['PNORM'],row['HNORM'],row['VNORM'],row['ENORM']), (row['RNORM'],)) rnn=buildNetwork(5,5,1,hiddenclass=SigmoidLayer,outclass=LinearLayer,outputbias=False,recurrent=True) trainer = BackpropTrainer(rnn,ds) trainer.trainOnDataset(ds,1000) trainer.testOnData(verbose=True)

Tipo red recurrente, entrenamiento Rprop(X-X-1), volumen 100% BD, iteraciones

TMEDNORM,HNORM epoch 996 total error 0.032996 avg

weight 0.89471

epoch 997 total error 0.032995 avg

weight 0.89502

weight 0.89537

weight 0.89578

TMEDNORM,VNORM,HNORM,ENORM,PNORM epoch 996 total error 0.023235 avg

weight 460.85

TMEDNORM,HNORM,VNORM epoch 996 total error 0.027186 avg weight 1.1681

epoch 997 total error 0.027184 avg weight 1.1682

TMEDNORM,PNORM epoch 996 total error 0.028032 avg weight 1.5779

TMEDNORM,PNORM,HNORM,VNORM epoch 996 total error 0.026014 avg weight 1.2899

ESQUELETO

from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers import RPropMinusTrainer from pybrain.tools.shortcuts import buildNetwork from pybrain.structure import TanhLayer from pybrain.rl.environments import Task from pybrain.structure import LinearLayer, SigmoidLayer import csv ds=SupervisedDataSet(5,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['HNORM'],row['PNORM'],row['VNORM'],row['ENORM']), (row['RNORM'],)) rnn=buildNetwork(5,5,1,hiddenclass=TanhLayer,outputbias=False,recurrent=True) trainer = RPropMinusTrainer(rnn,verbose=True) trainer.trainOnDataset(ds,1000)

Tipo red feedforward, entrenamiento RProp (X-X-1), volumen 100% BD,

iteraciones 1000

TMEDNORM,HNORM epoch 996 total error 0.028301 avg weight 1.3961

TMEDNORM,VNORM,HNORM,ENORM,PNORM epoch 996 total error 0.021952 avg weight 12.639

TMEDNORM,HNORM,VNORM epoch 996 total error 0.028586 avg weight 1.5572

TMEDNORM,PNORM epoch 996 total error 0.029275 avg weight 5.8238

ESQUELETO

from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers import RPropMinusTrainer from pybrain.tools.shortcuts import buildNetwork from pybrain.structure import TanhLayer from pybrain.rl.environments import Task from pybrain.structure import LinearLayer, SigmoidLayer import csv ds=SupervisedDataSet(5,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['ENORM'],row['TMEDNORM'],row['HNORM'],row['PNORM'],row['VNORM']), (row['RNORM'],)) rnn=buildNetwork(5,5,1,hiddenclass=TanhLayer,outputbias=False) trainer = RPropMinusTrainer(rnn,verbose=True) trainer.trainOnDataset(ds,1000)

Tipo red feedforward, entrenamiento BackPropTrainerMix (X-X-1), volumen

100% BD, iteraciones 1000, Gauss=3

TMEDNORM,HNORM Total error: 0.131649636248

Total error: 0.12124346472

Total error: 0.125078463086

Total error: 0.113968630895

TMEDNORM,VNORM,HNORM,ENORM,PNORM Total error: 0.119299945931

Total error: 0.117101874639

Total error: 0.11717582952

Total error: 0.123316909761

TMEDNORM,HNORM,VNORM Total error: 0.113368695675

Total error: 0.11260379871

Total error: 0.113646074316

Total error: 0.108862878034

TMEDNORM,PNORM Total error: 0.109827548882

Total error: 0.120108322897

Total error: 0.105028469628

Total error: 0.125837899892

Total error: 0.123676884028

Total error: 0.102199269199

Total error: 0.112200977445

Total error: 0.1110689519

TMEDNORM,PNORM,HNORM,VNORM Total error: 0.116853317222

Total error: 0.115976230403

Total error: 0.0994715570745

Total error: 0.118182020927

ESQUELETO

import pylab as p import numpy as np from pybrain.structure.modules import LinearLayer, BiasUnit, SigmoidLayer from pybrain.structure import FullConnection, FeedForwardNetwork from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers.mixturedensity import RPropMinusTrainerMix, BackpropTrainerMix from pybrain.structure.modules.mixturedensity import MixtureDensityLayer import csv ds=SupervisedDataSet(2,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['PNORM']), (row['RNORM'],)) n=FeedForwardNetwork() n.addInputModule(LinearLayer(2,name='in')) N_GAUSSIANS=2 n.addOutputModule(MixtureDensityLayer(dim=1,name='out',mix=N_GAUSSIANS)) n.addModule(BiasUnit(name='bias')) n.addConnection(FullConnection(n['bias'],n['out'])) n.addModule(SigmoidLayer(2,name='hidden')) n.addConnection(FullConnection(n['bias'],n['hidden'])) n.addConnection(FullConnection(n['in'],n['hidden'])) n.addConnection(FullConnection(n['hidden'],n['out'])) n.sortModules() trainer=BackpropTrainerMix(n,ds,verbose=True,weightdecay=0.05) trainer.trainEpochs(1000)

Tipo red feedforward, entrenamiento RPropMinusTrainerMix (X-X-1), volumen

100% BD, iteraciones 1000, Gauss=3

TMEDNORM,HNORM epoch 996 total error -0.096347 avg weight 1.4875

epoch 997 total error -0.096343 avg weight 1.4884

TMEDNORM,VNORM,HNORM,ENORM,PNORM epoch 996 total error -0.20844 avg weight 1.9525

TMEDNORM,HNORM,VNORM epoch 996 total error -0.18116 avg weight 2.0453

TMEDNORM,PNORM epoch 996 total error -0.20625 avg weight 1.6396

ESQUELETO

import pylab as p import numpy as np from pybrain.structure.modules import LinearLayer, BiasUnit, SigmoidLayer, TanhLayer from pybrain.structure import FullConnection, FeedForwardNetwork from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers.mixturedensity import RPropMinusTrainerMix, BackpropTrainerMix from pybrain.structure.modules.mixturedensity import MixtureDensityLayer import csv ds=SupervisedDataSet(2,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['HNORM']), (row['RNORM'],)) n=FeedForwardNetwork() n.addInputModule(LinearLayer(2,name='in')) N_GAUSSIANS=3 n.addOutputModule(MixtureDensityLayer(dim=1,name='out',mix=N_GAUSSIANS)) n.addModule(BiasUnit(name='bias')) n.addConnection(FullConnection(n['bias'],n['out'])) n.addModule(TanhLayer(2,name='hidden')) n.addConnection(FullConnection(n['bias'],n['hidden'])) n.addConnection(FullConnection(n['in'],n['hidden'])) n.addConnection(FullConnection(n['hidden'],n['out'])) n.sortModules() trainer=RPropMinusTrainerMix(n,dataset=ds,verbose=True,weightdecay=0.05) trainer.trainEpochs(1000)

Tipo red FeedForward entrenamiento Backpropagation (X-X-1), volumen 100%

BD, iteraciones 1000

TMEDNORM,HNORM Total error: 0.0290285445767

Total error: 0.0292983987426

Total error: 0.0294304607322

Total error: 0.0293575461873

TMEDNORM,VNORM,HNORM,ENORM,VNORM Total error: 0.0255612403969

Total error: 0.0258214712596

Total error: 0.0255174790136

Total error: 0.0249727520467

TMEDNORM,HNORM,VNORM Total error: 0.0329733853538

Total error: 0.0335936463935

Total error: 0.0334881475204

Total error: 0.0334944777898

TMEDNORM,PNORM Total error: 0.0342519441803

Total error: 0.0344692571745

Total error: 0.034480496446

Total error: 0.0341173265594

Total error: 0.0276491772735

Total error: 0.0278530463046

Total error: 0.0277233989191

Total error: 0.0279773720399

TMEDNORM,PNORM,HNORM,VNORM Total error: 0.0261774594315

Total error: 0.0265312368007

Total error: 0.0265440274433

Total error: 0.0265398696643

ESQUELETO import pylab as p import numpy as np from pybrain.structure.modules import LinearLayer, BiasUnit, SigmoidLayer, TanhLayer from pybrain.structure import FullConnection, FeedForwardNetwork from pybrain.datasets import SupervisedDataSet from pybrain.supervised.trainers.backprop import BackpropTrainer import csv ds=SupervisedDataSet(3,1) fieldnames = ['FECHA','RNORM','TMAXNORM','TMINNORM','TMEDNORM','VNORM','HNORM','PNORM','ENORM','PARAM'] with open('tablaF2012norm.csv') as csvfile: reader = csv.DictReader(csvfile,delimiter=',') for row in reader: ds.addSample((row['TMEDNORM'],row['HNORM'],row['PNORM']), (row['RNORM'],)) n=FeedForwardNetwork() n.addInputModule(LinearLayer(3,name='in')) n.addOutputModule(LinearLayer(dim=1,name='out')) n.addModule(BiasUnit(name='bias')) n.addConnection(FullConnection(n['bias'],n['out'])) n.addModule(TanhLayer(3,name='hidden')) n.addConnection(FullConnection(n['bias'],n['hidden'])) n.addConnection(FullConnection(n['in'],n['hidden'])) n.addConnection(FullConnection(n['hidden'],n['out'])) n.sortModules() trainer=BackpropTrainer(n,ds,verbose=True) trainer.trainEpochs(1000)

Perceptrón multicapa WEKA Utilizado como un simple contraste entre las redes obtenidas con PyBrain y las mismas redes

con otro software

ANEXO 3: FUNCIONES DE ACTIVACION DE REDES

NEURONALES

Redes escogidas ............................................................................................................................ 3

Pruebas realizadas ......................................................................................................................... 3

Red feedforward ....................................................................................................................... 3

Red Recurrente (hidden a hidden) ............................................................................................ 7

Introducción En este anexo se adjuntan todas las pruebas realizadas para seleccionar las funciones de

activación de cada capa, para ello primero se han seleccionado las redes que mejor resultado

obtuvieron en las pruebas realizadas en el anterior anexo y después se han realizado pruebas

con todas las combinaciones posibles de funciones de activación en dichas redes

Redes escogidas red recurrente, entrenamiento Rprop(X-X-1), volumen 100% BD, iteraciones 1000

red feedforward, entrenamiento RProp (X-X-1), volumen 100% BD, iteraciones 1000

Pruebas realizadas

Red feedforward

Capa Entrada Capa Oculta Capa Salida Error

Linear Linear Linear

epoch 430 total error 0.03193

avg weight 0.87806

(Invariable desde la epoca 200)

Linear Linear Sigmoid

avg weight 1.0672

(Invariable desde la epoca 200)

Linear Linear Tanh

avg weight 0.9364

(Converge más lentamente)

Linear Linear SoftMax epoch 226 total error 0.16628

avg weight 1041.6

Linear Sigmoid Sigmoid epoch 999 total error 0.021621

avg weight 649.09

Linear Sigmoid Linear epoch 999 total error 0.023705

avg weight 360.61

Linear Sigmoid Tanh epoch 999 total error 0.022236

avg weight 39.293

Linear Tanh Linear epoch 999 total error 0.022079

avg weight 6.7201

Linear Tanh Sigmoid epoch 999 total error 0.024004

avg weight 12.682

Linear Tanh Tanh epoch 999 total error 0.024579

avg weight 782.79

Linear Tanh Softmax epoch 999 total error 0.16628

avg weight 2003.6

Linear Softmax Sigmoid epoch 999 total error 0.034789

avg weight 3275.4

Linear Softmax Linear epoch 999 total error 0.031614

avg weight 1.7654

Linear Softmax Tanh epoch 999 total error 0.029909

avg weight 1509.7

Sigmoid Linear Linear epoch 999 total error 0.032245

avg weight 0.93702

Sigmoid Linear Sigmoid epoch 999 total error 0.032054

avg weight 2.344

Sigmoid Linear Tanh epoch 999 total error 0.032518

avg weight 1.0769

Sigmoid Linear SoftMax epoch 490 total error 0.16628

avg weight 2359.8

Sigmoid Sigmoid Sigmoid epoch 999 total error 0.032405

avg weight 3.47

Sigmoid Sigmoid Linear epoch 999 total error 0.032108

avg weight 1.9469

Sigmoid Sigmoid Tanh epoch 999 total error 0.032144

avg weight 1.6691

Sigmoid Tanh Linear epoch 999 total error 0.032338

avg weight 3.9294

Sigmoid Tanh Sigmoid epoch 999 total error 0.031873

avg weight 3.8894

Sigmoid Tanh Tanh epoch 999 total error 0.031638

avg weight 1.3277

Sigmoid Tanh Softmax epoch 439 total error 0.16628

avg weight 858.36

Sigmoid Softmax Sigmoid epoch 999 total error 0.031548

avg weight 2.1619

Sigmoid Softmax Linear epoch 999 total error 0.02771

avg weight 2.3515

Sigmoid Softmax Tanh epoch 999 total error 0.031995

avg weight 2.7317

Tanh Linear Linear epoch 317 total error 0.032228

avg weight 0.81996

Tanh Linear Sigmoid epoch 999 total error 0.03207

avg weight 1.1422

Tanh Linear Tanh epoch 999 total error 0.032251

avg weight 0.92481

Tanh Linear SoftMax epoch 999 total error 0.16628

avg weight 4905

Tanh Sigmoid Sigmoid epoch 999 total error 0.021585

avg weight 67.892

Tanh Sigmoid Linear epoch 999 total error 0.024778

avg weight 4.8025

Tanh Sigmoid Tanh epoch 999 total error 0.022636

avg weight 60.695

Tanh Tanh Linear epoch 999 total error 0.023365

avg weight 599.67

Tanh Tanh Sigmoid epoch 999 total error 0.023714

avg weight 11.403

Tanh Tanh Tanh epoch 999 total error 0.025131

avg weight 11.771

Tanh Tanh Softmax epoch 13 total error 0.16628

avg weight 3.962

Tanh Softmax Sigmoid epoch 999 total error 0.034789

avg weight 3617.7

Tanh Softmax Linear epoch 999 total error 0.028486

avg weight 1.8772

Tanh Softmax Tanh epoch 999 total error 0.039643

avg weight 674.05

Red Recurrente (hidden a hidden)

Linear Linear Linear epoch 999 total error 0.03193

avg weight 0.85577

Linear Linear Sigmoid epoch 999 total error 0.031737

avg weight 1.2625

Linear Linear Tanh epoch 999 total error 0.03191

avg weight 0.93525

Linear Linear SoftMax epoch 999 total error 0.16628

avg weight 3768

Linear Sigmoid Sigmoid epoch 999 total error 0.022107

avg weight 44.523

Linear Sigmoid Linear epoch 999 total error 0.02353

avg weight 16.328

Linear Sigmoid Tanh epoch 999 total error 0.022702

avg weight 61.743

Linear Tanh Linear epoch 999 total error 0.023407

avg weight 14.612

Linear Tanh Sigmoid epoch 999 total error 0.021663

avg weight 13.664

Linear Tanh Tanh epoch 999 total error 0.023444

avg weight 358.14

Linear Tanh Softmax epoch 770 total error 0.16628

avg weight 1178.6

Linear Softmax Sigmoid epoch 999 total error 0.034789

avg weight 1547.6

Linear Softmax Linear epoch 999 total error 0.031112

avg weight 2.7461

Linear Softmax Tanh epoch 999 total error 0.030478

avg weight 670.71

Sigmoid Linear Linear epoch 999 total error 0.034344

avg weight 1.0177

Sigmoid Linear Sigmoid epoch 999 total error 0.031955

avg weight 1.2576

Sigmoid Linear Tanh epoch 999 total error 0.035438

avg weight 0.99811

Sigmoid Linear SoftMax epoch 10 total error 0.16628

avg weight 1.9138

Sigmoid Sigmoid Sigmoid epoch 999 total error 0.032401

avg weight 0.98482

Sigmoid Sigmoid Linear epoch 999 total error 0.032134

avg weight 2.4118

Sigmoid Sigmoid Tanh epoch 999 total error 0.03251

avg weight 2.657

Sigmoid Tanh Linear epoch 999 total error 0.032433

avg weight 2.7835

Sigmoid Tanh Sigmoid epoch 999 total error 0.031741

avg weight 2.4897

Sigmoid Tanh Tanh epoch 999 total error 0.028564

avg weight 3.263

Sigmoid Tanh Softmax epoch 999 total error 0.16628

avg weight 1536

Sigmoid Softmax Sigmoid epoch 999 total error 0.032924

avg weight 467.2

Sigmoid Softmax Linear epoch 999 total error 0.032518

avg weight 3.7062

Sigmoid Softmax Tanh epoch 999 total error 0.032163

avg weight 64.989

Tanh Linear Linear epoch 999 total error 0.032228

avg weight 0.99275

Tanh Linear Sigmoid epoch 999 total error 0.03207

avg weight 1.0404

Tanh Linear Tanh epoch 999 total error 0.032251

avg weight 0.93004

Tanh Linear SoftMax epoch 999 total error 0.16628

avg weight 3768.8

Tanh Sigmoid Sigmoid epoch 999 total error 0.022676

avg weight 57.341

Tanh Sigmoid Linear epoch 999 total error 0.024708

avg weight 4.0813

Tanh Sigmoid Tanh epoch 999 total error 0.024466

avg weight 27.738

Tanh Tanh Linear epoch 999 total error 0.023521

avg weight 2.9227

Tanh Tanh Sigmoid epoch 999 total error 0.024109

avg weight 4.9536

Tanh Tanh Tanh epoch 999 total error 0.022221

avg weight 96.823

Tanh Tanh Softmax epoch 14 total error 0.16628

avg weight 3.5875

Tanh Softmax Sigmoid epoch 999 total error 0.032313

avg weight 1237

Tanh Softmax Linear epoch 999 total error 0.032826

avg weight 706.79

Tanh Softmax Tanh epoch 999 total error 0.032116

avg weight 1.7401

ANEXO 4: AJUSTE DE PARAMETROS DE REDES

NEURONALES

Índice de contenidos Introducción .................................................................................................................................. 3

Redes neuronales escogidas ......................................................................................................... 3

Pruebas realizadas erróneas ......................................................................................................... 3

RED RECURRENTE ...................................................................................................................... 3

Parámetro deltamax.............................................................................................................. 3

Parametro deltamin .............................................................................................................. 4

Parametro delta0 .................................................................................................................. 6

Número de neuronas ............................................................................................................ 8

Parámetro deltamin ............................................................................................................ 12

Parametro deltamax............................................................................................................ 15

Pruebas realizadas correctas ....................................................................................................... 17

RED RECURRENTE .................................................................................................................... 17

PRUEBAS DE ESTRUCTURA Y NÚMERO DE NEURONAS ...................................................... 17

RED 5-5 SIN RECURRENCIA AÑADIDA ..................................................................................... 19

Parametro deltamin ............................................................................................................ 24

Parametro delta0 ................................................................................................................ 31

Parametro etaminus............................................................................................................ 35

Parametro etaplus ............................................................................................................... 36

FEEDFORWARD NETWORK ...................................................................................................... 48

PRUEBAS DE ESTRUCTURA Y NÚMERO DE NEURONAS ...................................................... 48

RED 10 ..................................................................................................................................... 49

Parametro etaplus ............................................................................................................... 50

Parametro delta0 ................................................................................................................ 59

Pruebas red feedfoward.............................................................................................................. 61

Pruebas red recurrente ............................................................................................................... 67

Introducción En el presente anexo se recogen todas las pruebas realizadas para el ajuste de los parámetros

en las dos redes neuronales con las funciones de activación escogidas en el anexo anterior; para

cada una de ellas se ha intentado elegir con una precisión razonable el mejor ajuste de cada

parámetro.

Redes neuronales escogidas Red feedforward con entrenamiento Rprop y funciones de activación lineal-sigmoid-

sigmoid.

Red recursiva con entrenamiento Rprop y funciones de activación lineal-sigmoid-

sigmoid.

Pruebas realizadas erróneas

RED RECURRENTE

Parámetro deltamax

deltamax=3

Media de errores 0.589384040856

deltamax=4

deltamax=6

deltamax=7

deltamax=8

deltamax=9

Parametro deltamin deltamin=0.001

deltamin=0.0001

deltamin=0.00001

deltamin=0.00005

deltamin=0.0005

deltamin=0.00003

deltamin=0.00008

deltamin=0.00011

deltamin=0.000105

deltamin=0.00009

deltamin=0.000095

deltamin=0.000091

deltamin=0.00001 4000 iteraciones

Parametro delta0 deltamin=0.00009 delta0=0.25

delta0=0.1

delta0=0.2

delta0=0.3

delta0=0.25

delta0=0.05

delta0=0.03

delta0=0.02

delta0=0.01

4000 it delta0=0.2

epoch 3999 total error 0.020635 avg weight 1159

4000 it delta0=0.3

Número de neuronas

5-5 recurrente doble en hidden2

Recursión 5-5 con doble recursión en 1 triple en 2

Recursión 5-5 con doble recursión

Doble recursión

delta0=5

delta0=3

delta0=7

delta0=4

delta0=6

delta0=4.5

delta0=3.5

delta0=3.8

delta0=3.3

delta0=3.1

delta0=3.2

delta0=3.4

delta0=3.3

4000 it delta0=3.3

Parámetro deltamin

deltamin=0.001

deltamin=0.0001

deltamin=0.00001

deltamin=0.00003

deltamin=0.00005

deltamin=0.00008

deltamin=0.00006

deltamin=0.00004

deltamin=0.000045

deltamin=0.000035

deltamin=0.000041

deltamin=0.000039

deltamin=0.000042

Parametro deltamax deltamax=5

deltamax=6

deltamax=4

deltamax=4.5

deltamax=4.8

deltamax=4.6

deltamax=4.7

deltamax=4.9

deltamax=4.85

deltamax=4.75

Pruebas realizadas correctas

RED RECURRENTE

PRUEBAS DE ESTRUCTURA Y NÚMERO DE NEURONAS

RMSE 0.335014115024

RMSE 0.369633646521

RMSE 0.346790132002

RMSE 0.33079051399

RMSE 0.431148025299

RMSE 0.480836673742

NEURONAS 5-5 sin recurrencia entre capas

RMSE 0.366853009634

RMSE 0.324908301664

RMSE 0.355230987704

RMSE 0.401674204217

5-5 con recurrencia en 2 solo

RMSE 0.305447281272

RMSE 0.390773628495

RMSE 0.40024189488

RMSE 0.397185259016

RMSE 0.301289465793

RMSE 0.346047208273

RMSE 0.418994483739

RMSE 0.344040479038

5-5 con recurrencia solo en capas

RMSE 0.30387446693

RMSE 0.410279573827

10-10 con recurrencia solo en capas

RMSE 0.377686826069

RMSE 0.263416874075

RMSE 0.399432058845

5-5 sin recurrencia

RMSE 0.277328845883

RMSE 0.27821223575

10-10 sin recurrencia

RMSE 0.330912951114

RMSE 0.338152724528

4000 iteraciones

RMSE 0.310816224595

RED 5-5 SIN RECURRENCIA AÑADIDA

Parametro deltamax deltamax=5

RMSE 0.277794286161

RMSE 0.306396220997

deltamax=4

RMSE 0.295797637016

RMSE 0.294614960807

RMSE 0.307041934569

deltamax=7

RMSE 0.299724723166

RMSE 0.251817529487

deltamax=8

RMSE 0.277543401037

RMSE 0.291733093167

deltamax=6

RMSE 0.268281145613

RMSE 0.279455445342

deltamax 7.5

RMSE 0.269244912482

RMSE 0.270812523231

deltamax 6.5

RMSE 0.281748392825

RMSE 0.287970502361

RMSE 0.272461843582

deltamax=7.25

RMSE 0.284462043504

RMSE 0.277811220275

RMSE 0.276089995599

deltamax=6.75

RMSE 0.278888302691

RMSE 0.265520674359

RMSE 0.27048029198

deltamax=6.85

RMSE 0.267847521707

RMSE 0.266622961145

RMSE 0.301626370073

deltamax=7.1

RMSE 0.284335347489

RMSE 0.291669138661

RMSE 0.27941866644

deltamax=6.9

RMSE 0.285471752225

RMSE 0.279776157687

RMSE 0.274992325097

deltamax=6.6

RMSE 0.336572053731

RMSE 0.269107335528

RMSE 0.290028739671

deltamax=6.7

RMSE 0.293536951977

RMSE 0.291581010125

deltamax=6.8

RMSE 0.262286625944

RMSE 0.308418462632

RMSE 0.30194772402

deltamax=6.81

RMSE 0.265291172152

RMSE 0.32732222723

RMSE 0.314149645588

deltamax=6.82

RMSE 0.260835717276

RMSE 0.29990161345

RMSE 0.272956928748

RMSE 0.274872119429

deltamax=6.83

RMSE 0.292046630527

RMSE 0.335818796404

RMSE 0.277692691915

deltamax=6.84

RMSE 0.28430094752

RMSE 0.255169376835

RMSE 0.293930261267

Parametro deltamin DELTAMAX=6.75;

deltamin=0.000001

RMSE 0.272800657048

RMSE 0.283314021341

RMSE 0.294718235257

deltamin=0.00001

RMSE 0.275611732727

RMSE 0.294970287699

RMSE 0.317287518005

deltamin=0.0001

RMSE 0.291050228497

RMSE 0.276056105998

RMSE 0.277110006615

deltamin=0.0000001

RMSE 0.275773398353

RMSE 0.276904033609

RMSE 0.287868013281

deltamin=0.00000001

RMSE 0.263447558479

RMSE 0.285426748576

RMSE 0.272561165313

deltamin=0.000000001

RMSE 0.259185142519

RMSE 0.269046847781

RMSE 0.281566142703

RMSE 0.26986174267

RMSE 0.305766993883

RMSE 0.282404629465

deltamin=0.00000005

RMSE 0.263908443253

RMSE 0.272566111345

RMSE 0.28753971283

deltamin=0.0000005

RMSE 0.266328874039

RMSE 0.299303291195

RMSE 0.294309817091

deltamin=0.000005

RMSE 0.281647409025

RMSE 0.268572453456

RMSE 0.276618039202

deltamin=0.00005

RMSE 0.296076488768

RMSE 0.27367072291

RMSE 0.274623120232

RMSE 0.271245603147

RMSE 0.283825913462

RMSE 0.267894682784

detamin=0.0000000025

RMSE 0.32892847232

RMSE 0.330676788261

RMSE 0.265417233352

deltamin=0.0000000075

RMSE 0.282339900552

RMSE 0.282155703993

RMSE 0.285363123565

deltamin=0.0000000015

RMSE 0.276240104558

RMSE 0.336150399245

RMSE 0.285299326688

deltamin=0.0000000007

RMSE 0.262953463323

RMSE 0.275924829031

RMSE 0.28653924739

deltamin=0.0000000003

RMSE 0.304942416116

RMSE 0.274293643563

RMSE 0.307828949584

RMSE 0.258029755002

RMSE 0.328153290737

RMSE 0.275476293548

RMSE 0.274621527956

RMSE 0.268242596583

RMSE 0.291888183216

RMSE 0.297879771598

RMSE 0.272189324591

deltamin=0.0000000095

RMSE 0.271116175632

RMSE 0.263063767526

RMSE 0.310082717408

deltamin=0.0000000098

RMSE 0.356834745583

RMSE 0.270888761135

RMSE 0.27697255201

deltamin=0.0000000093

RMSE 0.274123276151

RMSE 0.28121203863

RMSE 0.261522433711

deltamin=0.0000000097

RMSE 0.315265114752

RMSE 0.308613655271

RMSE 0.295517762746

RMSE 0.288333825883

deltamin=0.0000000097

RMSE 0.271234795026

RMSE 0.301561646165

RMSE 0.278486795607

Parametro delta0 DELTAMAX=6.75

delta0=1

RMSE 0.277785988957

RMSE 0.317972910771

RMSE 0.292196544295

delta0=0.5

RMSE 0.301833602518

RMSE 0.293380215504

RMSE 0.290164017589

delta0=0.25

RMSE 0.282915500964

RMSE 0.280081155725

RMSE 0.333713348221

delta0=1.5

RMSE 0.308476706962

RMSE 0.286126341947

RMSE 0.31832068471

delta0=1.25

RMSE 0.288961124185

RMSE 0.263982618682

RMSE 0.289811405209

delta0=2.5

RMSE 0.28723965061

RMSE 0.270160873624

RMSE 0.274398325617

delta0=3

RMSE 0.278665486953

RMSE 0.316619801429

RMSE 0.292764561752

delta0=2

RMSE 0.319699387252

RMSE 0.289233239705

RMSE 0.273392255628

delta0=1.75

RMSE 0.270947522523

RMSE 0.276413359797

RMSE 0.331777569444

delta0=1.1

RMSE 0.309049906366

RMSE 0.322064520244

RMSE 0.296788003364

delta0=5

RMSE 0.350608555981

RMSE 0.349897304142

RMSE 0.284045819681

delta0=10

RMSE 0.326280933685

RMSE 0.289921785497

RMSE 0.297742852653

delta0=1.15

RMSE 0.307341018147

RMSE 0.274580549995

RMSE 0.291318976715

RMSE 0.344316378027

Parametro etaminus

etaminus=0.5

RMSE 0.349560629203

RMSE 0.299313192198

RMSE 0.282275879092

etaminus=1

RMSE 0.305250508211

RMSE 0.283706958274

RMSE 0.290345627804

etaminus=5

RMSE 0.574480481997

RMSE 0.573019014179

RMSE 0.57481972146

etaminus=2.5

RMSE 0.32126685251

RMSE 0.301878061258

RMSE 0.303333011576

etaminus=2

RMSE 0.582752062316

RMSE 0.327431955538

RMSE 0.354713795394

etaminus=1.5

RMSE 0.304463932955

RMSE 0.573796087936

RMSE 0.301493779278

Parametro etaplus

etaplus=1.2

RMSE 0.284108931489

RMSE 0.264504298432

RMSE 0.313656889477

etaplus=3

RMSE 0.575858778516

RMSE 0.583848648263

RMSE 0.576025208809

etaplus=0.5

RMSE 0.293516713431

RMSE 0.293604983766

RMSE 0.38996239169

etaplus=2

RMSE 0.280752912579

RMSE 0.29095447728

RMSE 0.304111337494

etaplus=1.5

RMSE 0.27344601857

RMSE 0.259878631583

RMSE 0.273536696304

etaplus=1.75

RMSE 0.276052428547

RMSE 0.292272933141

RMSE 0.283255026405

etaplus=1.35

RMSE 0.302230011268

RMSE 0.278948917402

RMSE 0.288111125055

etaplus=1.4

RMSE 0.289729487437

RMSE 0.285004655869

RMSE 0.264904675806

etaplus=1.45

RMSE 0.296583004648

RMSE 0.307298916425

RMSE 0.259473215328

RMSE 0.26651428832

eltaplus=1.48

RMSE 0.320572101007

RMSE 0.27823105685

RMSE 0.290757586832

eltaplus=1.43

RMSE 0.290302496399

RMSE 0.28884679586

RMSE 0.332740972981

eltaplus=1.44

RMSE 0.313801165318

RMSE 0.297866438571

RMSE 0.300668926251

etaplus=1.46

RMSE 0.270629928608

RMSE 0.269261541075

RMSE 0.284977896418

etaplus=1.47

RMSE 0.338910593195

RMSE 0.310981396075

RMSE 0.306915821588

Parametro etaminus DELTAMAX=6.75, ETAPLUS=1.45

etaminus=0.5

RMSE 0.292747779375

RMSE 0.277736385421

RMSE 0.273690530006

etaminus=0.25

RMSE 0.28301501774

RMSE 0.266045799367

RMSE 0.296935326542

etaminus=0.1

RMSE 0.278216040195

RMSE 0.261823057225

RMSE 0.303040556902

etaminus=0.05

RMSE 0.290073472222

RMSE 0.310820675301

RMSE 0.284066730757

etaminus=1.8

RMSE 0.416518279274

RMSE 0.363355072403

RMSE 0.583850068528

etaminus=1.4

RMSE 0.33205030902

RMSE 0.58385046247

RMSE 0.438856064544

etaminus=1.3

RMSE 0.576025205339

RMSE 0.583850456258

RMSE 0.576025209933

etaminus=0.8

RMSE 0.260285268968

RMSE 0.294574843429

RMSE 0.278512312949

etaminus=0.7

RMSE 0.299306349186

RMSE 0.338768940705

RMSE 0.286801135411

etaminus=0.9

RMSE 0.283342245737

RMSE 0.272904196971

RMSE 0.289192367168

etaminus=0.85

RMSE 0.266227313663

RMSE 0.322833083765

RMSE 0.316239802374

etaminus=0.75

RMSE 0.301346286979

RMSE 0.299719923443

RMSE 0.262183013223

etaminus=0.78

RMSE 0.31860668339

RMSE 0.289177276133

RMSE 0.27343758451

RMSE 0.270571204144

etaminus=0.79

RMSE 0.275722978415

RMSE 0.285174274792

RMSE 0.316184352499

Parametro deltamin Etaminus=0.8

deltamin=0.0000001

RMSE 0.273854113665

RMSE 0.281892233895

RMSE 0.282194227109

RMSE 0.268344361692

deltamin=0.000001

RMSE 0.286152380951

RMSE 0.269593059131

RMSE 0.298116184604

deltamin=0.00001

RMSE 0.284275373707

RMSE 0.266408574484

RMSE 0.277275146507

deltamin=0.0001

RMSE 0.313963993902

RMSE 0.264669895353

RMSE 0.307642050959

deltamin=0.001

RMSE 0.269582834813

RMSE 0.312039668541

RMSE 0.282304090097

deltamin=0.01

RMSE 0.290895591515

RMSE 0.279917693032

RMSE 0.283055515585

deltamin=0.000005

RMSE 0.308010635024

RMSE 0.293492523988

RMSE 0.284341125931

RMSE 0.276384031841

deltamin=0.0000005

RMSE 0.285196419607

RMSE 0.265186103446

RMSE 0.31278962912

deltamin=0.000005

RMSE 0.289176309821

RMSE 0.273187452882

RMSE 0.266850734998

FEEDFORWARD NETWORK

PRUEBAS DE ESTRUCTURA Y NÚMERO DE NEURONAS

RMSE 0.294777773452

RMSE 0.289967099884

RMSE 0.304510619397

RMSE 0.296771536211

RMSE 0.296686205643

RMSE 0.274950220518

RMSE 0.303603598756

RMSE 0.314627613779

RMSE 0.280996541533

RMSE 0.308194025162

RMSE 0.320321840914

RMSE 0.30873851828

RED 10

Parametro etaminus

etaminus=0.5

RMSE 0.298924664035

RMSE 0.276973784698

RMSE 0.316276942858

etaminus=1

RMSE 0.312259011003

RMSE 0.358172129833

RMSE 0.343322964546

etaminus=0.25

RMSE 0.35407540792

RMSE 0.310606214726

RMSE 0.31570584734

etaminus=0.75

RMSE 0.308829998162

RMSE 0.26718620438

RMSE 0.339904961259

etaminus=0.6

RMSE 0.321550916683

RMSE 0.305077157683

RMSE 0.305645967551

Parametro etaplus ETAMINUS=0.6

etaplus=1.2

RMSE 0.302459450019

RMSE 0.292734988926

RMSE 0.279718498993

etaplus=0.5

RMSE 0.320868760961

RMSE 0.292293589503

RMSE 0.3246293087

etaplus=1.7

RMSE 0.29581923187

RMSE 0.292795443405

RMSE 0.302977025449

etaplus=1.4

RMSE 0.323308108888

RMSE 0.34202241585

RMSE 0.290214831039

etaplus=1

RMSE 0.277633392809

RMSE 0.311347099438

RMSE 0.302276334109

etaplus=0.9

RMSE 0.28997111496

RMSE 0.298072646577

RMSE 0.281674244785

etaplus=1.1

RMSE 0.292557592978

RMSE 0.29248471195

RMSE 0.279970572408

Parametro deltamin

deltamin=0.0000001

RMSE 0.295720757302

RMSE 0.262832961738

RMSE 0.316114229242

deltamin=0.000001

RMSE 0.287398315671

RMSE 0.281577457464

RMSE 0.312544073708

deltamin=0.00001

RMSE 0.281004411215

RMSE 0.273069438921

RMSE 0.279114693145

deltamin=0.00000001

RMSE 0.302886549423

RMSE 0.283617745899

RMSE 0.316053457656

deltamin=0.00000005

RMSE 0.327030640913

RMSE 0.288387547392

RMSE 0.299058831296

deltamin=0.0000005

RMSE 0.306835547411

RMSE 0.288062204595

RMSE 0.270922083405

deltamin=0.000005

RMSE 0.309702849262

RMSE 0.292270874169

RMSE 0.339540942486

deltamin=0.0000008

RMSE 0.29406078824

RMSE 0.330205839091

RMSE 0.29104674246

deltamin=0.00000025

RMSE 0.300364112074

RMSE 0.301797887777

RMSE 0.287916597701

deltamin=0.0000004

RMSE 0.293528761551

RMSE 0.282504437772

RMSE 0.290981652124

deltamin=0.0000006

RMSE 0.301304999568

RMSE 0.300847253904

RMSE 0.271645552979

deltamin=0.00000055

RMSE 0.286955098266

RMSE 0.27280969763

RMSE 0.286102480178

deltamin=0.00000058

RMSE 0.290656045292

RMSE 0.264921675874

RMSE 0.278119803749

Parametro deltamax

deltamax=5

RMSE 0.300973501613

RMSE 0.287096623607

RMSE 0.307735069402

deltamax=8

RMSE 0.304200762145

RMSE 0.276871626915

deltamax=2

RMSE 0.288309769949

RMSE 0.32832242915

RMSE 0.278778855866

deltamax=3.5

RMSE 0.265427162917

RMSE 0.29562134607

RMSE 0.269381019616

deltamax=6.5

RMSE 0.275507044591

RMSE 0.284923411623

RMSE 0.279812969832

deltamax=4.25

RMSE 0.278842469086

RMSE 0.303707921846

RMSE 0.275974735459

deltamax=4

RMSE 0.319831335029

RMSE 0.269423377374

RMSE 0.327089209639

deltamax=3

RMSE 0.302706959134

RMSE 0.296344584444

RMSE 0.314326252082

deltamax=3.75

RMSE 0.278036852555

RMSE 0.278955637948

RMSE 0.283404555546

deltamax=3.6

RMSE 0.277441469901

RMSE 0.26516006139

RMSE 0.309564662354

3000 épocas

RMSE 0.290890726081

deltamax=3.4

RMSE 0.291128480161

RMSE 0.288551698926

RMSE 0.327635539893

deltamax=3.65

RMSE 0.293519063096

RMSE 0.275363747053

RMSE 0.284192948567

deltamax=3.55

RMSE 0.29384148203

RMSE 0.316374595305

RMSE 0.309889027709

Parametro delta0 DELTAMAX=3.6

delta0=0.1

RMSE 0.302608620181

RMSE 0.287759747767

RMSE 0.270195595769

delta0=0.01

RMSE 0.296439455107

RMSE 0.301293848657

RMSE 0.322282634859

delta0=0.05

RMSE 0.287533262313

RMSE 0.288770750893

RMSE 0.272630726307

delta0=0.075

RMSE 0.28391992514

RMSE 0.271057166207

RMSE 0.27067697875

delta0=1

RMSE 0.270584176447

RMSE 0.324205029712

RMSE 0.282699429895

delta0=1.5

RMSE 0.320444212932

RMSE 0.30650342326

RMSE 0.292292617564

delta0=2

RMSE 0.310800295466

RMSE 0.335556820274

RMSE 0.316422494652

delta0=0.025

RMSE 0.284688688877

RMSE 0.303397919985

RMSE 0.286613690721

Pruebas red feedfoward

delta0=0.1

RMSE 0.27062684295

RMSE 0.269781283192

RMSE 0.279123203023

RMSE 0.287034848698

RMSE 0.296844195453

delta0=0.1 deltamax=4

RMSE 0.290047822332

RMSE 0.285402500056

RMSE 0.272802563305

RMSE 0.290910817721

delta0=0.1 deltamax=3.5

RMSE 0.285560889492

RMSE 0.278161468684

RMSE 0.260459010296

RMSE 0.289685476374

RMSE 0.288892597418

RMSE 0.265453252441

etaminus=0.6,etaplus=1,deltamin=0.0000001,deltamax=3.5,delta0=0.1

RMSE 0.266924253215

RMSE 0.293113587038

RMSE 0.275568759657

RMSE 0.314295738763

RMSE 0.289495586504

RMSE 0.263108383406

deltamin=0.00000058

RMSE 0.309069577658

RMSE 0.268232746876

RMSE 0.281422310868

RMSE 0.263245783397

RMSE 0.271930870321

RMSE 0.286413404292

RMSE 0.269963187364

deltamin=0.0000001

RMSE 0.273278741284

RMSE 0.281717395586

RMSE 0.271453417402

RMSE 0.313646020989

RMSE 0.301138357189

RMSE 0.302900159149

etaplus=1.1

RMSE 0.306083255058

RMSE 0.281441988462

RMSE 0.290678419158

RMSE 0.301631756181

RMSE 0.322752498654

etaminus=0.75,etaplus=1,deltamin=0.00000058,deltamax=3.6,delta0=0.1

RMSE 0.289491523317

RMSE 0.302230627102

RMSE 0.299539155652

RMSE 0.264566414389

RMSE 0.276095968906

5 neuronas ocultas, parametros anteriores

RMSE 0.26595846172

RMSE 0.274247916766

RMSE 0.287557777195

RMSE 0.301250517139

RMSE 0.285520364017

RMSE 0.287934401165

RMSE 0.329431396857

RMSE 0.324116052341

RMSE 0.316320833366

RMSE 0.308215608407

RMSE 0.298978907004

RMSE 0.291175096705

RMSE 0.337400325031

RMSE 0.317685836019

RMSE 0.286655712923

trainer=RPropMinusTrainer(n,dataset=ds,verbose=True,etaminus=0.75,etaplus=1,deltamin=0.

00000058,deltamax=3.5,delta0=0.1)

RMSE 0.289620153359

RMSE 0.30589728496

RMSE 0.313532095784

RMSE 0.271774535145

RMSE 0.298201875924

Pruebas red recurrente

trainer=RPropMinusTrainer(n,dataset=ds,verbose=True,deltamax=6.75,etaplus=1.45,etaminus

=0.8,deltamin=0.000005)

RMSE 0.277726959298

RMSE 0.317305958636

RMSE 0.291344941191

RMSE 0.295330607129

RMSE 0.27751604069

=0.8,deltamin=0.0000005)

RMSE 0.306466618356

RMSE 0.288661416378

RMSE 0.286024029207

RMSE 0.293813121704

RMSE 0.2784937728

=0.8,deltamin=0.0001)

RMSE 0.310205578295

RMSE 0.29289793507

RMSE 0.268377159117

RMSE 0.283276999074

RMSE 0.319705279827

RMSE 0.301446965035

RMSE 0.272729799738

RMSE 0.278919892926

RMSE 0.255788600856

RMSE 0.27872788817

RMSE 0.281942561517

RMSE 0.309848910255

RMSE 0.280855341539

RMSE 0.268624731277

RMSE 0.338080316513

RMSE 0.318649742401

Cambio de número de épocas

500 épocas

RMSE 0.257323881143

RMSE 0.277804557118

RMSE 0.307640402457

RMSE 0.284147242164

RMSE 0.302192986923

RMSE 0.268170597779

RMSE 0.28483218507

750 épocas

RMSE 0.266092952666

RMSE 0.292397791659

RMSE 0.286804207089

RMSE 0.286686919122

RMSE 0.280778211278

RMSE 0.291762512031

1250 épocas

RMSE 0.288086144061

RMSE 0.302955600345

RMSE 0.286799767564

RMSE 0.265033069981

RMSE 0.296042798066

RMSE 0.300306688023

RMSE 0.311859229017

875 épocas

RMSE 0.309742869793

RMSE 0.286776623795

RMSE 0.29218373921

RMSE 0.293380466026

RMSE 0.295983014418

RMSE 0.300963942475

RMSE 0.292547480332

=0.8,deltamin=0.00001)

RMSE 0.303052732095

RMSE 0.273003945109

RMSE 0.27122007462

RMSE 0.284776766459

RMSE 0.296481972038

=0.75,deltamin=0.0001)

RMSE 0.279752107034

RMSE 0.283449083894

RMSE 0.281822076262

RMSE 0.278213695141

RMSE 0.268544688116

RMSE 0.290211287079

=1,deltamin=0.0001)

RMSE 0.298075234923

RMSE 0.285445077665

RMSE 0.28452316246

RMSE 0.284090578896

RMSE 0.279144432592

RMSE 0.281276528099

trainer=RPropMinusTrainer(n,dataset=ds,verbose=True,deltamax=6.75,etaplus=1.4,etaminus=

0.8,deltamin=0.000005)

RMSE 0.270653533031

RMSE 0.312831338623

RMSE 0.260900568564

RMSE 0.273523126907

RMSE 0.289021416137

RMSE 0.321115599559

RMSE 0.306381650939

=0.8,deltamin=0.0001,delta0=1.15)

RMSE 0.292993155583

RMSE 0.306328034116

RMSE 0.290563586813

RMSE 0.306258974178

RMSE 0.311755064787

=0.8,deltamin=0.0000000093)

RMSE 0.311056244836

RMSE 0.268893764538

RMSE 0.30366075568

RMSE 0.309554624788

RMSE 0.293376258454

RMSE 0.283119237832

=0.8,deltamin=0.000000007)

RMSE 0.273671683033

RMSE 0.309163838271

RMSE 0.29785559805

RMSE 0.30685450958

RMSE 0.270342766661

RMSE 0.279775435475

=0.8,deltamin=0.0000000025)

RMSE 0.296991197898

RMSE 0.297019991165

RMSE 0.303097200072

Inteligencia Artificial: estudio comparativo de ... · de Víctor Rubio Torroba, dirigido por Angel...

Documents

MORENO TORROBA, Federico (1891-1952)_Sonatina_(Segovia)

Federico Moreno-Torroba - Sonatina

DIFUNDE UGT - ugtaeat.org

Moreno-Torroba - Works (Russian Edition)

¡Engánchate a leer! · de Félix Rubio Muñoz, dirigido por Delia Gavela García (publicado por la Universidad de La Rioja), se difunde bajo una Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada

F.M. Torroba Concerto de Castilla Guitar + Piano

Frederico Moreno Torroba - Sonatina

Sonatina - Torroba

Sonatina F. Moreno Torroba

Moreno-Torroba, Federico - 123pages Collection

Torroba - Sonatina.pdf

Torroba - Sonatina 222

torroba - piezas caracteristicas

El Verdadero Secreto Difunde AvanzaPorMas.comAvanzaPorMas.com

Torroba Sonatina

Sonatina F M Torroba

Sonatina (F. M. Torroba).pdf

Networkvial difunde el Programa preliminar congreso_mundial_mexico_sept2011

Sonatina - Federico Moreno Torroba

Frederico Moreno Torroba - Madroños