SISTEMA PROTOTIPO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO DEL
ÍNDICE DE CALIDAD DEL AIRE USANDO TÉCNICAS DE APRENDIZAJE
COMPUTACIONAL
Jhon Jairo Anaya Díaz
Universidad Nacional de Colombia
Facultad de Ingeniería Departamento Sistemas
Bogotá, Colombia
Año 2015
SISTEMA PROTOTIPO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO DEL
ÍNDICE DE CALIDAD DEL AIRE USANDO TÉCNICAS DE APRENDIZAJE
COMPUTACIONAL
Jhon Jairo Anaya Díaz
Trabajo de investigación presentado como requisito parcial para optar al título de:
MSc. en Ingeniería de Sistemas y Computación
Director (a):
Ph.D. Fabio González
Línea de Investigación:
SISTEMAS INTELIGENTES
Universidad Nacional de Colombia
Facultad de Ingeniería Departamento Sistemas
Bogotá, Colombia
Año 2015
Este nuevo logro se lo dedico a mis padres,
Guillermo y Carmen, que siempre han estado
ahí apoyándome, y a mi esposa Julie, por su
gran corazón, entendimiento y tolerancia; sin
ellos no hubiese sido posible. Por Majo…
No es el conocimiento, sino el acto de
aprendizaje; y no la posesión, sino el acto de
llegar a ella, lo que concede el mayor disfrute.
Carl Friedrich Gauss-
Agradecimientos
Este trabajo fue realizado gracias a la colaboración y apoyo de muchas personas y
entidades.
Se le agradece encarecidamente a las instituciones que hicieron posible este convenio,
Universidad Popular del Cesar y Universidad Nacional de Colombia, sede Bogotá.
Además a la institución que concedió el préstamo de la base de datos de los
contaminantes y de meteorología, Corpocesar.
Agradecimiento especial al ministerio de las tecnologías de la información y las
comunicaciones TIC’s, por su apoyo en la adjudicación de la beca.
A Fabio A. González, mi director de tesis, por su orientación experta, rigurosa, atenta y
precisa. Agradezco sus inestimables críticas y comentarios en cada lectura, sus
sugerencias oportunas y su apoyo en cada etapa del proceso.
Resumen y Abstract IX
Resumen
La investigación que se aborda en este trabajo va orientada como primera medida a la
construcción de un conjunto de datos usando la meteorología e índice de calidad del aire
(ICA) producto de la recopilación durante cuatro años, de la monitorización de las
estaciones del Sistemas de Vigilancia de calidad de aire de Valledupar; teniendo en
cuenta este conjunto de datos, se busca entrenar y validar un modelo descriptivo,
mediante la utilización de técnicas de clustering (Agrupamiento). Además se desarrolla
un modelo predictivo, que estime el índice de calidad del aire, utilizando diferentes
técnicas de minería de datos. Se comparan resultados mediante la utilización de las
ANN’s y el método de regresión lineal, encontrando que las ANN’s se acoplan
eficientemente a este conjunto de datos produciendo MAE de 10,19 para PM10 y 4,045
para CO, usando estos modelos como regresión; si se estiman los valores de ICA
usando la concepción de series de tiempo con estos modelos se obtiene un MAE de 3.19
para PM10 y 4,47 para CO.
Palabras clave: índice de calidad del aire, material particulado, redes neuronales
artificiales, agrupamiento, estimación, meteorología, Valledupar.
Abstract
The research that is approached in this work goes oriented like first measurement to the
construction of a data set using the meteorology and air quality index (ICA) product of the
compilation during four years, the monitoring of the system's surveillance stations of the
air quality in Valledupar; considering east data set, one looks for to train and to validate a
descriptive model, by means of the use of techniques of clustering (Group). In addition it
is developed to a predictive model, that considers the ICA, using different techniques
from data mining. They compare results by means of the use of ANN's and linear
regression method, finding that ANN's efficiently is reconciled to this data set producing
MAE of 10,19 by PM10 and 4,045 by CO, using these models like regression; if the
X Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
values of ICA are considered using the conception of time series with these models it
obtains a MAE of 3.19 by PM10 and 4,47 by CO.
Keywords: air quality index, particulate, artificial neural network, clustering, estimate,
meteorology, Valledupar.
Contenido XI
Contenido
Pág.
Resumen ......................................................................................................................... IX
Lista de figuras ............................................................................................................. XIII
Lista de tablas .............................................................................................................. XV
Lista de Símbolos y abreviaturas .............................................................................. XVII
INTRODUCCIÓN .............................................................................................................. 1
CAPÍTULO 1. MINERÍA DE DATOS EN LA ESTIMACIÓN DE CONTAMINANTES ... 5 1.1 Contaminantes Del Aire ................................................................................... 5 1.2 Métodos De Análisis Para La Estimación......................................................... 7
1.2.1 Escuela de modelos determinísticos ..................................................... 8 1.2.2 Escuela de modelos empíricos .............................................................. 8
1.3 Métodos de Análisis Descriptivos .................................................................. 10 1.4 Antecedentes y Análisis Preliminar ................................................................ 11 1.5 Discusión y Conclusiones .............................................................................. 12
CAPÍTULO 2. CONTAMINACIÓN ATMOSFÉRICA .................................................. 13 2.1 Normatividad ................................................................................................. 13 2.2 Ente Regulador Regional ............................................................................... 14 2.3 Discusión y Conclusiones .............................................................................. 15
CAPÍTULO 3. ENTENDIMIENTO DEL CONTEXTO .................................................. 17 3.1 Objetivos del Trabajo ..................................................................................... 17 3.2 Evaluación De La Situación ........................................................................... 19
3.2.1 Equipos que conforman el SVCA-CV .................................................. 20 3.3 Objetivos De La Minería De Datos ................................................................. 22 3.4 Discusión y Conclusiones .............................................................................. 23
CAPÍTULO 4. ENTENDIMIENTO DE LOS DATOS ................................................... 25 4.1 Recolección de Datos .................................................................................... 25 4.3 Exploración de Datos ..................................................................................... 29 4.4 Verificación de Datos ..................................................................................... 32 4.5 Discusión y Conclusiones .............................................................................. 32
CAPÍTULO 5. PREPARACIÓN DE DATOS .............................................................. 35 5.1 Selección de Datos ........................................................................................ 35 5.2 Limpieza de Datos ......................................................................................... 36
XII Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
5.3 Construcción de Datos ...................................................................................37 5.4 Integración de Datos ......................................................................................39 5.5 Formateo de Datos .........................................................................................41 5.6 Discusión y Conclusiones ...............................................................................41
CAPÍTULO 6. MODELAMIENTO DESCRIPTIVO ......................................................45 6.1 Selección de la Técnica de Descriptiva ..........................................................45 6.2 Diseño Experimental ......................................................................................47 6.3 Construcción del Modelo ................................................................................48 6.4 Evaluación del Modelo ...................................................................................49 6.5 Discusión y Conclusiones ...............................................................................54
CAPÍTULO 7. MODELAMIENTO PREDICTIVO .........................................................57 7.1 Selección de la Técnica de Modelado ............................................................57 7.2 Modelo de predicción .....................................................................................60
7.2.1 Modelo de estimación de ICA por parámetros meteorológicos ............61 7.2.2 Modelo de estimación de ICA usando una serie de tiempo ..................63
7.3 Validación Experimental .................................................................................66 7.3.1 Diseño experimental ............................................................................68 7.3.2 Resultados y evaluación por parámetros meteorológicos ....................68 7.3.3 Resultados y evaluación por serie de tiempo .......................................75
7.4 Desarrollo Prototipo de Software ....................................................................81 7.4.1 Plan de desarrollo ................................................................................81
7.5 Discusión y Conclusiones ...............................................................................84
CAPÍTULO 8. CONCLUSIONES Y RECOMENDACIONES .......................................87 8.1 Conclusiones ..................................................................................................87 8.2 Recomendaciones ..........................................................................................89
A. Anexo: Características de los Programas Utilizados ...........................................91
B. Anexo: Consultas Base de Datos ..........................................................................93
C. Anexo: Verificación de Datos .................................................................................95
D. Anexo: Gráficas De La Limpieza Del Conjunto de Datos ................................... 101
E. Anexo: Revisión de los Modelos ......................................................................... 105
Bibliografía ................................................................................................................... 107
Contenido XIII
Lista de figuras
Pág. Figura 1-1: Contaminantes del Aire .................................................................................. 6
Figura 1-2: Mapa Mental del Estado de Arte .................................................................... 8
Figura 1-3: Evolución Cronológica del Estado del Arte ..................................................... 9
Figura 1-4: Representación de las Escuelas .................................................................. 11
Figura 1-5: Diagrama Circular de la Clase Empírica ....................................................... 12
Figura 3-1: Ubicación de las Estaciones de Monitoreo en la Zona Minera del Cesar[35] 18
Figura 3-2: Ubicación de las Estaciones de Monitoreo en Valledupar[8] ........................ 18
Figura 4-1: Relación entre la precipitación y el PM10 ..................................................... 29
Figura 4-2: Relación entre la precipitación y el CO ......................................................... 30
Figura 4-3: Relación Dirección del Viento, PM10 y CO ................................................... 30
Figura 4-4: Relación entre la humedad del ambiente y el CO ......................................... 31
Figura 4-5: Relación entre velocidad del viento, PM10 y CO .......................................... 31
Figura 4-6: Relación del PM10 y el CO en el tiempo ...................................................... 32
Figura 5-1: Limpieza total ............................................................................................... 37
Figura 5-2: Integración de datos - comparación.............................................................. 41
Figura 6-1: Proceso de Caracterización – Diagrama de Bloques .................................... 47
Figura 6-2: K-Medias - Selección del Número de Clúster ............................................... 48
Figura 6-3: Clúster Vs Temperatura ............................................................................... 51
Figura 6-4: Clúster Vs Precipitación ............................................................................... 51
Figura 6-5: Clúster Vs Presión atmosférica .................................................................... 52
Figura 6-6: Clúster Vs Humedad Relativa ....................................................................... 52
Figura 6-7: Clúster Vs Velocidad del viento .................................................................... 53
Figura 6-8: Clúster Vs Dirección del viento ..................................................................... 53
Figura 6-9: Clúster Vs ICA .............................................................................................. 54
Figura 7-1: Modelo de regresión Lineal para la estimación del ICA por regresión .......... 62
Figura 7-2: Topología de la red de una sola capa oculta – estimación por regresión ...... 63
XIV Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Figura 7-3: Topología de la red de dos capas ocultas– estimación por regresión ........... 63
Figura 7-4: Modelo de regresión Lineal para la estimación del ICA por serie de tiempo .. 64
Figura 7-5: Topología de la red de una sola capa oculta – serie de tiempo ..................... 65
Figura 7-6: Topología de la red de dos capas ocultas–Serie de tiempo .......................... 65
Figura 7-7: Representación data set de Prueba Vs Estimación ICAPM10 con Regresión
Lineal .............................................................................................................................. 72
Figura 7-8: Representación data set de Prueba Vs Estimación ICACO con Regresión
Lineal .............................................................................................................................. 73
Figura 7-9: Representación data set de Prueba Vs Estimación ICAPM10 con ANN ....... 74
Figura 7-10: Representación data set de Prueba Vs Estimación ICACO con ANN ......... 74
Figura 7-11: Representación data set de Prueba Vs Estimación por serie de tiempo para
ICAPM10 con Regresión Lineal ...................................................................................... 78
Figura 7-12: Representación data set de Prueba Vs Estimación por serie de tiempo para
ICACO con Regresión Lineal .......................................................................................... 79
Figura 7-13: Representación data set de Prueba Vs Estimación por serie de tiempo para
ICAPM10 con ANN ......................................................................................................... 79
Figura 7-14: Representación data set de Prueba Vs Estimación por serie de tiempo para
ICACO con ANN ............................................................................................................. 80
Figura 7-15: Sistema de Estimación por Entradas Meteorológicas.................................. 81
Figura 7-16: Sistema de Estimación por Serie de Tiempo ............................................... 82
Figura 7-17: Diagrama de Bloques Algoritmo de Estimación ........................................... 83
Contenido XV
Lista de tablas
Pág. Tabla 3-1:Equipos Usados en el Monitoreo en Valledupar[8] ......................................... 21
Tabla 3-2: Coordenadas geográficas de las Estaciones de Valledupar [8] ..................... 22
Tabla 4-1: Descripción de atributos de la tabla de meteorología .................................... 26
Tabla 4-2: Estadística de los atributos de la estación meteorológica .............................. 28
Tabla 4-3: Descripción de atributos estaciones automáticas .......................................... 28
Tabla 4-4: Estadística de datos horarios CO y PM10 ..................................................... 29
Tabla 4-5: Descripción atributos de la estación manual .................................................. 29
Tabla 4-6: Estadística de la estación manual de material particulado ............................. 29
Tabla 5-1: Estadística de datos seleccionados ............................................................... 35
Tabla 5-2: Estadística de datos seleccionados después de la limpieza .......................... 36
Tabla 5-3: Efectos a la salud de acuerdo al rango y al valor del Índice de Calidad del
Aire[36] ........................................................................................................................... 38
Tabla 5-4: Integración de Tablas (Meteorología e ICA) .................................................. 39
Tabla 5-5: Integración de Datos Final ............................................................................. 40
Tabla 5-6: Resultado Final de Datos .............................................................................. 42
Tabla 6-1: Centroides del Modelo K-Medias ................................................................... 49
Tabla 7-1: Número de Registros de CO y PM10 para los Modelos ................................. 60
Tabla 7-2: Combinaciones de entradas de los modelos de regresión ............................. 61
Tabla 7-3: Combinaciones de entradas de los modelos de serie de tiempo ................... 64
Tabla 7-4: Número de Registros Horarios para el modelo por estimación a partir de
registros meteorológicos ................................................................................................ 68
Tabla 7-5: Número de Registros Diarios para el modelo por serie de tiempo ................. 69
Tabla 7-6: Resultados de la Regresión de PM10 Horaria ............................................... 69
Tabla 7-7: Resultados de la Regresión de CO Horaria ................................................... 69
Tabla 7-8: Resultados del Índice de calidad del aire de PM10 con MLP con una capa
oculta y datos normalizados horarios ............................................................................. 70
XVI Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 7-9: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta
y datos normalizados horarios ........................................................................................ 71
Tabla 7-10: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas
ocultas y datos normalizados horarios ............................................................................ 71
Tabla 7-11: Resultados del Índice de calidad del aire de CO con MLP con dos capas
ocultas y datos normalizados horarios ............................................................................ 71
Tabla 7-12: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación
a partir de la meteorología, con regresión lineal y con ANN ............................................ 74
Tabla 7-13: Resultados de la Regresión de PM10 Diario ................................................ 75
Tabla 7-14: Resultados de la Regresión de CO Diario .................................................... 76
Tabla 7-15: Resultados del Índice de calidad del aire de PM10 con MLP con una capa
oculta y datos diarios ...................................................................................................... 76
Tabla 7-16: Resultados del Índice de calidad del aire de CO con MLP con una capa
oculta y datos diarios ...................................................................................................... 76
Tabla 7-17: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas
ocultas y datos diarios ..................................................................................................... 77
Tabla 7-18: Resultados del Índice de calidad del aire de CO con MLP con dos capas
ocultas y datos diarios ..................................................................................................... 77
Tabla 7-19: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación
por serie de tiempo, con regresión lineal y con ANN ....................................................... 79
Contenido XVII
Lista de Símbolos y abreviaturas
Símbolos con letras latinas Símbolo Término Unidad SI
Fecha Fecha aaaa/mm/dd
hora Hora hh/mm/ss
Temp_c Temperatura °C
temp_max_c Temperatura Máxima °C
temp_min_c Temperatura Mínima °C
Humedad_porcentaje Humedad relativa %
Precipitacion_mm Precipitación mm
Rata_Precipitacion Rata de lluvia mm/h
Vel_viento Velocidad del viento m/s
Dir_viento Dirección del viento °
Pt_rocio_c Punto de Rocío °C
Rad_solar Radiación Solar W/ m2
Heat_Index Índice de calor °C
Thw_Index Índice de THW °C
Índice_UV Radiación UV
Presion_barometrica Presión atmosférica mmHg
Wind_chill Factor de Enfriamiento del Aire °C
In_temp Temperatura interna °C
In_hum Humedad interna %
In_dew Punto de Rocío Consola °C
In_Heat Calor Interno, en la consola °C
XVIII Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Abreviaturas Abreviatura Término
ICA Índice de Calidad del aire
MAE Error medio Absoluto
RMSE Error medio cuadrático
PM10 Material Particulado menor a 10 micras
CO Monóxido de Carbono
ANN Redes Neuronales Artificiales
WHO Organización Mundial de la Salud
O3 Ozono
CO2 Dióxido de Carbono
SO2 Dióxido de Azufre
NO2 Dióxido de Nitrógeno
PM2.5 Material Particulado menor a 2.5 micras
MLP Perceptrón Multicapa
RBF Funciones de Base Radial
ARIMA Autor regresivo Integrado de Media móvil
IDEAM Instituto de Hidrología, Meteorología y Estudios Ambientales
CORPOCESAR Corporación Autónoma Regional del Cesar
SEVCAZMC Sistema especial de Vigilancia de Calidad de Aire Zona Minera del Cesar
SVCACV Sistema de Vigilancia de Calidad del Aire de la Ciudad de Valledupar
SVM Máquinas de Soporte de Vector
SINA Sistema Nacional Ambiental
MATLAB Matrix Laboratory
EPA Agencia de protección ambiental (Environmental protection agency)
INTRODUCCIÓN
A escala mundial, se calcula que más de 2 millones de personas mueren
prematuramente cada año debido a la contaminación atmosférica tanto en lugares
cerrados como en exteriores [1]. Los efectos de los contaminantes del aire sobre la salud
humana son motivo de especial preocupación [2] y amplio estudio en los países en vía de
desarrollo.
Observando el problema desde esta perspectiva medioambientalista se encuentra que
una de las principales fuentes de contaminación en los centros urbanos está relacionada
con la quema de combustibles fósiles los cuales se producen en los proceso industriales
y el tráfico [3], ya que liberan a la atmósfera contaminantes, en forma de gases, vapores
o partículas sólidas capaces de mantenerse en suspensión.
Una forma de identificar y evaluar los problemas de la calidad del aire como medida de
prevención para la protección de la salud de los habitantes es la supervisión atmosférica.
La información (series de tiempo) obtenida con la monitorización sirve como fuente
fundamental del entorno y permite la evaluación de normas establecidas y en casos
pertinentes tomar acción para disminuir las emisiones de contaminantes [1].
La investigación que se aborda en este trabajo va orientada como primera medida a la
construcción de un conjunto de datos usando la meteorología e índice de calidad del aire
(ICA) producto de la recopilación durante años, de la monitorización de las estaciones del
Sistemas de Vigilancia de calidad de aire del Cesar; teniendo en cuenta este conjunto de
datos, se busca entrenar y validar un modelo descriptivo, que obtenga algún tipo de
similitud entre los elementos del grupo de datos, y un modelo predictivo, que estime el
índice de calidad del aire, utilizando diferentes técnicas de minería de datos.
De esta manera, el problema de investigación implica la necesidad de encontrar una
estrategia para estimar el ICA en un entorno multivariable altamente aleatorio, mediante
la utilización de técnicas de aprendizaje computacional, y además obtener modelos que
2 INTRODUCCIÓN
garanticen un buen desempeño en sus resultados, sin contar que dicho modelo debe ser
implantado dentro de un plan de mantenimiento y supervisión, que en función de los
efectos de las variables meteorológicas y en las concentraciones de contaminantes
determine el nivel de calidad del aire en una región específica con datos actuales.
La minería de datos presentada en esta investigación, extrae información de una serie
temporal de datos y la utiliza para estimar el índice de calidad de aire en una región con
eficacia. Desarrollar un estudio de predicción de calidad de aire sería de gran utilidad en
una zona de mucha influencia a este tipo de contaminantes, como lo es el departamento
del Cesar, propensa a desarrollar problemas en la salud pública debido a la explotación
minera presente en la región.
Las predicciones de la calidad del aire se esgrimen como base para la adopción de
múltiples decisiones en el ámbito de salud pública, gestión del riesgo, agricultura, así
como el futuro impacto ambiental de los contaminantes en cualquier región, debido a que
se conocería de ante mano su comportamiento.
Dentro de esta concepción, la investigación se enmarca dentro de 4 fases:
La primera fase, la más extensa de la investigación, se refiere a la construcción de un
conjunto de datos de meteorología e índice de calidad del aire; es la fase más importante
del proyecto de minería de datos a abordar. Comenzando con el capítulo 1 en donde se
expresa el estado del arte, los antecedentes y justificación, siguiendo con el capítulo 2
donde se muestran definiciones de los contaminantes de estudio, el problema de la
contaminación y demás consideraciones. Por último los capítulos 3, 4 y 5 presentan el
entendimiento del contexto de la investigación, así como también el entendimiento de los
datos, tanto de meteorología como de los contaminantes y la preparación de los mismos.
En la segunda fase se muestra el diseño, la implementación y evaluación del modelo
descriptivo de datos de meteorología e índice de calidad del aire, basado en técnicas de
aprendizaje computacional: en esta se analizan varias técnicas de modelado las cuales
serán seleccionadas y aplicadas a los datos del proyecto. Esta etapa abarca el capítulo
6.
En la tercera fase se diseña, se implementa y se evalúa un modelo predictivo, basado en
técnicas de aprendizaje computacional, para la estimación del índice de calidad del aire;
en esta se analizan técnicas de modelado las cuales serán seleccionadas y aplicadas a
los datos del proyecto. Como resultado de esta fase se tiene el modelo predictivo de
datos de meteorología e índice de calidad de aire. Esta fase se enmarca dentro del
capítulo 7.
INTRODUCCIÓN 3
En la Cuarta y última fase se muestra el informe de la implementación del sistema de
estimación y su evaluación de manera sistemática con datos actuales; en esta se explota
la potencialidad de los modelos, integrarlos en los procesos de toma de decisión, además
exponer el conocimiento extraído. Esta fase también produce el informe escrito final del
desarrollo y la organización de los resultados del proyecto de investigación en minería de
datos. Esta fase se encuentra visualizada también dentro del capítulo 7, mostrando los
resultados de la implementación. El capítulo 8 presenta las conclusiones y las
recomendaciones.
OBJETIVOS
General
Desarrollar un sistema prototipo para la estimación del comportamiento del índice de
calidad del aire usando técnicas de aprendizaje computacional.
Específicos
• Construir un conjunto de datos de meteorología e índice de calidad del aire
apropiado para el entrenamiento y validación de modelos descriptivos y predictivos de
aprendizaje computacional.
• Diseñar, implementar y evaluar un modelo descriptivo de datos de meteorología e
índice de calidad del aire, basado en técnicas de aprendizaje computacional.
• Diseñar, implementar y evaluar un modelo predictivo, basado en técnicas de
aprendizaje computacional, para la estimación del índice de calidad del aire.
• Implementar el sistema de estimación y evaluarlo de manera sistemática con
datos actuales.
CAPÍTULO 1. MINERÍA DE DATOS EN LA ESTIMACIÓN DE CONTAMINANTES
1.1 Contaminantes Del Aire
Se estima que los contaminantes del aire causan alrededor de 2 millones de muertes
prematuras, en su mayoría en los países en vía de desarrollo. Casi la mitad de estas
muertes se deben a la neumonía en niños menores de 5 años de edad [4].
Dentro de los principales contaminantes que son materia de estudio en la actualidad se
encuentran las partículas menores a 10 micras (PM10) y menores a 2.5 micras (PM2.5);
también son estudiados los contaminantes gaseosos como son el monóxido de Carbono
(CO), ozono (O3), dióxido de Carbono (CO2), dióxido de azufre (SO2) y dióxido de
Nitrógeno (NO2).
El PM10 es el material particulado con un diámetro promedio menor de 10 micras. A
menudo es considerado como uno de los contaminantes del aire más peligrosos [5],
responsable de diversos problemas de salud. De hecho, estudios recientes han
demostrado que este material se asocia claramente con las enfermedades respiratorias
[6].
Otro contaminante muy estudiado es el PM2.5; este contiene el material particulado con
un diámetro promedio menor de 2.5 micras, de igual manera muy peligroso para la salud.
El pequeño tamaño del PM10 y del PM2.5, les permite entrar fácilmente a los alveolos
pulmonares donde se pueden situar, causando efectos adversos sobre la salud. La
exposición crónica a las partículas de estos contaminantes aumenta el riesgo de
desarrollar enfermedades cardiovasculares y respiratorias, así como de cáncer de
pulmón [4].
6 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En muchas ciudades, el nivel medio anual de PM10 supera los 70ug/m3, cuando según
las nuevas directrices de la Organización Mundial de la Salud (WHO1), para evitar
problemas respiratorios tales niveles deberían ser inferiores a 20ug/m3 [7]. Las guías de
calidad del aire de la WHO constituyen el análisis más conmensurado y actualizado
sobre los efectos de la contaminación, y recogen los parámetros de calidad del aire que
se recomiendan para reducir de modo significativo los riesgos sanitarios. Dichas guías
señalan que una reducción de la contaminación por partículas (PM10) a 20ug/m3 permite
reducir en aproximadamente un 15% las muertes relacionadas con la calidad del aire [4].
Figura 1-1: Contaminantes del Aire2
Otro contaminante ampliamente estudiado es el CO, el cual se produce principalmente
de la combustión incompleta de diversos materiales combustibles; este contaminante
atmosférico es un gas incoloro e inoloro que al reaccionar con la hemoglobina de la
sangre forma carboxihemoglobina, la cual interfiere con la oxigenación de los diferentes
órganos y tejidos del cuerpo[8].
El O3 es otro de los gases estudiado. Este gas se presenta tanto en la atmósfera superior
de la Tierra como a nivel del suelo. Un nivel elevado de O3 troposférico es un peligro
potencial para la salud humana, los cultivos y la vegetación [9].
Dado que los términos en los que se expresan las concentraciones de los contaminantes
atmosféricos son poco familiares para la mayoría de la población, se ha desarrollado el
Índice de la Calidad del Aire (ICA), el cual es un indicador de contaminación de más fácil
identificación, y se elabora en base a los límites máximos y mínimos establecidos por las
autoridades ambientales[1].
1 Word Health Organization 2 Autor, extraído de las 35 referencias del estado del arte.
0%
5%
10%
15%
20%
25%
30%
35%
40%
PM10 CO PM2.5 Sox Nox O3
38%
16%
10%12%
16%
8%
Capítulo 1 7
Uno de los poderosos gases contaminantes de la atmósfera son los Óxidos Nitrosos
(NOx); estos hacen referencia al Óxido Nítrico y al Dióxido de Nitrógeno. Los Óxidos de
Nitrógeno se forman al mismo tiempo en los procesos de combustión y otras operaciones
industriales que manejan altas temperaturas [11].
Otro de los gases contaminantes también estudiados que afectan la salud y el medio
ambiente son los Óxidos de Azufre (SOx); estos se forman principalmente durante la
combustión de los combustibles que contienen azufre siendo así un contaminante
primario3[11].
Existen graves riesgos para la salud derivados de la exposición al material particulado,
monóxido de carbono y al Ozono en numerosas ciudades de los países desarrollados y
en desarrollo. Es posible establecer una relación cuantitativa entre los niveles de
contaminación y resultados concretos relativos a la salud como el aumento de la
mortalidad o la morbilidad [12]. Este dato resulta útil para comprender las mejoras que
cabría esperar en materia de salud si se reduce la contaminación del aire. Esta es una de
las razones del estudio del pronóstico del material particulado en una zona, ya que se
podría conocer cómo posiblemente se comportaría un contaminante.
En la Figura 1-1 se muestra el contaminante más ampliamente utilizado en las
investigaciones para el pronóstico de la Calidad del Aire; de las 35 referencias, 18 toman
al PM10 como base para la investigación, seguida del Monóxido de Carbono y los Óxidos
Nitrosos, ambos estudiados en 8 referencias.
1.2 Métodos De Análisis Para La Estimación
Dentro del marco de la investigación, se pudo extraer tres diferentes escuelas usadas
para la estimación: la escuela de modelos determinísticos (teóricos), la escuela de
modelos empíricos y la escuela de modelos hibrido.
Se puede observar en la Figura 1-2 el mapa mental de la estimación de la calidad del aire
y sus respectivas subdivisiones desarrolladas a partir del estudio del estado del arte.
3 Es emitido directamente de una fuente al aire
8 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Figura 1-2: Mapa Mental del Estado de Arte4
Predicción de la Calidad del Aire
EMPÍRICO
ANÁLISIS NUMÉRICO
ESTADÍSTICOS
Machine Learning
Hibrido
Métodos Lineales
Data Mining
Predictor Simple
Modelo Lineal
Regresión No Lineal
DETERMINÍSTICO
HIBRIDO
Métodos Estadísticos
Métodos Estocásticos
Sistema de Modelamiento Determístico
Software Especializado
MLP
SVM
RBF
ELMA
SEMI - MARKOV OCULTO (HSMM)
TRANSFORMADA DE WAVELET
MÚLTIPLE REGRESIÓN
LINEAL
ARIMA
LRA
CART
PCA
PERSISTENCIA
NLR
BACK-TRAYECTORYMACHINE LEARNING/
ESTADÍSTICO
LINEAL / NO LINEAL
MACHINE LEARNING / T WAVALET
MACHINE LEARNING / REGRESIÓN NO LINEA
1.2.1 Escuela de modelos determinísticos
En la escuela determinística se encuentran los modelos que usan técnicas de transporte
químico, aplicando fundamentalmente principios de simulación física y química, implicado
a la emisión, transporte y transformación de los procesos que están presentes en la
contaminación ambiental; entre estos se encuentra los estocásticos y los estadísticos.
1.2.2 Escuela de modelos empíricos
Los métodos empíricos usan modelos estadísticos o técnicas numéricas para cuantificar
las relaciones observadas entre los campos de la meteorología y la calidad del aire de
una región específica [13].
Dentro de los métodos con análisis numéricos se encuentran modelos de Minería de
Datos, Aprendizaje Computacional o una combinación de ambos.
4 Autor, extraído de las 35 referencias del estado del arte
Capítulo 1 9
Figura 1-3: Evolución Cronológica del Estado del Arte5
01/01/2000 01/06/2012
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
PM10: Material Particulado menor a 10 MicrasPM2.5: Material Particulado menor a 2.5 MicrasPST: Partículas Suspendidas TotalesCO: Monóxido de CarbonoSOx: Óxidos de AzufreNOx: Óxidos de NitrógenoO3: OzonoRS: Radiación SolarML: Machine LearningNL: Numérico LinealNNL: Numérico No LínealSP: Simple PredictionMLE: Modelo Lineal EstadísticoE: EstadísticoMANL: Modelo Adaptativo No LinealH: HíbridoHSMM: Semi-Markov OcultoSE: Software Especializado
2001
EmpíricoPST
ML-NL
2000
EmpíricoPM2.5ML-SP
2002
EmpíricoPM10
ML-NL
2003
Empírico y DeterminísticoNO2, PM10
ML-MLE
2003
EmpíricoNOx
ML-NL
2004
EmpíricoCOML
2006
EmpíricoPM10
ML-NL
2005
EmpíricoPM10
ML
2005
EmpíricoNO2ML
2005
EmpíricoPM2.5
ML
2005
EmpíricoPM10, O3
ML
2005
HíbridoNO2, PM2.5
ML/E
2006
EmpíricoPM10
ML
2006
EmpíricoPM10
H
2006
EmpíricoPM10MANL
2007
EmpíricoNO2, CO,SO2
ML
2008
Empírico e HíbridoPM10
ML-NL y NL/NNL
2008
EmpíricoNO2, O3,SO2, CO
ML
2008
EmpíricoPM10
ML
2009
EmpíricoCO,SO2
ML
2009
EmpíricoPM10,CO,NO2, O3
ML
2009
EmpíricoPM2.5HSMM
2010
EmpíricoRSML
2009
EmpíricoPM10,CO,NO2
H
2010
EmpíricoPM2.5NNL
2010
EmpíricoPM10, CO, SO2
ML
2010
EmpíricoNO2, CO, SO2, O3
ML
2011
HíbridoPM10ML/E
2011
EmpíricoPM10
ML
2011
HíbridoPM10, PM2.5
ML/NNL
2012
EmpíricoPM10
H
2012
EmpíricoPM10
ML
2012
HíbridoCO
ML/NNL
2012
Empírico y DeterminísticoPM10
ML-SE
2008
EmpíricoPM10, NO2, O3,SO2, CO
ML
AñoEscuela
ContaminanteMétodo
La mayor parte de los autores de las referencias estudiadas emplean técnicas de
Machine Learning, para su modelo predictivo, y en especial técnicas de Redes
Neuronales Artificiales (ANN6) y Funciones de Base Radial (RBF7).
Las ANNs, están inspiradas por Redes Neuronales Biológicas. La idea de las neuronas
como componentes estructurales del cerebro fue presentado por Ramón Cajal en
1911[14]. McCulloch & Pitts en 1943 definieron la neurona como un dispositivo binario
con varias entradas y salidas.
Las ANNs han sido usadas como una herramienta muy eficaz en la predicción y
estimación de las concentraciones de contaminantes con resultados prometedores [15],
principalmente el Perceptrón Multicapa (MLP8), [16],[17],[18] y [19]. Las ANNs pueden
modelar sistemas tanto lineales como no lineales. Una ventaja adicional de las redes
neuronales es que no requieren un inventario de emisiones costoso o tampoco de un
actualización periódica [20].
5 Autor, extraído de las 35 referencias del estado del arte 6 Del inglés Artificial neural networks 7 Del inglés Radial Basic Function 8 Del inglés Multilayer perceptron
10 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Los modelos de RBF se diferencian al MLP en la forma de activación, ya que estas
utilizan un nivel de activación de una neurona oculta, que está determinado por la
distancia entre el vector de entrada a la red y un vector prototipo asociado a dicha
neurona y no por una función [21].
Las Máquinas de Soporte de Vector (SVM9), son un nuevo tipo de “Machine Learning”
basado en la teoría del aprendizaje estadístico; se puede utilizar para la regresión y la
predicción de series temporales, y se han reportado buenos desempeños con resultados
prometedores[22].
Los enfoques tradicionales para la predicción de series de tiempo, como el de Box-
Jenkins o el modelo Autorregresivo Integrado de Media móvil (ARIMA10), asumen que la
serie de tiempo de estudio se genera a partir de procesos lineales. Sin embargo, pueden
ser inapropiados si el mecanismo subyacente es no lineal [23]. De hecho, los sistemas
del mundo real son a menudo no lineales.
1.2.3 Escuelas híbridas
Las Escuelas Híbridas combinan modelos determinísticos y modelos empíricos
mejorando notablemente los resultados en algunos casos, comparados con los modelos
de una u otra escuela.
Esto se evidencia en la investigación realizada en la ciudad de Helsinki, en donde se usa
una combinación de un operador determinístico llamado Modelo de Área de Alta
Resolución Limitada de su sigla en inglés HIRLAM y un modelo empírico de MLP,
obteniendo un modelo muy eficiente en la predicción [24].
En la Figura 1-3 se muestra la evolución temporal del estudio del pronóstico de la calidad
del aire desde el año 2000 hasta el 2012, seleccionando 35 referencias.
1.3 Métodos de Análisis Descriptivos
Los métodos descriptivos no precisan registros de datos o sucesos[25], se centran en
encontrar patrones y así poder detectar reglas, correlaciones y asociaciones.
9 Del inglés support vector machine 10 Del inglés “autoregressive integrated moving average”
Capítulo 1 11
El Agrupamiento o Clustering es una tarea descriptiva que consiste en obtener grupos a
partir de atributos previamente establecidos; este tipo de modelos se basa en el principio
de maximizar la similitud entre los elementos de un grupo, minimizando la similitud entre
los diferentes grupos[26]. K-Medias es uno de los algoritmos que se pueden destacar en
este modelo.
En realidad, las técnicas de clustering son las más populares a la hora de separar datos
en grupos y una de las técnicas de Minería de Datos más utilizadas [27]. Estos sistemas
sintetizan conocimiento cualitativo o cuantitativo, con la finalidad de llevar a cabo tareas
de descubrimiento[28].
1.4 Antecedentes y Análisis Preliminar
La calidad del aire ha emergido como el mayor factor de contribución a la calidad de vida
en las zonas urbanas, y especialmente en las áreas densamente pobladas e
industrializadas [29]. Es de saber que un medio ambiente limpio y saludable es sinónimo
de una mejor calidad de vida.
Figura 1-4: Representación de las Escuelas11
La tendencia en la actualidad se observa claramente en la Figura 1-4, donde se
evidencia el dominio de la escuela empírica sobre las determinísticas y las híbridas, en el
estudio de la predicción de los contaminantes; el 82% de las referencias estudiadas en el
estado del arte recomienda, evalúa y utiliza en el pronóstico de la calidad del aire, de
acuerdo con sus investigaciones, una ANNs o cualquier otro método Lineal.
11 Autor, extraído de las 35 referencias del estado del arte
13%
5%
82%
DETERMINÍSTICOS
HÍBRIDOS
EMPÍRICOS
12 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Figura 1-5: Diagrama Circular de la Clase Empírica12
Se encuentra además que los métodos más usados son las ANNs, como se evidencia en
el diagrama de la Figura 1-5, y dentro de este método la técnica más usada es el MLP
con un 40% de las referencias, continuando con RBF en un 13%.
1.5 Discusión y Conclusiones
Desarrollar un estudio de predicción de calidad de aire sería de gran utilidad en una zona
de mucha influencia a este tipo de contaminantes, como lo es el departamento del Cesar,
propensa a desarrollar problemas en la salud pública debido a la explotación minera
presente en la región.
Las predicciones de la calidad del aire sirven como base para la adopción de múltiples
decisiones en el ámbito de salud pública, gestión del riesgo, agricultura, así como el
futuro impacto ambiental de los contaminantes en cualquier región, debido a que se
conocería de ante mano su comportamiento.
12 Autor, extraído de las 35 referencias del estado del arte
40%
13% 8%
11%
11%
4%
13%
MLP
RBF
SVM
Regresión Lineal
Estadísticos
Híbridos-E
Otros
CAPÍTULO 2. CONTAMINACIÓN ATMOSFÉRICA
A escala mundial, se calcula que más de 2 millones de personas mueren
prematuramente cada año debido a la contaminación atmosférica tanto en lugares
cerrados como en exteriores [1]. Los efectos de los contaminantes del aire sobre la salud
humana son motivo de especial preocupación [2] y amplio estudio en los países en vía de
desarrollo.
El gobierno de Colombia posee un organismo dedicado al cuidado del medio ambiente,
llamado el Ministerio de Ambiente y Desarrollo Sostenible, y es la entidad pública del
orden nacional rectora en materia de gestión del ambiente y de los recursos naturales
renovables [30].
2.1 Normatividad
El ministerio de ambiente y desarrollo sostenible (Minambiente), anteriormente llamado
Ministerio de Medio Ambiente y Ministerio de Ambiente, Desarrollo Territorial y Vivienda,
fue creado mediante la Ley 99 de 1993, también llamada Ley General Ambiental de
Colombia, en donde se reordena el sector público encargado de la gestión y
conservación del medio ambiente y los recursos naturales renovables [31]; se organiza el
Sistema Nacional Ambiental, SINA, el cual está integrado por el Ministerio del Medio
Ambiente y Desarrollo Sostenible, las Corporaciones Autónomas Regionales, las
Entidades Territoriales y los Institutos de Investigación adscritos y vinculados al
Ministerio.
En el decreto 1868 de 1994 se estructura el nuevo ente territorial, y en su artículo 3
prescribe como función la de presidir el consejo directivo de las corporaciones para el
desarrollo sostenible, las entidades territoriales y los institutos de investigación [32]. Con
esta ley también se crea el Instituto de Hidrología, Meteorología y Estudios Ambientales
14 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
(IDEAM) cuyo objetivo es obtener, analizar, estudiar, procesar y divulgar la información
relativa al medio ambiente físico.
El ministerio promulga la resolución 601 en 2006 en donde se establece la norma de
calidad del aire o nivel de inmisión para todo el territorio nacional en condiciones de
referencia, en la cual se desarrollan los niveles máximos permisibles de contaminantes
en la atmósfera; los procedimientos para la medición de la calidad del aire, los programas
de reducción de la contaminación del aire y los niveles de prevención, alerta y
emergencia y las medidas generales para su mitigación, norma aplicable a todo el
territorio nacional [33].
Dentro de esta resolución el ministerio prescribe que adoptará a nivel nacional el
Protocolo del Monitoreo y Seguimiento de Calidad del Aire, el cual será elaborado por el
IDEAM. Dicho protocolo contiene las especificaciones generales para la ubicación y el
diseño de Estaciones de Monitoreo de Calidad del Aire, las técnicas de muestreo de cada
uno de los contaminantes convencionales, la periodicidad y condiciones para el
monitoreo, los recursos necesarios para el montaje, operación y seguimiento de
estaciones; el índice nacional de calidad del aire y la definición de indicadores para el
monitoreo de la calidad del aire, entre otras [33].
Con la expedición del Decreto 979 en 2006 y la Resolución 610 de 2010 que modifica la
Resolución 601 en 2006, por parte del Ministerio de Ambiente, Vivienda y Desarrollo
Territorial, las autoridades ambientales asumieron obligaciones de considerable
responsabilidad en la gestión del recurso aire, los compromisos se concentran en las
mediciones obligatoria de la calidad del aire mediante la operación de los sistemas de
monitoreo, la elaboración e implementación de los planes de contingencia en zonas de
contaminación crítica y la obligación de informar al público sobre la calidad del aire de
todos los parámetros e indicadores medidos para conocimiento de la opinión pública.
2.2 Ente Regulador Regional
La Corporación Autónoma Regional del Cesar - Corpocesar, dentro de sus funciones
establecidas por disposiciones legales tiene, entre otras, la de realizar actividades de
Planificación y Gestión Ambiental Integral en el área de su jurisdicción. A partir de esta
responsabilidad, dentro del programa de gestión de la corporación, han implementado
CAPÍTULO 2 15
proyectos y programas de investigación, control y monitoreo de la calidad ambiental a
través de la operación de la Red De Calidad De Aire De La Ciudad De Valledupar y Zona
Minera Del Cesar. Este proyecto entra en funcionamiento en el año de 2006; para la zona
minera del Cesar empiezan los monitoreos en el año 2007, continuando en la ciudad de
Valledupar, con los monitoreos en el año 2008, por parte de la empresa K2 Ingeniería13
de Bucaramanga.
Este proyecto es asignado a principios de 2008 hasta finales de 2012 por la Universidad
Industrial de Santander, con el Grupo de Investigación de Ingeniería Civil Geomática; en
esta etapa toman los nombres de Sistema Especial de Vigilancia de Calidad del Aire de
la Zona Minera del Cesar (SEVCAZMC) y Sistema de Vigilancia de Calidad de Aire de la
Ciudad de Valledupar (SVCACV).
Actualmente la red de vigilancia de calidad del aire es nuevamente asignada a la
empresa K2 Ingeniería.
2.3 Discusión y Conclusiones
Todos los monitoreos realizados por la Universidad Industrial de Santander – Grupo
Geomática y K2 Ingeniería, empresas que manejaron la red, lo hicieron bajo los
parámetros establecidos para el sistema de vigilancia de la calidad del aire de la ciudad
de Valledupar y la zona minera del Cesar en concordancia con la resolución 610 de 2010
y la 650 de 2010.
13 Empresa constituida en Bucaramanga hace 15 años cuyas actividades principales son la Ingeniería Ambiental, Civil y Mecánica
CAPÍTULO 3. ENTENDIMIENTO DEL CONTEXTO
Es una actividad importante de cualquier proyecto de minería de datos. En esta parte se
debe tener un completo conocimiento del negocio o trabajo en el cual se está abordando.
Entender los objetivos y requerimientos del proyecto desde una perspectiva de negocio.
3.1 Objetivos del Trabajo
El trabajo desarrollado posee un banco de datos que va desde la meteorología de la
mayor parte de la Zona minera del Cesar y Valledupar hasta los monitoreos de PM10,
PM2.5 y CO.
El objetivo principal de la investigación que se aborda, va orientada a desarrollar un
sistema prototipo para la estimación del comportamiento del índice de calidad del aire
usando técnicas de aprendizaje computacional, a partir de la monitorización de las
estaciones del Sistema de Vigilancia de calidad de aire, solo de la Ciudad de Valledupar.
La ubicación exacta de cada una de las estaciones de monitoreo que conforman el
Sistema Especial de Vigilancia de la Calidad del Aire de la Zona Carbonífera del Cesar
SEVCA-ZCC y el Sistema de Vigilancia de Calidad de Aire de la Ciudad de Valledupar
SVCA-CV, la cual está a cargo de Corpocesar, se pueden evidenciar en la Figura 3-1 y
en la. Figura 3-2 respectivamente.
El problema de investigación implica la necesidad de encontrar una estrategia para
estimar el ICA en un entorno multivariable altamente aleatorio, mediante la utilización de
técnicas de aprendizaje computacional, y además obtener modelos que garanticen un
buen desempeño en sus resultados, que en función de los efectos de las variables
meteorológicas y en las concentraciones de contaminantes determine el nivel de calidad
del aire en una región específica.
18 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Figura 3-1: Ubicación de las Estaciones de Monitoreo en la Zona Minera del Cesar[35]
Figura 3-2: Ubicación de las Estaciones de Monitoreo en Valledupar[8]
Dentro de este marco conceptual surgen los siguientes interrogantes:
¿Cómo estimar el comportamiento del índice de calidad del aire presente en el ambiente,
con técnicas de aprendizaje computacional?
CAPÍTULO 3 19
¿Cómo obtener una relación factible entre las variables de meteorología y el índice da
calidad del aire?
3.2 Evaluación De La Situación
La información sobre la Calidad del Aire de la Zona Carbonífera del Cesar y Valledupar,
presente en las bases de datos de Corpocesar se encuentra actualizada y estandarizada,
basadas en los parámetros establecidos por la normatividad vigente en calidad de aire.
El primer recurso necesario es la base de datos de la Calidad del Aire de la Zona
Carbonífera del Cesar y Valledupar, cuyo acceso es otorgado por el Director actual de
Corpocesar Doctor Kaleb Villalobos Brochel, en conjunto con la Coordinación de
Proyectos de Corpocesar. El acceso a esta base de datos ya fue aprobado por la
corporación, por medio de un derecho de petición radicado el día 21 de septiembre de
2012.
Los datos presentes son totalmente confiables debido a que se realizan bajo los
parámetros establecidos para el Sistema de Vigilancia de la Calidad de Aire SVCA en la
república de Colombia; en concordancia con la Resolución 610 de 2010.
Se necesitan indiscutiblemente recursos computacionales para el manejo de las bases
de datos; y además de un software especializado en Minería de Datos como Rapid
Miner V5, además de software para cálculos matemáticos y estadísticos como Matlab
V2013b y SPSS14 V21, y así como también administradores de base de datos MySQL
Server 5.0 y SQLyog Enterprise V6.03. Además de un ordenador con características
mínimas que soporten estos software especializados.
La características de estos programas se encuentran en el Anexo A.
También se precisan de software que manejen listas y archivos planos como son Libre
Office V3.5 y Microsoft Office V2013.
La base de datos soportada por Corpocesar es de estricta confidencialidad y debe
permanecer en ese estado.
14 IBM SPSS Statistics
20 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Son más apreciables los beneficios que los costos del proyecto debido a que los
programas informáticos a utilizar poseen licencias gratis. Los únicos gastos aparentes
son los debidos a los costos hora por mano de obra en la programación y en el estudio
de la base de datos.
3.2.1 Equipos que conforman el SVCA-CV
Este sistema cuenta actualmente con dos estaciones de monitoreo, una de ellas ubicada
en inmediaciones del centro de la ciudad, la cual está compuesta por dos equipos
automáticos para la medición de material particulado PM10 y CO; la otra estación se
encuentra localizada en el interior de la ciudad, en donde se mide únicamente material
particulado PM10.
Analizador Automático de Monóxido de Carbono Marca Wedding Modelo 1020
Este equipo se encuentra ubicado en la Calle 16 # 14 esquina, contigua a la Gobernación
del Cesar. Realiza la determinación de la concentración de CO, basándose en el principio
de fotometría por infrarrojo no dispersivo. El funcionamiento del equipo se basa en la
diferencia en la absorción de radiación a cierta longitud de onda por el CO presente en el
aire recolectado por el equipo con la radiación que deja de ser absorbida cuando es
aplicada a la cámara del equipo que contiene únicamente nitrógeno no reactivo. En la
Tabla 3-1 se muestra los equipos que conforman el SVCA-CV, en donde se especifica la
forma de monitoreo de cada estación. Además se visualiza las coordenadas geográficas
de las estaciones (Tabla 3-2).
Muestreador De Alto Volumen (Hi-Vol) de PM10 Marca Tisch
Este equipo se encuentra instalado actualmente en la Clínica Laura Daniela de
Valledupar, zona aledaña al barrio la Flores, contigua a la Glorieta de la Mariamulata.
El muestreo de las partículas se realiza mediante un equipo denominado muestreador de
alto volumen (Hi-Vol), el cual está formado por una bomba de succión, un porta-filtros, un
registrador de flujo (o indicador de flujo) y un programador de tiempo de muestreo, todo
esto se halla cubierto con una coraza de protección [8].
El diseño del equipo permite que las partículas de diámetro menor o igual a 10μm sigan
las líneas de la corriente de flujo de aire dirigiéndose a los tubos inyectores, mientras las
CAPÍTULO 3 21
partículas de tamaño, con suficiente inercia, se salen de las líneas de flujo impactándose
contra el plato. Para operar correctamente, este equipo debe hacer pasar aire ambiente
por el filtro a una rata de flujo que oscila entre 1.02 a 1.24 m3/min [8].
Cuando se opera en este rango de flujo, las muestras pueden ser colectadas por
periodos de 24 horas. La concentración de la masa de las partículas suspendidas se
calcula por medio de la diferencia en pesos del filtro antes y después del muestreo y del
total del flujo de aire muestreado.
Analizador Automático de Monóxido de Carbono Marca Wedding Modelo 1020
Este equipo se encuentra ubicado en la Calle 16 # 14 esquina, contigua a la
Gobernación del Cesar. Realiza la determinación de la concentración de CO, basándose
en el principio de fotometría por infrarrojo no dispersivo.
El funcionamiento del equipo se basa en la diferencia en la absorción de radiación a
cierta longitud de onda por el CO presente en el aire recolectado por el equipo con la
radiación que deja de ser absorbida cuando es aplicada a la cámara del equipo que
contiene únicamente nitrógeno no reactivo.
Tabla 3-1:Equipos Usados en el Monitoreo en Valledupar[8]
ESTACIÓN EQUIPO FOTO
V2 Estación Móvil
PM 10 Semiautomático marca THERMO Serie 1400A Teom Sensor Unit. Analizador automático de CO Wedding Modelo 1020. Datalogger y Monitor para almacenar y administrar los datos capturados.
V4 Laura Daniela
PM 10 Manual Marca Tisch Monitoreo de Alto Volumen
22 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Analizador Semiautomático de PM10 Marca THERMO
El sistema de medición del equipo TEOM, el cual se encuentra dentro de la estación
móvil de la red de calidad de aire de Valledupar, utiliza un filtro intercambiable montado al
final de un tubo hueco afilado. El extremo ancho del tubo es fijo. El elemento afilado vibra
en su frecuencia natural; el aire de muestreo se pasa a través del filtro, en donde se
depositan las partículas. La frecuencia de vibración natural disminuye conforme aumenta
la masa de material particulado en el filtro, mientras la electrónica del equipo monitorea
esta frecuencia [8]. Este equipo basa su lectura considerando la relación física entre la
masa depositada en el filtro y la frecuencia de vibración del elemento.
Tabla 3-2: Coordenadas geográficas de las Estaciones de Valledupar [8]
ID ESTACIÓN TECNOLOGÍA TIPO MATERIAL
ESTUDIADO
LATITUD:
OESTE
LONGITUD:
NORTE
V2 Estación Móvil - Gobernación
Micro-balanza oscilatoria
Automático PM10 73° 15’ 6.78” 10° 28’ 20.12”
Infrarrojo no dispersivo
Automático CO 73° 15’ 6.78” 10° 28’ 20.12”
V4 Clínica Laura Daniela
Hi -Vol Manual PM10 73° 15’ 25” 10° 28’ 12”
Estación Meteorológica
La estación de Monitoreo de Meteorología de la Ciudad de Valledupar está Conformada
por la estación WeatherLink Vantage Pro2 de la empresa DAVIS, ubicada en la azotea
del edificio de Corpocesar en la Calle 9 con Carrera 9 esquina. También se puede contar
con información adicional de estaciones con información pertinente en la red para
corroborar el monitoreo realizado con dicha estación. Entre estas estaciones se
encuentra la estación del IDEAM ubicada en FEDEARROZ en la Carrera 12 con calle
21 esquina y la estación de Alfonso López del Aeropuerto.
3.3 Objetivos De La Minería De Datos
Los objetivos del trabajo que se aborda, están orientados como primera medida a la
construcción de un conjunto de datos usando la meteorología e ICA producto de la
recopilación durante años, de la monitorización de las estaciones del Sistemas de
Vigilancia de calidad de aire; teniendo en cuenta este conjunto de datos, se busca
CAPÍTULO 3 23
entrenar y validar un modelo descriptivo; además de obtener un modelo predictivo, que
estime el índice de calidad del aire de una manera eficaz, utilizando técnicas de minería
de datos.
Entre los criterios de éxito del proyecto se encuentra en primera instancia escoger el
periodo de estudio; luego se debe delimitar la zona a la cual se le va hacer el estudio, es
decir cuál de las dos zonas de monitoreo se utilizará, además de escoger entre las
distintas estaciones la que posea datos meteorológicos necesarios y a la vez posea
datos de monitoreo de contaminantes en el mismo espacio de tiempo del estudio. Para
desarrollar los objetivos se utiliza la metodología CRISP-DM 1.015 empleada para realizar
trabajos de Minería de Datos.
Para evaluar los modelos planteados se tendrá en cuenta la exactitud en la estimación,
mediante el uso de distintos parámetros de medidas de error.
3.4 Discusión y Conclusiones
El trabajo a desarrollar posee un banco de datos que va desde la meteorología de la
mayor parte de la Zona minera del Cesar y Valledupar hasta los monitoreos de PM10,
PM2.5 y CO. Estos dos sistemas están ampliamente diseminados en su región de
monitoreo y ambos sistemas está a cargo de Corpocesar. Las estaciones se encuentran
clasificadas de acuerdo a la emisión dominante en estaciones de fondo urbano,
estaciones de efecto industrial y estaciones de efecto de tráfico.
15 CRoss-Industry Standard Process for Data Mining, sigla acuñada por el consorcio CRISP-DM en 1995, que se interpreta como Proceso Estándar Industrial Híbrido para la Minería de Datos
CAPÍTULO 4. ENTENDIMIENTO DE LOS DATOS
4.1 Recolección de Datos
Para proceder con esta parte de la investigación se planea qué información es necesaria
para cumplir con los objetivos planteados, es decir sólo atributos determinados, o alguna
información adicional específica. Se debe elegir solo los atributos concernientes a los
contaminantes reportados en la base de datos, al igual que toda la meteorología de la
ciudad de Valledupar.
Los datos recolectados fueron extraídos de las bases de datos de la Corpocesar, para el
periodo de los años 2009 al 2012. Esta corporación tiene por objeto propender por el
desarrollo sostenible y la protección del medio ambiente en todo el departamento del
Cesar.
La base de datos del SVCA-CV está ensamblada sobre MySQL con un administrador
SQLyog Enterprise V6.03, para acceder a la base de datos se precisan consultas en
instrucciones de MySQL.
Estos datos en primera medida son cargados en un formato plano, para ser llamados en
una hoja de cálculo, donde serán organizados. Posteriormente serán incluidos y
analizados en las herramientas Rapid Miner y en hojas de cálculo, para ser evaluados.
Alguna de las consultas usadas para obtener las tablas pueden observarse en el Anexo
B.
4.2 Descripción de los Datos
La base de datos en la cual nos vamos a centrar es la concerniente a la Ciudad de
Valledupar, perteneciente al SVCACV.
Los datos obtenidos de las estaciones conforman la base de datos tanto de monitoreo de
PM10 y CO, como de meteorología de la Ciudad de Valledupar.
La base de datos de Valledupar se encuentra estructurada mediante 8 tablas.
26 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 4-1: Descripción de atributos de la tabla de meteorología
Campo Tipo Descripción Identificación Unidad
Fecha Horario Es la fecha del monitoreo fecha aaaa/mm/dd
Hora Horario Es la hora de la muestra del monitoreo
hora hh/mm/ss
Temperatura Real Es la temperatura horaria Temp_c Centígrados
Temperatura Máxima
Real Es la temperatura máxima obtenida en una hora temp_max_c Centígrados
Temperatura Mínima
Real Es la temperatura mínima obtenida en una hora temp_min_c Centígrados
Humedad relativa
Real Es la a la cantidad de vapor de agua presente en el aire obtenida en una hora
Humedad_porcentaje Porcentaje
Precipitación Real Es la acumulación de precipitación que ha caído en una hora
Precipitacion_mm Milímetros de
agua
Rata de lluvia
Real Es la intensidad de precipitación que ha caído por hora Rata_Precipitacion Milímetros/hora
Velocidad del viento
Real Promedio de la velocidad del viento horaria Vel_viento
Metros/ segundos
Dirección del viento
Real Promedio de la dirección del viento horaria Dir_viento Grados
Punto de Rocío
Real
Promedio de la temperatura a la que empieza a condensarse el vapor de agua contenido en el aire horaria
Pt_rocio_c Centígrados
Radiación Solar
Real Presenta la radiación solar presente en cada hora del día Rad_solar Vatio/ metros2
Índice de calor
Real Promedio de calor valorado en temperatura Heat_Index Centígrados
Índice de THW
Real Índice de temperatura, humedad y viento valorado en temperatura
Thw_Index Centígrados
Radiación UV
Real Promedio del índice de radiación Ultravioleta durante la hora Índice_UV Adimensional
Presión atmosférica
Real Es la presión atmosférica promedio horaria Presion_barometrica
Milímetros de mercurio
Factor de Enfriamiento del Aire
Real
Es la temperatura de enfriamiento del viento Wind_chill Centígrados
Temperatura interna
Real Es la temperatura en el interior del recinto de la consola In_temp Centígrados
Humedad interna
Real Es la humedad en el interior del recinto de la consola In_hum Porcentaje
Punto de Rocío Consola
Real
Promedio de la temperatura a la que empieza a condensarse el vapor de agua contenido en el aire en la consola - interior
In_dew Centígrados
Calor Interno, en la consola
Real
Promedio de calor valorado como temperatura en la consola - interior
In_Heat Centígrados
Código Entero Es el código asignado la estación meteorológica en Valledupar
ID null
CAPÍTULO 4 27
Los atributos extraídos de la base de datos mediante la utilización de las consultas
citadas, entre los años 2009 a 2012 son correspondientes a 3 tablas, una de
meteorología, una tabla de datos automáticos horarios de CO y PM10, y una última de
PM10 y CO para datos diarios; estos resultados se pueden evidenciar en la Tabla 4-1.
En la Tabla 4-2 se visualiza los resultados estadísticos de cada uno de los atributos de la
estación meteorológica. Dentro de este banco de datos se puede observar que dichos
atributos presentan múltiples datos inválidos, como en los valores mínimos de
temperatura (reportando valores en cero), lo cual es muy improbable en esta región. Este
mismo hecho se presenta en las temperaturas máximas y mínimas. También se puede
extraer datos atípicos en la medida de la precipitación, donde muestra un valor de
756.5mm de agua en una hora, lo cual es poco probable que se presente.
Los atributos extraídos de la base de datos de los monitoreos de la Estación
Meteorológica automática entre los años 2009 a 2012 se muestran en la Tabla 4-3.
Se puede observar que los tipos de datos desplegados son atributos numéricos; solo dos
atributos son de tipo horario. Estos generan una tabla de meteorología, con 34242
registros y 23 atributos, procedente de monitoreos horarios.
Otro hallazgo encontrado es el mostrado en el atributo de velocidad del viento donde el
máximo promedio obtenido fue 29m/s, cuyo valor no se encuentra en las mismas
unidades del resto de datos.
En la Tabla 4-4 se presenta la estadística concerniente a la tabla de datos de PM10 y
CO, en esta se evidencia que en monitoreos automáticos horarios de CO se obtuvieron
30720 registros y para los monitoreos automáticos horarios de PM10, 19279 registros
horarios.
Los atributos de la base de datos de las concentraciones de las Estación Manual entre
los años 2009 a 2012 es mostrado en la Tabla 4-5.
Los datos extraídos son todos atributos numéricos, excepto el nombre de estación y la
fecha, los cuales son de tipo nominal y horario, respectivamente. Estos generan una
tabla con concentraciones de material particulado cada 3 días, con 477 registros y 4
atributos de datos válidos e inválidos. En la Tabla 4-6 se presenta la estadística
correspondiente a estación manual de material particulado.
28 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 4-2: Estadística de los atributos de la estación meteorológica
Atributo Registros
numéricos
Máximo
valor
Mínimo
valor
Media/
Suma
Mediana Desviación
estándar
Varianza Moda
Temperatura 31395 39.6 0.0 28.22 27.6 3.57 12.72 25.1
Temperatura Máxima
20107 38.9 0.0 28.41 27.9 3.53 12.482 25.9
Temperatura Mínima
20107 37.7 0.0 27.47 26.8 3.34 11.126 24.8
Humedad relativa
24964 98.0 0.0 72.5 75.0 14.78 218.58 89
Precipitación 32456 756.5 0.0 4984.416 0.0 5.56 30.968 0.0
Rata de lluvia 20782 1828.8 0.0 1.34 0.0 30.91 955.629 0.0
Velocidad del viento
26554 29.0 0.0 4.35 3.1 4.5 20.233 1.3
Dirección del viento
24618 337.5 0.0 83.43 45.0 82.7 7002.97 22.5
Punto de Rocío 20018 28.7 0.0 22.57 22.8 1.79 3.196 22.5
Radiación Solar 11750 1012 0.0 179.86 0.0 278.25 77414.06 0.0
Índice de calor 20018 48.8 0.0 31.24 30.1 5.0 24.969 25.1
Índice de THW 20018 48.8 0.0 31.11 29.9 5.05 25.525 26.2
Radiación UV 6177 12.8 0.0 1.63 0.0 3.05 9.31 0.0
Presión atmosférica
33032 761.2 0.0 751.05 753.9 8.42 70.81 755.9
Factor de Enfriamiento del Aire
20107 38.0 0.0 27.8 27.1 3.46 12.004 25.1
Temperatura interna
21771 79.0 0.0 28.27 27.33 6.14 37.693 27.1
Humedad interna
21771 92.0 0.0 56.71 58.0 12.12 147.147 63
Punto de Rocío Consola
21770 37.8 0.0 18.37 19.0 4.15 17.189 21.6
Calor Interno, en la consola
21770 47.3 0.0 28.62 28.6 3.31 10.932 28.9
Tabla 4-3: Descripción de atributos estaciones automáticas
Campo Tipo Descripción Identificación Unidad
Fecha Horario Es la fecha del monitoreo fecha aaaa/mm/dd
Hora Horario Es la hora de la muestra del monitoreo hora hh/mm/ss
Código Entero Es el código asignado a la estación en Valledupar
Cod_estacion Null
Variable: Real Indica si la variable a medir es PM10 o CO
PM10 µg/m3
CO mg/m3 - ppm
Nombre estación
Nominal Nombre dado a la estación
Estación Null
16 Este valor como tal no corresponde a la media o promedio, si no al acumulado total de precipitación en el periodo planteado
CAPÍTULO 4 29
Tabla 4-4: Estadística de datos horarios CO y PM10
Atributo Registros Máximo
valor
Mínimo
valor
Media Mediana Desviación
estándar
Varianza Moda
CO 30720 5.111 0 0.557 0.325 0.6478 0.419 0.023
PM10 19280 1560.5 0 40.123 19.33 74.87 5604.7 0
Tabla 4-5: Descripción atributos de la estación manual
Campo Tipo Descripción Identificación Unidad
Fecha Horario
Es la fecha del monitoreo
Fecha_inicio aaaa/mm/dd
Código Entero
Es el código asignado a la estación en Valledupar
Cod_estacion Null
Variable: Real Indica la variable PM10 PM10 µg/m3
Nombre estación
Simbólico Nombre dado a la estación
Estación Null
Tabla 4-6: Estadística de la estación manual de material particulado
Atributo Registros Máximo
valor Mínimo
valor Media Mediana
Desviación estándar
Varianza Moda
PM10 477 119.35 5.162 30.979 29.36 13.147 172.455 38.93
4.3 Exploración de Datos
El análisis exploratorio de datos ofrece la posibilidad de tabular y representar
gráficamente los datos. De igual forma, se pueden aplicar técnicas estadísticas que
permitan conseguir un entendimiento básico de los datos y de las relaciones existentes
entre las variables.
Figura 4-1: Relación entre la precipitación y el PM10
30 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Los archivos obtenidos poseen gran cantidad de errores y datos faltantes los cuales
serán analizados y sometidos a distintos métodos de limpieza para poder ser usados en
los métodos descriptivos y predictivos.
Se puede extraer una hipótesis preliminar al observar la Figura 4-1 donde el
contaminante PM10 casi exclusivamente presenta valores altos, cuando no existen
precipitaciones. También es apreciable esta concepción con el contaminante CO, pero en
menos medida (Figura 4-2). Esto nos lleva a hacer una hipótesis preliminar en donde la
precipitación es una variable indispensable ya que modifica los resultados de los
contaminantes, dependiendo si hay o no hay lluvia.
Figura 4-2: Relación entre la precipitación y el CO
Otra hipótesis observable en la Figura 4-3 son los valores bajos que toman los
contaminantes de PM10 y CO cuando los vientos vienen del Norte, noreste y el este,
indicando que los contaminantes al parecer son provenientes del resto de direcciones del
viento.
Figura 4-3: Relación Dirección del Viento, PM10 y CO
CAPÍTULO 4 31
Figura 4-4: Relación entre la humedad del ambiente y el CO
Se puede llegar a concluir, visualizando la Figura 4-4, que el contaminante CO aumenta
su valor cuando en el aire se condensan más partículas de agua, aumentando la
humedad del ambiente.
Figura 4-5: Relación entre velocidad del viento, PM10 y CO
Otra hipótesis inicial que se desprende de la Figura 4-5, es que a velocidades del viento
bajas, vientos de calmas (en escala de Beaufort17 menores de 0.5m/s), el contaminante
PM10 toma valores bajos (entre 0 y 20µg/m3) y para valores altos de velocidades
(superiores a 5m/s) toma valores por encima de 40µg/m3, además se vuelve más
disperso; caso contrario ocurre con el contaminante CO, ya que a mayores velocidades
del viento este se sosiega tomando valores bajos, cercanos a cero.
17 Escala creada por Sir Francis Beaufort (alrededor de 1805), es una medida empírica para la intensidad del viento, basada principalmente en el estado del mar, sus olas y la fuerza del viento.
32 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Al detallar la Figura 4-6 , se puede concluir a grandes rasgos que los valores de ambos
contaminantes se incrementan en el primer trimestre del año; se podría suponer por la
llegada de muchos automóviles a la ciudad debido a las fiestas que se celebra por esa
época.
Figura 4-6: Relación del PM10 y el CO en el tiempo
4.4 Verificación de Datos
En esta etapa se realizan básicamente las siguientes tareas:
Análisis mediante la utilización de distintos filtros en las tablas usando la hoja de
cálculo.
Detección de datos atípicos.
Detección de datos faltantes.
Detección de datos valor igual a cero (inválidos).
Graficas de dispersión.
Todos los resultados obtenidos fueron compactados en el Anexo D.
4.5 Discusión y Conclusiones
Se extrae de manera satisfactoria los datos necesarios para cumplir con los objetivos
planteados en la investigación. La descripción nos revela en primera medida varios
atributos relevantes para la consecución de las etapas a realizar.
Se puede extraer una hipótesis preliminar al observar que los contaminantes PM10 y CO
casi exclusivamente presentan valores altos, cuando no existen precipitaciones. De allí
que se concluya que la precipitación es una variable indispensable ya que modifica
CAPÍTULO 4 33
considerablemente los resultados de los contaminantes, dependiendo si hay o no hay
lluvia
CAPÍTULO 5. PREPARACIÓN DE DATOS
5.1 Selección de Datos
Se consideran validos los promedios cuando estos cuentan con el 75% o más de los
datos posibles. Los atributos seleccionados a partir de la tabla calidad de los datos
encontrados en la meteorología presente en el Anexo C, serán los que poseen menos del
25% de registros perdidos, es decir los que tienen una cantidad de registros erróneos
inferior a 8561 serán los tomados para limpieza. Los atributos que superen este valor no
serán tomados en cuenta para el estudio. En la Tabla 5-1 se presenta la estadística de
registros seleccionados de la base de datos para el estudio.
Tabla 5-1: Estadística de datos seleccionados
Cálculo Temperatura
Promedio (°C)
Humedad Relativa
(%)
Velocidad Del Viento
(m/s)
Dirección del
Viento (Grados)
Presión atmosférica
(mmHg)
Precipitación (mm)
CO (mg/m3)
PM10 A (um/m3)
Número de datos
34242 34242 34242 34242 34242 34242 20989 19279
Máximo 39.60 98.00 29.00 337.50 761.20 756.50 5.11 1560.5
Mínimo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0
Media/Suma 28.22 72.50 4.35 83.43 751.05 4984.41 0.56 40.123
Mediana 27.60 75.00 3.10 45.00 753.90 0.00 0.32 19.33
Desviación estándar
3.57 14.78 4.50 87.20 8.42 5.56 0.65 74.87
Moda 25.1 89 1.3 222.83 755.9 0 0.42 5604.7
Dentro de esta etapa, también se precisa la selección de una fuente adicional de datos
concerniente a la estación de monitoreo de meteorología del IDEAM, ubicada en las
instalaciones de FEDEARROZ en la Calle 16 con Carrea 22 esquina de la ciudad de
Valledupar. Esta base de datos va a ser utilizada para completar el conjunto de datos
faltantes en los atributos seleccionados.
36 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
5.2 Limpieza de Datos
Después de seleccionar los datos para el estudio, son limpiados, eliminando los datos
atípicos y los nulos, además de corregir los datos que se encontraban en unidades
diferentes a la unidad base del atributo.
Tabla 5-2: Estadística de datos seleccionados después de la limpieza
Cálculo Temperatura
Promedio (°C)
Humedad Relativa
(%)
Velocidad Del Viento
(m/s)
Dirección del
Viento (Grados)
Presión atmosférica
(mmHg)
Precipitación (mm)
CO (mg/m3)
PM10 A (um/m3)
Número de datos
31369 24962 26552 25715 33030 32442 30720 5763
Máximo 39.6 98.0 8.1 337.5 761.2 39.8 5.11 199.79
Mínimo 20.4 27.0 0.0 0.0 738.0 0.0 0.0014 0.02
Media/Suma 28.2 72.5 2.8 86.8 751.1 2805.5 0.56 36.496
Mediana 27.6 75.0 2.7 45.0 753.9 0.0 0.32 25.21
Desviación estándar 3.6 14.8 1.6 88.5 6.1 1.1 0.65 35.69
Moda 25.1 89 2.2 22.5 755.9 0 0.023 5.91
Por ejemplo se encuentra que la velocidad de viento tenía 4350 registros incluidos en la
base de datos en unidades de km/h, los cuales fueron llevados a la unidad base de m/s;
también se encuentra una anomalía en los registros encontrados del atributo dirección de
viento en donde 1097 datos están descritos en función de 16 letras que representan la
dirección de viento en 16 posiciones de grados, estos fueron convertidos a datos
numérico, con referencia de 0 a 359 grados.
También fueron removidos datos como temperaturas bajas (menores a 15 °C) entre las
horas alrededor del mediodía, cuando la temperatura es mucho más alta, teniendo en
cuenta que no existan precipitaciones prolongadas cerca de estas horas; así como
también temperatura fuera de los rangos típicos de medida en la ciudad (superiores de
39°C).
En la Tabla 5-2 se presenta la estadística de datos escogidos de la base de datos para el
estudio, después de la etapa de limpieza. En esta se evidencia el número total de datos
que resulta después de la aplicación de la limpieza exhaustiva, reflejando una
disminución de datos en todos los atributos. En la Figura 5-1 se evidencia la
transformación de los datos antes de la limpieza y después de la limpieza
CAPÍTULO 5 37
Figura 5-1: Limpieza total
5.3 Construcción de Datos
En esta etapa se procede a construir y preparar datos adicionales a incluir en la tabla
definitiva de la investigación.
Para nuestro caso se debe crear un nuevo atributo llamado ICA, el cual se crea a partir
de los datos de los contaminantes.
5-1
𝑰𝒑 =𝑰𝑯𝒊 − 𝑰𝑳𝒐
𝑩𝑷𝑯𝒊 − 𝑩𝑷𝑳𝒐(𝑪𝒑 − 𝑩𝑷𝑳𝒐) + 𝑰𝑳𝒐
P = Índice para el contaminante p CP = Concentración medida para el contaminante p BPHi = Punto de corte mayor o igual a CP BPLo = Punto de corte menor o igual a CP IHi = Valor del Índice de Calidad del Aire correspondiente al BPHi ILo = Valor del Índice de Calidad del Aire correspondiente al BPLo
Para cada una de las estaciones en las que se realizan mediciones de PM10 y CO se
determinó el indicador índice de calidad del aire durante todo el periodo de tiempo de
estudio, cuando las estaciones en las que se miden simultáneamente dos contaminantes
se reporta el mayor valor obtenido. El índice nacional de calidad del aire se calcula a
0
5000
10000
15000
20000
25000
30000
35000
TemperaturaPromedio
(°C)
HumedadRelativa (%)
VelocidadDel Viento
(m/s)
Dirección delViento
(Grados)
Presiónatmosférica
(mmHg)
Precipitación(mm)
CO (mg/m3) PM10(ug/m3)
Antes 34242 34242 34242 34242 34242 34242 20989 19279
Después 31369 24962 26552 25715 33030 32442 20981 5763
Nú
me
ro d
e R
egi
stro
s
38 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
partir de la ecuación 5-1 que corresponde a la metodología utilizada por la EPA18 para el
cálculo del ICA, con la ayuda de la clasificación del ICA según se presenta en la Tabla
5-3; en esta se presenta los intervalos que describen los niveles de calidad del aire, en
términos de adaptación del ICA.
Tabla 5-3: Efectos a la salud de acuerdo al rango y al valor del Índice de Calidad del Aire [36]
ICA Clasificación CO (8 Horas) PM10 (24 Horas)
mg/m3 Indicaciones para su Salud ug/m3 Indicaciones para su Salud
<50 Buena <5 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.
<54 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.
51-100 Moderada 5-10.5 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.
56-154 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.
101-150
Dañina a la Salud de los
Grupos Sensibles
10.6-13
La gente con enfermedades cardiovasculares tales como angina, debe limitar el esfuerzo pesado y evitar las fuentes de CO tales como el tráfico pesado.
155-254
Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos físicos excesivos y prolongados al aire libre.
151-200 Dañina 14-17.5
La gente con enfermedades cardiovasculares tales como angina, debe limitar los esfuerzos moderados y evitar las fuentes de CO tales como el tráfico pesado.
255-354
Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos excesivos prolongados al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos y prolongados al aire libre.
201-300 Muy Dañina 17.6-34.8
La gente con enfermedades cardiovasculares tales como angina, debe limitar el esfuerzo y evitar las fuentes de CO tales como el tráfico pesado
355-424
Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar todos los esfuerzos excesivos al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos al aire libre.
301-500 Peligroso 34.8-57.6
La gente con enfermedades cardiovasculares tales como angina, debe evitar las fuentes de CO, tales como el tráfico pesado
424-604 Todos deben evitar el esfuerzo al aire libre; gente con la enfermedad respiratoria, tal como asma, debe permanecer dentro
Aplicando la ecuación 5-1 a cada uno de los contaminantes, es decir en los campos de
PM10 automático y CO automático de la estación de la Gobernación, se obtiene dos
atributos derivados adicionales con 20981 registros para CO y 5763 para PM10.
18 Agencia de Protección Ambiental de los Estados Unidos (de sus siglas en inglés EPA), cuya misión es la de proteger la salud de los seres humanos y el medio ambiente
CAPÍTULO 5 39
Luego de tener estos dos nuevos registros son comparados, seleccionando el mayor de
los dos, para obtener un único registro total del ICA referenciado para la estación de la
Gobernación. Generando el atributo ICA-Estación con 21273 registros válidos.
5.4 Integración de Datos
Ahora se procede a unir las tablas tanto de los contaminantes como la de meteorología
para obtener la tabla total de datos, tomando con referencia la fecha presentada en cada
tabla.
Es de anotar que el nuevo atributo ICA- Estación representa la contribución de ambos
contaminantes, tanto de CO como PM10, razón por la cual los atributos PM10 y CO, son
excluidos de la tabla total de datos. El atributo principal del conjunto de datos es ICA-
Estación, ya que este es el valor a estimar.
Tabla 5-4: Integración de Tablas (Meteorología e ICA)
Cálculo Temperatura
Promedio (°C)
Humedad Relativa
(%)
Velocidad Del Viento
(m/s)
Dirección del Viento (Grados)
Presión atmosférica
(mmHg)
Precipitación (mm)
ICA- Estación
Número de datos
21267 21240 21272 16477 21270 21269 21273
Máximo 39.50 98.00 8.67 337.50 761.20 39.80 112.88
Mínimo 20.40 31.00 0.00 0.00 71.74 0.00 0.01
Media/Suma 28.09 72.27 2.94 92.60 751.89 2104.17 11.90
Mediana 27.40 74.00 2.70 45.00 754.30 0.00 5.86
Desviación estándar
3.46 14.43 1.68 89.96 10.43 1.22 15.61
Moda 11.96 208.10 2.81 8092.48 108.88 1.48 243.61
Al integrar todas las tablas se obtiene una nueva tabla estadística de datos. Esta
integración, genera pérdida de datos válidos, debido a que todos los atributos poseen
datos válidos en cualquier punto del periodo de estudio. Esto conlleva nuevamente a
manipular los atributos y así poder observar cuales datos son los faltantes. Esto se puede
evidenciar en la Tabla 5-4, donde se presenta el conjunto de datos integrando las tablas
de meteorología y el nuevo atributo creado. Se puede observar la pérdida de datos en
todos los atributos.
40 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Este nuevo atributo representa el número total de datos a estimar; esto deriva la
posibilidad de remplazar los datos faltantes, de acuerdo con los criterios presentados el
Anexo D.
Usando estos criterios se obtiene la tabla total de datos con un número de registros igual
a 21273 de datos totales válidos y sin ningún tipo de ruido. Se puede observar el
resultado estadístico en la Tabla 5-5.
Tabla 5-5: Integración de Datos Final
Cálculo Temperatura
Promedio (°C)
Humedad Relativa
(%)
Velocidad Del Viento
(m/s)
Dirección del Viento (Grados)
Presión atmosférica
(mmHg)
Precipitación (mm)
ICA- Estación
Número de datos 21273 21273 21273 21273 21273 21273 21273
Máximo 39.5 98.0 8.7 337.5 761.2 39.8 112.88
Mínimo 20.4 31.0 0.0 0.0 71.7 0.0 0.01
Media/Suma 28.1 72.3 2.9 92.1 751.9 2104.2 11.90
Mediana 27.4 74.0 2.7 67.5 754.3 0.0 5.86
Desviación estándar
3.5 14.4 1.7 81.8 10.4 1.2 15.61
Moda 12.0 207.9 2.8 6689.5 108.9 1.5 243.61
Al combinar ambas tablas se evidencia el número de datos faltantes que fueron
remplazados usando los distintos criterios, la Tabla 5-5 muestra los cambios hechos.
Solo en el campo de la Dirección del Viento es apreciable el cambio.
Debido a que los datos de las variables presentan valores de tamaños diferentes, resulta
necesario normalizar los atributos a una escala numérica entre 0 y 1 con base en la
siguiente formula:
5-2
𝒙𝒏𝒐𝒓 =𝒙𝒊 − 𝒙𝒎𝒂𝒙
𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏
Donde xnor es el registro normalizado, xi el valor original de la variable, xmax el máximo
de la variable y xmin el valor mínimo de la misma.
Todos los registros de meteorología son normalizados a partir de la ecuación 5-2, para
los atributo de orden horario.
CAPÍTULO 5 41
5.5 Formateo de Datos
En esta etapa se reorganizan los atributos sin cambiar su significado, es decir colocar de
tal manera los atributos para que en la siguiente etapa la herramienta modelado reciba la
tabla de datos en un orden específico. El orden en el cual se colocaron los atributos es el
siguiente
1. ICA- Estación (Label) – ICACO o ICAPM10.
2. Temperatura Promedio – TEMP.
3. Precipitación – PRECI.
4. Presión atmosférica – PRES.
5. Humedad Relativa – HUM.
6. Velocidad del viento – VVIEN.
7. Dirección del viento – DVIEN.
Figura 5-2: Integración de datos - comparación
Este es el orden preliminar de los atributos para ser presentada a la herramienta de
modelado.
5.6 Discusión y Conclusiones
A esta etapa se da por cumplido el primer objetivo de la investigación concerniente a la
construcción del conjunto de datos de meteorología e índice de calidad del aire apropiado
0
5000
10000
15000
20000
25000
TemperaturaPromedio
(°C)
HumedadRelativa (%)
VelocidadDel Viento
(m/s)
Dirección delViento
(Grados)
Presiónatmosférica
(mmHg)
Precipitación(mm)
ICA- Estación
Antes 21267 21240 21272 16477 21270 21269 21273
Después 21273 21273 21273 21273 21273 21273 21273
Nú
me
ro d
e R
egi
stro
s
42 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
para el entrenamiento y validación de modelos descriptivos y predictivos. La tabla
resultante tiene los atributos ICA- Estación, Temperatura Promedio, Precipitación,
Presión atmosférica, Humedad Relativa, Velocidad del viento y Dirección del viento
con 21273 registros en total, como se evidencia en la Tabla 5-6. Los resultados
obtenidos, debido a las variables seleccionadas poseen una representatividad superior al
75%.
Se encuentra que en diferentes investigaciones [16]–[18], [20], [37]–[39] obtienen como
resultado los atributos demarcados en la Tabla 5-5 para sus trabajos de limpieza, para
luego entrar en las etapas de predicción o descripción de algún contaminante del aire.
Tabla 5-6: Resultado Final de Datos
Objetivo de Minería de datos
Datos Iniciales
Datos Finales
Número de Registros
34242 21273
Número de Campos
23 7
En la Figura 5-2 se muestra los resultados obtenidos antes y después de formateo e
integración de los registros
Se establece que las actividades de la metodología CRISP-DM, son muy específicas, y
en su mayoría son usadas para el desarrollo de proyectos de explotación de información,
saltando de fase en fase, de tareas más generales a mucho más delimitadas. La
Explotación de Información es la sub-disciplina de la informática que aporta las
herramientas de análisis y síntesis para extraer conocimiento no trivial que se encuentra
implícitamente en los datos disponibles en distintas fuentes de información [40].
En la base de datos de meteorología de Corpocesar se encuentra todo tipo de errores y
muchos registros faltantes, debido a los diferentes tipos de fallas, ya sea humana o del
propio equipo; se evidencia que estas fueron totalmente superadas. Identificar los errores
en algunos casos resulta complejo, debido a que no necesariamente todos los valores
descritos como errores lo eran; este fue el caso de valores de temperaturas bajas en el
día, que eran propias de horas nocturnas; estos supuesto errores fueron convertidos a
registros válidos debido a la observación de las otras variables que se presentan en las
mismas horas, en especial la precipitación, ya que esta indica que en ese instante de
CAPÍTULO 5 43
tiempo se encontraba una llovizna y por consecuencia una disminución de la
temperatura. Es preciso y necesario conocer las variables en juego para poder hacer
estas afirmaciones.
CAPÍTULO 6. MODELAMIENTO DESCRIPTIVO
En esta fase de la investigación se busca diseñar e implementar un modelo descriptivo
de datos de meteorología e índice de calidad del aire, basado en técnicas de aprendizaje
computacional. Primero se parte de la selección de una técnica de modelado descriptivo
el cual debe buscar similitudes y características propias en los datos, a partir de la base
de datos de meteorología y de los contaminantes, ya preparados en el CAPÍTULO 5.
Continuando con el diseño del modelo descriptivo en donde se elabora una prueba para
modelar la técnica seleccionada. Seguido de este paso se pone a prueba el modelo,
interpretando los resultados en términos de la investigación; terminando con la
evaluación del mismo. Esta es una evaluación puramente técnica basada en el resultado
de las tareas realizadas por el modelo.
6.1 Selección de la Técnica de Descriptiva
Dentro de las técnicas descriptivas se encuentran el Agrupamiento (clustering),
correlaciones y factorizaciones, reglas de asociación, dependencias funcionales, entre
otras [41].
La primera técnica tiene por objetivo obtener grupos o elementos, de tal manera que los
elementos asignados al mismo grupo sean similares. La segunda técnica busca la
relevancia entre atributos, detectando los atributos redundantes o la dependencia entre
ellos. Las reglas de asociación son muy similares a la anterior pero para atributos
nominales; las dependencias funcionales consideran todos los posibles valores.
En trabajos realizados en climatología, [42]–[44], se necesita continuamente clasificar
variables en grupos similares y así poder profundizar en los fenómenos ocurridos. De allí
que, el agrupamiento es reconocido como un método eficaz para tratar problemas de
46 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
agrupamiento de estaciones en regiones climatológicamente similares [44], [45], también
es ampliamente utilizado en series de tiempo con óptimos resultados [44]. En un proceso
estándar de minería de datos, desarrollado en varias etapas, la agrupación o clustering
suele ser la primera de ellas tanto si se trata de datos estáticos como de datos dinámicos
[46]. Para nuestro caso de estudio se toma la técnica descriptiva de Agrupamiento, para
caracterizar las variables meteorológicas y de los ICA en la ciudad de Valledupar. Este
proceso es presentado en la Figura 6-1, en donde se observa un diagrama que muestra
la conjunción de las variables meteorológicas con el ICA (contaminante) a usar, que con
la ayuda del modelo descriptivo nos lleva al resultado de la caracterización de las
variables.
Dentro de las técnicas de agrupamiento se consideran dos tipos de agrupamiento:
jerárquico y no jerárquico (particional) [47]–[50].
El agrupamiento jerárquico se caracteriza por el desarrollo recursivo de una jerarquía o
estructura en forma de árbol (dendograma). El agrupamiento no jerárquico o particional
organiza los registros dentro de k grupos [51]. Es decir, determina el número de
particiones mediante un procedimiento iterativo que optimiza la estructura local o global
de los datos agrupados[46]. Los métodos particionales tienen ventajas en aplicaciones
que involucran gran cantidad de datos para los cuales la construcción de un árbol resulta
complicado [47]. Algunos algoritmos dentro de este tipo de agrupamiento son: K-medias,
K-mode, CLARA (Clustering Large Applications), CLARAMS (Clustering Large
Applications based on Randomized Search), entre otros.
Como la investigación posee gran cantidad de datos nos basaremos en los métodos
particionales de la técnica de agrupamiento.
Dentro de estos métodos se encuentra el K-Medias (K-Means). El k-medias es uno los
algoritmos para el análisis de Clúster más populares [52]–[54], en donde se construye
una partición de una base de datos con n objetos en un conjunto de k grupos
(centroides), buscando optimizar el criterio de división elegido [55], que minimicen la
suma de los cuadrados de las distancias de cada punto al centroide del grupo más
próximo [56].
Ha sido utilizado en distintos campos; entre ellos en la agrupación de regiones
geográficas [57], teniendo un buen desempeño. También ha sido utilizado en tesis
CAPÍTULO 6 47
doctorales para agrupar datos del sector residencial [58], al igual que en trabajos de
conexión de datos en telecomunicaciones [59], como también en datos de meteorología
[60] para evaluar el efecto de los patrones de transporte de las masas de aire usando
patrones regional de material particulado. La literatura reciente [61], [62] muestra que se
han creado diferentes algoritmos de clustering, entre ellos K-Medias, que se centran en la
utilización de atributos numéricos, para solucionar diversos problemas, en el campo
industrial, científico y académico; obteniendo resultados óptimos
Figura 6-1: Proceso de Caracterización – Diagrama de Bloques
6.2 Diseño Experimental
El modelo presentado toma tanto los valores de ICA que produce el CO como el que
produce el PM10 al mismo tiempo, al igual que los atributos de meteorología
Temperatura Promedio, Precipitación, Presión atmosférica, Humedad Relativa,
Velocidad del viento y Dirección del viento.
Para la elaboración del diseño se tuvo en cuenta todos los atributos disponibles antes
mencionados, con todos los 21273 registros totales finales, Tabla 5-6.
En la construcción del modelo a utilizar se precisa de la herramienta de código abierto
RapidMiner. Dentro de esta se recurre al operador K-Means, el cual es parte de la
biblioteca de Clustering and Segmentation. El operador K-Means utiliza la Distancia
ICA CO - ICA PM10
MeteorologiaModelo
Descriptivo: Técnica
Evaluación de Modelo
Caracterización de los Atributos
48 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Euclidiana, para evaluar la calidad del agrupamiento. Además se le adiciona el operador
de la suma de cuadrados para evaluar la calidad de la agrupación.
Para la ejecución del modelo fue necesaria la normalización de todos los atributos
numéricos entre 0 y 1; no se incluye sesgo debido a la magnitud de los valores. Para
superar la sensibilidad a la configuración de partida se hicieron múltiples ejecuciones,
usando el conjunto de atributos disponible.
6.3 Construcción del Modelo
Para probar el modelo, el algoritmo es ejecutado repetidas veces, variando el número de
medias iniciales, a partir del 2 al 10. En cada ejecución, se mide la suma de cuadrados
para evaluar la calidad de la agrupación. Se selecciona el número de clústeres teniendo
en cuenta el número K, después de lo cual no hay un cambio considerable en la suma de
valor de los cuadrados del error. El criterio del error cuadrático y descomposición de
mezcla son los más populares dentro de los métodos de agrupamiento particional, siendo
el error cuadrático la estrategia más usada [63]. Aquí el objetivo es obtener la partición
que, para un determinado número de grupos, minimice el error cuadrático.
Figura 6-2: K-Medias - Selección del Número de Clúster
Los resultados se representaron gráficamente, en donde el eje horizontal es el número
de grupos y en el eje vertical, la suma correspondiente de error. El valor de K fue elegido
sobre la base de una inspección visual, como puede verse en la Figura 6-2.
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
2 3 4 5 6 7 8 9 10
SSE
k
CAPÍTULO 6 49
En primera medida fue necesario tomar los valores normalizados y aplicarle el modelo de
clustering, con el algoritmo K-Medias, usando agrupamiento particional con un valor de
K=5 y con 10 corridas. El resultado se evidencia en los 5 clústeres arrojado por el
algoritmo, Tabla 6-1.
El número de grupos se establece para K=5, debido a que en este punto no se observan
cambios importantes en el error.
Fue necesario “desnormalizarlo” con el operador De-Normalize, debido a que dichos
resultados entre 0 y 1 no eran muy familiares. Luego del operador se obtuvieron valores
análogos a los valores de entrada.
6.4 Evaluación del Modelo
El resultado del modelos se evidencia en la Tabla 6-1; en esta puede observarse la
manera en la cual el algoritmo de K-Medias encuentra, mediante la distancia Euclidiana
los 5 centroides para cada agrupamiento. La distancia Euclidiana refleja la diferencia
entre dos patrones de los clúster, además muestra cómo el modelo particional usando un
criterio global, como el de error cuadrático [64], representa cada grupo a través de un
ejemplo y asigna los patrones a los grupos de acuerdo a los tipos más similares.
Tabla 6-1: Centroides del Modelo K-Medias
Los centroides presentados en dicha tabla son diferenciables en 5 de los 7 atributos
utilizados, entre ellos el ICA-ESTACIÓN, TEMP, HUMEDAD, PRESIÓN
BAROMÉTRICA, DIRECCIÓN DEL VIENTO.
En el atributo PRECIPITACIÓN no se evidencia la separación de los centroides debido a
la poca diferencia de los registros presentes en este.
ICA-ESTACIÓN TEMP °C PRECIPITACIÓN
mm
PRESIÓN
BAROMÉTRICA
HUMEDAD
%
VELOCIDAD_
VIENTO m/s DIR_VIENTO CLUSTER
11.3 30.6 0.1 742.1 59.3 2.7 140.0 cluster_0
14.4 31.4 0.0 754.1 58.6 4.1 31.5 cluster_1
10.0 25.1 0.0 753.4 82.8 2.5 70.3 cluster_2
11.8 29.7 0.1 754.5 70.9 3.0 241.2 cluster_3
13.6 26.9 0.3 754.3 79.4 2.7 56.7 cluster_4
50 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En el atributo VELOCIDAD DEL VIENTO se evidencia un centroide que se repite en el
cluster_0 y el cluster_4, esto es debido a que los registros presentes no tienen muchas
diferencias entre sí, presentándose registros con valores cercanos.
Las evaluaciones siguientes son obtenidas a partir de las figuras 6-3 a la 6-9, en donde
se muestra la abstracción de los datos describiendo de manera compacta cada grupo
modelado.
Clúster 0: Este clúster presenta temperaturas superiores a 25°C, alcanzando las
máximas temperaturas, debido a esto no se encuentran precipitaciones considerables
(1.7% de precipitaciones presentes), además se mantienen presiones atmosféricas entre
los 740 y 750 mmHG. Las velocidades del viento son suaves (entre 1.7 y 3.3 m/s),
representando un 61.2%. En cuanto a la dirección del viento muestra preponderancia
hacia al Norte en un 30% y hacia el Noreste en un 26.3%. La humedad relativa está
comprendida en un 67% para valores entre 50 y 80. Esto valores llevan a un 10% de
valores superiores a un ICA de 50, esto se debe a que no se presentan lluvias y a un
porcentaje significativo de 18.3% de velocidades del viento superiores a 3.3m/s.
Clúster 1: Para este clúster se presenta un 75.6% de ICA con valores menores a 20. El
73.5% de la temperatura en este grupo es alta y está comprendida para valores
superiores a 30°C. No se presentan muchas lluvias al igual que en clúster 0. La presión
atmosférica es alta mayormente, se mantiene entre valores superiores de 750mmHg. El
80.3% de la humedad presente, está comprendida entre los valores 50 y 80. En este
grupo es donde se presenta las mayores velocidades del viento, conllevando a mayores
valores del ICA, ya que también se muestran valores superiores a 50 en un 9%.
Clúster 2: Para esta agrupación las temperaturas casi totalmente son inferiores a 30°C,
presentado un 2.6% de precipitaciones, con presiones atmosféricas entre 750 y
760mmHg. El 66.6% de la humedad está por encima de 80. El 57.7% de las velocidades
del aire son superiores a 1.7m/s y el 5.5% son velocidades moderadas (superiores a
5.2m/s). Se presentan vientos en todas las direcciones, preponderando las del Este,
Noreste y Norte, con 25.3%, 38.5% y 24.3% respectivamente. Bajo estas condiciones los
valores de ICA agrupados responde con un 47.7% superior a 5, y en especial un 15.2%
entre 10 y 20 de ICA, un 6.8% para valores entre 20 y 30 de ICA y un 8.4% para valores
superiores 30.
CAPÍTULO 6 51
Figura 6-3: Clúster Vs Temperatura
Figura 6-4: Clúster Vs Precipitación
Clúster 3: En este agrupamiento se observa un 44.6% de temperaturas entre 30 y 35°C
además de un 3.7% de temperaturas superiores a 35°C; también pueden verse
temperaturas inferiores a 25°C en un 5.9%. Se presentan precipitaciones cercanas a un
3.5%, donde existen medidas superiores a 10mm de agua. La presión atmosférica se
encuentra entre 750 y 760mmHg. Se observa una humedad relativa de valores entre 50 y
80 de un 72% y superior a 80 en un 23.2%. Casi en su mayoría velocidad del viento es
considerada como suave y leve (3.3 a 5.2m/s) en este agrupamiento, aunque existen
3850
152563
1498
1113
3728
1175
2769
1497
2869
1146
189320 224 95
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
TEMP CLUS 0 TEMP CLUS 1 TEMP CLUS 2 TEMP CLUS 3 TEMP CLUS 4
20 a 25 25 a 30 30 a 35 >35
33334195
73872479
3244
5012
17672
211
26
1040
88%
90%
92%
94%
96%
98%
100%
PRECI CLUS 0 PRECI CLUS 1 PRECI CLUS 2 PRECI CLUS 3 PRECI CLUS 4
0 a 0.0 0.1 a 5 5 a 10 >10
52 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
ráfagas comprendidas entre 5.2 y 7.4 m/s en un 25.7%. El 55.1% de los valores de la
dirección del viento van hacia el Suroeste y un 19.4% del Oeste. Con estos grupos de
datos el ICA responde en un 17%, con valores superiores a 20, dentro de este un 2.2%
responde con valores superiores a un ICA de 50.
Figura 6-5: Clúster Vs Presión atmosférica
Figura 6-6: Clúster Vs Humedad Relativa
270
3115
95
1378
85 309
4110
6196
24683207
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
PRES CLUS 0 PRES CLUS 1 PRES CLUS 2 PRES CLUS 3 PRES CLUS 4
<740 740 a 750 750 a 760 >760
924821
123
2293 3380
2530
1848
1854
173
5052
597
1667
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
HUM CLUS 0 HUM CLUS 1 HUM CLUS 2 HUM CLUS 3 HUM CLUS 4
<50 50-80 >80
CAPÍTULO 6 53
Figura 6-7: Clúster Vs Velocidad del viento
Figura 6-8: Clúster Vs Dirección del viento
Clúster 4: En este agrupamiento se observa casi totalmente temperaturas entre 25 y
30°C, encontrando precipitaciones en un 7.8%, siendo el grupo con mayor número de
lluvias encontradas. Presiones atmosféricas igual que en el clúster 3, con humedades
compartidas de 52.7% y 47.3% para un rango de valores entre 50 y 80 y superiores a 80,
respectivamente. Se presentan vientos de todas las facturas predominando las ventolinas
(0.5 a 1.7m/s), suaves y leves. Las direcciones del viento dominantes son las que van
hacia el Este y el Noreste, 29.2% y 41.8% respectivamente. Bajo esta agrupación el ICA
680 105 248669
309
2525
361
993
2074
1142
2241
1201
1229
533
1652
1724659 640
86
937
415 239 411151
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
VVIEN CLUS 0 VVIEN CLUS 1 VVIEN CLUS 2 VVIEN CLUS 3 VVIEN CLUS 4
0 a 0.5 0.5 a 1.7 1.7 a 3.3 3.3 a 5.2 5.2 a 7.4 >7.4
209
2671
1918 1027176
1041
29181472
1028
483
1842807
890
197114
218
376
498
95
752
304
1414
275
305
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
DVIEN CLUS 0 DVIEN CLUS 1 DVIEN CLUS 2 DVIEN CLUS 3 DVIEN CLUS 4
E NE N NO O SO S SE
54 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
presentado se encuentra en un 20.9% con valores superiores a 20 unidades, además se
observa que con precipitaciones presentadas el ICA disminuye a valores inferiores a 10 y
a 5 unidades en un 55% y en un 33%, respectivamente.
Figura 6-9: Clúster Vs ICA
6.5 Discusión y Conclusiones
En este modelamiento se toma en consideración todo el data set, incluyendo los ICA
para CO y PM10, al igual que los atributos de meteorología como son, Temperatura
Promedio, Precipitación, Presión atmosférica, Humedad Relativa, Velocidad del viento y
Dirección del viento, para así elaborar un modelo en la herramienta Rapid Miner. Para
desarrollar dicho modelo se necesitó en primera medida tomar los valores normalizados
(registros entre 0 y 1), y aplicarle el modelo de clustering, con el algoritmo K-Medias.
Para probar el modelo, el algoritmo es ejecutado repetidas veces, variando el número de
medias iniciales, a partir del 2 al 10. En cada ejecución, se mide la suma de cuadrados
para evaluar la calidad de la agrupación. Se selecciona el número de clústeres teniendo
en cuenta el número K, después de lo cual no hay un cambio considerable en la suma de
valor de los cuadrados del error. Para nuestro caso se usa un K=5 y con 10 corridas por
defecto. Con la ayuda de la Distancia Euclidiana, para la evaluar la calidad del
agrupamiento se logra reflejar la diferencia entre los patrones de los clústeres. Este
modelo arrojó 5 clústeres con los centroides mostrados en la Tabla 6-1.
2016
17233969
947 1162
454
818
1302
615776
219
641
1156572
846
134 345
519 206310
225 282307 114 203198 187164 57 120
4 59 58 20 34
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
ICA CLUS 0 ICA CLUS 1 ICA CLUS 2 ICA CLUS 3 ICA CLUS 4
0 a 5 5 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70 70 a 80 >80
CAPÍTULO 6 55
En esta tabla son diferenciables 5 de los 7 atributos utilizados, entre ellos el ICA-
ESTACIÓN, TEMP, HUMEDAD, PRESIÓN BAROMÉTRICA, DIRECCIÓN DEL VIENTO.
En el atributo PRECIPITACIÓN no se evidencia la separación de los centroides debido a
la poca diferencia de los registros presentes en este.
En el atributo VELOCIDAD DEL VIENTO se evidencia un centroide que se repite en el
cluster_0 y el cluster_4, esto es debido a que los registros presentes no tienen muchas
diferencias entre sí, presentándose registros con valores cercanos.
El clúster_0 alberga los registros donde las temperaturas son altas y por ende no hay o
existen pocas precipitaciones.
El clúster_1 presenta una alta humedad, con altas temperaturas obteniendo valores más
altos de ICA.
En el clúster_2 presenta temperaturas bajas, se presentan precipitaciones, vientos en
todas las direcciones, mostrando un ICA bajo en medición (aproximadamente un 70%
menores a 30 unidades).
Para el clúster_3 se muestran temperaturas entre 30 y 35°C y velocidades del viento en
su mayoría considerada como suaves y leves, además el 74.5% de los valores de la
dirección del viento van hacia el suroeste y oeste con precipitaciones cercanas a un 3.5%
superiores a 10mm de agua. Con estos atributos los valores de ICA encontrados en el
agrupamiento son en su gran mayoría menores a 50 unidades (un 97%).
Para el clúster_4 se observa casi totalmente temperaturas entre 25 y 30°C, encontrando
precipitaciones en un 7.8%, siendo el grupo con mayor número de lluvias encontradas.
Bajo esta agrupación el ICA presentado se encuentra en un 20.9% con valores
superiores a 20 unidades, además se observa que con precipitaciones presentadas el
ICA disminuye a valores inferiores a 10 y a 5 unidades en un 55% y en un 33%,
respectivamente.
Después del procedimiento de agrupamiento se observa que el modelo planteado
produce una descripción de los datos en términos de grupos de datos con fuertes
similitudes internas, observándose tendencias en el agrupamiento.
CAPÍTULO 7. MODELAMIENTO PREDICTIVO
En esta fase de la investigación se selecciona una técnica de modelado predictivo para
estimar el índice de calidad del aire en Valledupar, usando técnicas de aprendizaje
computacional, a partir de la base de datos de meteorología ya preparados en el
CAPÍTULO 5.
Dentro de la estimación se tienen en cuentan dos visiones diferentes para obtener un
modelo, uno es analizar el modelo como una regresión y la otra visión es analizar los
datos como una serie de tiempo.
7.1 Selección de la Técnica de Modelado
Una de las primeras actividades antes de continuar es clarificar la tarea predictiva de
minería de datos que se debe efectuar, y dentro de ella, escoger cual es la indicada para
nuestro problema. Después de escoger el tipo de tarea, decidir cuál de los diferentes
métodos se ajustan a los requerimientos exigidos en la investigación. Terminando con
una evaluación de las técnica usadas.
Las bases de datos son ricas en información oculta que pueden ser utilizadas para la
toma de decisiones inteligentes. La clasificación y predicción son dos formas de análisis
de datos que se pueden utilizar para extraer los modelos que describen las clases de los
datos o para predecir las tendencias futuras de datos. Mientras que clasificación predice
categorias, los modelos de predicción hallan funciones continuas [55]. Esta investigación
se enmarca dentro de una tarea predictiva de regresión. El objetivo es encontrar una
función que representa la correspondencia existente para cada valor de salida, con
respecto a la entrada.
Entre los métodos predictivos más comunes se encuentra la regresión lineal, la
logarítmica (no lineal) y otros modelos basados en regresión [55]; dentro de estas tareas
predictivas de regresión, se encuentran las técnicas algebraicas y estadísticas. Esta es la
58 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
parte de la estadística que trata con la investigación de la relación de dos o más variables
relacionadas de un modo no determinístico [65]. Otra técnica presente son las basadas
en redes neuronales artificiales (ANN), las cuales están inspiradas por Redes Neuronales
Biológicas.
La investigación en primera medida busca estimar el valor de índice de calidad de aire de
uno de los contaminantes, ya sea PM10 o CO, a partir de entradas de variables
meteorológicas, como temperatura, precipitación, presión atmosférica, etc. Usando
modelos y patrones que se expresan mediante fórmulas algebraicas, funciones lineales y
no lineales, etc. Para esta etapa se usarán las técnicas regresión lineal y las redes
neuronales artificiales, comparando y evaluando los resultados de estos.
Luego se analiza la base de datos para estimar el índice de calidad de aire de uno de los
contaminantes usando un modelo de serie de tiempo. Una serie de tiempo es una
recolección de datos para una variable o conjunto de variables durante varios periodos,
cuyo propósito es proyectar los valores futuros de la variable (dependiente) a partir de
valores anteriores (independiente) [66]. Los valores se miden en intervalos de tiempo
iguales (por ejemplo, cada hora, diario, semanal) [55]. Para esta etapa también se usarán
las técnicas regresión lineal y las redes neuronales artificiales, para observar el
comportamiento de estimación futura del día siguiente a partir de días anteriores (desde
el día de hoy hasta siete días anteriores).
La regresión lineal es una técnica a considerar, debido a la naturaleza de los datos
numéricos. Este es un método básico estadístico. La idea es expresar el ICA como una
combinación lineal de los atributos de entrada, con pesos predeterminados [67]. La
regresión lineal múltiple es una generalización de la regresión lineal simple para más de
una variable independiente, ajustando los parámetros del modelo a las entradas elegidas
[68]. La respuesta estimada se obtiene de la ecuación de regresión múltiple:
7-1
𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 … 𝛽𝑘𝑥𝑘 [69]
con k variables independientes x1, x2… xk , y los pesos (coeficientes) son las betas,
cuyos valores se obtienen con el uso del método de mínimos cuadrados [69].
Capítulo 7 59
La idea de las neuronas como componentes estructurales del cerebro fue presentado por
Ramón Cajal en 1911[14]. McCulloch & Pitts (1943) definieron la neurona como un
dispositivo binario con varias entradas y salidas[70]. Las ANN aprenden un modelo
mediante el entrenamiento de los pesos que conectan a un conjunto de nodos o
neuronas [41]. Las ANN son sistemas, hardware o software, de procesamiento que
copian esquemáticamente la estructura neuronal del cerebro para tratar de producir sus
capacidades [71]; son un tipo especial de modelo matemático inspirado en la estructura
de las redes neuronales biológicas y en cómo procesan la información. Son capaces de
aprender de la experiencia a partir de las señales o datos provenientes del exterior,
dentro de un marco de computación paralela y distribuida, fácilmente implementable en
dispositivos hardware específicos [72].
El modelo estándar de una red neuronal, consiste en:
Un conjunto de entradas xj(t) y pesos sinápticos wij.
Una regla de propagación ℎ𝑖(𝑡) = ∑ 𝑤𝑖𝑗𝑥𝑗 es la más común.
Una función de activación 𝑦𝑖(𝑡) = 𝑓𝑖(ℎ𝑖(𝑡)), que representa simultáneamente la
salida de la neurona y su estado de activación.
Con frecuencia se añade al conjunto de pesos de la neurona un parámetro
adicional bi.
En conclusión, el modelo de neurona estándar está representado por la ecuación 7-2:
7-2
𝑦𝑖(𝑡) = 𝑓𝑖 (∑ 𝑤𝑖𝑗𝑥𝑗 − 𝑏𝑖𝑗
)
En cada red neuronal existe una capa de entrada que recibe la información y una capa
de salida encargada de trasmitir la información procesada al exterior y puede haber una o
varias capas ocultas encargadas de establecer relaciones complejas. Las conexiones
entre las neuronas indican la dirección y el sentido en el que fluye la información [73].
El perceptrón simple se inspira en las primeras etapas del procesamiento de los sistemas
sensoriales de los animales, en los cuales la información va atravesando sucesivas
capas de neuronas, que realizan el procesamiento progresivo de más alto nivel. Es un
modelo de una sola dirección, compuesto por dos capas de neuronas. Si añadimos
60 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
capas intermedias, obtendremos un perceptrón multicapas (MLP). Esta arquitectura suele
entrenarse mediante el algoritmo de retropropagación de errores (BP19),
Las entradas y salidas pueden ser binarias o continuas, dependiendo del modelo y
aplicación, para este caso continuo. El popular algoritmo BP se aplica a este tipo de
modelos con datos continuos, y es el modelo neuronal más empleado en las aplicaciones
prácticas [71]. Este modelo entra en la amplia clase de redes unidireccionales (no
presenta bucles cerrados), organizadas en capas (feed-forward) y con aprendizaje
supervisado, utilizados para clasificar patrones y estimar funciones [71]. En el
aprendizaje supervisado se presenta a la red un conjunto de patrones, con la salida
deseada, e iterativamente ésta ajusta los pesos y los bías hasta que su salida tienda a
ser la deseada, utilizando para ello información detallada del error que comete en cada
paso [71], [73].
7.2 Modelo de predicción
Para construir el modelo se analiza independientemente los modelos de estimación a
partir de registros meteorológicos y de estimación por serie de tiempo.
Se decide dividir el conjunto de datos en dos, uno para el contaminante PM10 y otro para
el contaminante CO, y en cada uno de ellos se analiza el modelo tanto para estimación
usando datos horarios, como para serie de tiempo usando formatos diarios.
Tabla 7-1: Número de Registros de CO y PM10 para los Modelos
CONTAMINANTE MODELADO ESTIMACIÓN
(Número de Registros Horarios)
MODELADO DE SERIE DE TIEMPO (Número de registros
diarios)
CO 18832 936
PM10 5760 201
El número de registros que se tiene para el contaminante PM10 para el modelado de
estimación horario es de 5760 y para modelado de serie de tiempo en formato diario es
de 201. Para el caso del contaminante de CO se tienen 18832 registros para el modelado
19 Del inglés Backpropagation
Capítulo 7 61
de estimación horario y para el modelado de serie de tiempo se tienen presentes 936
registros, como se evidencia en la Tabla 7-1.
7.2.1 Modelo de estimación de ICA por parámetros meteorológicos
Para el modelo de estimación de contaminantes, ya sea CO o PM10, se toma en
consideración la meteorología actual, para registros horarios, y con este se pronostica el
valor del ICA en la misma hora.
Los métodos a utilizar en la estimación son regresión lineal simple, múltiple y redes
neuronales artificiales.
Para las entradas de los modelos de regresión lineal y ANN su utilizaron 6
combinaciones de variables meteorológicas como se muestra en la Tabla 7-2.
Tabla 7-2: Combinaciones de entradas de los modelos de regresión
COMBINACIÓN DE ENTRADA
ENTRADA DEL MODELO
Combinación 1 TEMP
Combinación 2 TEMP – PRECI
Combinación 3 TEMP – PRECI – PRES
Combinación 4 TEMP – PRECI – PRES – HUM
Combinación 5 TEMP – PRECI – PRES – HUM - VVIEN
Combinación 6 TEMP – PRECI – PRES – HUM – VVIEN –
DVIENTO
Con cada entrada se obtiene un modelo y una estimación de ICA para el contaminante
CO y para el PM10, usando cada una de las topologías planteadas.
Regresión Lineal
En esta evaluación se procede a usar como variable a predecir el ICA horario actual
(variable dependiente), y como variables independientes los registros de los atributos de
meteorología presentes en la hora a predecir del contaminante. Primero se usa solo
como variable independiente la temperatura para estimar el ICA del contaminante,
obteniendo los resultados con este modelo; luego se procede a incluir otra entrada,
usando las diferentes combinaciones de entradas presentes en la Tabla 7-2. Al final se
62 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
debe obtener 6 modelos de regresión lineal para estimaciones de ICA para cada
contaminante.
Figura 7-1: Modelo de regresión Lineal para la estimación del ICA por regresión
Redes neuronales artificiales
Para este modelo se desarrolla una red neuronal unidireccional con aprendizaje
supervisado tipo MLP, usando en el algoritmo BP; el método de aprendizaje elegido fue
el de Levenberg-Marquardt20. Como entradas al modelo de estimación de ICA de los
contaminantes, se utiliza la meteorología presente en la hora a predecir del
contaminante. Al igual que el modelo de regresión lineal, este modelo utiliza como
entrada cada una de las diferentes combinaciones de la Tabla 7-2. Al final se debe
obtener 6 modelos de ANN con estimaciones de ICA para cada contaminante.
La primera topología de ANN implementada, utiliza una red neuronal tipo perceptrón
multicapa, como el mostrado en la Figura 7-2, la cual tiene una única neurona en la capa
de salida, cuya función de activación es la lineal (purelin); además usa una sola capa
oculta, con función de activación tansig, probando diferente número de neuronas,
comenzando con 1 neurona y aumentándolo hasta 30 neuronas.
La segunda topología de ANN, también es de tipo perceptrón multicapa, con una neurona
en la capa de salida (función purelin); posee dos capas ocultas con diferente número de
neuronas, de 1 a 30 para cada capa y funciones de activación tansig para cada una, las
entradas de meteorología son usadas al igual que el modelo anterior de ANN.
20 Es una optimización del algoritmo BP de aprendizaje supervisado, presente en la caja de herramientas de Matlab
E
N
T
R
A
D
A
TEMP
PRECI
PRES
HUM
VVIEN
DVIEN
Coeficientes 1 a 6
ICA (Pm10 o CO)
Capítulo 7 63
Figura 7-2: Topología de la red de una sola capa oculta – estimación por regresión
Figura 7-3: Topología de la red de dos capas ocultas– estimación por regresión
Con ambas topología se obtiene 6 modelos de ANN con estimaciones de ICA para cada
contaminante.
7.2.2 Modelo de estimación de ICA usando una serie de tiempo
Para los modelos de estimación de contaminantes por serie de tiempo, se usan registros
diarios de CO o PM10, además se toman en consideración solo los ICA de los 7 días
anteriores al ICA a estimar, y con este pronosticar el valor del ICA del día siguiente.
Los métodos a utilizar en la estimación son regresión lineal simple, múltiple y redes
neuronales artificiales.
E
N
T
R
A
D
A
TEMP
PRECI
PRES
HUM
VVIEN
DVIEN
IW
b1
1…6x1…30
1…30x1
a1
ICA (Pm10 o CO)
a2
p
LW
b2
1…30 x1
1x1
1x1
1 a 30 N 1 N
E
N
T
R
A
D
A
TEMP
PRECI
PRES
HUM
VVIEN
DVIEN
IW
1…6x1…30
b1
1…30x1
a1
LW1
b2
1…6x1…30
1…30x1
a3
LW2
b3
1…6x1
1x1
a2
1x1
1 a 30 N 1 a 30 N 1 N
p
ICA (Pm10 o CO)
64 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 7-3: Combinaciones de entradas de los modelos de serie de tiempo
COMBINACIÓN DE ENTRADA
ENTRADA DEL MODELO (Días anteriores a la estimación)
Combinación 1 ICA1
Combinación 2 ICA1 – ICA2
Combinación 3 ICA1 – ICA2– ICA3
Combinación 4 ICA1 – ICA2– ICA3– ICA4
Combinación 5 ICA1 – ICA2– ICA3– ICA4 – ICA5
Combinación 6 ICA1 – ICA2– ICA3– ICA4 – ICA5– ICA6
Combinación 7 ICA1 – ICA2– ICA3– ICA4 – ICA5– ICA6–
ICA7
Figura 7-4: Modelo de regresión Lineal para la estimación del ICA por serie de tiempo
Regresión Lineal
Esta evaluación es igual al usado en la estimación por contaminantes, a diferencia de las
entradas utilizadas para tal fin en donde las variables independientes son los registros de
los atributos del ICA de los siete días anteriores al día a estimar. Comenzando con un día
y luego añadiendo días a las entradas, hasta un número máximo de siete días anteriores
a la estimación. Las combinaciones de entradas posibles son presentadas en la Tabla
7-3. Al final se obtienen 7 modelos de regresión lineal con estimaciones de ICA para
cada contaminante. Este modelo es presentado en la Figura 7-4 donde se observan las
diferentes combinaciones de entradas y sus respetivos coeficientes.
E
N
T
R
A
D
A
ICA1
ICA2
ICA3
ICA4
ICA5
ICA6
ICA7
Coeficientes de regresión
1 a 7
ICA (Pm10 o CO)
Capítulo 7 65
Redes neuronales artificiales
Al igual que los modelos usados en la estimación por parámetros meteorológicos, la red
planteada para serie de tiempo posee la misma topología, diferenciándose en el tipo de
entrada y en los registros utilizados para el aprendizaje y entrenamiento. Como entradas
al modelo de estimación de ICA por serie de tiempo se usa los registros de los atributos
del ICA de los siete días anteriores al día a estimar; en la Tabla 7-3 se muestran las
diferentes combinaciones de entrada a la red.
Figura 7-5: Topología de la red de una sola capa oculta – serie de tiempo
Figura 7-6: Topología de la red de dos capas ocultas–Serie de tiempo
En la Figura 7-5 y la Figura 7-6 se muestran las dos topologías utilizadas en la
estimación por serie de tiempo con entradas para valores diarios.
Al final se debe obtener 7 modelos de ANN con estimaciones de ICA para cada
contaminante.
E
N
T
R
A
D
A
ICA1
ICA2
ICA3
ICA4
ICA5
ICA6
ICA7
IW
b1
1…6x1…30
1…30x1
a1
ICA (Pm10 o CO)
a2
p
LW
b2
1…30 x1
1x1
1x1
E
N
T
R
A
D
A
ICA1
ICA2
ICA3
ICA4
ICA5
ICA6
ICA7
IW
1…6x1…30
b1
1…30x1
a1
LW1
b2
1…6x1…30
1…30x1
a3
LW2
b3
1…6x1
1x1
a2
1x1
1 a 30 N 1 a 30 N 1 N
p
ICA (Pm10 o CO)
66 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
7.3 Validación Experimental
Después de la selección de las técnicas de modelado y la construcción del modelo se
procede a describir la forma de cómo efectuar el entrenamiento, la validación y la
evaluación de los modelos; se explica la forma de cómo se divide el conjunto de datos
disponible, en datos de entrenamiento, en el conjunto de datos de validación y en el
conjunto de datos de prueba.
Para la evaluación de las modelos tanto de estimación por registros de contaminantes
como para el modelo por serie de tiempo, los datos muéstrales se dividieron en tres
conjuntos:
Entrenamiento: este conjunto contiene los registros para entrenar todos los
modelos planteados.
Validación: se toman del conjunto de entrenamiento pero no son utilizados para
dicho entrenamiento. Con estos registros se evalúa las distintas topologías de los
modelos, en función de valores críticos como son los errores (RMSE y MAE).
Prueba: este es el conjunto de datos que no participan en el entrenamiento de los
modelos. Con estos datos se evalúa al modelo que haya tenido un desempeño
satisfactorio.
Para el caso del contaminante PM10 o CO, se procede a tomar el 90% de los registros
para entrenamiento y dentro de este, se toma un 10% para validación. Si el modelo es
validado satisfactoriamente se toma el 10% del registro restante para prueba. Esto se
hace tanto para el modelo de estimación por contaminantes como para el modelo por
serie de tiempo.
Los modelos diseñados en la estimación del ICA a partir de la meteorología y por serie
de tiempo son los de regresión lineal múltiple y redes neuronales. Son comparados,
escogiendo el modelo con menor error medio absoluto y error de la raíz media cuadrada
en los resultados de la validación, para luego ser analizados en la fase de prueba.
Para la validación de cada modelo se utilizarán dos de los indicadores estadísticos para
proporcionar una descripción numérica de la bondad de las estimaciones por variables de
Capítulo 7 67
meteorología, al igual que para los modelos de estimación en serie de tiempo. Uno de los
indicadores más comúnmente utilizados es el error de la raíz media cuadrática (RMSE21)
[23], [74]–[77], cuya ecuación se presenta a continuación:
7-3
𝑅𝑀𝑆𝐸 = √∑ (𝑌𝑖 − 𝑋𝑖)2𝑁
𝑖=1
𝑁
El RMSE es una de las medidas más utilizada en para evaluar problema de regresión; al
usar la raíz cuadrada le da las mismas dimensiones a los valores al igual que al valor
predicho en sí [67].
Otro estimador estadístico ampliamente utilizado es el error medio absoluto (MAE22) [23],
[25], [74], [77] y su expresión es:
7-4
𝑀𝐴𝐸 =|∑ 𝑌𝑖 − 𝑋𝑖
𝑁𝑖=1 |
𝑁
Donde N es el número de valores analizados. Yi es el valor pronosticado en el registro i Xi es el valor observado en el registro i.
El MAE es la media de la magnitud de los errores individuales sin tener en cuenta su
signo. Error cuadrático medio tiende a exagerar el efecto de valores atípicos; esta medida
de desempeño no tiene este efecto; todos los tamaños de error son tratados de manera
uniforme en función de su magnitud [67].
De acuerdo a estos parámetros estadísticos la escogencia de dicho modelo se basa
en tomar el que ofrezca el menor valor de MAE y RMSE, ya sea para el modelo de
estimación por serie de tiempo o para el modelo de estimación por meteorología.
21 Del inglés root mean square error 22 De inglés mean absolute error
68 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
7.3.1 Diseño experimental
Estimación por parámetros meteorológicos
Para el modelo de estimación de ICA con PM10 de valores horarios a partir de la
meteorología, se utilizan para entrenamiento el 90% de los registros, es decir 5184
registros; de estos 518 atributos son para la validación del modelo que representa el 10%
de los datos de entrenamiento. Para los modelos de estimación de ICA para CO, se
utilizan también para entrenamiento el 90% de los registros, es decir 16948 registros y de
estos 1695 atributos son para la validación del modelo. Esto puede evidenciarse en la
Tabla 7-4.
Tabla 7-4: Número de Registros Horarios para el modelo por estimación a partir de registros meteorológicos
CONTAMINANTE
MODELO DE ESTIMACIÓN A PARTIR DE LA METEOROLOGÍA (Número de Registros Horarios)
Entrenamiento Validación Prueba
CO 16948 1695 1884
PM10 5184 518 576
Estimación por serie de tiempo
Para el modelo de estimación de ICA con PM10 de valores horarios usando serie de
tiempo, se toman para entrenamiento el 90% de los registros, es decir 184 registros; de
estos 18 atributos son para la validación del modelo que representa el 10% de los datos
de entrenamiento. Para los modelos de estimación de ICA para CO, se utilizan también
para entrenamiento el 90% de los registros, es decir 842 registros y de estos 84 atributos
son para la validación del modelo. Todos estos valores son presentados en la Tabla 7-5.
7.3.2 Resultados y evaluación por parámetros meteorológicos
Regresión lineal
Dentro de esta visión se analiza el problema mediante el uso de la regresión como
estimación del ICA a partir de la meteorología del caso, en la misma hora en la que se dé
la estimación.
Se puede evidenciar en la Tabla 7-6 que para el modelo de regresión lineal con
estimación horaria de PM10 a partir de entradas meteorológicas, el menor valor de
Capítulo 7 69
RMSE en la validación ocurre cuando se usan las variables independientes
meteorológicas de entrada Temperatura, precipitación, presión atmosférica, humedad y
velocidad del viento, con un valor de 387,869. Además se observa que este mismo
modelo presenta el más bajo MAE (15,903); este modelo es el que mejor se ajusta a los
requerimientos exigidos.
La Tabla 7-7 muestra el modelo de regresión lineal con estimación horaria de CO en la
validación, cuyo modelo con el menor RMSE ocurre cuando se usan todas las variables
independientes de meteorología como entradas, con valor de 39.941; además el menor
MAE ocurre en este mismo modelo.
Tabla 7-5: Número de Registros Diarios para el modelo por serie de tiempo
CONTAMINANTE
MODELO DE ESTIMACIÓN POR SERIE DE TIEMPO (Número de Registros Diarios)
Entrenamiento Validación Prueba
CO 842 84 94
PM10 181 18 20
Tabla 7-6: Resultados de la Regresión de PM10 Horaria
Variables Independientes (Variables Predictoras de entrada)
MAE RMSE Coeficientes (Betas)
TEMP 17.5865 428,534 21,348; 15,858
TEMP - PRECI 17.5729 428,608 21,349; 15,857; -0,066
TEMP - PRECI - PRES 17.3433 423,008 30,426; 11,286; -2,549; -11,632
TEMP - PRECI - PRES – HUM 16.8043 409,861 59,530; -17,801; 5,123; -11,642; -30,12
TEMP - PRECI - PRES - HUM -VVIEN 15.9026 387,869 20,657; -3,026; -0,904; -14,449; -6,403; 28,208
TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 15.0948 387,923 30,419; -3,082; -1; -14,172; -6,506; 28,248; 0,494
Tabla 7-7: Resultados de la Regresión de CO Horaria
Variables Independientes (Variables Predictoras de entrada)
MAE RMSE Coeficientes (Betas)
TEMP 5.1376 43,101 6,079; 0,237
TEMP - PRECI 5.129 43,029 6,016; 0,332; 8,61
TEMP - PRECI - PRES 5.053 42,395 3,313; 1,469; 8,635; 3,575
TEMP - PRECI - PRES – HUM 4.782 40,119 -9,324; 13,647; 5,757; 2,085; 13,617
TEMP - PRECI - PRES - HUM -VVIEN 4.7786 40,089 -8,605; 13,384; 5,969; 2,249; 12,831; -1,025
TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 4.761 39,941 -8,729; 12,698; 5,662; 2,706; 12,213; -0,85; 1,695
70 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 7-8: Resultados del Índice de calidad del aire de PM10 con MLP con una capa oculta y datos normalizados horarios
Número de Neurona
Entradas MAE RMSE
15 TEMP - 13,9261 340,1411
23 TEMP - PRECI - 13,4145 345,1136
21 TEMP - PRECI - PRES 14,4324 370,5751
26 TEMP - PRECI - PRES - HUM 13,2219 316,3633
23 TEMP - PRECI - PRES - HUM -VVIEN 13,4145 320,4873
28 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 13,0924 309,9661
Redes neuronales artificiales
Con este tipo de modelo también se analiza el problema mediante el uso de la regresión
como estimación del ICA a partir de la meteorología del caso, en la misma hora en la que
se produce la estimación.
De la Tabla 7-8 se muestra que para el modelo de MLP para la estimación horaria de
ICAPM10, el de menor MAE ocurre cuando se usan las variables independientes de
meteorología de temperatura, precipitación, presión atmosférica, humedad y velocidad
del viento, como entradas en la regresión (fila en negrilla) con un valor de 13,0924.
Además se observa que este mismo modelo presente el menor RMSE con un valor de
309,9661; este modelo es el que mejor se ajusta utilizando una capa oculta con 28
neuronas.
Para la estimación horaria de ICACO,Tabla 7-9, el modelo que mejor se ajusta utiliza una
capa oculta con 29 neuronas. Este presenta menor MAE cuando se usan las variables
independientes de temperatura, precipitación, presión atmosférica, humedad y velocidad
del viento, con un valor de 4,0465; al igual este modelo presenta el menor RMSE con un
valor de 33,3614.
Ahora se proceda a adicionar otra capa oculta a la red; los resultados más relevantes son
presentados en la Tabla 7-10 y en la Tabla 7-11, para cada contaminante, con las
diferentes entradas de meteorología.
Capítulo 7 71
Tabla 7-9: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta y datos normalizados horarios
Número de Neurona
Entradas MAE RMSE
21 TEMP - 4.6903 42.7330
11 TEMP - PRECI 4.6034 41.2709
23 TEMP - PRECI - PRES 4.2841 38.1469
16 TEMP - PRECI - PRES - HUM - 4.1961 37.1889
13 TEMP - PRECI - PRES - HUM -VVIEN 4.1679 34.728
29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 4,0465 33,3614
Tabla 7-10: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas ocultas y datos normalizados horarios
Capa oculta 1
Capa oculta 2
Entradas MAE RMSE
15 3 TEMP 13,8393 342,4143
12 4 TEMP - PRECI 13,8639 338,7272
10 16 TEMP - PRECI - PRES 15,2946 401,9950
5 23 TEMP - PRECI - PRES - HUM 14,9438 396,4984
9 13 TEMP - PRECI - PRES - HUM -VVIEN 13,1627 313,9545
16 29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 12,5311 294,2835
Tabla 7-11: Resultados del Índice de calidad del aire de CO con MLP con dos capas ocultas y datos normalizados horarios
Capa oculta 1
Capa oculta 2
Entradas MAE RMSE
5 25 TEMP 4,6916 42,7239
8 7 TEMP - PRECI 4,1588 42,708
10 13 TEMP - PRECI - PRES 4,3114 37,8756
10 14 TEMP - PRECI - PRES - HUM 4,57586 41,21687
11 26 TEMP - PRECI - PRES - HUM -VVIEN 4,0466 33,1627
15 29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 3,932864 31,85363
De la Tabla 7-10 se puede evidenciar que para el modelo de estimación horaria de
ICAPM10, el de menor MAE ocurre cuando se usan todas las variables independientes
de meteorología como son las temperatura, precipitación, presión atmosférica, humedad,
velocidad del viento y dirección del viento, como entradas en la regresión, con un valor
de 12,5311. Además se observa que este modelo presenta un RMSE de 294,2835: este
modelo se ajusta eficientemente, utilizando en la primera capa oculta 16 neuronas y en la
segunda capa oculta 29 neuronas.
72 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En la Tabla 7-11 se muestra el modelo para la estimación horaria de ICACO; en esta el
menor MAE ocurre cuando las entradas son todas las variables independientes de
meteorología, con un valor de 3,9329. También se observa que este modelo presenta un
RMSE de 31,854.
Evaluación de resultados con parámetros meteorológicos
En primera instancia se toma los modelos ejecutados en el proceso de estimación y se
prueban con datos que no han sido utilizados en los entrenamientos previos.
En la Figura 7-7 y Figura 7-8 se observan los modelos de estimación con salida
ICAPM10 e ICACO de la regresión lineal con los menores errores obtenido en la
validación; puede verse una baja relación de las variables independientes con la
estimación. Estos modelos no son tomados para la etapa de desarrollo.
Los modelos de ANN que presenta menores MAE’s son los escogidos para la etapa de
evaluación y prueba; para nuestro caso el modelo de ANN con 16 neuronas en su
primera capa oculta y 29 neuronas en la segunda capa oculta, usando como variable
dependiente el ICAPM10 y el modelo ANN con 15 neuronas en su primera capa oculta y
29 neuronas en la segunda capa oculta y variable dependiente el ICACO, presentan los
errores más bajos en la etapa de validación.
Figura 7-7: Representación data set de Prueba Vs Estimación ICAPM10 con Regresión Lineal
0
5
10
15
20
25
30
35
40
45
50
1
14
27
40
53
66
79
92
105
118
131
144
157
170
183
196
209
222
235
248
261
274
287
300
313
326
339
352
365
378
391
404
417
430
443
456
469
482
495
508
521
534
547
560
573
ICA
PM
10
MuestrasTarget ICAPM10-H Estimación ICAPM10-H
Capítulo 7 73
Tomando ahora los dos modelos de ANN tanto de ICAPM10 como de ICACO y
entrenándolos nuevamente 30 veces, haciendo pequeñas modificaciones en sus
parámetros de entrenamiento, se observa cómo es el comportamiento de los errores
usando el set de datos de prueba, se escoge el entrenamiento con menores errores. De
los resultados de la ANN con salida ICAPM10 se obtiene un MAE de 10,19, aunque el
RMSE es considerable para una estimación (165,04). El MAE para la configuración de la
ANN con salida ICACO, se mantiene con un valor de 4,427, muy cerca del valor del MAE
en la validación (3,93). Del mismo modo para el RMSE se obtuvo un valor de 27,26 y en
la validación de la misma topología un valor de 31,85. En la Figura 7-9 se puede observar
la respuesta del modelo de estimación con salida ICAPM10 con los errores más bajos
obtenidos en la prueba contra los datos de prueba (576 atributos). A partir de esta
observación no se implementa este modelo ya que es poco ajustable a los parámetros,
debido a los valores de error obtenidos. La respuesta del modelo de estimación con
salida ICACO con los errores más bajos obtenidos en la prueba contra los datos de
prueba (1883 atributos) puede observarse en la Figura 7-10. A partir de esta se
implementan estos dos modelos ya que su respuesta a la estimación se ajusta al valor
real de variable, además presenta valores de error bajos.
Figura 7-8: Representación data set de Prueba Vs Estimación ICACO con Regresión Lineal
0
5
10
15
20
25
1
14
27
40
53
66
79
92
105
118
131
144
157
170
183
196
209
222
235
248
261
274
287
300
313
326
339
352
365
378
391
404
417
430
443
456
469
482
495
508
521
534
547
560
573
ICA
CO
MuestrasTarget ICACO-H Estimación ICACO-H
74 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Tabla 7-12: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación a partir de la meteorología, con regresión lineal y con ANN
Evaluación Regresión Lineal ANN
PM10 CO PM10 CO
MAE 19.578 14,168 10,19 4,045
RMSE 387,87 39,94 165,05 27,26
Figura 7-9: Representación data set de Prueba Vs Estimación ICAPM10 con ANN
Figura 7-10: Representación data set de Prueba Vs Estimación ICACO con ANN
0
5
10
15
20
25
30
35
40
45
50
112 23 34 45 56 67 78 89
100
111
122
133
144
155
166
177
188
199
210
221
232
243
254
265
276
287
298
309
320
331
342
353
364
375
386
397
408
419
430
441
452
463
474
485
496
507
518
529
540
551
562
573
ICA
PM
10
MuestrasTarget ICAPM10 - H Estimación ICAPM10 - H
0
5
10
15
20
25
30
35
14
79
31
39
18
52
31
27
73
23
36
94
15
46
15
07
55
35
99
64
56
91
73
77
83
82
98
75
92
19
67
10
13
10
59
11
05
11
51
11
97
12
43
12
89
13
35
13
81
14
27
14
73
15
19
15
65
ICA
CO
MuestrasTarget ICACO - H Estimación ICACO - H
Capítulo 7 75
La Tabla 7-12 muestra la comparación de los modelos de estimación a partir de la
meteorología usando regresión lineal y ANN, en donde se evidencia que los modelos con
ANN ofrecen un mejor desempeño.
7.3.3 Resultados y evaluación por serie de tiempo
En esta etapa se analiza el problema de acuerdo a una serie de tiempo, estimando el
valor del contaminante del día siguiente a partir de valores de días anteriores.
De este modo se procede a desarrollar este modelo usando en primera medida la
regresión lineal y finalmente con redes neuronales.
Regresión Lineal
Para este modelo se estima el contaminante del día posterior a partir de variables
independientes de entradas (contaminantes de días anteriores), tanto para ICA de CO
como ICA de PM10, desde el día anterior hasta siete días anteriores.
Tabla 7-13: Resultados de la Regresión de PM10 Diario
Variables Independientes (Variables Predictoras)
MAE RMSE Coeficientes (Betas)
1 día anterior 12,618 153,616 6,542; 96,087
2 días anteriores 11,978 147,887 5,381; 75,529; 22,75
3 días anteriores 10,602 130,899 3,3785; 69,865; -52,74; 37,788
4 días anteriores 10,49 129,51 3,367; 63,865; -5,113; 31; 13,597
5 días anteriores 10.339 127,644 2,905; 61,093; -10,125; 30,57; 7,613; 15,456
6 días anteriores 10,329 127,527 2,543; 59,376; -10,348; 27,804; 8,314; 12,013; 8,383
7 días anteriores 10,316 127,365 2,81; 60,44; -9,882; 28,944; 9,129; 11,379; 12,35; -7,91
Para el modelo de regresión lineal con estimación horaria de PM10, Tabla 7-13, el de
menor RMSE en la validación ocurre cuando se usan los valores del contaminante
ICAPM10 de siete días anteriores al de la estimación como entradas en la regresión con
un valor de 127,365. Además se observa que este mismo modelo presente un MAE de
31,316.
Los resultados de la validación para el modelo de estimación horaria de CO, son
presentados en la Tabla 7-14, donde el menor valor de RMSE ocurre cuando se usan los
valores del contaminante ICACO de siete días anteriores al de la estimación, como
entradas en la regresión (fila en negrilla) con un valor de 43,916 y un MAE de 5,230.
76 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Estos dos modelos son los del más óptimo ajuste alcanzado.
Tabla 7-14: Resultados de la Regresión de CO Diario
Variables Independientes (Variables Predictoras)
MAE RMSE Coeficientes (Betas)
1 día anterior 5,915 49,644 4,255; 30,178
2 días anteriores 5,917 49,683 3,183; 29,682; 0,825
3 días anteriores 5,6876 47,755 3,332; 29,526; -4,969; 9,832
4 días anteriores 5,635 47,321 2,989; 28522; -4,239; 6,907; 4,959
5 días anteriores 5,535 46,471 2,567; 27,885; -5,407; 7,518; 1,114; 6,764
6 días anteriores 5,336 44,807 2,067; 26,617; -5,592; 6,093; 2,123; 1,538; 9,401
7 días anteriores 5,230 43,916 1,764; 25,294; -5,785; 5,778; 1,269; 2,265; 5,672; 7,076
Redes neuronales artificiales
El objetivo principal en el estudio de series temporales con redes neuronales es construir
una red neuronal que permita predecir con el menor error posible, al menos, un dato
futuro de la serie.
Tabla 7-15: Resultados del Índice de calidad del aire de PM10 con MLP con una capa oculta y datos diarios
Número de Neurona
Entradas (Días anteriores)
MAE RMSE
28 1 día anterior 8,1522 127,2111
23 2 días anteriores 7,8659 122,1767
20 3 días anteriores 6,1194 162,6723
24 4 días anteriores 7,0911 88,845
5 5 días anteriores 7,3561 123,3499
20 6 días anteriores 5,754 110,5156
20 7 días anteriores 6,1194 242,5446
Tabla 7-16: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta y datos diarios
Número de Neurona
Entradas MAE RMSE
15 1 día anterior 4,8392 48,1721
28 2 días anteriores 4,5956 45,5547
28 3 días anteriores 4,0673 43,9299
13 4 días anteriores 4,3299 40,2019
15 5 días anteriores 4,1824 42,0955
30 6 días anteriores 4,0673 35,3626
28 7 días anteriores 3,9089 32,7984
Capítulo 7 77
De la Tabla 7-15 se puede evidenciar que para la serie de tiempo para el contaminante
ICAPM10, el modelo con menor MAE ocurre cuando se usan las variables
independientes de los contaminantes de 6 días anteriores a la estimación, con un valor
de 5,754. Además se observa que este mismo modelo presente un RMSE de 110,5156.
De igual manera para el contaminante ICACO, se encuentran los resultados visualizados
en la Tabla 7-16, en donde el de menor MAE ocurre cuando se usan las variables
independientes de los contaminantes anteriores, para 7 días, como entradas en la
regresión con un valor de 3,908. Este mismo modelo presenta un error medio cuadrático
igual a 32,7984; se llega a este ajuste utilizando una capa oculta con 28 neuronas.
Tabla 7-17: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas ocultas y datos diarios
Capa oculta 1
Capa oculta 2
Entrada (Días anteriores)
MAE RMSE
11 21 1 día anterior 7,7619 117,524
12 28 2 días anteriores 7,516 114,0301
14 12 3 días anteriores 5,3368 139,4148
9 19 4 días anteriores 5,7782 64,754
14 5 5 días anteriores 5,3227 89,406
11 27 6 días anteriores 4,483578 103,865811 12 28 7 días anteriores 5,090764 104,629659
Tabla 7-18: Resultados del Índice de calidad del aire de CO con MLP con dos capas ocultas y datos diarios
Capa oculta 1
Capa oculta 2
Entrada (Días anteriores)
MAE RMSE
11 12 1 día anterior 4,5604 49,7607
11 16 2 días anteriores 4,5304 47,053
15 10 3 días anteriores 4,44633 41,6412
17 27 4 días anteriores 3,9602 35,6629
8 26 5 días anteriores 3,9086 38,2250
19 29 6 días anteriores 3,679422384 33,94509258
14 28 7 días anteriores 3,513896378 33,27733877
De la Tabla 7-16 se puede evidenciar que para el modelo de MLP de serie de tiempo de
ICAPM10, el de menor MAE ocurre cuando se usan todas las variables independientes
de entrada, los ICA de hasta 6 días anteriores, con un valor de 4,483578. Además se
observa que este modelo presenta un RMSE de 103,8658, utilizando en la primera capa
oculta 11 neuronas y en la segunda capa oculta 27 neuronas.
78 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En la Tabla 7-18 se muestra el modelo de MLP para la serie de tiempo del ICACO; en
este modelo se visualiza el menor error absoluto, ocurre cuando se usan también todas
las variables de entrada independientes de los días anteriores a la medición, como
entradas en la regresión (fila en negrilla) con un valor de 3,5139. También se observa
que este modelo presenta un error medio cuadrático de 33,2773, aunque este no es
menor error hallado (31,9351), este modelo responde de manera satisfactoria utilizando
en la primera capa oculta 11 neuronas y en la segunda capa oculta 28 neuronas.
Evaluación de Resultados por serie de tiempo
En la Figura 7-11 y en la Figura 7-12 se observan los modelos de estimación con salida
ICAPM10 e ICACO de la regresión lineal con los menores errores obtenidos en la
validación. Este modelo no es tomado para la etapa de desarrollo, por sus elevados
errores que presentó en esta etapa, además la respuesta a la estimación no se ajusta a
la real.
Figura 7-11: Representación data set de Prueba Vs Estimación por serie de tiempo para ICAPM10 con Regresión Lineal
De los modelos de ANN son seleccionados dos. El primero usa como variable
dependiente el ICAPM10, con 11 neuronas en su primera capa oculta y en la segunda
capa oculta 27 neuronas; analizando este modelo se observa que el RMSE es alto
comparado con los datos de la variable dependiente, esto es debido al número reducido
de registros para el entrenamiento y la validación para esta variable de salida. El
segundo modelo seleccionado toma como variable dependiente el ICACO, con 11
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
21
ICA
PM
10
MuestrasTarget ICAPM10-H Estimación ICAPM10-H
Capítulo 7 79
neuronas en su primera capa oculta y 28 neuronas en la segunda capa oculta, además
presenta un MAE de 3,51 y RMSE de 33,28 cuando se usan atributos de ICACO de siete
días previos a la estimación.
Figura 7-12: Representación data set de Prueba Vs Estimación por serie de tiempo para ICACO con Regresión Lineal
Se aplica el mismo procedimiento que en la estimación, encontrando que los modelos
que presentan menores errores son los de ANN. Para cada caso, de variables
dependientes ICAPM10 e ICACO, se toma el modelo y se entrenan 30 veces con
pequeñas modificaciones en su configuración de entrenamiento, y se procede a observar
cómo es el comportamiento de los errores usando el set de datos de prueba.
Tabla 7-19: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación por serie de tiempo, con regresión lineal y con ANN
Evaluación Regresión Lineal ANN
PM10 CO PM10 CO
MAE 21,186 9,30 3,19 4,47
RMSE 127,365 43,916 21,16 44,625
En la Tabla 7-19 se observa la comparación de los modelos de estimación por serie de
tiempo usando regresión lineal y ANN, en donde se evidencia que los modelos con ANN
ofrecen un mejor desempeño.
0
5
10
15
20
25
30
1 4 7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
ICA
CO
MuestrasTarget ICACO-H Estimación ICACO-H
80 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En la Figura 7-13 se evidencia la respuesta de la red simulada con datos de entrada para
7 días anteriores a la ICAPM10 a estimar y el data set de prueba. En esta se observa
claramente que la estimación sigue a la señal de prueba. La respuesta de este modelo se
ajusta a la variable a estimar, por tal razón es un modelo ser utilizado en la
implementación.
Figura 7-13: Representación data set de Prueba Vs Estimación por serie de tiempo para ICAPM10 con ANN
Figura 7-14: Representación data set de Prueba Vs Estimación por serie de tiempo para ICACO con ANN
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
ICA
PM
10
MuestrasTarget ICAPM10 - D Estimación ICAPM10 - D
0
5
10
15
20
25
30
1 4 7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
ICA
CO
MuestrasTarget ICACO - D Estimación ICACO - D
Capítulo 7 81
Además en la Figura 7-14 se evidencia la respuesta de la misma red simulada con datos
de entrada para 7 días anteriores a la ICACO a estimar con el data set de prueba. En
esta se observa claramente que la estimación también sigue a la señal de prueba, por lo
cual el modelo es ajustable a la variable a estimar. Este modelo también es
implementado.
7.4 Desarrollo Prototipo de Software
En esta etapa se procede al desarrollo de la aplicación del estimador del ICA mediante la
utilización de un programa, a partir de los resultados obtenidos en etapa del modelo
predicción.
7.4.1 Plan de desarrollo
El estimador ICA es una aplicación dedicada a la predicción del índice de la calidad del
aire, esto lo hace gracias al sistema de redes neuronales incluido en su algoritmo
desarrollado en MATLAB.
Figura 7-15: Sistema de Estimación por Entradas Meteorológicas
82 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
En necesario hacer una interfaz amigable al usuario ya que si es complejo, posiblemente
solo quien lo desarrolló puede manejarlo, solo este podrá corregir las fallas y aprovechar
sus virtudes; por tanto, su evolución queda limitada al propio desarrollador. Es por este
motivo que dentro de esta programación se debe presentar al usuario una interfaz que
esté completamente identificada y además su manejo sea tan claro que evite posibles
errores al momento de ser utilizado, tratando en lo posible que ello no conlleve un mal
uso de la memoria física del computador que pudiera desencadenar en un retardo
innecesario o, peor aún, en un bloqueo del mismo.
La creación de una interfaz gráfica amigable y funcional que ayude y guíe al operador en
todo momento mientras utiliza el programa es uno de los requerimientos más importantes
en todo sistema, de esto dependerá en gran magnitud su uso futuro y sobre todo su
masificación.
Por medio de MATLAB se ha logrado desarrollar un programa con dos secciones y
procesos claramente identificados para calcular el ICA, a la vez que se presenta una
interfaz amigable.
Figura 7-16: Sistema de Estimación por Serie de Tiempo
La primera sección es el sistema de estimación de ICA usando como entradas variables
meteorológicas; en la Figura 7-15 se visualiza esta sección. Esta parte del programa está
conformado por 6 casillas que incluyen los parámetros necesarios para la estimación del
ICA a partir de entradas meteorológicas como son:
Temperatura.
Precipitación.
Capítulo 7 83
Presión.
Velocidad del viento.
Humedad.
Dirección del viento.
En estas casillas se digita el valor actual de cada una de las variables. Estos valores son
suministrados a través de las estaciones meteorológicas ubicadas en la ciudad de
Valledupar. Luego de digitar los valores, se presiona el botón estimar CO e
inmediatamente en la casilla con el nombre de Estimación ICA CO aparecerá el valor del
ICA estimado actual a partir de los valores de meteorología suministrados. Este valor
indica cuál sería el índice para la hora actual.
La segunda parte del programa está basado en la estimación del ICA a partir de valores
pasados del ICA obtenidos ya sea de PM10 o CO, usando el sistema de serie de tiempo.
En la Figura 7-16 se puede observar la parte del programa donde se estima el ICA por
serie de tiempo.
Este consta de 7 casillas en los cuales se digita el valor del ICA de el mismo número de
días anteriores para calcular el día siguiente, además el valor del ICA se estima basados
en dos parámetro que son el CO y el PM10, presionando el botón del cual se desea.
Su actualización se realiza mediante su propio algoritmo, editando en su script los
valores de los pesos y los umbrales de cada red neuronal.
Figura 7-17: Diagrama de Bloques Algoritmo de Estimación
En la Figura 7-17 se visualiza el diagrama de bloques del funcionamiento del software
implementado. En la primera etapa se encuentra la entrada de los datos, ya sea los datos
meteorológicos o los ICA de días anteriores; estos datos son tomados por la red neuronal
Entrada de datos (Meteorología o ICA anteriores)
Red neuronal (Procesamiento de Información)
Estimación de ICA (para PM10
o CO)
84 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
en donde estima el ICA, ya sea con PM10 o con CO. Este resultado es visualizado en
pantalla.
Este procedimiento debe realizarse de manera anual, incluyéndole a cada red nuevos
valores. La red es entrenada y actualizada usando datos de las estaciones de monitoreo
que conforman el sistema de vigilancia de calidad de aire de la ciudad de Valledupar con
ICA actuales y datos meteorológicos.
7.5 Discusión y Conclusiones
En el desarrollo de los modelos de estimación se observa que el modelo usando
regresión lineal múltiple tanto para salidas de ICAPM10 como para ICACO con entradas
meteorológicas arroja modelos muy poco ajustados a la respuesta real, además el RMSE
es considerablemente altos en ambos modelos.
Para los modelos ANN con salida de ICAPM10 y con entradas meteorológicas presenta
un valor de RMSE considerable (Tabla 7-8), que hace que el modelo no se ajuste
adecuadamente a la salida real esperada. Caso contrario ocurre con los modelos de ANN
para salida ICACO en donde los errores son bajos (Tabla 7-9), estos modelos se ajustan
a la salida real esperada, y en especial el modelo perceptrón multicapa con dos capas
ocultas y funciones de activación Tansig en ambas capas, utilizando en la primera capa
oculta 16 neuronas y en la segunda capa oculta 29 neuronas.
En el desarrollo de los modelos por serie de tiempo se observa que el modelo
implementado usando regresión lineal múltiple tanto para salidas de ICPM10 como para
ICACO arroja modelos poco ajustados; los valores del RMSE son considerablemente
altos en ambos modelos (Tabla 7-13 y Tabla 7-14).
Para los modelos de ANN de tipo multicapa con dos capas ocultas, usando como
variable dependiente el ICAPM10, presenta menor MAE y ocurre cuando se usan todas
las variables independientes de meteorología (Temperatura, precipitación, presión
atmosférica, humedad, velocidad del viento y dirección del viento). Presenta una
topología en su primera capa oculta 16 neuronas y en la segunda capa oculta 29
neuronas, con un RMSE de 21,16, respondiendo de manera satisfactoria. Para el modelo
de ANN de tipo multicapa con dos capas ocultas, usando como variable dependiente el
ICACO, con 15 neuronas en su primera capa oculta y 29 neuronas en la segunda capa
Capítulo 7 85
oculta, de la Tabla 7-11 se observa que presenta menor MAE (3,933) y un menor RMSE
(31,85) cuando se usan todas las variables independientes de meteorología
(Temperatura, precipitación, presión atmosférica, humedad, velocidad del viento y
dirección del viento).
Las redes neuronales artificiales poseen una serie de características admirables, tales
como la habilidad para procesar datos con ruido o incompletos, la alta tolerancia a fallos
que permite a la red operar satisfactoriamente con neuronas o conexiones dañadas y la
capacidad de responder en tiempo real debido a su paralelismo inherente [1].
Después de analizados los modelos y ejecutado todas la iteraciones planteadas, se
concluye que los modelos de estimación para ICACO usando ANN, modelo de serie de
Tiempo para ICAPM10 y modelo de serie de Tiempo para ICACO, también usando ANN,
son los seleccionados para la etapa de desarrollo, ya que estos se ajustaron de manera
óptima con los requerimientos exigidos y con bajos errores.
El prototipo planteado cumple con las especificaciones esperadas y además posee una
interfaz gráfica amigable y funcional intuitiva, que guía al operador en todo momento
mientras utiliza el programa; esta interfaz es uno de los requerimientos más importantes
en toda aplicación, de esto dependerá en gran magnitud su uso futuro y sobre todo su
masificación.
CAPÍTULO 8. CONCLUSIONES Y RECOMENDACIONES
8.1 Conclusiones
Se construye a cabalidad el conjunto de datos de meteorología e índice de calidad del
aire apropiado para el entrenamiento y validación de modelos descriptivos y predictivos,
a partir de la base de datos de Corpocesar. La tabla resultante posee 7 atributos como
son el ICA- estación, la temperatura promedio, la precipitación, la presión atmosférica, la
humedad relativa, la velocidad del viento y la dirección del viento con 21267 registros en
total, Los resultados obtenidos, debido a las variables seleccionadas poseen una
representatividad superior al 75%. Los procesos que se llevaron a cabo para la
consecución final del conjunto de datos a son los selección, limpieza, construcción,
integración y formateo de datos; estas actividades de la metodología CRISP-DM, son
muy específicas, y en su mayoría son usadas para el desarrollo de proyectos de
explotación de información, saltando de una fase a otra, de tareas más generales a
mucho más delimitadas.
En la base de datos de meteorología de Corpocesar se encuentra todo tipo de errores y
muchos registros faltantes, debido a los diferentes tipos de fallas, ya sea humana o del
propio equipo; se evidencia que estas fueron totalmente superadas. Identificar los errores
en algunos casos resulta complejo, debido a que no todos los valores descritos como
errores necesariamente lo eran; un ejemplo ilustrativo se evidencia en los valores de
temperaturas bajas en el día, que eran propias de horas nocturnas; estos errores
aparentes fueron convertidos a registros válidos debido a la observación de las otras
variables que se presentan en las mismas horas, en especial la precipitación, ya que esta
indica que en ese instante de tiempo se encontraba una llovizna y por consecuencia una
disminución de la temperatura. Es preciso y necesario conocer las variables en juego
para poder hacer estas afirmaciones.
88 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Al evaluar el modelo de clustering, con el algoritmo K-Medias, se debe tomar en
consideración todo el data set disponible, incluyendo los ICA tanto para CO, como para
PM10, al igual que los atributos de meteorología (temperatura promedio, precipitación,
presión atmosférica, humedad relativa, velocidad del viento y dirección del viento), con
los registros normalizados (registros entre 0 y 1), variando el número de medias iniciales
de 2 al 10; se mide la suma de cuadrados para evaluar la calidad de la agrupación. Se
obtiene un número de clúster igual a 5. Con la ayuda de la distancia euclidiana, se evalúa
la calidad del agrupamiento, para lograr reflejar la diferencia entre los patrones de los
clústeres. Los clúster encontrados presentan una alta tendencia a agrupar patrones
equivalentes, como se evidencia en el clúster_4, donde se observa casi totalmente
temperaturas entre 25 y 30°C, encontrando precipitaciones en un 7.8%, siendo el grupo
con mayor número de lluvias encontradas. Bajo esta agrupación el ICA presentado se
encuentra en un 20.9% con valores superiores a 20 unidades, además se observa que
con precipitaciones presentadas el ICA disminuye a valores inferiores a 10 y a 5
unidades en un 55% y en un 33%, respectivamente, haciendo válida la hipótesis
preliminar planteada en el capítulo en donde el contaminante PM10 casi exclusivamente
presenta valores altos, cuando no existen precipitaciones. También es apreciable esta
concepción con el contaminante CO. De allí se establece que el modelo planteado y
diseño cumplen con las expectativas esperadas, además este produce una descripción
de los datos en términos de grupos de datos con fuertes similitudes internas,
observándose tendencias en el agrupamiento.
En el desarrollo de los modelos de predicción se observa que los diseños planteados
usando regresión lineal múltiple tanto para salidas de ICAPM10 como para ICACO, con
entradas meteorológicas responden con estimaciones muy poco ajustables a la
respuesta real, dando como resultado un RMSE y un MAE considerablemente alto en
ambos modelos. Lo mismo ocurre cuando se estima como una serie de tiempo usando la
misma técnica.
Para los modelos ANN con salida de ICAPM10 y con entradas meteorológicas presenta
un valor de RMSE considerable, aunque el MAE es bajo (10,19), que hace que el modelo
no se ajuste adecuadamente a la salida real esperada. En cambio con el modelo de ANN
para salida ICACO en donde los errores son bajos, del orden 27,26 y de 4,045 para
RMSE y MAE respectivamente, los modelos implementados se ajustan a la salida
Capítulo 7 89
esperada. El modelo con un desempeño óptimo fue el perceptrón multicapa con dos
capas ocultas y funciones de activación Tansig en ambas capas, utilizando en la primera
capa oculta 16 neuronas y en la segunda capa oculta 29 neuronas. Del mismo modo
usando ANN para estimar el ICA como serie de tiempo usando como variable
dependiente el ICAPM10, presenta menor MAE y ocurre cuando se usan todas las
variables independientes de meteorología, con una topología en su primera capa oculta
16 neuronas y en la segunda capa oculta 29 neuronas; esta presenta un RMSE de 21,16,
respondiendo de manera satisfactoria. Para el modelo ANN, usando como entrada el
ICACO, con 15 neuronas en su primera capa oculta y 29 neuronas en la segunda capa
oculta, presenta menor MAE (3,933) y un menor RMSE (31,85) cuando se usan todas las
variables independientes de meteorología.
Después de analizados los modelos y ejecutado todas la iteraciones planteadas, se
concluye que los modelos de estimación para ICACO usando ANN, modelo de serie de
Tiempo para ICAPM10 y modelo de serie de Tiempo para ICACO, también usando ANN,
son los seleccionados para la etapa de desarrollo, ya que estos se ajustaron de manera
óptima con los requerimientos exigidos y con bajos errores.
Después de desarrollar el modelo por serie de tiempo usando ANN, se proceda a
adicionar más días en la entrada, es decir hasta 12 días anteriores a la estimación; para
observar si mejora la estimación. Se evidencia que en ambos modelos, aunque se le
incluyan más días a la estimación, el MAE no mejora considerablemente, por tal motivo
no se hace necesario incluir más entradas al modelo.
El prototipo planteado cumple con las especificaciones esperadas y además posee una
interfaz gráfica amigable y funcional e intuitiva, que guía al operador en todo momento
mientras utiliza el programa; esta interfaz es uno de los requerimientos más importantes
en toda aplicación, de esto dependerá en gran magnitud su uso futuro y sobre todo su
masificación.
8.2 Recomendaciones
Se desarrolla un estudio conmensurado de estimación de calidad de aire en una zona de
mucha influencia a los contaminantes PM10 y CO propensa a desarrollar problemas en la
salud pública debido a la explotación minera presente en el departamento del Cesar.
90 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Este estudio puede ser utilizado como base para la adopción de múltiples decisiones, por
parte de los entes reguladores, en el ámbito de salud pública, gestión del riesgo,
agricultura, así como el futuro impacto ambiental de los contaminantes en cualquier
región, conociendo de ante mano su comportamiento.
Para trabajos futuros con el prototipo para estimar el ICA, es necesario actualizar los
pesos y los bias de todos los modelos de las ANN. Se recomienda cada año para tener
un entrenamiento de valores óptimos desde el punto de vista de los valores estacionales
del data set usado.
A. Anexo: Características de los Programas Utilizados
MATLAB
MATLAB es un lenguaje de alto nivel, con entorno interactivo utilizado por millones de
ingenieros y científicos en todo el mundo. Le permite explorar y visualizar ideas, así como
colaborar interdisciplinarmente en procesamiento de señales e imagen, comunicaciones,
sistemas de control y finanzas computacionales23. MATLAB es una abreviatura de "matriz
laboratorio". Mientras que otros lenguajes de programación trabajan generalmente con
los números de uno en uno, MATLAB opera con matrices y vectores al tiempo. Mediante
GUIDE (entorno de desarrollo de interfaces gráficas de usuario), es posible crear, diseñar
y editar interfaces gráficas de usuario. Se pueden incluir controles habituales como
cuadros de lista, menús desplegables y botones, además de gráficos de MATLAB.
SPSS
Es un software que ofrece una solución completa y flexible en cuanto a la gestión de
análisis estadístico y análisis de datos. Este puede adquirir datos y utilizarlos para
generar informes tabulados; gráficos y diagramas de distribuciones; tendencias; y llevar a
cabo análisis estadístico complejo.
Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent; a partir de
1975 corresponde a SPSS Inc, y en el año 2009 se anunció la compra del mismo por
parte de IBM.
Dicho software se encuentra disponible para varias plataformas, ya sea Windows,
Macintosh o UNIX.
RAPIDMINER
RapidMiner es una plataforma de análisis de código libre para ingresar datos,
organizarlos, y crear modelos de predicción y descripción. Ofrece un entorno integrado
de aprendizaje automático para la minería de datos, utilizado para la investigación,
23 http://www.mathworks.com/products/matlab/ revisado marzo 2015.
92 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
formación, creación rápida de prototipos y desarrollo de aplicaciones; incluyendo los
resultados de la visualización, validación y optimización.
Este software fue creado en el año 2001 por Ralf Klinkenberg, Ingo mierswa y Simon
Fischer en la Unidad de Inteligencia Artificial de la Universidad Técnica de Dortmund.
RapidMiner es distribuido bajo licencia AGPL y está en sitio web SourceForge desde el
2004.
MYSQL
Es un lenguaje de consulta estructurado de base de datos de código abierto, desarrollado
por IBM en 1974 por el Donald D. Chamberlin. Es capaz de manejar álgebra y el cálculo
relacional por medio de consultas con el fin de recuperar de forma sencilla información
dentro de las bases de datos, al igual hacer cambios en ellas. Para realizar las consultas
se necesita de un módulo administrador de base de datos, como lo es la herramienta
gráfica SQL Yog, la cual es fácil de utilizar, compacta y muy rápida.
B. Anexo: Consultas Base de Datos
A continuación se muestran las consultas desarrolladas en MySQL en las base de datos
de la Corpocesar, montada sobre el administrador MySQLYog Entreprise.
A partir de estas consultas se obtuvo el data set utilizado para la investigación. La base
de datos es manejada por Corpocesar y administrada por el grupo de Investigación de
ingeniería Civil de la Universidad Industrial de Santander, Geomatica, cuyo director es el
doctor Hernán Porras.
/*CONSULTA PARA EXTRAER DATOS CO OCTOHORARIOS EQUIPO AUTOMÁTICO*/
SELECT* FROM equipos_automaticos WHERE variable= 'CO8H' AND FECHA BETWEEN '2009-01-01' and
'2012-12-31' group by fecha, hora INTO OUTFILE 'D:\CONSULTA1_CO8H.CSV';
/*CONSULTA PARA EXTRAER DATOS PM10 HORARIOS EQUIPO AUTOMÁTICO*/
SELECT* FROM equipos_automaticos WHERE variable= 'PM10' AND FECHA BETWEEN '2009-01-01' and
'2012-12-31' group by fecha, hora INTO OUTFILE 'D:\CONSULTA2_PM10H.CSV';
/*CONSULTA PARA EXTRAER DATOS METEOROLÓGICOS HORARIOS*/
SELECT* FROM datos_meteorologia WHERE FECHA BETWEEN '2009-01-01' and '2012-12-31' group by
fecha, hora, COD_PRECIPITACION into outfile 'D:\CONSULTA3_METEOH.CSV';
/*CONSULTA PARA EXTRAER DATOS PM10 EQUIPOS MANUALES DIARIOS*/
SELECT* FROM datos_zm WHERE FECHA_INICIO BETWEEN '2009-01-01' and '2012-12-31' group by
FECHA_INICIO into outfile 'D:\CONSULTA4_PM10M.CSV';
C. Anexo: Verificación de Datos
CALIDAD DE LOS DATOS ENCONTRADOS EN LOS
CONTAMINANTES
Campo Revisión Cantidad
encontrada Descripción Posibles Causa Soluciones
CO
Auto
Faltantes 9731
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Calibración
Datos irremplazables; deben ser suprimidos
Datos Nulos 8
Datos que se muestran con valor igual a cero.
Fallas en la medición
Falla humana al ser incluido en la base de datos.
Datos irremplazables; deben ser suprimidos
Datos
atípicos 5
Son datos superiores al máximo de medida (datos superiores a 20 mg/m3) Son también datos inferiores a cero
Fallas en la medición
Falla humana al ser incluido en la base de datos.
Datos irremplazables; deben ser suprimidos
PM10
Auto
Faltantes 12048
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Daño del equipo
Datos irremplazables; deben ser suprimidos
Datos Nulos 1245
Datos que se muestran con valor igual a cero. En la realidad no existe un dato de material particulado igual a cero
Fallas de energía
Fallas en la medición
Falla humana al ser incluido en la base de datos.
Datos irremplazables; deben ser suprimidos
Datos
atípicos 464
Son datos superiores al máximo de medida horaria del equipo (datos superiores a 100 µg/m3) Son también datos inferiores a cero. En al ambiente no existe un muestreo de material particulado negativo
Fallas en la medición
Daño del equipo
Falla humana al ser incluido en la base de datos.
Datos irremplazables; deben ser suprimidos
96 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
PM10
Manual
Faltantes 58
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Datos irremplazables; deben ser suprimidos
Datos Nulos 0 Datos que se muestran con valor igual a cero.
- -
Datos
atípicos 2
Son datos superiores al máximo de medida horaria del equipo (datos superiores a 100 µg/m3) Son también datos inferiores a cero. En al ambiente no existe un muestreo de material particulado negativo
Fallas en la medición
Daño del equipo
Datos irremplazables; deben ser suprimidos
CALIDAD DE LOS DATOS ENCONTRADOS EN LA
METEOROLOGÍA
Campo Revisión Cantidad
encontrada Descripción Posibles Causa
Posibles soluciones
Temperatura Horaria
Faltantes 2847
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Promedio horario en la misma hora en el mes
Datos iguales a cero
2
Datos que se muestran con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero
Fallas en la medición
Promedio horario en la misma hora en el mes
Datos atípicos
28
Son datos superiores al máximo nivel medido de temperatura medido en el atributo Temperatura Máxima Horaria (datos superiores a 45°C) Son datos inferiores al mínimo nivel medido de temperatura medido en el atributo Temperatura Mínima Horaria (datos inferiores a 20°C)
Fallas en la medición
Promedio horario en la misma hora en el mes
Temperatura Máxima horaria
Faltantes 14135
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Daño del equipo
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica. Este atributo debe ser
Datos 2 Datos que se muestran Fallas de energía Promedio horario
Anexo C: Verificación de Datos 97
iguales a cero
con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero
Fallas en la medición
en la misma hora en el mes Cruce con otra base de datos meteorológica
Datos atípicos
0 - - -
Temperatura Mínima horaria
Faltantes 14135
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Daño del equipo
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos iguales a cero
2
Datos que se muestran con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos atípicos
13
Estos valores fueron
tomados como atípicos
debido a que eran
temperaturas muy bajas,
propias de climas fríos,
estos eran inferiores de
15°C.
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Humedad Relativa
Faltantes 9278
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos iguales a cero
2
Datos que se muestran con valor igual a cero. En la región de monitoreo es muy improbable humedades iguales a cero
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos atípicos
0 - - -
Punto de Rocío
Faltantes 14224
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Sobre pasa mas del 60% de datos perdidos, por lo cual no serán tomados en cuenta Datos
Nulos 2
Datos que se muestran con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero
Fallas de energía
Fallas en la medición
Datos atípicos
0 - -
Velocidad del viento
Faltantes 7688
Datos que no fueron reportados en la base de datos.
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes.
98 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Estos aparecen como espacios en blanco en la base de datos (null)
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Cruce con otra base de datos meteorológica
Datos iguales a cero
2
Datos que se muestran con valor igual a cero. En la región de monitoreo es muy improbable vientos con muestreo horarios iguales a cero
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos fuera de la unidad base
4350
Son datos incluidos en la
base de datos en
unidades de diferentes a
la unida base
Inclusión de datos a la base de datos, falla humana
Pasar los datos escritos en km/h a la unidad base de m/s
Datos atípicos
0 - - -
Dirección del viento
Faltantes 8525
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos iguales a cero
0
Datos que se muestran con valor igual a cero. Los datos reportados son valores numéricos de 0 a 359.
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos fuera de la unidad base
1097
Son datos incluidos en la
base de datos en
unidades de diferentes a
la unida base
Inclusión de datos a la base de datos, falla humana
Pasar los datos escritos en tipo de Letra a la unidad base de grados
Datos atípicos
0 - -
Factor de Enfriamiento del Aire
Faltantes 14135
Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos iguales a cero
2
Temperaturas que se muestran con valor igual a cero y no son propias de climas cálidos.
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos atípicos
0 - - -
Índice de Calor
Faltantes 14224
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta
Datos 2 Temperaturas que se Fallas de energía
Anexo C: Verificación de Datos 99
iguales a cero
muestran con valor igual a
cero y no son propias de
climas cálidos.
Fallas en la medición
Datos atípicos
0 -
Índice de THW
Faltantes 14224
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta Datos
iguales a cero
2
Temperaturas que se
muestran con valor igual a
cero y no son propias de
climas cálidos.
Fallas de energía
Fallas en la medición
Datos atípicos
0 - -
Presión Atmosférica
Faltantes 1210
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos iguales a cero
2
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica
Datos atípicos
0 - - -
Precipitación
Faltantes 1786
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Cruce con otra base de datos meteorológica, o remplazados por 0
Datos iguales a cero
2
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Cruce con otra base de datos meteorológica, o remplazados por 0
Datos atípicos
12
Muestra acumulaciones muy altas, comparables regiones muy lluviosa (valores superiores a 60mm en una hora)
Fallas en la medición Cruce con otra base de datos meteorológica, o remplazados por 0
Rata de Precipitación
Faltantes 13460
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del
Cruce con otra base de datos meteorológica, o remplazados por 0
100 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
base de datos (null) equipo no programado
Datos iguales a cero
2
Estos datos fueron
reportados como valores
con décimas y el equipo
no monitorea este atributo
con decimales
Fallas humana
Fallas en la medición
Cruce con otra base de datos meteorológica, o remplazados por 0
Datos atípicos
12
Muestra velocidades de precipitación muy altas, comparables con climas fríos y templados.
Fallas en la medición Cruce con otra base de datos meteorológica, o remplazados por 0
Radiación Solar
Faltantes 22492
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta para el estudio Datos
Nulos 0 - -
Datos atípicos
0 - -
Índice UV
Faltantes 28065
Datos que no fueron reportados en la base de datos. Estos aparecen como
espacios en blanco en la
base de datos (null)
Fallas de energía
Fallas en la medición
Mantenimiento del equipo programado
Mantenimiento del equipo no programado
Sobre pasa más del 60% de datos perdidos, por lo cual no serán tomados en cuenta Datos
iguales a cero
0 - -
Datos atípicos
0 - -
Temperatura interna
Estos datos NO son tomados en cuenta debido a que representa medidas dentro del recinto donde se encontraba la consola que almacenaba los datos y no son representativos como medidas meteorológicas para el estudio
Humedad interna
Punto de Rocío Consola
Calor Interno, en la consola
D. Anexo: Gráficas De La Limpieza Del Conjunto de Datos
A continuación se muestran algunas gráficas que se usaron en la etapa de limpieza de
datos, todas realizadas sobre el software Rapid Miner.
LIMPIEZA DE DATOS ADICIONALES
a)
b)
c)
d)
102 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
e)
f)
g)
h)
i)
j)
k)
l)
Anexo D: Limpieza del Conjunto de Datos 103
m)
n)
En la siguiente tabla se evidencia las soluciones que fueron desarrolladas en todas las
fallas encontradas en los registros de las bases de datos.
SOLUCIONES EJECUTADAS A LAS FALLAS ENCONTRADAS EN
LOS REGISTROS
Atributo Falla encontrada Solución ejecutada
Temperatura
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Humedad
Relativa
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
Se obtiene el promedio horario de la hora perdida en el año.
Velocidad del
Viento
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Dirección del
viento
Fuera de rango o faltantes. horario
Se obtiene el promedio horario de la hora perdida en el mes.
Fuera de rango o faltantes del mes
Se obtiene el promedio horario de la hora perdida en el año
Se toman valores de la base de datos del IDEAM para completar los faltantes que no se pueda usar la solución anterior.
Presión
Atmosférica
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Precipitación Fuera de rango o faltantes horario
Son remplazados por ceros, si el dato anterior y posterior es cero; en caso contrario será remplazado por la media entre los dos datos anterior y posterior.
104 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
Fuera de rango o faltantes mensual
No hay datos reportados
Atributo Falla encontrada Solución ejecutada
Temperatura
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Humedad
Relativa
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
Se obtiene el promedio horario de la hora perdida en el año.
Velocidad del
Viento
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Dirección del
viento
Fuera de rango o faltantes. horario
Se obtiene el promedio horario de la hora perdida en el mes.
Fuera de rango o faltantes del mes
Se obtiene el promedio horario de la hora perdida en el año
Se toman valores de la base de datos del IDEAM para completar los faltantes que no se pueda usar la solución anterior.
Presión
Atmosférica
Nulos, fuera de rango o faltantes horario
Se obtiene el promedio horario de la hora perdida en el mes.
Nulos, fuera de rango o faltantes del mes
No hay datos reportados
Precipitación
Fuera de rango o faltantes horario
Son remplazados por ceros, si el dato anterior y posterior es cero; en caso contrario será remplazado por la media entre los dos datos anterior y posterior.
Fuera de rango o faltantes mensual
No hay datos reportados
E. Anexo: Revisión de los Modelos
Para los modelos de serie de tiempo se puede identificar una acción alternativa, al
ejecutar el modelo obtenido con más días anteriores a la estimación.
Resultados de los modelos de serie de tiempo para ICACO e ICAPM10 con 12 días de entrada
Entradas MAE
ICA CO ICA PM10
12 días anteriores 2,88312616 11,9250244
11 días anteriores 2,83297355 16,0174382
10 días anteriores 2,96823277 12,651968
9 días anteriores 2,95654751 11,3353655
8 días anteriores 2,90787044 13,4790618
7 días anteriores 2,89127902 9,4921493
6 días anteriores 2,92191117 8,83506739
5 días anteriores 2,91175411 17,9603724
4 días anteriores 2,92427004 9,07061872
3 días anteriores 2,83844514 11,7813881
2 días anteriores 2,97400087 10,0604061
1 día anterior 3,33088378 11,5114614
A partir de este análisis se obtienen los resultados alternativos de la tabla anterior, en
donde se evidencia que en los modelos de serie de tiempo para ICACO e ICAPM10,
aunque se le incluyan más días anteriores a la estimación, el MAE no mejora
considerablemente, por tal motivo no se hace necesario incluir más entradas al modelo.
Bibliografía
[1] J. M. Barrón Adame, “Modelado de un Sistema de Supervisión de la calidad del aire usando técnicas de Fusión de Sensores y Redes Neuronales,” Universidad politécnica de madrid, 2010.
[2] S. V Barai, A. K. Gupta, and J. Kodali, “Air Quality Forecaster : Moving Window Based,” in Applications of Soft Computing, E. Avineri, M. Köppen, K. Dahal, Y. Sunitiyoso, and R. Roy, Eds. Kharagpur, India: Springer Berlin / Heidelberg, 2009, pp. 137–145.
[3] M. Conderación de Grupos Ecologistas, “Ecologístas en Acción,” Agosto de 2006, 2006. [Online]. Available: http://www.ecologistasenaccion.org/spip.php?article5681.
[4] OMS, “World Health Organization (WHO),” 2011. [Online]. Available: http://www.who.int/mediacentre/factsheets/fs313/en/index.html.
[5] M. Caselli, L. Trizio, G. Gennaro, and P. Ielpo, “A Simple Feedforward Neural Network for the PM10 Forecasting: Comparison with a Radial Basis Function Network and a Multivariate Linear Regression Model,” Water. Air. Soil Pollut., vol. 201, no. 1–4, pp. 365–377, Dec. 2008.
[6] M. Shekarrizfard and K. Hadad, “Wavelet transform-based artificial neural networks ( WT-ANN ) in PM 10 pollution level estimation , based on circular variables,” Environ. Sci. Pollut. Res., vol. 19, no. 1, pp. 256–268, 2012.
[7] World Health Organization - WHO, “Guías de calidad del aire de la OMS relativas al material particulado, el ozono, el dióxido de nitrógeno y el dióxido de azufre,” Ginebra1211, Suiza, 2005.
[8] Universidad Industrial de Santander - Corpocesar, “Informe De Operación Del Sistema De Vigilancia De Calidad De Aire De La Ciudad De Valledupar, Departamento Del Cesar - Anual,” Valledupar, Cesar, 2012.
[9] W.-Z. Lu and D. Wang, “Ground-level ozone prediction by support vector machine approach with a cost-sensitive classification scheme.,” Sci. Total Environ., vol. 395, no. 2–3, pp. 109–16, Jun. 2008.
[10] A. K. Paschalidou, P. A. Kassomenos, and A. Bartzokas, “A comparative study on various statistical techniques predicting ozone concentrations : implications to environmental management,” Environ. Monit. Assess., vol. 148, no. 1, pp. 277–289, 2009.
[11] AXESNET S.A.S, “Sistema de Informacion Ambiental de Colombia - SIAC,” 2012. [Online]. Available: http://www.siac.gov.co/contenido/contenido.aspx?catID=585&conID=620. [Accessed: 28-Jun-2012].
[12] World Health Organization, “Guías de calidad del aire actualización mundial - Reporte de la reunión de un grupo de trabajo en Bonn - Alemania,” Washington, D.C. 20037, 2005.
[13] W. G. Cobourn, “An enhanced PM2.5 air quality forecast model based on nonlinear regression and back-trajectory concentrations,” Atmos. Environ., vol. 44, no. 25, pp. 3015–3023, Aug. 2010.
[14] M. Mohandes, A. Balghonaim, M. Kassas, S. Rehman, and T. O. Halawani, “Use of radial basis functions for estimating monthly mean daily solar radiation,” Sol. Energy, vol. 68, no. 2, pp. 161–168, Feb. 2000.
108 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
[15] W. Z. Lu, W. J. Wang, X. K. Wang, Z. B. Xu, and A. Y. T. Leung, “Using Improved Neural Networkmodel To Analyze Rsp, Nox And No2 Levels In Urban Air Inmong Kok, Hong Kong,” Environ. Monit. Assess., vol. 87, no. 2, pp. 235–254, 2003.
[16] P. Perez, “Prediction of maximum of 24-h average of PM10 concentrations 30 h in advance in Santiago, Chile,” Atmos. Environ., vol. 36, pp. 4555–4561, 2002.
[17] P. Perez, R. Palacios, and A. Castillo, “Carbon monoxide concentration forecasting in Santiago, Chile.,” J. Air Waste Manag. Assoc., vol. 54, no. 8, pp. 908–13, Aug. 2004.
[18] P. Perez and J. Reyes, “An integrated neural network model for PM10 forecasting,” Atmos. Environ., vol. 40, no. 16, pp. 2845–2851, May 2006.
[19] L. A. Díaz-Robles, J. C. Ortega, J. S. Fu, G. D. Reed, J. C. Chow, J. G. Watson, and J. A. Moncada-Herrera, “A hybrid ARIMA and artificial neural networks model to forecast particulate matter in urban areas: The case of Temuco, Chile,” Atmos. Environ., vol. 42, no. 35, pp. 8331–8340, Nov. 2008.
[20] B. Yeganeh, M. S. P. Motlagh, Y. Rashidi, and H. Kamalan, “Prediction of CO concentrations based on a hybrid Partial Least Square and Support Vector Machine model,” Atmos. Environ., vol. 55, pp. 357–365, Aug. 2012.
[21] J. T. Palma and R. Marín, Inteligencia Artificial: Método, técnicas y aplicaciones, 1st ed. Madrid, España: McGraw-Hill, 2008, pp. 1–1022.
[22] W.-Z. Lu and W.-J. Wang, “Potential assessment of the ‘support vector machine’ method in forecasting ambient air pollutant trends.,” Chemosphere, vol. 59, no. 5, pp. 693–701, Apr. 2005.
[23] M. Khashei and M. Bijari, “An artificial neural network (p,d,q) model for timeseries forecasting,” Expert Syst. Appl., vol. 37, no. 1, pp. 479–489, Jan. 2010.
[24] H. Niska, M. Rantamäki, T. Hiltunen, A. Karppinen, J. Kukkonen, J. Ruuskanen, and M. Kolehmainen, “Evaluation of an integrated modelling system containing a multi-layer perceptron model and the numerical weather prediction model HIRLAM for the forecasting of urban airborne pollutant concentrations,” Atmos. Environ., vol. 39, no. 35, pp. 6524–6536, Nov. 2005.
[25] A. J. Calleja Gómez, “Minería de Datos con Weka para la Predicción del Precio de Automóviles de Segunda Mano,” UNIVERSIDAD POLITÉCNICA DE VALENCIA, 2010.
[26] J. Han and M. Kamber, Data Mining Concepts and Techniques, Second. USA;: Elsevier; Morgan Kaufmann Publishers, 2006, p. 772.
[27] K. Gibert, “Técnicas híbridas de Inteligencia Artificial y Estadística para el descubrimiento de conocimiento y la minería de datos,” in Tendencias de la Minería de Datos en España, 1st ed., vol. 1, J. S. Giráldez, Raúl; Riquelme, José C.; Aguilar-Ruiz, Ed. Barcelona, España, 2004, p. 12.
[28] J. M. Molina López and J. G. Herrero, “Técnicas de análisis de datos,” Madrid, España, 2006.
[29] K. P. Moustris, I. C. Ziomas, and A. G. Paliatsos, “3-Day-Ahead Forecasting of Regional Pollution Index for the Pollutants NO2, CO, SO2, and O3 Using Artificial Neural Networks in Athens , Greece,” Water, Air, Soil Pollut., vol. 209, no. 1, pp. 29–43, 2010.
[30] Departamento Administrativo de Función Pública, Decreto 3570 del 27 de Septiembre 2011. Colombia, 2011, p. 27.
[31] Congreso de la República de Colombia, Ley General Ambiental de Colombia - Ley 99 de 1993, vol. 1993, no. 41. Colombia, 1993, p. 12.
[32] Departamento Administrativo de Función Pública, DECRETO No. 1868 DEL 3 DE AGOSTO DE 1994, no. 1868. 1994, p. 29.
Bibliografía 109
[33] Ministerio de Ambiente y Vivienda, Resolución 601 del 4 de Abril 2006, no. 601. 2006, pp. 1–13.
[34] Corpocesar - K2 Ingeniería, “Informe Modelo de Dispersión de Calidad del Aire,” Valledupar, Cesar, 2009.
[35] Universidad Industrial de Santander - Corpocesar, “Informe De Operación Del Sistema Especial De Vigilancia De Calidad De Aire En La Zona Carbonífera Del Departamento Del Cesar - Anual,” La Jagua, Cesar, 2012.
[36] Environmental Protection Agency US, “A Guide to Air Quality and Your Health,” New York, New York, USA, 2009.
[37] D. Voukantsis, K. Karatzas, J. Kukkonen, T. Räsänen, A. Karppinen, and M. Kolehmainen, “Intercomparison of air quality data using principal component analysis, and forecasting of PM10 and PM2.5 concentrations using artificial neural networks, in Thessaloniki and Helsinki.,” Sci. Total Environ., vol. 409, no. 7, pp. 1266–76, Mar. 2011.
[38] J. Žabkar, R. Žabkar, D. Vladušič, D. Čemas, D. Šuc, and I. Bratko, “Prediction of ozone concentrations,” Ecol. Model., vol. 191, no. 1, pp. 68–82, Jan. 2006.
[39] A. K. Paschalidou and S. Karakitsios, “Forecasting hourly PM 10 concentration in Cyprus through artificial neural networks and multiple regression models : implications to local environmental management,” Environ. Sci. Pollut. Res., vol. 18, no. 2, pp. 316–327, 2011.
[40] M. Pollo-Catteneo, P. Pytel, R. Garcia, C. Vegega, and H. Ramón, “Prácticas y aplicaciones de ingeniería de requisitos en proyectos de explotación de información,” in XV Work Shop de Investigadores de Ciencias de la Computación, 2013, pp. 171–175.
[41] J. Hernández Orallo, M. J. Ramirez Quintana, and C. Ferri Ramirez, Introducción a la Minería de Datos, Primera. España: Pearson Prentice Hall, 2008, p. 656.
[42] Y. Sadahiro and T. Kobayashi, “Exploratory analysis of time series data: Detection of partial similarities, clustering, and visualization,” Comput. Environ. Urban Syst., vol. 45, pp. 24–33, May 2014.
[43] T. Bengtsson and J. E. Cavanaugh, “State-space discrimination and clustering of atmospheric time series data based on Kullback information measures,” Environmetrics, vol. 19, no. April 2007, pp. 103–121, 2008.
[44] D. Muñoz and F. Rodrigo, “Aplicación del análisis cluster para el estudio de la relación Nao-Precipitaciones de invierno en el sur de la Península Ibérica,” Universidad de Almería, 2002.
[45] X. Gong and M. B. Richman, “On the application of cluster analysis to growing season precipitation data in north america east of the rockies,” Am. Meteorol. Soc., vol. 100, no. 730t9–0628, p. 897, 1995.
[46] M. Vazirgiannis, M. Halkini, and D. Gunopulos, Uncertainty Handling and Quality Assessment in Data Mining. Advanced Information and Knowledge Processing, First. Heidelberg, Alemania: Springer-Verlag, 2003, p. 226.
[47] I. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, Second. Estados Unidos: Morgan Kaufmann Series in Data Systems Management, 2005, p. 213.
[48] M. Berry and G. Linoff, Data Mining Techniques: for marketing, sales and customer relationship management, Second. Indiana, Estados Unidos: Wiley Publishing Inc., 2004, p. 643.
[49] D. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, First. New Jersey, Estados Unidos: John Wiley & Sons Inc, 2005, p. 222.
110 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional
[50] D. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, First. Massachusetts, Estados Unidos: The Massachusetts Institute of Technology, 2001, p. 546.
[51] G. G. Molero Castillo, “Desarrollo de un Modelo basado en Técnicas de Minería de Datos para Clasificar Zonas climatológicas similares en el estado de Michoacán,” Universidad Nacional Autónoma de Mexico, 2008.
[52] C. Bouveyron and C. Brunet-Saumard, “Model-based clustering of high-dimensional data: A review,” Comput. Stat. Data Anal., vol. 71, pp. 52–78, Mar. 2014.
[53] J. MacQueen, “Some methods for classification and analysis of multivariate observations,” in Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1997, pp. 281–297.
[54] J. Hartigan, Clustering algorithms, First. New York, USA, 1975, p. 365. [55] J. Han and M. Kamber, Data Mining Concepts and Techniques, Second. USA;: Elsevier;
Morgan Kaufmann Publishers, 2006, p. 772. [56] P. Kaufman, Leonard Rousseeuw, Finding groups in data: An introduction to Cluster
Analysis, First. New York, USA: John Wiley and Son Inc, 1990, p. 335. [57] J. H. Stock and M. W. Watson, “The Evolution of National and Regional Factors in U.S.
Housing Construction,” in Robert F. Engle Festschfift Conference, 1998. [58] M. Ferrán Aranaz, “UNA METODOLOGÍA DE MINERÍA DE DATOS PARA LA
AGRUPACIÓN DE SERIES TEMPORALES: APLICACIÓN AL SECTOR DE LA CONSTRUCCIÓN RESIDENCIAL,” Universidad Complutense de Madrid, 2011.
[59] T. Velmurugan, “Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data,” Appl. Soft Comput., vol. 19, pp. 134–146, Jun. 2014.
[60] F. Karaca and F. Camci, “Distant source contributions to PM10 profile evaluated by SOM based cluster analysis of air mass trajectory sets,” Atmos. Environ., vol. 44, no. 7, pp. 892–899, Mar. 2010.
[61] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,” ACM Computing Surveys, vol. 31, no. 3. pp. 264–323, 1999.
[62] E. R. Hruschka, R. J. G. B. Campello, A. A. Freitas, and A. C. P. L. F. de Carvalho, “A Survey of Evolutionary Algorithms for Clustering,” IEEE Trans. Syst. Man, Cybern. Part C (Applications Rev., vol. 39, no. 2, pp. 133–155, Mar. 2009.
[63] A. . Jain, R. P. W. Duin, and J. Mao, “Statistical pattern recognition: a review,” IEEE Trans. Pattern Anal. Mach. Intell, vol. 22, no. 1, pp. 4–37, 2000.
[64] C. E. Bedregal Lizárraga, “Agrupamiento de Datos utilizando técnicas MAM-SOM,” Universidad Católica San Pablo, 2008.
[65] J. L. Devore, Probabilidad y Estadística para Ingeniería y Ciencias, Sexta. Mexico: UNAM, Facultad de Ingenierías, 2005, pp. 496–632.
[66] A. L. Webster, Estadística Aplicada a los Negocios y la Economía, Tercera. Bogotá, Colombia: McGraw-Hill, 2001, pp. 410–453.
[67] I. H. Witten, F. Eibe, and M. A. Hall, Data Mining Practical Machine Learning Tools and Techniques, 3rd ed. Burlington, MA 01803, USA: Morgan Kaufmann, 2011, pp. 1–666.
[68] J. L. Devore, Probabilidad y Estadística para Ingeniería y Ciencias, Sexta. Mexico: UNAM, Facultad de Ingenierías, 2005, pp. 496–632.
[69] R. Walpole, R. Myers, and S. Myers, Probabilidad y Estadistica para ingenieros, Sexta. Mexico, Mexico: Prentice Hall, 1998, p. 752.
Bibliografía 111
[70] M. Mohandes, A. Balghonaim, M. Kassas, S. Rehman, and T. O. Halawani, “Use of radial basis functions for estimating monthly mean daily solar radiation,” Sol. Energy, vol. 68, no. 2, pp. 161–168, Feb. 2000.
[71] B. Martín del Brío and A. Sanz Molina, Redes Neuronales y Sistemas Borroso, Tercera. Mexico, Mexico: Alfaomega, 2007, p. 404.
[72] A. I. Galushkin, Neural Networks Theory, First. Moscow, Russia: Springer-Verlag, 2007, p. 396.
[73] P. Isasi Viñuela and I. Galván León, Redes de Neuronas Artificiales Un Enfoque Práctico, 1st ed. Madrid, España: Pearson Prentice Hall, 2004, p. 1.213.
[74] G. Grivas and A. Chaloulakou, “Artificial neural network models for prediction of PM10 hourly concentrations, in the Greater Area of Athens, Greece,” Atmos. Environ., vol. 40, no. 7, pp. 1216–1229, Mar. 2006.
[75] H. Abdel-galil and E. Hamdy K, “Communications Estimation Of Air Pollutant Concentrations From Meteorological Parameters Using Artificial Neural Network,” Electr. Eng., vol. 57, no. 1335–3632, pp. 105–110, 2006.
[76] J. Hooyberghs, C. Mensink, G. Dumont, F. Fierens, and O. Brasseur, “A neural network forecast for daily average PM concentrations in Belgium,” Atmos. Environ., vol. 39, no. 18, pp. 3279–3289, Jun. 2005.
[77] H. J. S. Fernando, M. C. Mammarella, G. Grandoni, P. Fedele, R. Di Marco, R. Dimitrova, and P. Hyde, “Forecasting PM10 in metropolitan areas: Efficacy of neural networks.,” Environ. Pollut., vol. 163, pp. 62–7, Apr. 2012.