Download pdf - SISTEMA PROTOTIPO PARA LA ESTIMACIÓN DEL …bdigital.unal.edu.co/50328/1/92957602015.pdf · sistema prototipo para la estimaciÓn del comportamiento del Índice de calidad del aire

SISTEMA PROTOTIPO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO DEL

ÍNDICE DE CALIDAD DEL AIRE USANDO TÉCNICAS DE APRENDIZAJE

COMPUTACIONAL

Jhon Jairo Anaya Díaz

Universidad Nacional de Colombia

Facultad de Ingeniería Departamento Sistemas

Bogotá, Colombia

Año 2015

SISTEMA PROTOTIPO PARA LA ESTIMACIÓN DEL COMPORTAMIENTO DEL

ÍNDICE DE CALIDAD DEL AIRE USANDO TÉCNICAS DE APRENDIZAJE

COMPUTACIONAL

Jhon Jairo Anaya Díaz

Trabajo de investigación presentado como requisito parcial para optar al título de:

MSc. en Ingeniería de Sistemas y Computación

Director (a):

Ph.D. Fabio González

Línea de Investigación:

SISTEMAS INTELIGENTES

Universidad Nacional de Colombia

Facultad de Ingeniería Departamento Sistemas

Bogotá, Colombia

Año 2015

Este nuevo logro se lo dedico a mis padres,

Guillermo y Carmen, que siempre han estado

ahí apoyándome, y a mi esposa Julie, por su

gran corazón, entendimiento y tolerancia; sin

ellos no hubiese sido posible. Por Majo…

No es el conocimiento, sino el acto de

aprendizaje; y no la posesión, sino el acto de

llegar a ella, lo que concede el mayor disfrute.

Carl Friedrich Gauss-

Agradecimientos

Este trabajo fue realizado gracias a la colaboración y apoyo de muchas personas y

entidades.

Se le agradece encarecidamente a las instituciones que hicieron posible este convenio,

Universidad Popular del Cesar y Universidad Nacional de Colombia, sede Bogotá.

Además a la institución que concedió el préstamo de la base de datos de los

contaminantes y de meteorología, Corpocesar.

Agradecimiento especial al ministerio de las tecnologías de la información y las

comunicaciones TIC’s, por su apoyo en la adjudicación de la beca.

A Fabio A. González, mi director de tesis, por su orientación experta, rigurosa, atenta y

precisa. Agradezco sus inestimables críticas y comentarios en cada lectura, sus

sugerencias oportunas y su apoyo en cada etapa del proceso.

Resumen y Abstract IX

Resumen

La investigación que se aborda en este trabajo va orientada como primera medida a la

construcción de un conjunto de datos usando la meteorología e índice de calidad del aire

(ICA) producto de la recopilación durante cuatro años, de la monitorización de las

estaciones del Sistemas de Vigilancia de calidad de aire de Valledupar; teniendo en

cuenta este conjunto de datos, se busca entrenar y validar un modelo descriptivo,

mediante la utilización de técnicas de clustering (Agrupamiento). Además se desarrolla

un modelo predictivo, que estime el índice de calidad del aire, utilizando diferentes

técnicas de minería de datos. Se comparan resultados mediante la utilización de las

ANN’s y el método de regresión lineal, encontrando que las ANN’s se acoplan

eficientemente a este conjunto de datos produciendo MAE de 10,19 para PM10 y 4,045

para CO, usando estos modelos como regresión; si se estiman los valores de ICA

usando la concepción de series de tiempo con estos modelos se obtiene un MAE de 3.19

para PM10 y 4,47 para CO.

Palabras clave: índice de calidad del aire, material particulado, redes neuronales

artificiales, agrupamiento, estimación, meteorología, Valledupar.

Abstract

The research that is approached in this work goes oriented like first measurement to the

construction of a data set using the meteorology and air quality index (ICA) product of the

compilation during four years, the monitoring of the system's surveillance stations of the

air quality in Valledupar; considering east data set, one looks for to train and to validate a

descriptive model, by means of the use of techniques of clustering (Group). In addition it

is developed to a predictive model, that considers the ICA, using different techniques

from data mining. They compare results by means of the use of ANN's and linear

regression method, finding that ANN's efficiently is reconciled to this data set producing

MAE of 10,19 by PM10 and 4,045 by CO, using these models like regression; if the

X Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

values of ICA are considered using the conception of time series with these models it

obtains a MAE of 3.19 by PM10 and 4,47 by CO.

Keywords: air quality index, particulate, artificial neural network, clustering, estimate,

meteorology, Valledupar.

Contenido XI

Contenido

Pág.

Resumen ......................................................................................................................... IX

Lista de figuras ............................................................................................................. XIII

Lista de tablas .............................................................................................................. XV

Lista de Símbolos y abreviaturas .............................................................................. XVII

INTRODUCCIÓN .............................................................................................................. 1

CAPÍTULO 1. MINERÍA DE DATOS EN LA ESTIMACIÓN DE CONTAMINANTES ... 5 1.1 Contaminantes Del Aire ................................................................................... 5 1.2 Métodos De Análisis Para La Estimación......................................................... 7

1.2.1 Escuela de modelos determinísticos ..................................................... 8 1.2.2 Escuela de modelos empíricos .............................................................. 8

1.3 Métodos de Análisis Descriptivos .................................................................. 10 1.4 Antecedentes y Análisis Preliminar ................................................................ 11 1.5 Discusión y Conclusiones .............................................................................. 12

CAPÍTULO 2. CONTAMINACIÓN ATMOSFÉRICA .................................................. 13 2.1 Normatividad ................................................................................................. 13 2.2 Ente Regulador Regional ............................................................................... 14 2.3 Discusión y Conclusiones .............................................................................. 15

CAPÍTULO 3. ENTENDIMIENTO DEL CONTEXTO .................................................. 17 3.1 Objetivos del Trabajo ..................................................................................... 17 3.2 Evaluación De La Situación ........................................................................... 19

3.2.1 Equipos que conforman el SVCA-CV .................................................. 20 3.3 Objetivos De La Minería De Datos ................................................................. 22 3.4 Discusión y Conclusiones .............................................................................. 23

CAPÍTULO 4. ENTENDIMIENTO DE LOS DATOS ................................................... 25 4.1 Recolección de Datos .................................................................................... 25 4.3 Exploración de Datos ..................................................................................... 29 4.4 Verificación de Datos ..................................................................................... 32 4.5 Discusión y Conclusiones .............................................................................. 32

CAPÍTULO 5. PREPARACIÓN DE DATOS .............................................................. 35 5.1 Selección de Datos ........................................................................................ 35 5.2 Limpieza de Datos ......................................................................................... 36

XII Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

5.3 Construcción de Datos ...................................................................................37 5.4 Integración de Datos ......................................................................................39 5.5 Formateo de Datos .........................................................................................41 5.6 Discusión y Conclusiones ...............................................................................41

CAPÍTULO 6. MODELAMIENTO DESCRIPTIVO ......................................................45 6.1 Selección de la Técnica de Descriptiva ..........................................................45 6.2 Diseño Experimental ......................................................................................47 6.3 Construcción del Modelo ................................................................................48 6.4 Evaluación del Modelo ...................................................................................49 6.5 Discusión y Conclusiones ...............................................................................54

CAPÍTULO 7. MODELAMIENTO PREDICTIVO .........................................................57 7.1 Selección de la Técnica de Modelado ............................................................57 7.2 Modelo de predicción .....................................................................................60

7.2.1 Modelo de estimación de ICA por parámetros meteorológicos ............61 7.2.2 Modelo de estimación de ICA usando una serie de tiempo ..................63

7.3 Validación Experimental .................................................................................66 7.3.1 Diseño experimental ............................................................................68 7.3.2 Resultados y evaluación por parámetros meteorológicos ....................68 7.3.3 Resultados y evaluación por serie de tiempo .......................................75

7.4 Desarrollo Prototipo de Software ....................................................................81 7.4.1 Plan de desarrollo ................................................................................81

7.5 Discusión y Conclusiones ...............................................................................84

CAPÍTULO 8. CONCLUSIONES Y RECOMENDACIONES .......................................87 8.1 Conclusiones ..................................................................................................87 8.2 Recomendaciones ..........................................................................................89

A. Anexo: Características de los Programas Utilizados ...........................................91

B. Anexo: Consultas Base de Datos ..........................................................................93

C. Anexo: Verificación de Datos .................................................................................95

D. Anexo: Gráficas De La Limpieza Del Conjunto de Datos ................................... 101

E. Anexo: Revisión de los Modelos ......................................................................... 105

Bibliografía ................................................................................................................... 107

Contenido XIII

Lista de figuras

Pág. Figura 1-1: Contaminantes del Aire .................................................................................. 6

Figura 1-2: Mapa Mental del Estado de Arte .................................................................... 8

Figura 1-3: Evolución Cronológica del Estado del Arte ..................................................... 9

Figura 1-4: Representación de las Escuelas .................................................................. 11

Figura 1-5: Diagrama Circular de la Clase Empírica ....................................................... 12

Figura 3-1: Ubicación de las Estaciones de Monitoreo en la Zona Minera del Cesar[35] 18

Figura 3-2: Ubicación de las Estaciones de Monitoreo en Valledupar[8] ........................ 18

Figura 4-1: Relación entre la precipitación y el PM10 ..................................................... 29

Figura 4-2: Relación entre la precipitación y el CO ......................................................... 30

Figura 4-3: Relación Dirección del Viento, PM10 y CO ................................................... 30

Figura 4-4: Relación entre la humedad del ambiente y el CO ......................................... 31

Figura 4-5: Relación entre velocidad del viento, PM10 y CO .......................................... 31

Figura 4-6: Relación del PM10 y el CO en el tiempo ...................................................... 32

Figura 5-1: Limpieza total ............................................................................................... 37

Figura 5-2: Integración de datos - comparación.............................................................. 41

Figura 6-1: Proceso de Caracterización – Diagrama de Bloques .................................... 47

Figura 6-2: K-Medias - Selección del Número de Clúster ............................................... 48

Figura 6-3: Clúster Vs Temperatura ............................................................................... 51

Figura 6-4: Clúster Vs Precipitación ............................................................................... 51

Figura 6-5: Clúster Vs Presión atmosférica .................................................................... 52

Figura 6-6: Clúster Vs Humedad Relativa ....................................................................... 52

Figura 6-7: Clúster Vs Velocidad del viento .................................................................... 53

Figura 6-8: Clúster Vs Dirección del viento ..................................................................... 53

Figura 6-9: Clúster Vs ICA .............................................................................................. 54

Figura 7-1: Modelo de regresión Lineal para la estimación del ICA por regresión .......... 62

Figura 7-2: Topología de la red de una sola capa oculta – estimación por regresión ...... 63

XIV Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

Figura 7-3: Topología de la red de dos capas ocultas– estimación por regresión ........... 63

Figura 7-4: Modelo de regresión Lineal para la estimación del ICA por serie de tiempo .. 64

Figura 7-5: Topología de la red de una sola capa oculta – serie de tiempo ..................... 65

Figura 7-6: Topología de la red de dos capas ocultas–Serie de tiempo .......................... 65

Figura 7-7: Representación data set de Prueba Vs Estimación ICAPM10 con Regresión

Lineal .............................................................................................................................. 72

Figura 7-8: Representación data set de Prueba Vs Estimación ICACO con Regresión

Lineal .............................................................................................................................. 73

Figura 7-9: Representación data set de Prueba Vs Estimación ICAPM10 con ANN ....... 74

Figura 7-10: Representación data set de Prueba Vs Estimación ICACO con ANN ......... 74

Figura 7-11: Representación data set de Prueba Vs Estimación por serie de tiempo para

ICAPM10 con Regresión Lineal ...................................................................................... 78


ICACO con Regresión Lineal .......................................................................................... 79


ICAPM10 con ANN ......................................................................................................... 79


ICACO con ANN ............................................................................................................. 80

Figura 7-15: Sistema de Estimación por Entradas Meteorológicas.................................. 81

Figura 7-16: Sistema de Estimación por Serie de Tiempo ............................................... 82

Figura 7-17: Diagrama de Bloques Algoritmo de Estimación ........................................... 83

Contenido XV

Lista de tablas

Pág. Tabla 3-1:Equipos Usados en el Monitoreo en Valledupar[8] ......................................... 21

Tabla 3-2: Coordenadas geográficas de las Estaciones de Valledupar [8] ..................... 22

Tabla 4-1: Descripción de atributos de la tabla de meteorología .................................... 26

Tabla 4-2: Estadística de los atributos de la estación meteorológica .............................. 28

Tabla 4-3: Descripción de atributos estaciones automáticas .......................................... 28

Tabla 4-4: Estadística de datos horarios CO y PM10 ..................................................... 29

Tabla 4-5: Descripción atributos de la estación manual .................................................. 29

Tabla 4-6: Estadística de la estación manual de material particulado ............................. 29

Tabla 5-1: Estadística de datos seleccionados ............................................................... 35

Tabla 5-2: Estadística de datos seleccionados después de la limpieza .......................... 36

Tabla 5-3: Efectos a la salud de acuerdo al rango y al valor del Índice de Calidad del

Aire[36] ........................................................................................................................... 38

Tabla 5-4: Integración de Tablas (Meteorología e ICA) .................................................. 39

Tabla 5-5: Integración de Datos Final ............................................................................. 40

Tabla 5-6: Resultado Final de Datos .............................................................................. 42

Tabla 6-1: Centroides del Modelo K-Medias ................................................................... 49

Tabla 7-1: Número de Registros de CO y PM10 para los Modelos ................................. 60

Tabla 7-2: Combinaciones de entradas de los modelos de regresión ............................. 61

Tabla 7-3: Combinaciones de entradas de los modelos de serie de tiempo ................... 64

Tabla 7-4: Número de Registros Horarios para el modelo por estimación a partir de

registros meteorológicos ................................................................................................ 68

Tabla 7-5: Número de Registros Diarios para el modelo por serie de tiempo ................. 69

Tabla 7-6: Resultados de la Regresión de PM10 Horaria ............................................... 69

Tabla 7-7: Resultados de la Regresión de CO Horaria ................................................... 69

Tabla 7-8: Resultados del Índice de calidad del aire de PM10 con MLP con una capa

oculta y datos normalizados horarios ............................................................................. 70

XVI Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

Tabla 7-9: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta

y datos normalizados horarios ........................................................................................ 71

Tabla 7-10: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas

ocultas y datos normalizados horarios ............................................................................ 71

Tabla 7-11: Resultados del Índice de calidad del aire de CO con MLP con dos capas

ocultas y datos normalizados horarios ............................................................................ 71

Tabla 7-12: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación

a partir de la meteorología, con regresión lineal y con ANN ............................................ 74

Tabla 7-13: Resultados de la Regresión de PM10 Diario ................................................ 75

Tabla 7-14: Resultados de la Regresión de CO Diario .................................................... 76

Tabla 7-15: Resultados del Índice de calidad del aire de PM10 con MLP con una capa

oculta y datos diarios ...................................................................................................... 76

Tabla 7-16: Resultados del Índice de calidad del aire de CO con MLP con una capa

oculta y datos diarios ...................................................................................................... 76

Tabla 7-17: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas

ocultas y datos diarios ..................................................................................................... 77

Tabla 7-18: Resultados del Índice de calidad del aire de CO con MLP con dos capas

ocultas y datos diarios ..................................................................................................... 77

Tabla 7-19: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación

por serie de tiempo, con regresión lineal y con ANN ....................................................... 79

Contenido XVII

Lista de Símbolos y abreviaturas

Símbolos con letras latinas Símbolo Término Unidad SI

Fecha Fecha aaaa/mm/dd

hora Hora hh/mm/ss

Temp_c Temperatura °C

temp_max_c Temperatura Máxima °C

temp_min_c Temperatura Mínima °C

Humedad_porcentaje Humedad relativa %

Precipitacion_mm Precipitación mm

Rata_Precipitacion Rata de lluvia mm/h

Vel_viento Velocidad del viento m/s

Dir_viento Dirección del viento °

Pt_rocio_c Punto de Rocío °C

Rad_solar Radiación Solar W/ m2

Heat_Index Índice de calor °C

Thw_Index Índice de THW °C

Índice_UV Radiación UV

Presion_barometrica Presión atmosférica mmHg

Wind_chill Factor de Enfriamiento del Aire °C

In_temp Temperatura interna °C

In_hum Humedad interna %

In_dew Punto de Rocío Consola °C

In_Heat Calor Interno, en la consola °C

XVIII Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

Abreviaturas Abreviatura Término

ICA Índice de Calidad del aire

MAE Error medio Absoluto

RMSE Error medio cuadrático

PM10 Material Particulado menor a 10 micras

CO Monóxido de Carbono

ANN Redes Neuronales Artificiales

WHO Organización Mundial de la Salud

O3 Ozono

CO2 Dióxido de Carbono

SO2 Dióxido de Azufre

NO2 Dióxido de Nitrógeno

PM2.5 Material Particulado menor a 2.5 micras

MLP Perceptrón Multicapa

RBF Funciones de Base Radial

ARIMA Autor regresivo Integrado de Media móvil

IDEAM Instituto de Hidrología, Meteorología y Estudios Ambientales

CORPOCESAR Corporación Autónoma Regional del Cesar

SEVCAZMC Sistema especial de Vigilancia de Calidad de Aire Zona Minera del Cesar

SVCACV Sistema de Vigilancia de Calidad del Aire de la Ciudad de Valledupar

SVM Máquinas de Soporte de Vector

SINA Sistema Nacional Ambiental

MATLAB Matrix Laboratory

EPA Agencia de protección ambiental (Environmental protection agency)

INTRODUCCIÓN

A escala mundial, se calcula que más de 2 millones de personas mueren

prematuramente cada año debido a la contaminación atmosférica tanto en lugares

cerrados como en exteriores [1]. Los efectos de los contaminantes del aire sobre la salud

humana son motivo de especial preocupación [2] y amplio estudio en los países en vía de

desarrollo.

Observando el problema desde esta perspectiva medioambientalista se encuentra que

una de las principales fuentes de contaminación en los centros urbanos está relacionada

con la quema de combustibles fósiles los cuales se producen en los proceso industriales

y el tráfico [3], ya que liberan a la atmósfera contaminantes, en forma de gases, vapores

o partículas sólidas capaces de mantenerse en suspensión.

Una forma de identificar y evaluar los problemas de la calidad del aire como medida de

prevención para la protección de la salud de los habitantes es la supervisión atmosférica.

La información (series de tiempo) obtenida con la monitorización sirve como fuente

fundamental del entorno y permite la evaluación de normas establecidas y en casos

pertinentes tomar acción para disminuir las emisiones de contaminantes [1].

La investigación que se aborda en este trabajo va orientada como primera medida a la

construcción de un conjunto de datos usando la meteorología e índice de calidad del aire

(ICA) producto de la recopilación durante años, de la monitorización de las estaciones del

Sistemas de Vigilancia de calidad de aire del Cesar; teniendo en cuenta este conjunto de

datos, se busca entrenar y validar un modelo descriptivo, que obtenga algún tipo de

similitud entre los elementos del grupo de datos, y un modelo predictivo, que estime el

índice de calidad del aire, utilizando diferentes técnicas de minería de datos.

De esta manera, el problema de investigación implica la necesidad de encontrar una

estrategia para estimar el ICA en un entorno multivariable altamente aleatorio, mediante

la utilización de técnicas de aprendizaje computacional, y además obtener modelos que

2 INTRODUCCIÓN

garanticen un buen desempeño en sus resultados, sin contar que dicho modelo debe ser

implantado dentro de un plan de mantenimiento y supervisión, que en función de los

efectos de las variables meteorológicas y en las concentraciones de contaminantes

determine el nivel de calidad del aire en una región específica con datos actuales.

La minería de datos presentada en esta investigación, extrae información de una serie

temporal de datos y la utiliza para estimar el índice de calidad de aire en una región con

eficacia. Desarrollar un estudio de predicción de calidad de aire sería de gran utilidad en

una zona de mucha influencia a este tipo de contaminantes, como lo es el departamento

del Cesar, propensa a desarrollar problemas en la salud pública debido a la explotación

minera presente en la región.

Las predicciones de la calidad del aire se esgrimen como base para la adopción de

múltiples decisiones en el ámbito de salud pública, gestión del riesgo, agricultura, así

como el futuro impacto ambiental de los contaminantes en cualquier región, debido a que

se conocería de ante mano su comportamiento.

Dentro de esta concepción, la investigación se enmarca dentro de 4 fases:

La primera fase, la más extensa de la investigación, se refiere a la construcción de un

conjunto de datos de meteorología e índice de calidad del aire; es la fase más importante

del proyecto de minería de datos a abordar. Comenzando con el capítulo 1 en donde se

expresa el estado del arte, los antecedentes y justificación, siguiendo con el capítulo 2

donde se muestran definiciones de los contaminantes de estudio, el problema de la

contaminación y demás consideraciones. Por último los capítulos 3, 4 y 5 presentan el

entendimiento del contexto de la investigación, así como también el entendimiento de los

datos, tanto de meteorología como de los contaminantes y la preparación de los mismos.

En la segunda fase se muestra el diseño, la implementación y evaluación del modelo

descriptivo de datos de meteorología e índice de calidad del aire, basado en técnicas de

aprendizaje computacional: en esta se analizan varias técnicas de modelado las cuales

serán seleccionadas y aplicadas a los datos del proyecto. Esta etapa abarca el capítulo

6.

En la tercera fase se diseña, se implementa y se evalúa un modelo predictivo, basado en

técnicas de aprendizaje computacional, para la estimación del índice de calidad del aire;

en esta se analizan técnicas de modelado las cuales serán seleccionadas y aplicadas a

los datos del proyecto. Como resultado de esta fase se tiene el modelo predictivo de

datos de meteorología e índice de calidad de aire. Esta fase se enmarca dentro del

capítulo 7.

INTRODUCCIÓN 3

En la Cuarta y última fase se muestra el informe de la implementación del sistema de

estimación y su evaluación de manera sistemática con datos actuales; en esta se explota

la potencialidad de los modelos, integrarlos en los procesos de toma de decisión, además

exponer el conocimiento extraído. Esta fase también produce el informe escrito final del

desarrollo y la organización de los resultados del proyecto de investigación en minería de

datos. Esta fase se encuentra visualizada también dentro del capítulo 7, mostrando los

resultados de la implementación. El capítulo 8 presenta las conclusiones y las

recomendaciones.

OBJETIVOS

General

Desarrollar un sistema prototipo para la estimación del comportamiento del índice de

calidad del aire usando técnicas de aprendizaje computacional.

Específicos

• Construir un conjunto de datos de meteorología e índice de calidad del aire

apropiado para el entrenamiento y validación de modelos descriptivos y predictivos de

aprendizaje computacional.

• Diseñar, implementar y evaluar un modelo descriptivo de datos de meteorología e

índice de calidad del aire, basado en técnicas de aprendizaje computacional.

• Diseñar, implementar y evaluar un modelo predictivo, basado en técnicas de

aprendizaje computacional, para la estimación del índice de calidad del aire.

• Implementar el sistema de estimación y evaluarlo de manera sistemática con

datos actuales.

CAPÍTULO 1. MINERÍA DE DATOS EN LA ESTIMACIÓN DE CONTAMINANTES

1.1 Contaminantes Del Aire

Se estima que los contaminantes del aire causan alrededor de 2 millones de muertes

prematuras, en su mayoría en los países en vía de desarrollo. Casi la mitad de estas

muertes se deben a la neumonía en niños menores de 5 años de edad [4].

Dentro de los principales contaminantes que son materia de estudio en la actualidad se

encuentran las partículas menores a 10 micras (PM10) y menores a 2.5 micras (PM2.5);

también son estudiados los contaminantes gaseosos como son el monóxido de Carbono

(CO), ozono (O3), dióxido de Carbono (CO2), dióxido de azufre (SO2) y dióxido de

Nitrógeno (NO2).

El PM10 es el material particulado con un diámetro promedio menor de 10 micras. A

menudo es considerado como uno de los contaminantes del aire más peligrosos [5],

responsable de diversos problemas de salud. De hecho, estudios recientes han

demostrado que este material se asocia claramente con las enfermedades respiratorias

[6].

Otro contaminante muy estudiado es el PM2.5; este contiene el material particulado con

un diámetro promedio menor de 2.5 micras, de igual manera muy peligroso para la salud.

El pequeño tamaño del PM10 y del PM2.5, les permite entrar fácilmente a los alveolos

pulmonares donde se pueden situar, causando efectos adversos sobre la salud. La

exposición crónica a las partículas de estos contaminantes aumenta el riesgo de

desarrollar enfermedades cardiovasculares y respiratorias, así como de cáncer de

pulmón [4].

6 Sistema Prototipo Para La Estimación Del Comportamiento Del Índice De Calidad Del Aire Usando Técnicas De Aprendizaje Computacional

En muchas ciudades, el nivel medio anual de PM10 supera los 70ug/m3, cuando según

las nuevas directrices de la Organización Mundial de la Salud (WHO1), para evitar

problemas respiratorios tales niveles deberían ser inferiores a 20ug/m3 [7]. Las guías de

calidad del aire de la WHO constituyen el análisis más conmensurado y actualizado

sobre los efectos de la contaminación, y recogen los parámetros de calidad del aire que

se recomiendan para reducir de modo significativo los riesgos sanitarios. Dichas guías

señalan que una reducción de la contaminación por partículas (PM10) a 20ug/m3 permite

reducir en aproximadamente un 15% las muertes relacionadas con la calidad del aire [4].

Figura 1-1: Contaminantes del Aire2

Otro contaminante ampliamente estudiado es el CO, el cual se produce principalmente

de la combustión incompleta de diversos materiales combustibles; este contaminante

atmosférico es un gas incoloro e inoloro que al reaccionar con la hemoglobina de la

sangre forma carboxihemoglobina, la cual interfiere con la oxigenación de los diferentes

órganos y tejidos del cuerpo[8].

El O3 es otro de los gases estudiado. Este gas se presenta tanto en la atmósfera superior

de la Tierra como a nivel del suelo. Un nivel elevado de O3 troposférico es un peligro

potencial para la salud humana, los cultivos y la vegetación [9].

Dado que los términos en los que se expresan las concentraciones de los contaminantes

atmosféricos son poco familiares para la mayoría de la población, se ha desarrollado el

Índice de la Calidad del Aire (ICA), el cual es un indicador de contaminación de más fácil

identificación, y se elabora en base a los límites máximos y mínimos establecidos por las

autoridades ambientales[1].

1 Word Health Organization 2 Autor, extraído de las 35 referencias del estado del arte.

0%

5%

10%

15%

20%

25%

30%

35%

40%

PM10 CO PM2.5 Sox Nox O3

38%

16%

10%12%

16%

8%

Capítulo 1 7

Uno de los poderosos gases contaminantes de la atmósfera son los Óxidos Nitrosos

(NOx); estos hacen referencia al Óxido Nítrico y al Dióxido de Nitrógeno. Los Óxidos de

Nitrógeno se forman al mismo tiempo en los procesos de combustión y otras operaciones

industriales que manejan altas temperaturas [11].

Otro de los gases contaminantes también estudiados que afectan la salud y el medio

ambiente son los Óxidos de Azufre (SOx); estos se forman principalmente durante la

combustión de los combustibles que contienen azufre siendo así un contaminante

primario3[11].

Existen graves riesgos para la salud derivados de la exposición al material particulado,

monóxido de carbono y al Ozono en numerosas ciudades de los países desarrollados y

en desarrollo. Es posible establecer una relación cuantitativa entre los niveles de

contaminación y resultados concretos relativos a la salud como el aumento de la

mortalidad o la morbilidad [12]. Este dato resulta útil para comprender las mejoras que

cabría esperar en materia de salud si se reduce la contaminación del aire. Esta es una de

las razones del estudio del pronóstico del material particulado en una zona, ya que se

podría conocer cómo posiblemente se comportaría un contaminante.

En la Figura 1-1 se muestra el contaminante más ampliamente utilizado en las

investigaciones para el pronóstico de la Calidad del Aire; de las 35 referencias, 18 toman

al PM10 como base para la investigación, seguida del Monóxido de Carbono y los Óxidos

Nitrosos, ambos estudiados en 8 referencias.

1.2 Métodos De Análisis Para La Estimación

Dentro del marco de la investigación, se pudo extraer tres diferentes escuelas usadas

para la estimación: la escuela de modelos determinísticos (teóricos), la escuela de

modelos empíricos y la escuela de modelos hibrido.

Se puede observar en la Figura 1-2 el mapa mental de la estimación de la calidad del aire

y sus respectivas subdivisiones desarrolladas a partir del estudio del estado del arte.

3 Es emitido directamente de una fuente al aire


Figura 1-2: Mapa Mental del Estado de Arte4

Predicción de la Calidad del Aire

EMPÍRICO

ANÁLISIS NUMÉRICO

ESTADÍSTICOS

Machine Learning

Hibrido

Métodos Lineales

Data Mining

Predictor Simple

Modelo Lineal

Regresión No Lineal

DETERMINÍSTICO

HIBRIDO

Métodos Estadísticos

Métodos Estocásticos

Sistema de Modelamiento Determístico

Software Especializado

MLP

SVM

RBF

ELMA

SEMI - MARKOV OCULTO (HSMM)

TRANSFORMADA DE WAVELET

MÚLTIPLE REGRESIÓN

LINEAL

ARIMA

LRA

CART

PCA

PERSISTENCIA

NLR

BACK-TRAYECTORYMACHINE LEARNING/

ESTADÍSTICO

LINEAL / NO LINEAL

MACHINE LEARNING / T WAVALET

MACHINE LEARNING / REGRESIÓN NO LINEA

1.2.1 Escuela de modelos determinísticos

En la escuela determinística se encuentran los modelos que usan técnicas de transporte

químico, aplicando fundamentalmente principios de simulación física y química, implicado

a la emisión, transporte y transformación de los procesos que están presentes en la

contaminación ambiental; entre estos se encuentra los estocásticos y los estadísticos.

1.2.2 Escuela de modelos empíricos

Los métodos empíricos usan modelos estadísticos o técnicas numéricas para cuantificar

las relaciones observadas entre los campos de la meteorología y la calidad del aire de

una región específica [13].

Dentro de los métodos con análisis numéricos se encuentran modelos de Minería de

Datos, Aprendizaje Computacional o una combinación de ambos.

4 Autor, extraído de las 35 referencias del estado del arte

Capítulo 1 9

Figura 1-3: Evolución Cronológica del Estado del Arte5

01/01/2000 01/06/2012

2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012

PM10: Material Particulado menor a 10 MicrasPM2.5: Material Particulado menor a 2.5 MicrasPST: Partículas Suspendidas TotalesCO: Monóxido de CarbonoSOx: Óxidos de AzufreNOx: Óxidos de NitrógenoO3: OzonoRS: Radiación SolarML: Machine LearningNL: Numérico LinealNNL: Numérico No LínealSP: Simple PredictionMLE: Modelo Lineal EstadísticoE: EstadísticoMANL: Modelo Adaptativo No LinealH: HíbridoHSMM: Semi-Markov OcultoSE: Software Especializado

2001

EmpíricoPST

ML-NL

2000

EmpíricoPM2.5ML-SP

2002

EmpíricoPM10

ML-NL

2003

Empírico y DeterminísticoNO2, PM10

ML-MLE

2003

EmpíricoNOx

ML-NL

2004

EmpíricoCOML

2006

EmpíricoPM10

ML-NL

2005

EmpíricoPM10

ML

2005

EmpíricoNO2ML

2005

EmpíricoPM2.5

ML

2005

EmpíricoPM10, O3

ML

2005

HíbridoNO2, PM2.5

ML/E

2006

EmpíricoPM10

ML

2006

EmpíricoPM10

H

2006

EmpíricoPM10MANL

2007

EmpíricoNO2, CO,SO2

ML

2008

Empírico e HíbridoPM10

ML-NL y NL/NNL

2008

EmpíricoNO2, O3,SO2, CO

ML

2008

EmpíricoPM10

ML

2009

EmpíricoCO,SO2

ML

2009

EmpíricoPM10,CO,NO2, O3

ML

2009

EmpíricoPM2.5HSMM

2010

EmpíricoRSML

2009

EmpíricoPM10,CO,NO2

H

2010

EmpíricoPM2.5NNL

2010

EmpíricoPM10, CO, SO2

ML

2010

EmpíricoNO2, CO, SO2, O3

ML

2011

HíbridoPM10ML/E

2011

EmpíricoPM10

ML

2011

HíbridoPM10, PM2.5

ML/NNL

2012

EmpíricoPM10

H

2012

EmpíricoPM10

ML

2012

HíbridoCO

ML/NNL

2012

Empírico y DeterminísticoPM10

ML-SE

2008

EmpíricoPM10, NO2, O3,SO2, CO

ML

AñoEscuela

ContaminanteMétodo

La mayor parte de los autores de las referencias estudiadas emplean técnicas de

Machine Learning, para su modelo predictivo, y en especial técnicas de Redes

Neuronales Artificiales (ANN6) y Funciones de Base Radial (RBF7).

Las ANNs, están inspiradas por Redes Neuronales Biológicas. La idea de las neuronas

como componentes estructurales del cerebro fue presentado por Ramón Cajal en

1911[14]. McCulloch & Pitts en 1943 definieron la neurona como un dispositivo binario

con varias entradas y salidas.

Las ANNs han sido usadas como una herramienta muy eficaz en la predicción y

estimación de las concentraciones de contaminantes con resultados prometedores [15],

principalmente el Perceptrón Multicapa (MLP8), [16],[17],[18] y [19]. Las ANNs pueden

modelar sistemas tanto lineales como no lineales. Una ventaja adicional de las redes

neuronales es que no requieren un inventario de emisiones costoso o tampoco de un

actualización periódica [20].

5 Autor, extraído de las 35 referencias del estado del arte 6 Del inglés Artificial neural networks 7 Del inglés Radial Basic Function 8 Del inglés Multilayer perceptron


Los modelos de RBF se diferencian al MLP en la forma de activación, ya que estas

utilizan un nivel de activación de una neurona oculta, que está determinado por la

distancia entre el vector de entrada a la red y un vector prototipo asociado a dicha

neurona y no por una función [21].

Las Máquinas de Soporte de Vector (SVM9), son un nuevo tipo de “Machine Learning”

basado en la teoría del aprendizaje estadístico; se puede utilizar para la regresión y la

predicción de series temporales, y se han reportado buenos desempeños con resultados

prometedores[22].

Los enfoques tradicionales para la predicción de series de tiempo, como el de Box-

Jenkins o el modelo Autorregresivo Integrado de Media móvil (ARIMA10), asumen que la

serie de tiempo de estudio se genera a partir de procesos lineales. Sin embargo, pueden

ser inapropiados si el mecanismo subyacente es no lineal [23]. De hecho, los sistemas

del mundo real son a menudo no lineales.

1.2.3 Escuelas híbridas

Las Escuelas Híbridas combinan modelos determinísticos y modelos empíricos

mejorando notablemente los resultados en algunos casos, comparados con los modelos

de una u otra escuela.

Esto se evidencia en la investigación realizada en la ciudad de Helsinki, en donde se usa

una combinación de un operador determinístico llamado Modelo de Área de Alta

Resolución Limitada de su sigla en inglés HIRLAM y un modelo empírico de MLP,

obteniendo un modelo muy eficiente en la predicción [24].

En la Figura 1-3 se muestra la evolución temporal del estudio del pronóstico de la calidad

del aire desde el año 2000 hasta el 2012, seleccionando 35 referencias.

1.3 Métodos de Análisis Descriptivos

Los métodos descriptivos no precisan registros de datos o sucesos[25], se centran en

encontrar patrones y así poder detectar reglas, correlaciones y asociaciones.

9 Del inglés support vector machine 10 Del inglés “autoregressive integrated moving average”

Capítulo 1 11

El Agrupamiento o Clustering es una tarea descriptiva que consiste en obtener grupos a

partir de atributos previamente establecidos; este tipo de modelos se basa en el principio

de maximizar la similitud entre los elementos de un grupo, minimizando la similitud entre

los diferentes grupos[26]. K-Medias es uno de los algoritmos que se pueden destacar en

este modelo.

En realidad, las técnicas de clustering son las más populares a la hora de separar datos

en grupos y una de las técnicas de Minería de Datos más utilizadas [27]. Estos sistemas

sintetizan conocimiento cualitativo o cuantitativo, con la finalidad de llevar a cabo tareas

de descubrimiento[28].

1.4 Antecedentes y Análisis Preliminar

La calidad del aire ha emergido como el mayor factor de contribución a la calidad de vida

en las zonas urbanas, y especialmente en las áreas densamente pobladas e

industrializadas [29]. Es de saber que un medio ambiente limpio y saludable es sinónimo

de una mejor calidad de vida.

Figura 1-4: Representación de las Escuelas11

La tendencia en la actualidad se observa claramente en la Figura 1-4, donde se

evidencia el dominio de la escuela empírica sobre las determinísticas y las híbridas, en el

estudio de la predicción de los contaminantes; el 82% de las referencias estudiadas en el

estado del arte recomienda, evalúa y utiliza en el pronóstico de la calidad del aire, de

acuerdo con sus investigaciones, una ANNs o cualquier otro método Lineal.


13%

5%

82%

DETERMINÍSTICOS

HÍBRIDOS

EMPÍRICOS


Figura 1-5: Diagrama Circular de la Clase Empírica12

Se encuentra además que los métodos más usados son las ANNs, como se evidencia en

el diagrama de la Figura 1-5, y dentro de este método la técnica más usada es el MLP

con un 40% de las referencias, continuando con RBF en un 13%.

1.5 Discusión y Conclusiones

Desarrollar un estudio de predicción de calidad de aire sería de gran utilidad en una zona

de mucha influencia a este tipo de contaminantes, como lo es el departamento del Cesar,

propensa a desarrollar problemas en la salud pública debido a la explotación minera

presente en la región.

Las predicciones de la calidad del aire sirven como base para la adopción de múltiples

decisiones en el ámbito de salud pública, gestión del riesgo, agricultura, así como el

futuro impacto ambiental de los contaminantes en cualquier región, debido a que se

conocería de ante mano su comportamiento.


40%

13% 8%

11%

11%

4%

13%

MLP

RBF

SVM

Regresión Lineal

Estadísticos

Híbridos-E

Otros

CAPÍTULO 2. CONTAMINACIÓN ATMOSFÉRICA

A escala mundial, se calcula que más de 2 millones de personas mueren

prematuramente cada año debido a la contaminación atmosférica tanto en lugares

cerrados como en exteriores [1]. Los efectos de los contaminantes del aire sobre la salud

humana son motivo de especial preocupación [2] y amplio estudio en los países en vía de

desarrollo.

El gobierno de Colombia posee un organismo dedicado al cuidado del medio ambiente,

llamado el Ministerio de Ambiente y Desarrollo Sostenible, y es la entidad pública del

orden nacional rectora en materia de gestión del ambiente y de los recursos naturales

renovables [30].

2.1 Normatividad

El ministerio de ambiente y desarrollo sostenible (Minambiente), anteriormente llamado

Ministerio de Medio Ambiente y Ministerio de Ambiente, Desarrollo Territorial y Vivienda,

fue creado mediante la Ley 99 de 1993, también llamada Ley General Ambiental de

Colombia, en donde se reordena el sector público encargado de la gestión y

conservación del medio ambiente y los recursos naturales renovables [31]; se organiza el

Sistema Nacional Ambiental, SINA, el cual está integrado por el Ministerio del Medio

Ambiente y Desarrollo Sostenible, las Corporaciones Autónomas Regionales, las

Entidades Territoriales y los Institutos de Investigación adscritos y vinculados al

Ministerio.

En el decreto 1868 de 1994 se estructura el nuevo ente territorial, y en su artículo 3

prescribe como función la de presidir el consejo directivo de las corporaciones para el

desarrollo sostenible, las entidades territoriales y los institutos de investigación [32]. Con

esta ley también se crea el Instituto de Hidrología, Meteorología y Estudios Ambientales


(IDEAM) cuyo objetivo es obtener, analizar, estudiar, procesar y divulgar la información

relativa al medio ambiente físico.

El ministerio promulga la resolución 601 en 2006 en donde se establece la norma de

calidad del aire o nivel de inmisión para todo el territorio nacional en condiciones de

referencia, en la cual se desarrollan los niveles máximos permisibles de contaminantes

en la atmósfera; los procedimientos para la medición de la calidad del aire, los programas

de reducción de la contaminación del aire y los niveles de prevención, alerta y

emergencia y las medidas generales para su mitigación, norma aplicable a todo el

territorio nacional [33].

Dentro de esta resolución el ministerio prescribe que adoptará a nivel nacional el

Protocolo del Monitoreo y Seguimiento de Calidad del Aire, el cual será elaborado por el

IDEAM. Dicho protocolo contiene las especificaciones generales para la ubicación y el

diseño de Estaciones de Monitoreo de Calidad del Aire, las técnicas de muestreo de cada

uno de los contaminantes convencionales, la periodicidad y condiciones para el

monitoreo, los recursos necesarios para el montaje, operación y seguimiento de

estaciones; el índice nacional de calidad del aire y la definición de indicadores para el

monitoreo de la calidad del aire, entre otras [33].

Con la expedición del Decreto 979 en 2006 y la Resolución 610 de 2010 que modifica la

Resolución 601 en 2006, por parte del Ministerio de Ambiente, Vivienda y Desarrollo

Territorial, las autoridades ambientales asumieron obligaciones de considerable

responsabilidad en la gestión del recurso aire, los compromisos se concentran en las

mediciones obligatoria de la calidad del aire mediante la operación de los sistemas de

monitoreo, la elaboración e implementación de los planes de contingencia en zonas de

contaminación crítica y la obligación de informar al público sobre la calidad del aire de

todos los parámetros e indicadores medidos para conocimiento de la opinión pública.

2.2 Ente Regulador Regional

La Corporación Autónoma Regional del Cesar - Corpocesar, dentro de sus funciones

establecidas por disposiciones legales tiene, entre otras, la de realizar actividades de

Planificación y Gestión Ambiental Integral en el área de su jurisdicción. A partir de esta

responsabilidad, dentro del programa de gestión de la corporación, han implementado

CAPÍTULO 2 15

proyectos y programas de investigación, control y monitoreo de la calidad ambiental a

través de la operación de la Red De Calidad De Aire De La Ciudad De Valledupar y Zona

Minera Del Cesar. Este proyecto entra en funcionamiento en el año de 2006; para la zona

minera del Cesar empiezan los monitoreos en el año 2007, continuando en la ciudad de

Valledupar, con los monitoreos en el año 2008, por parte de la empresa K2 Ingeniería13

de Bucaramanga.

Este proyecto es asignado a principios de 2008 hasta finales de 2012 por la Universidad

Industrial de Santander, con el Grupo de Investigación de Ingeniería Civil Geomática; en

esta etapa toman los nombres de Sistema Especial de Vigilancia de Calidad del Aire de

la Zona Minera del Cesar (SEVCAZMC) y Sistema de Vigilancia de Calidad de Aire de la

Ciudad de Valledupar (SVCACV).

Actualmente la red de vigilancia de calidad del aire es nuevamente asignada a la

empresa K2 Ingeniería.


Todos los monitoreos realizados por la Universidad Industrial de Santander – Grupo

Geomática y K2 Ingeniería, empresas que manejaron la red, lo hicieron bajo los

parámetros establecidos para el sistema de vigilancia de la calidad del aire de la ciudad

de Valledupar y la zona minera del Cesar en concordancia con la resolución 610 de 2010

y la 650 de 2010.

13 Empresa constituida en Bucaramanga hace 15 años cuyas actividades principales son la Ingeniería Ambiental, Civil y Mecánica

CAPÍTULO 3. ENTENDIMIENTO DEL CONTEXTO

Es una actividad importante de cualquier proyecto de minería de datos. En esta parte se

debe tener un completo conocimiento del negocio o trabajo en el cual se está abordando.

Entender los objetivos y requerimientos del proyecto desde una perspectiva de negocio.

3.1 Objetivos del Trabajo

El trabajo desarrollado posee un banco de datos que va desde la meteorología de la

mayor parte de la Zona minera del Cesar y Valledupar hasta los monitoreos de PM10,

PM2.5 y CO.

El objetivo principal de la investigación que se aborda, va orientada a desarrollar un

sistema prototipo para la estimación del comportamiento del índice de calidad del aire

usando técnicas de aprendizaje computacional, a partir de la monitorización de las

estaciones del Sistema de Vigilancia de calidad de aire, solo de la Ciudad de Valledupar.

La ubicación exacta de cada una de las estaciones de monitoreo que conforman el

Sistema Especial de Vigilancia de la Calidad del Aire de la Zona Carbonífera del Cesar

SEVCA-ZCC y el Sistema de Vigilancia de Calidad de Aire de la Ciudad de Valledupar

SVCA-CV, la cual está a cargo de Corpocesar, se pueden evidenciar en la Figura 3-1 y

en la. Figura 3-2 respectivamente.

El problema de investigación implica la necesidad de encontrar una estrategia para

estimar el ICA en un entorno multivariable altamente aleatorio, mediante la utilización de

técnicas de aprendizaje computacional, y además obtener modelos que garanticen un

buen desempeño en sus resultados, que en función de los efectos de las variables

meteorológicas y en las concentraciones de contaminantes determine el nivel de calidad

del aire en una región específica.


Figura 3-1: Ubicación de las Estaciones de Monitoreo en la Zona Minera del Cesar[35]

Figura 3-2: Ubicación de las Estaciones de Monitoreo en Valledupar[8]

Dentro de este marco conceptual surgen los siguientes interrogantes:

¿Cómo estimar el comportamiento del índice de calidad del aire presente en el ambiente,

con técnicas de aprendizaje computacional?

CAPÍTULO 3 19

¿Cómo obtener una relación factible entre las variables de meteorología y el índice da

calidad del aire?

3.2 Evaluación De La Situación

La información sobre la Calidad del Aire de la Zona Carbonífera del Cesar y Valledupar,

presente en las bases de datos de Corpocesar se encuentra actualizada y estandarizada,

basadas en los parámetros establecidos por la normatividad vigente en calidad de aire.

El primer recurso necesario es la base de datos de la Calidad del Aire de la Zona

Carbonífera del Cesar y Valledupar, cuyo acceso es otorgado por el Director actual de

Corpocesar Doctor Kaleb Villalobos Brochel, en conjunto con la Coordinación de

Proyectos de Corpocesar. El acceso a esta base de datos ya fue aprobado por la

corporación, por medio de un derecho de petición radicado el día 21 de septiembre de

2012.

Los datos presentes son totalmente confiables debido a que se realizan bajo los

parámetros establecidos para el Sistema de Vigilancia de la Calidad de Aire SVCA en la

república de Colombia; en concordancia con la Resolución 610 de 2010.

Se necesitan indiscutiblemente recursos computacionales para el manejo de las bases

de datos; y además de un software especializado en Minería de Datos como Rapid

Miner V5, además de software para cálculos matemáticos y estadísticos como Matlab

V2013b y SPSS14 V21, y así como también administradores de base de datos MySQL

Server 5.0 y SQLyog Enterprise V6.03. Además de un ordenador con características

mínimas que soporten estos software especializados.

La características de estos programas se encuentran en el Anexo A.

También se precisan de software que manejen listas y archivos planos como son Libre

Office V3.5 y Microsoft Office V2013.

La base de datos soportada por Corpocesar es de estricta confidencialidad y debe

permanecer en ese estado.

14 IBM SPSS Statistics


Son más apreciables los beneficios que los costos del proyecto debido a que los

programas informáticos a utilizar poseen licencias gratis. Los únicos gastos aparentes

son los debidos a los costos hora por mano de obra en la programación y en el estudio

de la base de datos.

3.2.1 Equipos que conforman el SVCA-CV

Este sistema cuenta actualmente con dos estaciones de monitoreo, una de ellas ubicada

en inmediaciones del centro de la ciudad, la cual está compuesta por dos equipos

automáticos para la medición de material particulado PM10 y CO; la otra estación se

encuentra localizada en el interior de la ciudad, en donde se mide únicamente material

particulado PM10.

Analizador Automático de Monóxido de Carbono Marca Wedding Modelo 1020

Este equipo se encuentra ubicado en la Calle 16 # 14 esquina, contigua a la Gobernación

del Cesar. Realiza la determinación de la concentración de CO, basándose en el principio

de fotometría por infrarrojo no dispersivo. El funcionamiento del equipo se basa en la

diferencia en la absorción de radiación a cierta longitud de onda por el CO presente en el

aire recolectado por el equipo con la radiación que deja de ser absorbida cuando es

aplicada a la cámara del equipo que contiene únicamente nitrógeno no reactivo. En la

Tabla 3-1 se muestra los equipos que conforman el SVCA-CV, en donde se especifica la

forma de monitoreo de cada estación. Además se visualiza las coordenadas geográficas

de las estaciones (Tabla 3-2).

Muestreador De Alto Volumen (Hi-Vol) de PM10 Marca Tisch

Este equipo se encuentra instalado actualmente en la Clínica Laura Daniela de

Valledupar, zona aledaña al barrio la Flores, contigua a la Glorieta de la Mariamulata.

El muestreo de las partículas se realiza mediante un equipo denominado muestreador de

alto volumen (Hi-Vol), el cual está formado por una bomba de succión, un porta-filtros, un

registrador de flujo (o indicador de flujo) y un programador de tiempo de muestreo, todo

esto se halla cubierto con una coraza de protección [8].

El diseño del equipo permite que las partículas de diámetro menor o igual a 10μm sigan

las líneas de la corriente de flujo de aire dirigiéndose a los tubos inyectores, mientras las

CAPÍTULO 3 21

partículas de tamaño, con suficiente inercia, se salen de las líneas de flujo impactándose

contra el plato. Para operar correctamente, este equipo debe hacer pasar aire ambiente

por el filtro a una rata de flujo que oscila entre 1.02 a 1.24 m3/min [8].

Cuando se opera en este rango de flujo, las muestras pueden ser colectadas por

periodos de 24 horas. La concentración de la masa de las partículas suspendidas se

calcula por medio de la diferencia en pesos del filtro antes y después del muestreo y del

total del flujo de aire muestreado.

Analizador Automático de Monóxido de Carbono Marca Wedding Modelo 1020

Este equipo se encuentra ubicado en la Calle 16 # 14 esquina, contigua a la

Gobernación del Cesar. Realiza la determinación de la concentración de CO, basándose

en el principio de fotometría por infrarrojo no dispersivo.

El funcionamiento del equipo se basa en la diferencia en la absorción de radiación a

cierta longitud de onda por el CO presente en el aire recolectado por el equipo con la

radiación que deja de ser absorbida cuando es aplicada a la cámara del equipo que

contiene únicamente nitrógeno no reactivo.

Tabla 3-1:Equipos Usados en el Monitoreo en Valledupar[8]

ESTACIÓN EQUIPO FOTO

V2 Estación Móvil

PM 10 Semiautomático marca THERMO Serie 1400A Teom Sensor Unit. Analizador automático de CO Wedding Modelo 1020. Datalogger y Monitor para almacenar y administrar los datos capturados.

V4 Laura Daniela

PM 10 Manual Marca Tisch Monitoreo de Alto Volumen


Analizador Semiautomático de PM10 Marca THERMO

El sistema de medición del equipo TEOM, el cual se encuentra dentro de la estación

móvil de la red de calidad de aire de Valledupar, utiliza un filtro intercambiable montado al

final de un tubo hueco afilado. El extremo ancho del tubo es fijo. El elemento afilado vibra

en su frecuencia natural; el aire de muestreo se pasa a través del filtro, en donde se

depositan las partículas. La frecuencia de vibración natural disminuye conforme aumenta

la masa de material particulado en el filtro, mientras la electrónica del equipo monitorea

esta frecuencia [8]. Este equipo basa su lectura considerando la relación física entre la

masa depositada en el filtro y la frecuencia de vibración del elemento.

Tabla 3-2: Coordenadas geográficas de las Estaciones de Valledupar [8]

ID ESTACIÓN TECNOLOGÍA TIPO MATERIAL

ESTUDIADO

LATITUD:

OESTE

LONGITUD:

NORTE

V2 Estación Móvil - Gobernación

Micro-balanza oscilatoria

Automático PM10 73° 15’ 6.78” 10° 28’ 20.12”

Infrarrojo no dispersivo

Automático CO 73° 15’ 6.78” 10° 28’ 20.12”

V4 Clínica Laura Daniela

Hi -Vol Manual PM10 73° 15’ 25” 10° 28’ 12”

Estación Meteorológica

La estación de Monitoreo de Meteorología de la Ciudad de Valledupar está Conformada

por la estación WeatherLink Vantage Pro2 de la empresa DAVIS, ubicada en la azotea

del edificio de Corpocesar en la Calle 9 con Carrera 9 esquina. También se puede contar

con información adicional de estaciones con información pertinente en la red para

corroborar el monitoreo realizado con dicha estación. Entre estas estaciones se

encuentra la estación del IDEAM ubicada en FEDEARROZ en la Carrera 12 con calle

21 esquina y la estación de Alfonso López del Aeropuerto.

3.3 Objetivos De La Minería De Datos

Los objetivos del trabajo que se aborda, están orientados como primera medida a la

construcción de un conjunto de datos usando la meteorología e ICA producto de la

recopilación durante años, de la monitorización de las estaciones del Sistemas de

Vigilancia de calidad de aire; teniendo en cuenta este conjunto de datos, se busca

CAPÍTULO 3 23

entrenar y validar un modelo descriptivo; además de obtener un modelo predictivo, que

estime el índice de calidad del aire de una manera eficaz, utilizando técnicas de minería

de datos.

Entre los criterios de éxito del proyecto se encuentra en primera instancia escoger el

periodo de estudio; luego se debe delimitar la zona a la cual se le va hacer el estudio, es

decir cuál de las dos zonas de monitoreo se utilizará, además de escoger entre las

distintas estaciones la que posea datos meteorológicos necesarios y a la vez posea

datos de monitoreo de contaminantes en el mismo espacio de tiempo del estudio. Para

desarrollar los objetivos se utiliza la metodología CRISP-DM 1.015 empleada para realizar

trabajos de Minería de Datos.

Para evaluar los modelos planteados se tendrá en cuenta la exactitud en la estimación,

mediante el uso de distintos parámetros de medidas de error.


El trabajo a desarrollar posee un banco de datos que va desde la meteorología de la

mayor parte de la Zona minera del Cesar y Valledupar hasta los monitoreos de PM10,

PM2.5 y CO. Estos dos sistemas están ampliamente diseminados en su región de

monitoreo y ambos sistemas está a cargo de Corpocesar. Las estaciones se encuentran

clasificadas de acuerdo a la emisión dominante en estaciones de fondo urbano,

estaciones de efecto industrial y estaciones de efecto de tráfico.

15 CRoss-Industry Standard Process for Data Mining, sigla acuñada por el consorcio CRISP-DM en 1995, que se interpreta como Proceso Estándar Industrial Híbrido para la Minería de Datos

CAPÍTULO 4. ENTENDIMIENTO DE LOS DATOS

4.1 Recolección de Datos

Para proceder con esta parte de la investigación se planea qué información es necesaria

para cumplir con los objetivos planteados, es decir sólo atributos determinados, o alguna

información adicional específica. Se debe elegir solo los atributos concernientes a los

contaminantes reportados en la base de datos, al igual que toda la meteorología de la

ciudad de Valledupar.

Los datos recolectados fueron extraídos de las bases de datos de la Corpocesar, para el

periodo de los años 2009 al 2012. Esta corporación tiene por objeto propender por el

desarrollo sostenible y la protección del medio ambiente en todo el departamento del

Cesar.

La base de datos del SVCA-CV está ensamblada sobre MySQL con un administrador

SQLyog Enterprise V6.03, para acceder a la base de datos se precisan consultas en

instrucciones de MySQL.

Estos datos en primera medida son cargados en un formato plano, para ser llamados en

una hoja de cálculo, donde serán organizados. Posteriormente serán incluidos y

analizados en las herramientas Rapid Miner y en hojas de cálculo, para ser evaluados.

Alguna de las consultas usadas para obtener las tablas pueden observarse en el Anexo

B.

4.2 Descripción de los Datos

La base de datos en la cual nos vamos a centrar es la concerniente a la Ciudad de

Valledupar, perteneciente al SVCACV.

Los datos obtenidos de las estaciones conforman la base de datos tanto de monitoreo de

PM10 y CO, como de meteorología de la Ciudad de Valledupar.

La base de datos de Valledupar se encuentra estructurada mediante 8 tablas.


Tabla 4-1: Descripción de atributos de la tabla de meteorología

Campo Tipo Descripción Identificación Unidad

Fecha Horario Es la fecha del monitoreo fecha aaaa/mm/dd

Hora Horario Es la hora de la muestra del monitoreo

hora hh/mm/ss

Temperatura Real Es la temperatura horaria Temp_c Centígrados

Temperatura Máxima

Real Es la temperatura máxima obtenida en una hora temp_max_c Centígrados

Temperatura Mínima

Real Es la temperatura mínima obtenida en una hora temp_min_c Centígrados

Humedad relativa

Real Es la a la cantidad de vapor de agua presente en el aire obtenida en una hora

Humedad_porcentaje Porcentaje

Precipitación Real Es la acumulación de precipitación que ha caído en una hora

Precipitacion_mm Milímetros de

agua

Rata de lluvia

Real Es la intensidad de precipitación que ha caído por hora Rata_Precipitacion Milímetros/hora

Velocidad del viento

Real Promedio de la velocidad del viento horaria Vel_viento

Metros/ segundos

Dirección del viento

Real Promedio de la dirección del viento horaria Dir_viento Grados

Punto de Rocío

Real

Promedio de la temperatura a la que empieza a condensarse el vapor de agua contenido en el aire horaria

Pt_rocio_c Centígrados

Radiación Solar

Real Presenta la radiación solar presente en cada hora del día Rad_solar Vatio/ metros2

Índice de calor

Real Promedio de calor valorado en temperatura Heat_Index Centígrados

Índice de THW

Real Índice de temperatura, humedad y viento valorado en temperatura

Thw_Index Centígrados

Radiación UV

Real Promedio del índice de radiación Ultravioleta durante la hora Índice_UV Adimensional

Presión atmosférica

Real Es la presión atmosférica promedio horaria Presion_barometrica

Milímetros de mercurio

Factor de Enfriamiento del Aire

Real

Es la temperatura de enfriamiento del viento Wind_chill Centígrados

Temperatura interna

Real Es la temperatura en el interior del recinto de la consola In_temp Centígrados

Humedad interna

Real Es la humedad en el interior del recinto de la consola In_hum Porcentaje

Punto de Rocío Consola

Real

Promedio de la temperatura a la que empieza a condensarse el vapor de agua contenido en el aire en la consola - interior

In_dew Centígrados

Calor Interno, en la consola

Real

Promedio de calor valorado como temperatura en la consola - interior

In_Heat Centígrados

Código Entero Es el código asignado la estación meteorológica en Valledupar

ID null

CAPÍTULO 4 27

Los atributos extraídos de la base de datos mediante la utilización de las consultas

citadas, entre los años 2009 a 2012 son correspondientes a 3 tablas, una de

meteorología, una tabla de datos automáticos horarios de CO y PM10, y una última de

PM10 y CO para datos diarios; estos resultados se pueden evidenciar en la Tabla 4-1.

En la Tabla 4-2 se visualiza los resultados estadísticos de cada uno de los atributos de la

estación meteorológica. Dentro de este banco de datos se puede observar que dichos

atributos presentan múltiples datos inválidos, como en los valores mínimos de

temperatura (reportando valores en cero), lo cual es muy improbable en esta región. Este

mismo hecho se presenta en las temperaturas máximas y mínimas. También se puede

extraer datos atípicos en la medida de la precipitación, donde muestra un valor de

756.5mm de agua en una hora, lo cual es poco probable que se presente.

Los atributos extraídos de la base de datos de los monitoreos de la Estación

Meteorológica automática entre los años 2009 a 2012 se muestran en la Tabla 4-3.

Se puede observar que los tipos de datos desplegados son atributos numéricos; solo dos

atributos son de tipo horario. Estos generan una tabla de meteorología, con 34242

registros y 23 atributos, procedente de monitoreos horarios.

Otro hallazgo encontrado es el mostrado en el atributo de velocidad del viento donde el

máximo promedio obtenido fue 29m/s, cuyo valor no se encuentra en las mismas

unidades del resto de datos.

En la Tabla 4-4 se presenta la estadística concerniente a la tabla de datos de PM10 y

CO, en esta se evidencia que en monitoreos automáticos horarios de CO se obtuvieron

30720 registros y para los monitoreos automáticos horarios de PM10, 19279 registros

horarios.

Los atributos de la base de datos de las concentraciones de las Estación Manual entre

los años 2009 a 2012 es mostrado en la Tabla 4-5.

Los datos extraídos son todos atributos numéricos, excepto el nombre de estación y la

fecha, los cuales son de tipo nominal y horario, respectivamente. Estos generan una

tabla con concentraciones de material particulado cada 3 días, con 477 registros y 4

atributos de datos válidos e inválidos. En la Tabla 4-6 se presenta la estadística

correspondiente a estación manual de material particulado.


Tabla 4-2: Estadística de los atributos de la estación meteorológica

Atributo Registros

numéricos

Máximo

valor

Mínimo

valor

Media/

Suma

Mediana Desviación

estándar

Varianza Moda

Temperatura 31395 39.6 0.0 28.22 27.6 3.57 12.72 25.1

Temperatura Máxima

20107 38.9 0.0 28.41 27.9 3.53 12.482 25.9

Temperatura Mínima

20107 37.7 0.0 27.47 26.8 3.34 11.126 24.8

Humedad relativa

24964 98.0 0.0 72.5 75.0 14.78 218.58 89

Precipitación 32456 756.5 0.0 4984.416 0.0 5.56 30.968 0.0

Rata de lluvia 20782 1828.8 0.0 1.34 0.0 30.91 955.629 0.0


26554 29.0 0.0 4.35 3.1 4.5 20.233 1.3


24618 337.5 0.0 83.43 45.0 82.7 7002.97 22.5

Punto de Rocío 20018 28.7 0.0 22.57 22.8 1.79 3.196 22.5

Radiación Solar 11750 1012 0.0 179.86 0.0 278.25 77414.06 0.0

Índice de calor 20018 48.8 0.0 31.24 30.1 5.0 24.969 25.1

Índice de THW 20018 48.8 0.0 31.11 29.9 5.05 25.525 26.2

Radiación UV 6177 12.8 0.0 1.63 0.0 3.05 9.31 0.0


33032 761.2 0.0 751.05 753.9 8.42 70.81 755.9


20107 38.0 0.0 27.8 27.1 3.46 12.004 25.1

Temperatura interna

21771 79.0 0.0 28.27 27.33 6.14 37.693 27.1

Humedad interna

21771 92.0 0.0 56.71 58.0 12.12 147.147 63


21770 37.8 0.0 18.37 19.0 4.15 17.189 21.6


21770 47.3 0.0 28.62 28.6 3.31 10.932 28.9

Tabla 4-3: Descripción de atributos estaciones automáticas


Fecha Horario Es la fecha del monitoreo fecha aaaa/mm/dd

Hora Horario Es la hora de la muestra del monitoreo hora hh/mm/ss

Código Entero Es el código asignado a la estación en Valledupar

Cod_estacion Null

Variable: Real Indica si la variable a medir es PM10 o CO

PM10 µg/m3

CO mg/m3 - ppm

Nombre estación

Nominal Nombre dado a la estación

Estación Null

16 Este valor como tal no corresponde a la media o promedio, si no al acumulado total de precipitación en el periodo planteado

CAPÍTULO 4 29

Tabla 4-4: Estadística de datos horarios CO y PM10

Atributo Registros Máximo

valor

Mínimo

valor

Media Mediana Desviación

estándar

Varianza Moda

CO 30720 5.111 0 0.557 0.325 0.6478 0.419 0.023

PM10 19280 1560.5 0 40.123 19.33 74.87 5604.7 0

Tabla 4-5: Descripción atributos de la estación manual


Fecha Horario

Es la fecha del monitoreo

Fecha_inicio aaaa/mm/dd

Código Entero

Es el código asignado a la estación en Valledupar

Cod_estacion Null

Variable: Real Indica la variable PM10 PM10 µg/m3

Nombre estación

Simbólico Nombre dado a la estación

Estación Null

Tabla 4-6: Estadística de la estación manual de material particulado

Atributo Registros Máximo

valor Mínimo

valor Media Mediana

Desviación estándar

Varianza Moda

PM10 477 119.35 5.162 30.979 29.36 13.147 172.455 38.93

4.3 Exploración de Datos

El análisis exploratorio de datos ofrece la posibilidad de tabular y representar

gráficamente los datos. De igual forma, se pueden aplicar técnicas estadísticas que

permitan conseguir un entendimiento básico de los datos y de las relaciones existentes

entre las variables.

Figura 4-1: Relación entre la precipitación y el PM10


Los archivos obtenidos poseen gran cantidad de errores y datos faltantes los cuales

serán analizados y sometidos a distintos métodos de limpieza para poder ser usados en

los métodos descriptivos y predictivos.

Se puede extraer una hipótesis preliminar al observar la Figura 4-1 donde el

contaminante PM10 casi exclusivamente presenta valores altos, cuando no existen

precipitaciones. También es apreciable esta concepción con el contaminante CO, pero en

menos medida (Figura 4-2). Esto nos lleva a hacer una hipótesis preliminar en donde la

precipitación es una variable indispensable ya que modifica los resultados de los

contaminantes, dependiendo si hay o no hay lluvia.

Figura 4-2: Relación entre la precipitación y el CO

Otra hipótesis observable en la Figura 4-3 son los valores bajos que toman los

contaminantes de PM10 y CO cuando los vientos vienen del Norte, noreste y el este,

indicando que los contaminantes al parecer son provenientes del resto de direcciones del

viento.

Figura 4-3: Relación Dirección del Viento, PM10 y CO

CAPÍTULO 4 31

Figura 4-4: Relación entre la humedad del ambiente y el CO

Se puede llegar a concluir, visualizando la Figura 4-4, que el contaminante CO aumenta

su valor cuando en el aire se condensan más partículas de agua, aumentando la

humedad del ambiente.

Figura 4-5: Relación entre velocidad del viento, PM10 y CO

Otra hipótesis inicial que se desprende de la Figura 4-5, es que a velocidades del viento

bajas, vientos de calmas (en escala de Beaufort17 menores de 0.5m/s), el contaminante

PM10 toma valores bajos (entre 0 y 20µg/m3) y para valores altos de velocidades

(superiores a 5m/s) toma valores por encima de 40µg/m3, además se vuelve más

disperso; caso contrario ocurre con el contaminante CO, ya que a mayores velocidades

del viento este se sosiega tomando valores bajos, cercanos a cero.

17 Escala creada por Sir Francis Beaufort (alrededor de 1805), es una medida empírica para la intensidad del viento, basada principalmente en el estado del mar, sus olas y la fuerza del viento.


Al detallar la Figura 4-6 , se puede concluir a grandes rasgos que los valores de ambos

contaminantes se incrementan en el primer trimestre del año; se podría suponer por la

llegada de muchos automóviles a la ciudad debido a las fiestas que se celebra por esa

época.

Figura 4-6: Relación del PM10 y el CO en el tiempo

4.4 Verificación de Datos

En esta etapa se realizan básicamente las siguientes tareas:

Análisis mediante la utilización de distintos filtros en las tablas usando la hoja de

cálculo.

Detección de datos atípicos.

Detección de datos faltantes.

Detección de datos valor igual a cero (inválidos).

Graficas de dispersión.

Todos los resultados obtenidos fueron compactados en el Anexo D.


Se extrae de manera satisfactoria los datos necesarios para cumplir con los objetivos

planteados en la investigación. La descripción nos revela en primera medida varios

atributos relevantes para la consecución de las etapas a realizar.

Se puede extraer una hipótesis preliminar al observar que los contaminantes PM10 y CO

casi exclusivamente presentan valores altos, cuando no existen precipitaciones. De allí

que se concluya que la precipitación es una variable indispensable ya que modifica

CAPÍTULO 4 33

considerablemente los resultados de los contaminantes, dependiendo si hay o no hay

lluvia

CAPÍTULO 5. PREPARACIÓN DE DATOS

5.1 Selección de Datos

Se consideran validos los promedios cuando estos cuentan con el 75% o más de los

datos posibles. Los atributos seleccionados a partir de la tabla calidad de los datos

encontrados en la meteorología presente en el Anexo C, serán los que poseen menos del

25% de registros perdidos, es decir los que tienen una cantidad de registros erróneos

inferior a 8561 serán los tomados para limpieza. Los atributos que superen este valor no

serán tomados en cuenta para el estudio. En la Tabla 5-1 se presenta la estadística de

registros seleccionados de la base de datos para el estudio.

Tabla 5-1: Estadística de datos seleccionados

Cálculo Temperatura

Promedio (°C)

Humedad Relativa

(%)

Velocidad Del Viento

(m/s)

Dirección del

Viento (Grados)


(mmHg)

Precipitación (mm)

CO (mg/m3)

PM10 A (um/m3)

Número de datos

34242 34242 34242 34242 34242 34242 20989 19279

Máximo 39.60 98.00 29.00 337.50 761.20 756.50 5.11 1560.5

Mínimo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0

Media/Suma 28.22 72.50 4.35 83.43 751.05 4984.41 0.56 40.123

Mediana 27.60 75.00 3.10 45.00 753.90 0.00 0.32 19.33


3.57 14.78 4.50 87.20 8.42 5.56 0.65 74.87

Moda 25.1 89 1.3 222.83 755.9 0 0.42 5604.7

Dentro de esta etapa, también se precisa la selección de una fuente adicional de datos

concerniente a la estación de monitoreo de meteorología del IDEAM, ubicada en las

instalaciones de FEDEARROZ en la Calle 16 con Carrea 22 esquina de la ciudad de

Valledupar. Esta base de datos va a ser utilizada para completar el conjunto de datos

faltantes en los atributos seleccionados.


5.2 Limpieza de Datos

Después de seleccionar los datos para el estudio, son limpiados, eliminando los datos

atípicos y los nulos, además de corregir los datos que se encontraban en unidades

diferentes a la unidad base del atributo.

Tabla 5-2: Estadística de datos seleccionados después de la limpieza


Promedio (°C)

Humedad Relativa

(%)


(m/s)

Dirección del

Viento (Grados)


(mmHg)

Precipitación (mm)

CO (mg/m3)

PM10 A (um/m3)

Número de datos

31369 24962 26552 25715 33030 32442 30720 5763

Máximo 39.6 98.0 8.1 337.5 761.2 39.8 5.11 199.79

Mínimo 20.4 27.0 0.0 0.0 738.0 0.0 0.0014 0.02

Media/Suma 28.2 72.5 2.8 86.8 751.1 2805.5 0.56 36.496

Mediana 27.6 75.0 2.7 45.0 753.9 0.0 0.32 25.21

Desviación estándar 3.6 14.8 1.6 88.5 6.1 1.1 0.65 35.69

Moda 25.1 89 2.2 22.5 755.9 0 0.023 5.91

Por ejemplo se encuentra que la velocidad de viento tenía 4350 registros incluidos en la

base de datos en unidades de km/h, los cuales fueron llevados a la unidad base de m/s;

también se encuentra una anomalía en los registros encontrados del atributo dirección de

viento en donde 1097 datos están descritos en función de 16 letras que representan la

dirección de viento en 16 posiciones de grados, estos fueron convertidos a datos

numérico, con referencia de 0 a 359 grados.

También fueron removidos datos como temperaturas bajas (menores a 15 °C) entre las

horas alrededor del mediodía, cuando la temperatura es mucho más alta, teniendo en

cuenta que no existan precipitaciones prolongadas cerca de estas horas; así como

también temperatura fuera de los rangos típicos de medida en la ciudad (superiores de

39°C).

En la Tabla 5-2 se presenta la estadística de datos escogidos de la base de datos para el

estudio, después de la etapa de limpieza. En esta se evidencia el número total de datos

que resulta después de la aplicación de la limpieza exhaustiva, reflejando una

disminución de datos en todos los atributos. En la Figura 5-1 se evidencia la

transformación de los datos antes de la limpieza y después de la limpieza

CAPÍTULO 5 37

Figura 5-1: Limpieza total

5.3 Construcción de Datos

En esta etapa se procede a construir y preparar datos adicionales a incluir en la tabla

definitiva de la investigación.

Para nuestro caso se debe crear un nuevo atributo llamado ICA, el cual se crea a partir

de los datos de los contaminantes.

5-1

𝑰𝒑 =𝑰𝑯𝒊 − 𝑰𝑳𝒐

𝑩𝑷𝑯𝒊 − 𝑩𝑷𝑳𝒐(𝑪𝒑 − 𝑩𝑷𝑳𝒐) + 𝑰𝑳𝒐

P = Índice para el contaminante p CP = Concentración medida para el contaminante p BPHi = Punto de corte mayor o igual a CP BPLo = Punto de corte menor o igual a CP IHi = Valor del Índice de Calidad del Aire correspondiente al BPHi ILo = Valor del Índice de Calidad del Aire correspondiente al BPLo

Para cada una de las estaciones en las que se realizan mediciones de PM10 y CO se

determinó el indicador índice de calidad del aire durante todo el periodo de tiempo de

estudio, cuando las estaciones en las que se miden simultáneamente dos contaminantes

se reporta el mayor valor obtenido. El índice nacional de calidad del aire se calcula a

0

5000

10000

15000

20000

25000

30000

35000

TemperaturaPromedio

(°C)

HumedadRelativa (%)

VelocidadDel Viento

(m/s)

Dirección delViento

(Grados)

Presiónatmosférica

(mmHg)

Precipitación(mm)

CO (mg/m3) PM10(ug/m3)

Antes 34242 34242 34242 34242 34242 34242 20989 19279

Después 31369 24962 26552 25715 33030 32442 20981 5763

Nú

me

ro d

e R

egi

stro

s


partir de la ecuación 5-1 que corresponde a la metodología utilizada por la EPA18 para el

cálculo del ICA, con la ayuda de la clasificación del ICA según se presenta en la Tabla

5-3; en esta se presenta los intervalos que describen los niveles de calidad del aire, en

términos de adaptación del ICA.

Tabla 5-3: Efectos a la salud de acuerdo al rango y al valor del Índice de Calidad del Aire [36]

ICA Clasificación CO (8 Horas) PM10 (24 Horas)

mg/m3 Indicaciones para su Salud ug/m3 Indicaciones para su Salud

<50 Buena <5 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.

<54 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.

51-100 Moderada 5-10.5 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.

56-154 No se anticipan impactos a la salud cuando la calidad del aire se encuentra en este rango.

101-150

Dañina a la Salud de los

Grupos Sensibles

10.6-13

La gente con enfermedades cardiovasculares tales como angina, debe limitar el esfuerzo pesado y evitar las fuentes de CO tales como el tráfico pesado.

155-254

Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos físicos excesivos y prolongados al aire libre.

151-200 Dañina 14-17.5

La gente con enfermedades cardiovasculares tales como angina, debe limitar los esfuerzos moderados y evitar las fuentes de CO tales como el tráfico pesado.

255-354

Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar los esfuerzos excesivos prolongados al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos y prolongados al aire libre.

201-300 Muy Dañina 17.6-34.8

La gente con enfermedades cardiovasculares tales como angina, debe limitar el esfuerzo y evitar las fuentes de CO tales como el tráfico pesado

355-424

Los niños y adultos activos, y personas con enfermedades respiratorias tales como el asma, deben evitar todos los esfuerzos excesivos al aire libre; las demás personas, especialmente los niños, deben limitar los esfuerzos físicos excesivos al aire libre.

301-500 Peligroso 34.8-57.6

La gente con enfermedades cardiovasculares tales como angina, debe evitar las fuentes de CO, tales como el tráfico pesado

424-604 Todos deben evitar el esfuerzo al aire libre; gente con la enfermedad respiratoria, tal como asma, debe permanecer dentro

Aplicando la ecuación 5-1 a cada uno de los contaminantes, es decir en los campos de

PM10 automático y CO automático de la estación de la Gobernación, se obtiene dos

atributos derivados adicionales con 20981 registros para CO y 5763 para PM10.

18 Agencia de Protección Ambiental de los Estados Unidos (de sus siglas en inglés EPA), cuya misión es la de proteger la salud de los seres humanos y el medio ambiente

CAPÍTULO 5 39

Luego de tener estos dos nuevos registros son comparados, seleccionando el mayor de

los dos, para obtener un único registro total del ICA referenciado para la estación de la

Gobernación. Generando el atributo ICA-Estación con 21273 registros válidos.

5.4 Integración de Datos

Ahora se procede a unir las tablas tanto de los contaminantes como la de meteorología

para obtener la tabla total de datos, tomando con referencia la fecha presentada en cada

tabla.

Es de anotar que el nuevo atributo ICA- Estación representa la contribución de ambos

contaminantes, tanto de CO como PM10, razón por la cual los atributos PM10 y CO, son

excluidos de la tabla total de datos. El atributo principal del conjunto de datos es ICA-

Estación, ya que este es el valor a estimar.

Tabla 5-4: Integración de Tablas (Meteorología e ICA)


Promedio (°C)

Humedad Relativa

(%)


(m/s)

Dirección del Viento (Grados)


(mmHg)

Precipitación (mm)

ICA- Estación

Número de datos

21267 21240 21272 16477 21270 21269 21273

Máximo 39.50 98.00 8.67 337.50 761.20 39.80 112.88

Mínimo 20.40 31.00 0.00 0.00 71.74 0.00 0.01

Media/Suma 28.09 72.27 2.94 92.60 751.89 2104.17 11.90

Mediana 27.40 74.00 2.70 45.00 754.30 0.00 5.86


3.46 14.43 1.68 89.96 10.43 1.22 15.61

Moda 11.96 208.10 2.81 8092.48 108.88 1.48 243.61

Al integrar todas las tablas se obtiene una nueva tabla estadística de datos. Esta

integración, genera pérdida de datos válidos, debido a que todos los atributos poseen

datos válidos en cualquier punto del periodo de estudio. Esto conlleva nuevamente a

manipular los atributos y así poder observar cuales datos son los faltantes. Esto se puede

evidenciar en la Tabla 5-4, donde se presenta el conjunto de datos integrando las tablas

de meteorología y el nuevo atributo creado. Se puede observar la pérdida de datos en

todos los atributos.


Este nuevo atributo representa el número total de datos a estimar; esto deriva la

posibilidad de remplazar los datos faltantes, de acuerdo con los criterios presentados el

Anexo D.

Usando estos criterios se obtiene la tabla total de datos con un número de registros igual

a 21273 de datos totales válidos y sin ningún tipo de ruido. Se puede observar el

resultado estadístico en la Tabla 5-5.

Tabla 5-5: Integración de Datos Final


Promedio (°C)

Humedad Relativa

(%)


(m/s)

Dirección del Viento (Grados)


(mmHg)

Precipitación (mm)

ICA- Estación

Número de datos 21273 21273 21273 21273 21273 21273 21273

Máximo 39.5 98.0 8.7 337.5 761.2 39.8 112.88

Mínimo 20.4 31.0 0.0 0.0 71.7 0.0 0.01

Media/Suma 28.1 72.3 2.9 92.1 751.9 2104.2 11.90

Mediana 27.4 74.0 2.7 67.5 754.3 0.0 5.86


3.5 14.4 1.7 81.8 10.4 1.2 15.61

Moda 12.0 207.9 2.8 6689.5 108.9 1.5 243.61

Al combinar ambas tablas se evidencia el número de datos faltantes que fueron

remplazados usando los distintos criterios, la Tabla 5-5 muestra los cambios hechos.

Solo en el campo de la Dirección del Viento es apreciable el cambio.

Debido a que los datos de las variables presentan valores de tamaños diferentes, resulta

necesario normalizar los atributos a una escala numérica entre 0 y 1 con base en la

siguiente formula:

5-2

𝒙𝒏𝒐𝒓 =𝒙𝒊 − 𝒙𝒎𝒂𝒙

𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏

Donde xnor es el registro normalizado, xi el valor original de la variable, xmax el máximo

de la variable y xmin el valor mínimo de la misma.

Todos los registros de meteorología son normalizados a partir de la ecuación 5-2, para

los atributo de orden horario.

CAPÍTULO 5 41

5.5 Formateo de Datos

En esta etapa se reorganizan los atributos sin cambiar su significado, es decir colocar de

tal manera los atributos para que en la siguiente etapa la herramienta modelado reciba la

tabla de datos en un orden específico. El orden en el cual se colocaron los atributos es el

siguiente

1. ICA- Estación (Label) – ICACO o ICAPM10.

2. Temperatura Promedio – TEMP.

3. Precipitación – PRECI.

4. Presión atmosférica – PRES.

5. Humedad Relativa – HUM.

6. Velocidad del viento – VVIEN.

7. Dirección del viento – DVIEN.

Figura 5-2: Integración de datos - comparación

Este es el orden preliminar de los atributos para ser presentada a la herramienta de

modelado.


A esta etapa se da por cumplido el primer objetivo de la investigación concerniente a la

construcción del conjunto de datos de meteorología e índice de calidad del aire apropiado

0

5000

10000

15000

20000

25000

TemperaturaPromedio

(°C)

HumedadRelativa (%)

VelocidadDel Viento

(m/s)

Dirección delViento

(Grados)

Presiónatmosférica

(mmHg)

Precipitación(mm)

ICA- Estación

Antes 21267 21240 21272 16477 21270 21269 21273

Después 21273 21273 21273 21273 21273 21273 21273

Nú

me

ro d

e R

egi

stro

s


para el entrenamiento y validación de modelos descriptivos y predictivos. La tabla

resultante tiene los atributos ICA- Estación, Temperatura Promedio, Precipitación,

Presión atmosférica, Humedad Relativa, Velocidad del viento y Dirección del viento

con 21273 registros en total, como se evidencia en la Tabla 5-6. Los resultados

obtenidos, debido a las variables seleccionadas poseen una representatividad superior al

75%.

Se encuentra que en diferentes investigaciones [16]–[18], [20], [37]–[39] obtienen como

resultado los atributos demarcados en la Tabla 5-5 para sus trabajos de limpieza, para

luego entrar en las etapas de predicción o descripción de algún contaminante del aire.

Tabla 5-6: Resultado Final de Datos

Objetivo de Minería de datos

Datos Iniciales

Datos Finales

Número de Registros

34242 21273

Número de Campos

23 7

En la Figura 5-2 se muestra los resultados obtenidos antes y después de formateo e

integración de los registros

Se establece que las actividades de la metodología CRISP-DM, son muy específicas, y

en su mayoría son usadas para el desarrollo de proyectos de explotación de información,

saltando de fase en fase, de tareas más generales a mucho más delimitadas. La

Explotación de Información es la sub-disciplina de la informática que aporta las

herramientas de análisis y síntesis para extraer conocimiento no trivial que se encuentra

implícitamente en los datos disponibles en distintas fuentes de información [40].

En la base de datos de meteorología de Corpocesar se encuentra todo tipo de errores y

muchos registros faltantes, debido a los diferentes tipos de fallas, ya sea humana o del

propio equipo; se evidencia que estas fueron totalmente superadas. Identificar los errores

en algunos casos resulta complejo, debido a que no necesariamente todos los valores

descritos como errores lo eran; este fue el caso de valores de temperaturas bajas en el

día, que eran propias de horas nocturnas; estos supuesto errores fueron convertidos a

registros válidos debido a la observación de las otras variables que se presentan en las

mismas horas, en especial la precipitación, ya que esta indica que en ese instante de

CAPÍTULO 5 43

tiempo se encontraba una llovizna y por consecuencia una disminución de la

temperatura. Es preciso y necesario conocer las variables en juego para poder hacer

estas afirmaciones.

CAPÍTULO 6. MODELAMIENTO DESCRIPTIVO

En esta fase de la investigación se busca diseñar e implementar un modelo descriptivo

de datos de meteorología e índice de calidad del aire, basado en técnicas de aprendizaje

computacional. Primero se parte de la selección de una técnica de modelado descriptivo

el cual debe buscar similitudes y características propias en los datos, a partir de la base

de datos de meteorología y de los contaminantes, ya preparados en el CAPÍTULO 5.

Continuando con el diseño del modelo descriptivo en donde se elabora una prueba para

modelar la técnica seleccionada. Seguido de este paso se pone a prueba el modelo,

interpretando los resultados en términos de la investigación; terminando con la

evaluación del mismo. Esta es una evaluación puramente técnica basada en el resultado

de las tareas realizadas por el modelo.

6.1 Selección de la Técnica de Descriptiva

Dentro de las técnicas descriptivas se encuentran el Agrupamiento (clustering),

correlaciones y factorizaciones, reglas de asociación, dependencias funcionales, entre

otras [41].

La primera técnica tiene por objetivo obtener grupos o elementos, de tal manera que los

elementos asignados al mismo grupo sean similares. La segunda técnica busca la

relevancia entre atributos, detectando los atributos redundantes o la dependencia entre

ellos. Las reglas de asociación son muy similares a la anterior pero para atributos

nominales; las dependencias funcionales consideran todos los posibles valores.

En trabajos realizados en climatología, [42]–[44], se necesita continuamente clasificar

variables en grupos similares y así poder profundizar en los fenómenos ocurridos. De allí

que, el agrupamiento es reconocido como un método eficaz para tratar problemas de


agrupamiento de estaciones en regiones climatológicamente similares [44], [45], también

es ampliamente utilizado en series de tiempo con óptimos resultados [44]. En un proceso

estándar de minería de datos, desarrollado en varias etapas, la agrupación o clustering

suele ser la primera de ellas tanto si se trata de datos estáticos como de datos dinámicos

[46]. Para nuestro caso de estudio se toma la técnica descriptiva de Agrupamiento, para

caracterizar las variables meteorológicas y de los ICA en la ciudad de Valledupar. Este

proceso es presentado en la Figura 6-1, en donde se observa un diagrama que muestra

la conjunción de las variables meteorológicas con el ICA (contaminante) a usar, que con

la ayuda del modelo descriptivo nos lleva al resultado de la caracterización de las

variables.

Dentro de las técnicas de agrupamiento se consideran dos tipos de agrupamiento:

jerárquico y no jerárquico (particional) [47]–[50].

El agrupamiento jerárquico se caracteriza por el desarrollo recursivo de una jerarquía o

estructura en forma de árbol (dendograma). El agrupamiento no jerárquico o particional

organiza los registros dentro de k grupos [51]. Es decir, determina el número de

particiones mediante un procedimiento iterativo que optimiza la estructura local o global

de los datos agrupados[46]. Los métodos particionales tienen ventajas en aplicaciones

que involucran gran cantidad de datos para los cuales la construcción de un árbol resulta

complicado [47]. Algunos algoritmos dentro de este tipo de agrupamiento son: K-medias,

K-mode, CLARA (Clustering Large Applications), CLARAMS (Clustering Large

Applications based on Randomized Search), entre otros.

Como la investigación posee gran cantidad de datos nos basaremos en los métodos

particionales de la técnica de agrupamiento.

Dentro de estos métodos se encuentra el K-Medias (K-Means). El k-medias es uno los

algoritmos para el análisis de Clúster más populares [52]–[54], en donde se construye

una partición de una base de datos con n objetos en un conjunto de k grupos

(centroides), buscando optimizar el criterio de división elegido [55], que minimicen la

suma de los cuadrados de las distancias de cada punto al centroide del grupo más

próximo [56].

Ha sido utilizado en distintos campos; entre ellos en la agrupación de regiones

geográficas [57], teniendo un buen desempeño. También ha sido utilizado en tesis

CAPÍTULO 6 47

doctorales para agrupar datos del sector residencial [58], al igual que en trabajos de

conexión de datos en telecomunicaciones [59], como también en datos de meteorología

[60] para evaluar el efecto de los patrones de transporte de las masas de aire usando

patrones regional de material particulado. La literatura reciente [61], [62] muestra que se

han creado diferentes algoritmos de clustering, entre ellos K-Medias, que se centran en la

utilización de atributos numéricos, para solucionar diversos problemas, en el campo

industrial, científico y académico; obteniendo resultados óptimos

Figura 6-1: Proceso de Caracterización – Diagrama de Bloques

6.2 Diseño Experimental

El modelo presentado toma tanto los valores de ICA que produce el CO como el que

produce el PM10 al mismo tiempo, al igual que los atributos de meteorología

Temperatura Promedio, Precipitación, Presión atmosférica, Humedad Relativa,

Velocidad del viento y Dirección del viento.

Para la elaboración del diseño se tuvo en cuenta todos los atributos disponibles antes

mencionados, con todos los 21273 registros totales finales, Tabla 5-6.

En la construcción del modelo a utilizar se precisa de la herramienta de código abierto

RapidMiner. Dentro de esta se recurre al operador K-Means, el cual es parte de la

biblioteca de Clustering and Segmentation. El operador K-Means utiliza la Distancia

ICA CO - ICA PM10

MeteorologiaModelo

Descriptivo: Técnica

Evaluación de Modelo

Caracterización de los Atributos


Euclidiana, para evaluar la calidad del agrupamiento. Además se le adiciona el operador

de la suma de cuadrados para evaluar la calidad de la agrupación.

Para la ejecución del modelo fue necesaria la normalización de todos los atributos

numéricos entre 0 y 1; no se incluye sesgo debido a la magnitud de los valores. Para

superar la sensibilidad a la configuración de partida se hicieron múltiples ejecuciones,

usando el conjunto de atributos disponible.

6.3 Construcción del Modelo

Para probar el modelo, el algoritmo es ejecutado repetidas veces, variando el número de

medias iniciales, a partir del 2 al 10. En cada ejecución, se mide la suma de cuadrados

para evaluar la calidad de la agrupación. Se selecciona el número de clústeres teniendo

en cuenta el número K, después de lo cual no hay un cambio considerable en la suma de

valor de los cuadrados del error. El criterio del error cuadrático y descomposición de

mezcla son los más populares dentro de los métodos de agrupamiento particional, siendo

el error cuadrático la estrategia más usada [63]. Aquí el objetivo es obtener la partición

que, para un determinado número de grupos, minimice el error cuadrático.

Figura 6-2: K-Medias - Selección del Número de Clúster

Los resultados se representaron gráficamente, en donde el eje horizontal es el número

de grupos y en el eje vertical, la suma correspondiente de error. El valor de K fue elegido

sobre la base de una inspección visual, como puede verse en la Figura 6-2.

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

2 3 4 5 6 7 8 9 10

SSE

k

CAPÍTULO 6 49

En primera medida fue necesario tomar los valores normalizados y aplicarle el modelo de

clustering, con el algoritmo K-Medias, usando agrupamiento particional con un valor de

K=5 y con 10 corridas. El resultado se evidencia en los 5 clústeres arrojado por el

algoritmo, Tabla 6-1.

El número de grupos se establece para K=5, debido a que en este punto no se observan

cambios importantes en el error.

Fue necesario “desnormalizarlo” con el operador De-Normalize, debido a que dichos

resultados entre 0 y 1 no eran muy familiares. Luego del operador se obtuvieron valores

análogos a los valores de entrada.

6.4 Evaluación del Modelo

El resultado del modelos se evidencia en la Tabla 6-1; en esta puede observarse la

manera en la cual el algoritmo de K-Medias encuentra, mediante la distancia Euclidiana

los 5 centroides para cada agrupamiento. La distancia Euclidiana refleja la diferencia

entre dos patrones de los clúster, además muestra cómo el modelo particional usando un

criterio global, como el de error cuadrático [64], representa cada grupo a través de un

ejemplo y asigna los patrones a los grupos de acuerdo a los tipos más similares.

Tabla 6-1: Centroides del Modelo K-Medias

Los centroides presentados en dicha tabla son diferenciables en 5 de los 7 atributos

utilizados, entre ellos el ICA-ESTACIÓN, TEMP, HUMEDAD, PRESIÓN

BAROMÉTRICA, DIRECCIÓN DEL VIENTO.

En el atributo PRECIPITACIÓN no se evidencia la separación de los centroides debido a

la poca diferencia de los registros presentes en este.

ICA-ESTACIÓN TEMP °C PRECIPITACIÓN

mm

PRESIÓN

BAROMÉTRICA

HUMEDAD

%

VELOCIDAD_

VIENTO m/s DIR_VIENTO CLUSTER

11.3 30.6 0.1 742.1 59.3 2.7 140.0 cluster_0

14.4 31.4 0.0 754.1 58.6 4.1 31.5 cluster_1

10.0 25.1 0.0 753.4 82.8 2.5 70.3 cluster_2

11.8 29.7 0.1 754.5 70.9 3.0 241.2 cluster_3

13.6 26.9 0.3 754.3 79.4 2.7 56.7 cluster_4


En el atributo VELOCIDAD DEL VIENTO se evidencia un centroide que se repite en el

cluster_0 y el cluster_4, esto es debido a que los registros presentes no tienen muchas

diferencias entre sí, presentándose registros con valores cercanos.

Las evaluaciones siguientes son obtenidas a partir de las figuras 6-3 a la 6-9, en donde

se muestra la abstracción de los datos describiendo de manera compacta cada grupo

modelado.

Clúster 0: Este clúster presenta temperaturas superiores a 25°C, alcanzando las

máximas temperaturas, debido a esto no se encuentran precipitaciones considerables

(1.7% de precipitaciones presentes), además se mantienen presiones atmosféricas entre

los 740 y 750 mmHG. Las velocidades del viento son suaves (entre 1.7 y 3.3 m/s),

representando un 61.2%. En cuanto a la dirección del viento muestra preponderancia

hacia al Norte en un 30% y hacia el Noreste en un 26.3%. La humedad relativa está

comprendida en un 67% para valores entre 50 y 80. Esto valores llevan a un 10% de

valores superiores a un ICA de 50, esto se debe a que no se presentan lluvias y a un

porcentaje significativo de 18.3% de velocidades del viento superiores a 3.3m/s.

Clúster 1: Para este clúster se presenta un 75.6% de ICA con valores menores a 20. El

73.5% de la temperatura en este grupo es alta y está comprendida para valores

superiores a 30°C. No se presentan muchas lluvias al igual que en clúster 0. La presión

atmosférica es alta mayormente, se mantiene entre valores superiores de 750mmHg. El

80.3% de la humedad presente, está comprendida entre los valores 50 y 80. En este

grupo es donde se presenta las mayores velocidades del viento, conllevando a mayores

valores del ICA, ya que también se muestran valores superiores a 50 en un 9%.

Clúster 2: Para esta agrupación las temperaturas casi totalmente son inferiores a 30°C,

presentado un 2.6% de precipitaciones, con presiones atmosféricas entre 750 y

760mmHg. El 66.6% de la humedad está por encima de 80. El 57.7% de las velocidades

del aire son superiores a 1.7m/s y el 5.5% son velocidades moderadas (superiores a

5.2m/s). Se presentan vientos en todas las direcciones, preponderando las del Este,

Noreste y Norte, con 25.3%, 38.5% y 24.3% respectivamente. Bajo estas condiciones los

valores de ICA agrupados responde con un 47.7% superior a 5, y en especial un 15.2%

entre 10 y 20 de ICA, un 6.8% para valores entre 20 y 30 de ICA y un 8.4% para valores

superiores 30.

CAPÍTULO 6 51

Figura 6-3: Clúster Vs Temperatura

Figura 6-4: Clúster Vs Precipitación

Clúster 3: En este agrupamiento se observa un 44.6% de temperaturas entre 30 y 35°C

además de un 3.7% de temperaturas superiores a 35°C; también pueden verse

temperaturas inferiores a 25°C en un 5.9%. Se presentan precipitaciones cercanas a un

3.5%, donde existen medidas superiores a 10mm de agua. La presión atmosférica se

encuentra entre 750 y 760mmHg. Se observa una humedad relativa de valores entre 50 y

80 de un 72% y superior a 80 en un 23.2%. Casi en su mayoría velocidad del viento es

considerada como suave y leve (3.3 a 5.2m/s) en este agrupamiento, aunque existen

3850

152563

1498

1113

3728

1175

2769

1497

2869

1146

189320 224 95

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

TEMP CLUS 0 TEMP CLUS 1 TEMP CLUS 2 TEMP CLUS 3 TEMP CLUS 4

20 a 25 25 a 30 30 a 35 >35

33334195

73872479

3244

5012

17672

211

26

1040

88%

90%

92%

94%

96%

98%

100%

PRECI CLUS 0 PRECI CLUS 1 PRECI CLUS 2 PRECI CLUS 3 PRECI CLUS 4

0 a 0.0 0.1 a 5 5 a 10 >10


ráfagas comprendidas entre 5.2 y 7.4 m/s en un 25.7%. El 55.1% de los valores de la

dirección del viento van hacia el Suroeste y un 19.4% del Oeste. Con estos grupos de

datos el ICA responde en un 17%, con valores superiores a 20, dentro de este un 2.2%

responde con valores superiores a un ICA de 50.

Figura 6-5: Clúster Vs Presión atmosférica

Figura 6-6: Clúster Vs Humedad Relativa

270

3115

95

1378

85 309

4110

6196

24683207

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

PRES CLUS 0 PRES CLUS 1 PRES CLUS 2 PRES CLUS 3 PRES CLUS 4

<740 740 a 750 750 a 760 >760

924821

123

2293 3380

2530

1848

1854

173

5052

597

1667

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

HUM CLUS 0 HUM CLUS 1 HUM CLUS 2 HUM CLUS 3 HUM CLUS 4

<50 50-80 >80

CAPÍTULO 6 53

Figura 6-7: Clúster Vs Velocidad del viento

Figura 6-8: Clúster Vs Dirección del viento

Clúster 4: En este agrupamiento se observa casi totalmente temperaturas entre 25 y

30°C, encontrando precipitaciones en un 7.8%, siendo el grupo con mayor número de

lluvias encontradas. Presiones atmosféricas igual que en el clúster 3, con humedades

compartidas de 52.7% y 47.3% para un rango de valores entre 50 y 80 y superiores a 80,

respectivamente. Se presentan vientos de todas las facturas predominando las ventolinas

(0.5 a 1.7m/s), suaves y leves. Las direcciones del viento dominantes son las que van

hacia el Este y el Noreste, 29.2% y 41.8% respectivamente. Bajo esta agrupación el ICA

680 105 248669

309

2525

361

993

2074

1142

2241

1201

1229

533

1652

1724659 640

86

937

415 239 411151

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

VVIEN CLUS 0 VVIEN CLUS 1 VVIEN CLUS 2 VVIEN CLUS 3 VVIEN CLUS 4

0 a 0.5 0.5 a 1.7 1.7 a 3.3 3.3 a 5.2 5.2 a 7.4 >7.4

209

2671

1918 1027176

1041

29181472

1028

483

1842807

890

197114

218

376

498

95

752

304

1414

275

305

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

DVIEN CLUS 0 DVIEN CLUS 1 DVIEN CLUS 2 DVIEN CLUS 3 DVIEN CLUS 4

E NE N NO O SO S SE


presentado se encuentra en un 20.9% con valores superiores a 20 unidades, además se

observa que con precipitaciones presentadas el ICA disminuye a valores inferiores a 10 y

a 5 unidades en un 55% y en un 33%, respectivamente.

Figura 6-9: Clúster Vs ICA


En este modelamiento se toma en consideración todo el data set, incluyendo los ICA

para CO y PM10, al igual que los atributos de meteorología como son, Temperatura

Promedio, Precipitación, Presión atmosférica, Humedad Relativa, Velocidad del viento y

Dirección del viento, para así elaborar un modelo en la herramienta Rapid Miner. Para

desarrollar dicho modelo se necesitó en primera medida tomar los valores normalizados

(registros entre 0 y 1), y aplicarle el modelo de clustering, con el algoritmo K-Medias.

Para probar el modelo, el algoritmo es ejecutado repetidas veces, variando el número de

medias iniciales, a partir del 2 al 10. En cada ejecución, se mide la suma de cuadrados

para evaluar la calidad de la agrupación. Se selecciona el número de clústeres teniendo

en cuenta el número K, después de lo cual no hay un cambio considerable en la suma de

valor de los cuadrados del error. Para nuestro caso se usa un K=5 y con 10 corridas por

defecto. Con la ayuda de la Distancia Euclidiana, para la evaluar la calidad del

agrupamiento se logra reflejar la diferencia entre los patrones de los clústeres. Este

modelo arrojó 5 clústeres con los centroides mostrados en la Tabla 6-1.

2016

17233969

947 1162

454

818

1302

615776

219

641

1156572

846

134 345

519 206310

225 282307 114 203198 187164 57 120

4 59 58 20 34

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

ICA CLUS 0 ICA CLUS 1 ICA CLUS 2 ICA CLUS 3 ICA CLUS 4

0 a 5 5 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70 70 a 80 >80

CAPÍTULO 6 55

En esta tabla son diferenciables 5 de los 7 atributos utilizados, entre ellos el ICA-

ESTACIÓN, TEMP, HUMEDAD, PRESIÓN BAROMÉTRICA, DIRECCIÓN DEL VIENTO.

En el atributo PRECIPITACIÓN no se evidencia la separación de los centroides debido a

la poca diferencia de los registros presentes en este.

En el atributo VELOCIDAD DEL VIENTO se evidencia un centroide que se repite en el

cluster_0 y el cluster_4, esto es debido a que los registros presentes no tienen muchas

diferencias entre sí, presentándose registros con valores cercanos.

El clúster_0 alberga los registros donde las temperaturas son altas y por ende no hay o

existen pocas precipitaciones.

El clúster_1 presenta una alta humedad, con altas temperaturas obteniendo valores más

altos de ICA.

En el clúster_2 presenta temperaturas bajas, se presentan precipitaciones, vientos en

todas las direcciones, mostrando un ICA bajo en medición (aproximadamente un 70%

menores a 30 unidades).

Para el clúster_3 se muestran temperaturas entre 30 y 35°C y velocidades del viento en

su mayoría considerada como suaves y leves, además el 74.5% de los valores de la

dirección del viento van hacia el suroeste y oeste con precipitaciones cercanas a un 3.5%

superiores a 10mm de agua. Con estos atributos los valores de ICA encontrados en el

agrupamiento son en su gran mayoría menores a 50 unidades (un 97%).

Para el clúster_4 se observa casi totalmente temperaturas entre 25 y 30°C, encontrando

precipitaciones en un 7.8%, siendo el grupo con mayor número de lluvias encontradas.

Bajo esta agrupación el ICA presentado se encuentra en un 20.9% con valores

superiores a 20 unidades, además se observa que con precipitaciones presentadas el

ICA disminuye a valores inferiores a 10 y a 5 unidades en un 55% y en un 33%,

respectivamente.

Después del procedimiento de agrupamiento se observa que el modelo planteado

produce una descripción de los datos en términos de grupos de datos con fuertes

similitudes internas, observándose tendencias en el agrupamiento.

CAPÍTULO 7. MODELAMIENTO PREDICTIVO

En esta fase de la investigación se selecciona una técnica de modelado predictivo para

estimar el índice de calidad del aire en Valledupar, usando técnicas de aprendizaje

computacional, a partir de la base de datos de meteorología ya preparados en el

CAPÍTULO 5.

Dentro de la estimación se tienen en cuentan dos visiones diferentes para obtener un

modelo, uno es analizar el modelo como una regresión y la otra visión es analizar los

datos como una serie de tiempo.

7.1 Selección de la Técnica de Modelado

Una de las primeras actividades antes de continuar es clarificar la tarea predictiva de

minería de datos que se debe efectuar, y dentro de ella, escoger cual es la indicada para

nuestro problema. Después de escoger el tipo de tarea, decidir cuál de los diferentes

métodos se ajustan a los requerimientos exigidos en la investigación. Terminando con

una evaluación de las técnica usadas.

Las bases de datos son ricas en información oculta que pueden ser utilizadas para la

toma de decisiones inteligentes. La clasificación y predicción son dos formas de análisis

de datos que se pueden utilizar para extraer los modelos que describen las clases de los

datos o para predecir las tendencias futuras de datos. Mientras que clasificación predice

categorias, los modelos de predicción hallan funciones continuas [55]. Esta investigación

se enmarca dentro de una tarea predictiva de regresión. El objetivo es encontrar una

función que representa la correspondencia existente para cada valor de salida, con

respecto a la entrada.

Entre los métodos predictivos más comunes se encuentra la regresión lineal, la

logarítmica (no lineal) y otros modelos basados en regresión [55]; dentro de estas tareas

predictivas de regresión, se encuentran las técnicas algebraicas y estadísticas. Esta es la


parte de la estadística que trata con la investigación de la relación de dos o más variables

relacionadas de un modo no determinístico [65]. Otra técnica presente son las basadas

en redes neuronales artificiales (ANN), las cuales están inspiradas por Redes Neuronales

Biológicas.

La investigación en primera medida busca estimar el valor de índice de calidad de aire de

uno de los contaminantes, ya sea PM10 o CO, a partir de entradas de variables

meteorológicas, como temperatura, precipitación, presión atmosférica, etc. Usando

modelos y patrones que se expresan mediante fórmulas algebraicas, funciones lineales y

no lineales, etc. Para esta etapa se usarán las técnicas regresión lineal y las redes

neuronales artificiales, comparando y evaluando los resultados de estos.

Luego se analiza la base de datos para estimar el índice de calidad de aire de uno de los

contaminantes usando un modelo de serie de tiempo. Una serie de tiempo es una

recolección de datos para una variable o conjunto de variables durante varios periodos,

cuyo propósito es proyectar los valores futuros de la variable (dependiente) a partir de

valores anteriores (independiente) [66]. Los valores se miden en intervalos de tiempo

iguales (por ejemplo, cada hora, diario, semanal) [55]. Para esta etapa también se usarán

las técnicas regresión lineal y las redes neuronales artificiales, para observar el

comportamiento de estimación futura del día siguiente a partir de días anteriores (desde

el día de hoy hasta siete días anteriores).

La regresión lineal es una técnica a considerar, debido a la naturaleza de los datos

numéricos. Este es un método básico estadístico. La idea es expresar el ICA como una

combinación lineal de los atributos de entrada, con pesos predeterminados [67]. La

regresión lineal múltiple es una generalización de la regresión lineal simple para más de

una variable independiente, ajustando los parámetros del modelo a las entradas elegidas

[68]. La respuesta estimada se obtiene de la ecuación de regresión múltiple:

7-1

𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 … 𝛽𝑘𝑥𝑘 [69]

con k variables independientes x1, x2… xk , y los pesos (coeficientes) son las betas,

cuyos valores se obtienen con el uso del método de mínimos cuadrados [69].

Capítulo 7 59

La idea de las neuronas como componentes estructurales del cerebro fue presentado por

Ramón Cajal en 1911[14]. McCulloch & Pitts (1943) definieron la neurona como un

dispositivo binario con varias entradas y salidas[70]. Las ANN aprenden un modelo

mediante el entrenamiento de los pesos que conectan a un conjunto de nodos o

neuronas [41]. Las ANN son sistemas, hardware o software, de procesamiento que

copian esquemáticamente la estructura neuronal del cerebro para tratar de producir sus

capacidades [71]; son un tipo especial de modelo matemático inspirado en la estructura

de las redes neuronales biológicas y en cómo procesan la información. Son capaces de

aprender de la experiencia a partir de las señales o datos provenientes del exterior,

dentro de un marco de computación paralela y distribuida, fácilmente implementable en

dispositivos hardware específicos [72].

El modelo estándar de una red neuronal, consiste en:

Un conjunto de entradas xj(t) y pesos sinápticos wij.

Una regla de propagación ℎ𝑖(𝑡) = ∑ 𝑤𝑖𝑗𝑥𝑗 es la más común.

Una función de activación 𝑦𝑖(𝑡) = 𝑓𝑖(ℎ𝑖(𝑡)), que representa simultáneamente la

salida de la neurona y su estado de activación.

Con frecuencia se añade al conjunto de pesos de la neurona un parámetro

adicional bi.

En conclusión, el modelo de neurona estándar está representado por la ecuación 7-2:

7-2

𝑦𝑖(𝑡) = 𝑓𝑖 (∑ 𝑤𝑖𝑗𝑥𝑗 − 𝑏𝑖𝑗

)

En cada red neuronal existe una capa de entrada que recibe la información y una capa

de salida encargada de trasmitir la información procesada al exterior y puede haber una o

varias capas ocultas encargadas de establecer relaciones complejas. Las conexiones

entre las neuronas indican la dirección y el sentido en el que fluye la información [73].

El perceptrón simple se inspira en las primeras etapas del procesamiento de los sistemas

sensoriales de los animales, en los cuales la información va atravesando sucesivas

capas de neuronas, que realizan el procesamiento progresivo de más alto nivel. Es un

modelo de una sola dirección, compuesto por dos capas de neuronas. Si añadimos


capas intermedias, obtendremos un perceptrón multicapas (MLP). Esta arquitectura suele

entrenarse mediante el algoritmo de retropropagación de errores (BP19),

Las entradas y salidas pueden ser binarias o continuas, dependiendo del modelo y

aplicación, para este caso continuo. El popular algoritmo BP se aplica a este tipo de

modelos con datos continuos, y es el modelo neuronal más empleado en las aplicaciones

prácticas [71]. Este modelo entra en la amplia clase de redes unidireccionales (no

presenta bucles cerrados), organizadas en capas (feed-forward) y con aprendizaje

supervisado, utilizados para clasificar patrones y estimar funciones [71]. En el

aprendizaje supervisado se presenta a la red un conjunto de patrones, con la salida

deseada, e iterativamente ésta ajusta los pesos y los bías hasta que su salida tienda a

ser la deseada, utilizando para ello información detallada del error que comete en cada

paso [71], [73].

7.2 Modelo de predicción

Para construir el modelo se analiza independientemente los modelos de estimación a

partir de registros meteorológicos y de estimación por serie de tiempo.

Se decide dividir el conjunto de datos en dos, uno para el contaminante PM10 y otro para

el contaminante CO, y en cada uno de ellos se analiza el modelo tanto para estimación

usando datos horarios, como para serie de tiempo usando formatos diarios.

Tabla 7-1: Número de Registros de CO y PM10 para los Modelos

CONTAMINANTE MODELADO ESTIMACIÓN

(Número de Registros Horarios)

MODELADO DE SERIE DE TIEMPO (Número de registros

diarios)

CO 18832 936

PM10 5760 201

El número de registros que se tiene para el contaminante PM10 para el modelado de

estimación horario es de 5760 y para modelado de serie de tiempo en formato diario es

de 201. Para el caso del contaminante de CO se tienen 18832 registros para el modelado

19 Del inglés Backpropagation

Capítulo 7 61

de estimación horario y para el modelado de serie de tiempo se tienen presentes 936

registros, como se evidencia en la Tabla 7-1.

7.2.1 Modelo de estimación de ICA por parámetros meteorológicos

Para el modelo de estimación de contaminantes, ya sea CO o PM10, se toma en

consideración la meteorología actual, para registros horarios, y con este se pronostica el

valor del ICA en la misma hora.

Los métodos a utilizar en la estimación son regresión lineal simple, múltiple y redes

neuronales artificiales.

Para las entradas de los modelos de regresión lineal y ANN su utilizaron 6

combinaciones de variables meteorológicas como se muestra en la Tabla 7-2.

Tabla 7-2: Combinaciones de entradas de los modelos de regresión

COMBINACIÓN DE ENTRADA

ENTRADA DEL MODELO

Combinación 1 TEMP

Combinación 2 TEMP – PRECI

Combinación 3 TEMP – PRECI – PRES

Combinación 4 TEMP – PRECI – PRES – HUM

Combinación 5 TEMP – PRECI – PRES – HUM - VVIEN

Combinación 6 TEMP – PRECI – PRES – HUM – VVIEN –

DVIENTO

Con cada entrada se obtiene un modelo y una estimación de ICA para el contaminante

CO y para el PM10, usando cada una de las topologías planteadas.

Regresión Lineal

En esta evaluación se procede a usar como variable a predecir el ICA horario actual

(variable dependiente), y como variables independientes los registros de los atributos de

meteorología presentes en la hora a predecir del contaminante. Primero se usa solo

como variable independiente la temperatura para estimar el ICA del contaminante,

obteniendo los resultados con este modelo; luego se procede a incluir otra entrada,

usando las diferentes combinaciones de entradas presentes en la Tabla 7-2. Al final se


debe obtener 6 modelos de regresión lineal para estimaciones de ICA para cada

contaminante.

Figura 7-1: Modelo de regresión Lineal para la estimación del ICA por regresión

Redes neuronales artificiales

Para este modelo se desarrolla una red neuronal unidireccional con aprendizaje

supervisado tipo MLP, usando en el algoritmo BP; el método de aprendizaje elegido fue

el de Levenberg-Marquardt20. Como entradas al modelo de estimación de ICA de los

contaminantes, se utiliza la meteorología presente en la hora a predecir del

contaminante. Al igual que el modelo de regresión lineal, este modelo utiliza como

entrada cada una de las diferentes combinaciones de la Tabla 7-2. Al final se debe

obtener 6 modelos de ANN con estimaciones de ICA para cada contaminante.

La primera topología de ANN implementada, utiliza una red neuronal tipo perceptrón

multicapa, como el mostrado en la Figura 7-2, la cual tiene una única neurona en la capa

de salida, cuya función de activación es la lineal (purelin); además usa una sola capa

oculta, con función de activación tansig, probando diferente número de neuronas,

comenzando con 1 neurona y aumentándolo hasta 30 neuronas.

La segunda topología de ANN, también es de tipo perceptrón multicapa, con una neurona

en la capa de salida (función purelin); posee dos capas ocultas con diferente número de

neuronas, de 1 a 30 para cada capa y funciones de activación tansig para cada una, las

entradas de meteorología son usadas al igual que el modelo anterior de ANN.

20 Es una optimización del algoritmo BP de aprendizaje supervisado, presente en la caja de herramientas de Matlab

E

N

T

R

A

D

A

TEMP

PRECI

PRES

HUM

VVIEN

DVIEN

Coeficientes 1 a 6

ICA (Pm10 o CO)

Capítulo 7 63

Figura 7-2: Topología de la red de una sola capa oculta – estimación por regresión

Figura 7-3: Topología de la red de dos capas ocultas– estimación por regresión

Con ambas topología se obtiene 6 modelos de ANN con estimaciones de ICA para cada

contaminante.

7.2.2 Modelo de estimación de ICA usando una serie de tiempo

Para los modelos de estimación de contaminantes por serie de tiempo, se usan registros

diarios de CO o PM10, además se toman en consideración solo los ICA de los 7 días

anteriores al ICA a estimar, y con este pronosticar el valor del ICA del día siguiente.

Los métodos a utilizar en la estimación son regresión lineal simple, múltiple y redes

neuronales artificiales.

E

N

T

R

A

D

A

TEMP

PRECI

PRES

HUM

VVIEN

DVIEN

IW

b1

1…6x1…30

1…30x1

a1

ICA (Pm10 o CO)

a2

p

LW

b2

1…30 x1

1x1

1x1

1 a 30 N 1 N

E

N

T

R

A

D

A

TEMP

PRECI

PRES

HUM

VVIEN

DVIEN

IW

1…6x1…30

b1

1…30x1

a1

LW1

b2

1…6x1…30

1…30x1

a3

LW2

b3

1…6x1

1x1

a2

1x1

1 a 30 N 1 a 30 N 1 N

p

ICA (Pm10 o CO)


Tabla 7-3: Combinaciones de entradas de los modelos de serie de tiempo

COMBINACIÓN DE ENTRADA

ENTRADA DEL MODELO (Días anteriores a la estimación)

Combinación 1 ICA1

Combinación 2 ICA1 – ICA2

Combinación 3 ICA1 – ICA2– ICA3

Combinación 4 ICA1 – ICA2– ICA3– ICA4

Combinación 5 ICA1 – ICA2– ICA3– ICA4 – ICA5

Combinación 6 ICA1 – ICA2– ICA3– ICA4 – ICA5– ICA6

Combinación 7 ICA1 – ICA2– ICA3– ICA4 – ICA5– ICA6–

ICA7

Figura 7-4: Modelo de regresión Lineal para la estimación del ICA por serie de tiempo

Regresión Lineal

Esta evaluación es igual al usado en la estimación por contaminantes, a diferencia de las

entradas utilizadas para tal fin en donde las variables independientes son los registros de

los atributos del ICA de los siete días anteriores al día a estimar. Comenzando con un día

y luego añadiendo días a las entradas, hasta un número máximo de siete días anteriores

a la estimación. Las combinaciones de entradas posibles son presentadas en la Tabla

7-3. Al final se obtienen 7 modelos de regresión lineal con estimaciones de ICA para

cada contaminante. Este modelo es presentado en la Figura 7-4 donde se observan las

diferentes combinaciones de entradas y sus respetivos coeficientes.

E

N

T

R

A

D

A

ICA1

ICA2

ICA3

ICA4

ICA5

ICA6

ICA7

Coeficientes de regresión

1 a 7

ICA (Pm10 o CO)

Capítulo 7 65


Al igual que los modelos usados en la estimación por parámetros meteorológicos, la red

planteada para serie de tiempo posee la misma topología, diferenciándose en el tipo de

entrada y en los registros utilizados para el aprendizaje y entrenamiento. Como entradas

al modelo de estimación de ICA por serie de tiempo se usa los registros de los atributos

del ICA de los siete días anteriores al día a estimar; en la Tabla 7-3 se muestran las

diferentes combinaciones de entrada a la red.

Figura 7-5: Topología de la red de una sola capa oculta – serie de tiempo

Figura 7-6: Topología de la red de dos capas ocultas–Serie de tiempo

En la Figura 7-5 y la Figura 7-6 se muestran las dos topologías utilizadas en la

estimación por serie de tiempo con entradas para valores diarios.

Al final se debe obtener 7 modelos de ANN con estimaciones de ICA para cada

contaminante.

E

N

T

R

A

D

A

ICA1

ICA2

ICA3

ICA4

ICA5

ICA6

ICA7

IW

b1

1…6x1…30

1…30x1

a1

ICA (Pm10 o CO)

a2

p

LW

b2

1…30 x1

1x1

1x1

E

N

T

R

A

D

A

ICA1

ICA2

ICA3

ICA4

ICA5

ICA6

ICA7

IW

1…6x1…30

b1

1…30x1

a1

LW1

b2

1…6x1…30

1…30x1

a3

LW2

b3

1…6x1

1x1

a2

1x1

1 a 30 N 1 a 30 N 1 N

p

ICA (Pm10 o CO)


7.3 Validación Experimental

Después de la selección de las técnicas de modelado y la construcción del modelo se

procede a describir la forma de cómo efectuar el entrenamiento, la validación y la

evaluación de los modelos; se explica la forma de cómo se divide el conjunto de datos

disponible, en datos de entrenamiento, en el conjunto de datos de validación y en el

conjunto de datos de prueba.

Para la evaluación de las modelos tanto de estimación por registros de contaminantes

como para el modelo por serie de tiempo, los datos muéstrales se dividieron en tres

conjuntos:

Entrenamiento: este conjunto contiene los registros para entrenar todos los

modelos planteados.

Validación: se toman del conjunto de entrenamiento pero no son utilizados para

dicho entrenamiento. Con estos registros se evalúa las distintas topologías de los

modelos, en función de valores críticos como son los errores (RMSE y MAE).

Prueba: este es el conjunto de datos que no participan en el entrenamiento de los

modelos. Con estos datos se evalúa al modelo que haya tenido un desempeño

satisfactorio.

Para el caso del contaminante PM10 o CO, se procede a tomar el 90% de los registros

para entrenamiento y dentro de este, se toma un 10% para validación. Si el modelo es

validado satisfactoriamente se toma el 10% del registro restante para prueba. Esto se

hace tanto para el modelo de estimación por contaminantes como para el modelo por

serie de tiempo.

Los modelos diseñados en la estimación del ICA a partir de la meteorología y por serie

de tiempo son los de regresión lineal múltiple y redes neuronales. Son comparados,

escogiendo el modelo con menor error medio absoluto y error de la raíz media cuadrada

en los resultados de la validación, para luego ser analizados en la fase de prueba.

Para la validación de cada modelo se utilizarán dos de los indicadores estadísticos para

proporcionar una descripción numérica de la bondad de las estimaciones por variables de

Capítulo 7 67

meteorología, al igual que para los modelos de estimación en serie de tiempo. Uno de los

indicadores más comúnmente utilizados es el error de la raíz media cuadrática (RMSE21)

[23], [74]–[77], cuya ecuación se presenta a continuación:

7-3

𝑅𝑀𝑆𝐸 = √∑ (𝑌𝑖 − 𝑋𝑖)2𝑁

𝑖=1

𝑁

El RMSE es una de las medidas más utilizada en para evaluar problema de regresión; al

usar la raíz cuadrada le da las mismas dimensiones a los valores al igual que al valor

predicho en sí [67].

Otro estimador estadístico ampliamente utilizado es el error medio absoluto (MAE22) [23],

[25], [74], [77] y su expresión es:

7-4

𝑀𝐴𝐸 =|∑ 𝑌𝑖 − 𝑋𝑖

𝑁𝑖=1 |

𝑁

Donde N es el número de valores analizados. Yi es el valor pronosticado en el registro i Xi es el valor observado en el registro i.

El MAE es la media de la magnitud de los errores individuales sin tener en cuenta su

signo. Error cuadrático medio tiende a exagerar el efecto de valores atípicos; esta medida

de desempeño no tiene este efecto; todos los tamaños de error son tratados de manera

uniforme en función de su magnitud [67].

De acuerdo a estos parámetros estadísticos la escogencia de dicho modelo se basa

en tomar el que ofrezca el menor valor de MAE y RMSE, ya sea para el modelo de

estimación por serie de tiempo o para el modelo de estimación por meteorología.

21 Del inglés root mean square error 22 De inglés mean absolute error


7.3.1 Diseño experimental

Estimación por parámetros meteorológicos

Para el modelo de estimación de ICA con PM10 de valores horarios a partir de la

meteorología, se utilizan para entrenamiento el 90% de los registros, es decir 5184

registros; de estos 518 atributos son para la validación del modelo que representa el 10%

de los datos de entrenamiento. Para los modelos de estimación de ICA para CO, se

utilizan también para entrenamiento el 90% de los registros, es decir 16948 registros y de

estos 1695 atributos son para la validación del modelo. Esto puede evidenciarse en la

Tabla 7-4.

Tabla 7-4: Número de Registros Horarios para el modelo por estimación a partir de registros meteorológicos

CONTAMINANTE

MODELO DE ESTIMACIÓN A PARTIR DE LA METEOROLOGÍA (Número de Registros Horarios)

Entrenamiento Validación Prueba

CO 16948 1695 1884

PM10 5184 518 576

Estimación por serie de tiempo

Para el modelo de estimación de ICA con PM10 de valores horarios usando serie de

tiempo, se toman para entrenamiento el 90% de los registros, es decir 184 registros; de

estos 18 atributos son para la validación del modelo que representa el 10% de los datos

de entrenamiento. Para los modelos de estimación de ICA para CO, se utilizan también

para entrenamiento el 90% de los registros, es decir 842 registros y de estos 84 atributos

son para la validación del modelo. Todos estos valores son presentados en la Tabla 7-5.

7.3.2 Resultados y evaluación por parámetros meteorológicos

Regresión lineal

Dentro de esta visión se analiza el problema mediante el uso de la regresión como

estimación del ICA a partir de la meteorología del caso, en la misma hora en la que se dé

la estimación.

Se puede evidenciar en la Tabla 7-6 que para el modelo de regresión lineal con

estimación horaria de PM10 a partir de entradas meteorológicas, el menor valor de

Capítulo 7 69

RMSE en la validación ocurre cuando se usan las variables independientes

meteorológicas de entrada Temperatura, precipitación, presión atmosférica, humedad y

velocidad del viento, con un valor de 387,869. Además se observa que este mismo

modelo presenta el más bajo MAE (15,903); este modelo es el que mejor se ajusta a los

requerimientos exigidos.

La Tabla 7-7 muestra el modelo de regresión lineal con estimación horaria de CO en la

validación, cuyo modelo con el menor RMSE ocurre cuando se usan todas las variables

independientes de meteorología como entradas, con valor de 39.941; además el menor

MAE ocurre en este mismo modelo.

Tabla 7-5: Número de Registros Diarios para el modelo por serie de tiempo

CONTAMINANTE

MODELO DE ESTIMACIÓN POR SERIE DE TIEMPO (Número de Registros Diarios)

Entrenamiento Validación Prueba

CO 842 84 94

PM10 181 18 20

Tabla 7-6: Resultados de la Regresión de PM10 Horaria

Variables Independientes (Variables Predictoras de entrada)

MAE RMSE Coeficientes (Betas)

TEMP 17.5865 428,534 21,348; 15,858

TEMP - PRECI 17.5729 428,608 21,349; 15,857; -0,066

TEMP - PRECI - PRES 17.3433 423,008 30,426; 11,286; -2,549; -11,632

TEMP - PRECI - PRES – HUM 16.8043 409,861 59,530; -17,801; 5,123; -11,642; -30,12

TEMP - PRECI - PRES - HUM -VVIEN 15.9026 387,869 20,657; -3,026; -0,904; -14,449; -6,403; 28,208

TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 15.0948 387,923 30,419; -3,082; -1; -14,172; -6,506; 28,248; 0,494

Tabla 7-7: Resultados de la Regresión de CO Horaria

Variables Independientes (Variables Predictoras de entrada)


TEMP 5.1376 43,101 6,079; 0,237

TEMP - PRECI 5.129 43,029 6,016; 0,332; 8,61

TEMP - PRECI - PRES 5.053 42,395 3,313; 1,469; 8,635; 3,575

TEMP - PRECI - PRES – HUM 4.782 40,119 -9,324; 13,647; 5,757; 2,085; 13,617

TEMP - PRECI - PRES - HUM -VVIEN 4.7786 40,089 -8,605; 13,384; 5,969; 2,249; 12,831; -1,025

TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 4.761 39,941 -8,729; 12,698; 5,662; 2,706; 12,213; -0,85; 1,695


Tabla 7-8: Resultados del Índice de calidad del aire de PM10 con MLP con una capa oculta y datos normalizados horarios

Número de Neurona

Entradas MAE RMSE

15 TEMP - 13,9261 340,1411

23 TEMP - PRECI - 13,4145 345,1136

21 TEMP - PRECI - PRES 14,4324 370,5751

26 TEMP - PRECI - PRES - HUM 13,2219 316,3633

23 TEMP - PRECI - PRES - HUM -VVIEN 13,4145 320,4873

28 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 13,0924 309,9661


Con este tipo de modelo también se analiza el problema mediante el uso de la regresión

como estimación del ICA a partir de la meteorología del caso, en la misma hora en la que

se produce la estimación.

De la Tabla 7-8 se muestra que para el modelo de MLP para la estimación horaria de

ICAPM10, el de menor MAE ocurre cuando se usan las variables independientes de

meteorología de temperatura, precipitación, presión atmosférica, humedad y velocidad

del viento, como entradas en la regresión (fila en negrilla) con un valor de 13,0924.

Además se observa que este mismo modelo presente el menor RMSE con un valor de

309,9661; este modelo es el que mejor se ajusta utilizando una capa oculta con 28

neuronas.

Para la estimación horaria de ICACO,Tabla 7-9, el modelo que mejor se ajusta utiliza una

capa oculta con 29 neuronas. Este presenta menor MAE cuando se usan las variables

independientes de temperatura, precipitación, presión atmosférica, humedad y velocidad

del viento, con un valor de 4,0465; al igual este modelo presenta el menor RMSE con un

valor de 33,3614.

Ahora se proceda a adicionar otra capa oculta a la red; los resultados más relevantes son

presentados en la Tabla 7-10 y en la Tabla 7-11, para cada contaminante, con las

diferentes entradas de meteorología.

Capítulo 7 71

Tabla 7-9: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta y datos normalizados horarios

Número de Neurona

Entradas MAE RMSE

21 TEMP - 4.6903 42.7330

11 TEMP - PRECI 4.6034 41.2709

23 TEMP - PRECI - PRES 4.2841 38.1469

16 TEMP - PRECI - PRES - HUM - 4.1961 37.1889

13 TEMP - PRECI - PRES - HUM -VVIEN 4.1679 34.728

29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 4,0465 33,3614

Tabla 7-10: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas ocultas y datos normalizados horarios

Capa oculta 1

Capa oculta 2

Entradas MAE RMSE

15 3 TEMP 13,8393 342,4143

12 4 TEMP - PRECI 13,8639 338,7272

10 16 TEMP - PRECI - PRES 15,2946 401,9950

5 23 TEMP - PRECI - PRES - HUM 14,9438 396,4984

9 13 TEMP - PRECI - PRES - HUM -VVIEN 13,1627 313,9545

16 29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 12,5311 294,2835

Tabla 7-11: Resultados del Índice de calidad del aire de CO con MLP con dos capas ocultas y datos normalizados horarios

Capa oculta 1

Capa oculta 2

Entradas MAE RMSE

5 25 TEMP 4,6916 42,7239

8 7 TEMP - PRECI 4,1588 42,708

10 13 TEMP - PRECI - PRES 4,3114 37,8756

10 14 TEMP - PRECI - PRES - HUM 4,57586 41,21687

11 26 TEMP - PRECI - PRES - HUM -VVIEN 4,0466 33,1627

15 29 TEMP - PRECI - PRES - HUM -VVIEN - DVIEN 3,932864 31,85363

De la Tabla 7-10 se puede evidenciar que para el modelo de estimación horaria de

ICAPM10, el de menor MAE ocurre cuando se usan todas las variables independientes

de meteorología como son las temperatura, precipitación, presión atmosférica, humedad,

velocidad del viento y dirección del viento, como entradas en la regresión, con un valor

de 12,5311. Además se observa que este modelo presenta un RMSE de 294,2835: este

modelo se ajusta eficientemente, utilizando en la primera capa oculta 16 neuronas y en la

segunda capa oculta 29 neuronas.


En la Tabla 7-11 se muestra el modelo para la estimación horaria de ICACO; en esta el

menor MAE ocurre cuando las entradas son todas las variables independientes de

meteorología, con un valor de 3,9329. También se observa que este modelo presenta un

RMSE de 31,854.

Evaluación de resultados con parámetros meteorológicos

En primera instancia se toma los modelos ejecutados en el proceso de estimación y se

prueban con datos que no han sido utilizados en los entrenamientos previos.

En la Figura 7-7 y Figura 7-8 se observan los modelos de estimación con salida

ICAPM10 e ICACO de la regresión lineal con los menores errores obtenido en la

validación; puede verse una baja relación de las variables independientes con la

estimación. Estos modelos no son tomados para la etapa de desarrollo.

Los modelos de ANN que presenta menores MAE’s son los escogidos para la etapa de

evaluación y prueba; para nuestro caso el modelo de ANN con 16 neuronas en su

primera capa oculta y 29 neuronas en la segunda capa oculta, usando como variable

dependiente el ICAPM10 y el modelo ANN con 15 neuronas en su primera capa oculta y

29 neuronas en la segunda capa oculta y variable dependiente el ICACO, presentan los

errores más bajos en la etapa de validación.

Figura 7-7: Representación data set de Prueba Vs Estimación ICAPM10 con Regresión Lineal

0

5

10

15

20

25

30

35

40

45

50

1

14

27

40

53

66

79

92

105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

300

313

326

339

352

365

378

391

404

417

430

443

456

469

482

495

508

521

534

547

560

573

ICA

PM

10

MuestrasTarget ICAPM10-H Estimación ICAPM10-H

Capítulo 7 73

Tomando ahora los dos modelos de ANN tanto de ICAPM10 como de ICACO y

entrenándolos nuevamente 30 veces, haciendo pequeñas modificaciones en sus

parámetros de entrenamiento, se observa cómo es el comportamiento de los errores

usando el set de datos de prueba, se escoge el entrenamiento con menores errores. De

los resultados de la ANN con salida ICAPM10 se obtiene un MAE de 10,19, aunque el

RMSE es considerable para una estimación (165,04). El MAE para la configuración de la

ANN con salida ICACO, se mantiene con un valor de 4,427, muy cerca del valor del MAE

en la validación (3,93). Del mismo modo para el RMSE se obtuvo un valor de 27,26 y en

la validación de la misma topología un valor de 31,85. En la Figura 7-9 se puede observar

la respuesta del modelo de estimación con salida ICAPM10 con los errores más bajos

obtenidos en la prueba contra los datos de prueba (576 atributos). A partir de esta

observación no se implementa este modelo ya que es poco ajustable a los parámetros,

debido a los valores de error obtenidos. La respuesta del modelo de estimación con

salida ICACO con los errores más bajos obtenidos en la prueba contra los datos de

prueba (1883 atributos) puede observarse en la Figura 7-10. A partir de esta se

implementan estos dos modelos ya que su respuesta a la estimación se ajusta al valor

real de variable, además presenta valores de error bajos.

Figura 7-8: Representación data set de Prueba Vs Estimación ICACO con Regresión Lineal

0

5

10

15

20

25

1

14

27

40

53

66

79

92

105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

300

313

326

339

352

365

378

391

404

417

430

443

456

469

482

495

508

521

534

547

560

573

ICA

CO

MuestrasTarget ICACO-H Estimación ICACO-H


Tabla 7-12: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación a partir de la meteorología, con regresión lineal y con ANN

Evaluación Regresión Lineal ANN

PM10 CO PM10 CO

MAE 19.578 14,168 10,19 4,045

RMSE 387,87 39,94 165,05 27,26

Figura 7-9: Representación data set de Prueba Vs Estimación ICAPM10 con ANN

Figura 7-10: Representación data set de Prueba Vs Estimación ICACO con ANN

0

5

10

15

20

25

30

35

40

45

50

112 23 34 45 56 67 78 89

100

111

122

133

144

155

166

177

188

199

210

221

232

243

254

265

276

287

298

309

320

331

342

353

364

375

386

397

408

419

430

441

452

463

474

485

496

507

518

529

540

551

562

573

ICA

PM

10

MuestrasTarget ICAPM10 - H Estimación ICAPM10 - H

0

5

10

15

20

25

30

35

14

79

31

39

18

52

31

27

73

23

36

94

15

46

15

07

55

35

99

64

56

91

73

77

83

82

98

75

92

19

67

10

13

10

59

11

05

11

51

11

97

12

43

12

89

13

35

13

81

14

27

14

73

15

19

15

65

ICA

CO

MuestrasTarget ICACO - H Estimación ICACO - H

Capítulo 7 75

La Tabla 7-12 muestra la comparación de los modelos de estimación a partir de la

meteorología usando regresión lineal y ANN, en donde se evidencia que los modelos con

ANN ofrecen un mejor desempeño.

7.3.3 Resultados y evaluación por serie de tiempo

En esta etapa se analiza el problema de acuerdo a una serie de tiempo, estimando el

valor del contaminante del día siguiente a partir de valores de días anteriores.

De este modo se procede a desarrollar este modelo usando en primera medida la

regresión lineal y finalmente con redes neuronales.

Regresión Lineal

Para este modelo se estima el contaminante del día posterior a partir de variables

independientes de entradas (contaminantes de días anteriores), tanto para ICA de CO

como ICA de PM10, desde el día anterior hasta siete días anteriores.

Tabla 7-13: Resultados de la Regresión de PM10 Diario

Variables Independientes (Variables Predictoras)


1 día anterior 12,618 153,616 6,542; 96,087

2 días anteriores 11,978 147,887 5,381; 75,529; 22,75

3 días anteriores 10,602 130,899 3,3785; 69,865; -52,74; 37,788

4 días anteriores 10,49 129,51 3,367; 63,865; -5,113; 31; 13,597

5 días anteriores 10.339 127,644 2,905; 61,093; -10,125; 30,57; 7,613; 15,456

6 días anteriores 10,329 127,527 2,543; 59,376; -10,348; 27,804; 8,314; 12,013; 8,383

7 días anteriores 10,316 127,365 2,81; 60,44; -9,882; 28,944; 9,129; 11,379; 12,35; -7,91

Para el modelo de regresión lineal con estimación horaria de PM10, Tabla 7-13, el de

menor RMSE en la validación ocurre cuando se usan los valores del contaminante

ICAPM10 de siete días anteriores al de la estimación como entradas en la regresión con

un valor de 127,365. Además se observa que este mismo modelo presente un MAE de

31,316.

Los resultados de la validación para el modelo de estimación horaria de CO, son

presentados en la Tabla 7-14, donde el menor valor de RMSE ocurre cuando se usan los

valores del contaminante ICACO de siete días anteriores al de la estimación, como

entradas en la regresión (fila en negrilla) con un valor de 43,916 y un MAE de 5,230.


Estos dos modelos son los del más óptimo ajuste alcanzado.

Tabla 7-14: Resultados de la Regresión de CO Diario

Variables Independientes (Variables Predictoras)


1 día anterior 5,915 49,644 4,255; 30,178

2 días anteriores 5,917 49,683 3,183; 29,682; 0,825

3 días anteriores 5,6876 47,755 3,332; 29,526; -4,969; 9,832

4 días anteriores 5,635 47,321 2,989; 28522; -4,239; 6,907; 4,959

5 días anteriores 5,535 46,471 2,567; 27,885; -5,407; 7,518; 1,114; 6,764

6 días anteriores 5,336 44,807 2,067; 26,617; -5,592; 6,093; 2,123; 1,538; 9,401

7 días anteriores 5,230 43,916 1,764; 25,294; -5,785; 5,778; 1,269; 2,265; 5,672; 7,076


El objetivo principal en el estudio de series temporales con redes neuronales es construir

una red neuronal que permita predecir con el menor error posible, al menos, un dato

futuro de la serie.

Tabla 7-15: Resultados del Índice de calidad del aire de PM10 con MLP con una capa oculta y datos diarios

Número de Neurona

Entradas (Días anteriores)

MAE RMSE

28 1 día anterior 8,1522 127,2111

23 2 días anteriores 7,8659 122,1767

20 3 días anteriores 6,1194 162,6723

24 4 días anteriores 7,0911 88,845



20 7 días anteriores 6,1194 242,5446

Tabla 7-16: Resultados del Índice de calidad del aire de CO con MLP con una capa oculta y datos diarios

Número de Neurona

Entradas MAE RMSE

15 1 día anterior 4,8392 48,1721







Capítulo 7 77

De la Tabla 7-15 se puede evidenciar que para la serie de tiempo para el contaminante

ICAPM10, el modelo con menor MAE ocurre cuando se usan las variables

independientes de los contaminantes de 6 días anteriores a la estimación, con un valor

de 5,754. Además se observa que este mismo modelo presente un RMSE de 110,5156.

De igual manera para el contaminante ICACO, se encuentran los resultados visualizados

en la Tabla 7-16, en donde el de menor MAE ocurre cuando se usan las variables

independientes de los contaminantes anteriores, para 7 días, como entradas en la

regresión con un valor de 3,908. Este mismo modelo presenta un error medio cuadrático

igual a 32,7984; se llega a este ajuste utilizando una capa oculta con 28 neuronas.

Tabla 7-17: Resultados del Índice de calidad del aire de PM10 con MLP con dos capas ocultas y datos diarios

Capa oculta 1

Capa oculta 2

Entrada (Días anteriores)

MAE RMSE

11 21 1 día anterior 7,7619 117,524

12 28 2 días anteriores 7,516 114,0301

14 12 3 días anteriores 5,3368 139,4148

9 19 4 días anteriores 5,7782 64,754

14 5 5 días anteriores 5,3227 89,406

11 27 6 días anteriores 4,483578 103,865811 12 28 7 días anteriores 5,090764 104,629659

Tabla 7-18: Resultados del Índice de calidad del aire de CO con MLP con dos capas ocultas y datos diarios

Capa oculta 1

Capa oculta 2

Entrada (Días anteriores)

MAE RMSE

11 12 1 día anterior 4,5604 49,7607

11 16 2 días anteriores 4,5304 47,053

15 10 3 días anteriores 4,44633 41,6412

17 27 4 días anteriores 3,9602 35,6629

8 26 5 días anteriores 3,9086 38,2250

19 29 6 días anteriores 3,679422384 33,94509258

14 28 7 días anteriores 3,513896378 33,27733877

De la Tabla 7-16 se puede evidenciar que para el modelo de MLP de serie de tiempo de

ICAPM10, el de menor MAE ocurre cuando se usan todas las variables independientes

de entrada, los ICA de hasta 6 días anteriores, con un valor de 4,483578. Además se

observa que este modelo presenta un RMSE de 103,8658, utilizando en la primera capa

oculta 11 neuronas y en la segunda capa oculta 27 neuronas.


En la Tabla 7-18 se muestra el modelo de MLP para la serie de tiempo del ICACO; en

este modelo se visualiza el menor error absoluto, ocurre cuando se usan también todas

las variables de entrada independientes de los días anteriores a la medición, como

entradas en la regresión (fila en negrilla) con un valor de 3,5139. También se observa

que este modelo presenta un error medio cuadrático de 33,2773, aunque este no es

menor error hallado (31,9351), este modelo responde de manera satisfactoria utilizando

en la primera capa oculta 11 neuronas y en la segunda capa oculta 28 neuronas.

Evaluación de Resultados por serie de tiempo

En la Figura 7-11 y en la Figura 7-12 se observan los modelos de estimación con salida

ICAPM10 e ICACO de la regresión lineal con los menores errores obtenidos en la

validación. Este modelo no es tomado para la etapa de desarrollo, por sus elevados

errores que presentó en esta etapa, además la respuesta a la estimación no se ajusta a

la real.

Figura 7-11: Representación data set de Prueba Vs Estimación por serie de tiempo para ICAPM10 con Regresión Lineal

De los modelos de ANN son seleccionados dos. El primero usa como variable

dependiente el ICAPM10, con 11 neuronas en su primera capa oculta y en la segunda

capa oculta 27 neuronas; analizando este modelo se observa que el RMSE es alto

comparado con los datos de la variable dependiente, esto es debido al número reducido

de registros para el entrenamiento y la validación para esta variable de salida. El

segundo modelo seleccionado toma como variable dependiente el ICACO, con 11

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

21

ICA

PM

10

MuestrasTarget ICAPM10-H Estimación ICAPM10-H

Capítulo 7 79

neuronas en su primera capa oculta y 28 neuronas en la segunda capa oculta, además

presenta un MAE de 3,51 y RMSE de 33,28 cuando se usan atributos de ICACO de siete

días previos a la estimación.

Figura 7-12: Representación data set de Prueba Vs Estimación por serie de tiempo para ICACO con Regresión Lineal

Se aplica el mismo procedimiento que en la estimación, encontrando que los modelos

que presentan menores errores son los de ANN. Para cada caso, de variables

dependientes ICAPM10 e ICACO, se toma el modelo y se entrenan 30 veces con

pequeñas modificaciones en su configuración de entrenamiento, y se procede a observar

cómo es el comportamiento de los errores usando el set de datos de prueba.

Tabla 7-19: Comparación de errores en ICAPM10 e ICACO en los modelos de estimación por serie de tiempo, con regresión lineal y con ANN

Evaluación Regresión Lineal ANN

PM10 CO PM10 CO

MAE 21,186 9,30 3,19 4,47

RMSE 127,365 43,916 21,16 44,625

En la Tabla 7-19 se observa la comparación de los modelos de estimación por serie de

tiempo usando regresión lineal y ANN, en donde se evidencia que los modelos con ANN

ofrecen un mejor desempeño.

0

5

10

15

20

25

30

1 4 7

10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

ICA

CO

MuestrasTarget ICACO-H Estimación ICACO-H


En la Figura 7-13 se evidencia la respuesta de la red simulada con datos de entrada para

7 días anteriores a la ICAPM10 a estimar y el data set de prueba. En esta se observa

claramente que la estimación sigue a la señal de prueba. La respuesta de este modelo se

ajusta a la variable a estimar, por tal razón es un modelo ser utilizado en la

implementación.

Figura 7-13: Representación data set de Prueba Vs Estimación por serie de tiempo para ICAPM10 con ANN

Figura 7-14: Representación data set de Prueba Vs Estimación por serie de tiempo para ICACO con ANN

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

ICA

PM

10

MuestrasTarget ICAPM10 - D Estimación ICAPM10 - D

0

5

10

15

20

25

30

1 4 7

10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

ICA

CO

MuestrasTarget ICACO - D Estimación ICACO - D

Capítulo 7 81

Además en la Figura 7-14 se evidencia la respuesta de la misma red simulada con datos

de entrada para 7 días anteriores a la ICACO a estimar con el data set de prueba. En

esta se observa claramente que la estimación también sigue a la señal de prueba, por lo

cual el modelo es ajustable a la variable a estimar. Este modelo también es

implementado.

7.4 Desarrollo Prototipo de Software

En esta etapa se procede al desarrollo de la aplicación del estimador del ICA mediante la

utilización de un programa, a partir de los resultados obtenidos en etapa del modelo

predicción.

7.4.1 Plan de desarrollo

El estimador ICA es una aplicación dedicada a la predicción del índice de la calidad del

aire, esto lo hace gracias al sistema de redes neuronales incluido en su algoritmo

desarrollado en MATLAB.

Figura 7-15: Sistema de Estimación por Entradas Meteorológicas


En necesario hacer una interfaz amigable al usuario ya que si es complejo, posiblemente

solo quien lo desarrolló puede manejarlo, solo este podrá corregir las fallas y aprovechar

sus virtudes; por tanto, su evolución queda limitada al propio desarrollador. Es por este

motivo que dentro de esta programación se debe presentar al usuario una interfaz que

esté completamente identificada y además su manejo sea tan claro que evite posibles

errores al momento de ser utilizado, tratando en lo posible que ello no conlleve un mal

uso de la memoria física del computador que pudiera desencadenar en un retardo

innecesario o, peor aún, en un bloqueo del mismo.

La creación de una interfaz gráfica amigable y funcional que ayude y guíe al operador en

todo momento mientras utiliza el programa es uno de los requerimientos más importantes

en todo sistema, de esto dependerá en gran magnitud su uso futuro y sobre todo su

masificación.

Por medio de MATLAB se ha logrado desarrollar un programa con dos secciones y

procesos claramente identificados para calcular el ICA, a la vez que se presenta una

interfaz amigable.

Figura 7-16: Sistema de Estimación por Serie de Tiempo

La primera sección es el sistema de estimación de ICA usando como entradas variables

meteorológicas; en la Figura 7-15 se visualiza esta sección. Esta parte del programa está

conformado por 6 casillas que incluyen los parámetros necesarios para la estimación del

ICA a partir de entradas meteorológicas como son:

Temperatura.

Precipitación.

Capítulo 7 83

Presión.

Velocidad del viento.

Humedad.

Dirección del viento.

En estas casillas se digita el valor actual de cada una de las variables. Estos valores son

suministrados a través de las estaciones meteorológicas ubicadas en la ciudad de

Valledupar. Luego de digitar los valores, se presiona el botón estimar CO e

inmediatamente en la casilla con el nombre de Estimación ICA CO aparecerá el valor del

ICA estimado actual a partir de los valores de meteorología suministrados. Este valor

indica cuál sería el índice para la hora actual.

La segunda parte del programa está basado en la estimación del ICA a partir de valores

pasados del ICA obtenidos ya sea de PM10 o CO, usando el sistema de serie de tiempo.

En la Figura 7-16 se puede observar la parte del programa donde se estima el ICA por

serie de tiempo.

Este consta de 7 casillas en los cuales se digita el valor del ICA de el mismo número de

días anteriores para calcular el día siguiente, además el valor del ICA se estima basados

en dos parámetro que son el CO y el PM10, presionando el botón del cual se desea.

Su actualización se realiza mediante su propio algoritmo, editando en su script los

valores de los pesos y los umbrales de cada red neuronal.

Figura 7-17: Diagrama de Bloques Algoritmo de Estimación

En la Figura 7-17 se visualiza el diagrama de bloques del funcionamiento del software

implementado. En la primera etapa se encuentra la entrada de los datos, ya sea los datos

meteorológicos o los ICA de días anteriores; estos datos son tomados por la red neuronal

Entrada de datos (Meteorología o ICA anteriores)

Red neuronal (Procesamiento de Información)

Estimación de ICA (para PM10

o CO)


en donde estima el ICA, ya sea con PM10 o con CO. Este resultado es visualizado en

pantalla.

Este procedimiento debe realizarse de manera anual, incluyéndole a cada red nuevos

valores. La red es entrenada y actualizada usando datos de las estaciones de monitoreo

que conforman el sistema de vigilancia de calidad de aire de la ciudad de Valledupar con

ICA actuales y datos meteorológicos.


En el desarrollo de los modelos de estimación se observa que el modelo usando

regresión lineal múltiple tanto para salidas de ICAPM10 como para ICACO con entradas

meteorológicas arroja modelos muy poco ajustados a la respuesta real, además el RMSE

es considerablemente altos en ambos modelos.

Para los modelos ANN con salida de ICAPM10 y con entradas meteorológicas presenta

un valor de RMSE considerable (Tabla 7-8), que hace que el modelo no se ajuste

adecuadamente a la salida real esperada. Caso contrario ocurre con los modelos de ANN

para salida ICACO en donde los errores son bajos (Tabla 7-9), estos modelos se ajustan

a la salida real esperada, y en especial el modelo perceptrón multicapa con dos capas

ocultas y funciones de activación Tansig en ambas capas, utilizando en la primera capa

oculta 16 neuronas y en la segunda capa oculta 29 neuronas.

En el desarrollo de los modelos por serie de tiempo se observa que el modelo

implementado usando regresión lineal múltiple tanto para salidas de ICPM10 como para

ICACO arroja modelos poco ajustados; los valores del RMSE son considerablemente

altos en ambos modelos (Tabla 7-13 y Tabla 7-14).

Para los modelos de ANN de tipo multicapa con dos capas ocultas, usando como

variable dependiente el ICAPM10, presenta menor MAE y ocurre cuando se usan todas

las variables independientes de meteorología (Temperatura, precipitación, presión

atmosférica, humedad, velocidad del viento y dirección del viento). Presenta una

topología en su primera capa oculta 16 neuronas y en la segunda capa oculta 29

neuronas, con un RMSE de 21,16, respondiendo de manera satisfactoria. Para el modelo

de ANN de tipo multicapa con dos capas ocultas, usando como variable dependiente el

ICACO, con 15 neuronas en su primera capa oculta y 29 neuronas en la segunda capa

Capítulo 7 85

oculta, de la Tabla 7-11 se observa que presenta menor MAE (3,933) y un menor RMSE

(31,85) cuando se usan todas las variables independientes de meteorología

(Temperatura, precipitación, presión atmosférica, humedad, velocidad del viento y

dirección del viento).

Las redes neuronales artificiales poseen una serie de características admirables, tales

como la habilidad para procesar datos con ruido o incompletos, la alta tolerancia a fallos

que permite a la red operar satisfactoriamente con neuronas o conexiones dañadas y la

capacidad de responder en tiempo real debido a su paralelismo inherente [1].

Después de analizados los modelos y ejecutado todas la iteraciones planteadas, se

concluye que los modelos de estimación para ICACO usando ANN, modelo de serie de

Tiempo para ICAPM10 y modelo de serie de Tiempo para ICACO, también usando ANN,

son los seleccionados para la etapa de desarrollo, ya que estos se ajustaron de manera

óptima con los requerimientos exigidos y con bajos errores.

El prototipo planteado cumple con las especificaciones esperadas y además posee una

interfaz gráfica amigable y funcional intuitiva, que guía al operador en todo momento

mientras utiliza el programa; esta interfaz es uno de los requerimientos más importantes

en toda aplicación, de esto dependerá en gran magnitud su uso futuro y sobre todo su

masificación.

CAPÍTULO 8. CONCLUSIONES Y RECOMENDACIONES

8.1 Conclusiones

Se construye a cabalidad el conjunto de datos de meteorología e índice de calidad del

aire apropiado para el entrenamiento y validación de modelos descriptivos y predictivos,

a partir de la base de datos de Corpocesar. La tabla resultante posee 7 atributos como

son el ICA- estación, la temperatura promedio, la precipitación, la presión atmosférica, la

humedad relativa, la velocidad del viento y la dirección del viento con 21267 registros en

total, Los resultados obtenidos, debido a las variables seleccionadas poseen una

representatividad superior al 75%. Los procesos que se llevaron a cabo para la

consecución final del conjunto de datos a son los selección, limpieza, construcción,

integración y formateo de datos; estas actividades de la metodología CRISP-DM, son

muy específicas, y en su mayoría son usadas para el desarrollo de proyectos de

explotación de información, saltando de una fase a otra, de tareas más generales a

mucho más delimitadas.

En la base de datos de meteorología de Corpocesar se encuentra todo tipo de errores y

muchos registros faltantes, debido a los diferentes tipos de fallas, ya sea humana o del

propio equipo; se evidencia que estas fueron totalmente superadas. Identificar los errores

en algunos casos resulta complejo, debido a que no todos los valores descritos como

errores necesariamente lo eran; un ejemplo ilustrativo se evidencia en los valores de

temperaturas bajas en el día, que eran propias de horas nocturnas; estos errores

aparentes fueron convertidos a registros válidos debido a la observación de las otras

variables que se presentan en las mismas horas, en especial la precipitación, ya que esta

indica que en ese instante de tiempo se encontraba una llovizna y por consecuencia una

disminución de la temperatura. Es preciso y necesario conocer las variables en juego

para poder hacer estas afirmaciones.


Al evaluar el modelo de clustering, con el algoritmo K-Medias, se debe tomar en

consideración todo el data set disponible, incluyendo los ICA tanto para CO, como para

PM10, al igual que los atributos de meteorología (temperatura promedio, precipitación,

presión atmosférica, humedad relativa, velocidad del viento y dirección del viento), con

los registros normalizados (registros entre 0 y 1), variando el número de medias iniciales

de 2 al 10; se mide la suma de cuadrados para evaluar la calidad de la agrupación. Se

obtiene un número de clúster igual a 5. Con la ayuda de la distancia euclidiana, se evalúa

la calidad del agrupamiento, para lograr reflejar la diferencia entre los patrones de los

clústeres. Los clúster encontrados presentan una alta tendencia a agrupar patrones

equivalentes, como se evidencia en el clúster_4, donde se observa casi totalmente

temperaturas entre 25 y 30°C, encontrando precipitaciones en un 7.8%, siendo el grupo

con mayor número de lluvias encontradas. Bajo esta agrupación el ICA presentado se

encuentra en un 20.9% con valores superiores a 20 unidades, además se observa que

con precipitaciones presentadas el ICA disminuye a valores inferiores a 10 y a 5

unidades en un 55% y en un 33%, respectivamente, haciendo válida la hipótesis

preliminar planteada en el capítulo en donde el contaminante PM10 casi exclusivamente

presenta valores altos, cuando no existen precipitaciones. También es apreciable esta

concepción con el contaminante CO. De allí se establece que el modelo planteado y

diseño cumplen con las expectativas esperadas, además este produce una descripción

de los datos en términos de grupos de datos con fuertes similitudes internas,

observándose tendencias en el agrupamiento.

En el desarrollo de los modelos de predicción se observa que los diseños planteados

usando regresión lineal múltiple tanto para salidas de ICAPM10 como para ICACO, con

entradas meteorológicas responden con estimaciones muy poco ajustables a la

respuesta real, dando como resultado un RMSE y un MAE considerablemente alto en

ambos modelos. Lo mismo ocurre cuando se estima como una serie de tiempo usando la

misma técnica.

Para los modelos ANN con salida de ICAPM10 y con entradas meteorológicas presenta

un valor de RMSE considerable, aunque el MAE es bajo (10,19), que hace que el modelo

no se ajuste adecuadamente a la salida real esperada. En cambio con el modelo de ANN

para salida ICACO en donde los errores son bajos, del orden 27,26 y de 4,045 para

RMSE y MAE respectivamente, los modelos implementados se ajustan a la salida

Capítulo 7 89

esperada. El modelo con un desempeño óptimo fue el perceptrón multicapa con dos

capas ocultas y funciones de activación Tansig en ambas capas, utilizando en la primera

capa oculta 16 neuronas y en la segunda capa oculta 29 neuronas. Del mismo modo

usando ANN para estimar el ICA como serie de tiempo usando como variable

dependiente el ICAPM10, presenta menor MAE y ocurre cuando se usan todas las

variables independientes de meteorología, con una topología en su primera capa oculta

16 neuronas y en la segunda capa oculta 29 neuronas; esta presenta un RMSE de 21,16,

respondiendo de manera satisfactoria. Para el modelo ANN, usando como entrada el

ICACO, con 15 neuronas en su primera capa oculta y 29 neuronas en la segunda capa

oculta, presenta menor MAE (3,933) y un menor RMSE (31,85) cuando se usan todas las

variables independientes de meteorología.

Después de analizados los modelos y ejecutado todas la iteraciones planteadas, se

concluye que los modelos de estimación para ICACO usando ANN, modelo de serie de

Tiempo para ICAPM10 y modelo de serie de Tiempo para ICACO, también usando ANN,

son los seleccionados para la etapa de desarrollo, ya que estos se ajustaron de manera

óptima con los requerimientos exigidos y con bajos errores.

Después de desarrollar el modelo por serie de tiempo usando ANN, se proceda a

adicionar más días en la entrada, es decir hasta 12 días anteriores a la estimación; para

observar si mejora la estimación. Se evidencia que en ambos modelos, aunque se le

incluyan más días a la estimación, el MAE no mejora considerablemente, por tal motivo

no se hace necesario incluir más entradas al modelo.

El prototipo planteado cumple con las especificaciones esperadas y además posee una

interfaz gráfica amigable y funcional e intuitiva, que guía al operador en todo momento

mientras utiliza el programa; esta interfaz es uno de los requerimientos más importantes

en toda aplicación, de esto dependerá en gran magnitud su uso futuro y sobre todo su

masificación.

8.2 Recomendaciones

Se desarrolla un estudio conmensurado de estimación de calidad de aire en una zona de

mucha influencia a los contaminantes PM10 y CO propensa a desarrollar problemas en la

salud pública debido a la explotación minera presente en el departamento del Cesar.


Este estudio puede ser utilizado como base para la adopción de múltiples decisiones, por

parte de los entes reguladores, en el ámbito de salud pública, gestión del riesgo,

agricultura, así como el futuro impacto ambiental de los contaminantes en cualquier

región, conociendo de ante mano su comportamiento.

Para trabajos futuros con el prototipo para estimar el ICA, es necesario actualizar los

pesos y los bias de todos los modelos de las ANN. Se recomienda cada año para tener

un entrenamiento de valores óptimos desde el punto de vista de los valores estacionales

del data set usado.

A. Anexo: Características de los Programas Utilizados

MATLAB

MATLAB es un lenguaje de alto nivel, con entorno interactivo utilizado por millones de

ingenieros y científicos en todo el mundo. Le permite explorar y visualizar ideas, así como

colaborar interdisciplinarmente en procesamiento de señales e imagen, comunicaciones,

sistemas de control y finanzas computacionales23. MATLAB es una abreviatura de "matriz

laboratorio". Mientras que otros lenguajes de programación trabajan generalmente con

los números de uno en uno, MATLAB opera con matrices y vectores al tiempo. Mediante

GUIDE (entorno de desarrollo de interfaces gráficas de usuario), es posible crear, diseñar

y editar interfaces gráficas de usuario. Se pueden incluir controles habituales como

cuadros de lista, menús desplegables y botones, además de gráficos de MATLAB.

SPSS

Es un software que ofrece una solución completa y flexible en cuanto a la gestión de

análisis estadístico y análisis de datos. Este puede adquirir datos y utilizarlos para

generar informes tabulados; gráficos y diagramas de distribuciones; tendencias; y llevar a

cabo análisis estadístico complejo.

Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent; a partir de

1975 corresponde a SPSS Inc, y en el año 2009 se anunció la compra del mismo por

parte de IBM.

Dicho software se encuentra disponible para varias plataformas, ya sea Windows,

Macintosh o UNIX.

RAPIDMINER

RapidMiner es una plataforma de análisis de código libre para ingresar datos,

organizarlos, y crear modelos de predicción y descripción. Ofrece un entorno integrado

de aprendizaje automático para la minería de datos, utilizado para la investigación,

23 http://www.mathworks.com/products/matlab/ revisado marzo 2015.

http://www.mathworks.com/products/matlab/


formación, creación rápida de prototipos y desarrollo de aplicaciones; incluyendo los

resultados de la visualización, validación y optimización.

Este software fue creado en el año 2001 por Ralf Klinkenberg, Ingo mierswa y Simon

Fischer en la Unidad de Inteligencia Artificial de la Universidad Técnica de Dortmund.

RapidMiner es distribuido bajo licencia AGPL y está en sitio web SourceForge desde el

2004.

MYSQL

Es un lenguaje de consulta estructurado de base de datos de código abierto, desarrollado

por IBM en 1974 por el Donald D. Chamberlin. Es capaz de manejar álgebra y el cálculo

relacional por medio de consultas con el fin de recuperar de forma sencilla información

dentro de las bases de datos, al igual hacer cambios en ellas. Para realizar las consultas

se necesita de un módulo administrador de base de datos, como lo es la herramienta

gráfica SQL Yog, la cual es fácil de utilizar, compacta y muy rápida.

B. Anexo: Consultas Base de Datos

A continuación se muestran las consultas desarrolladas en MySQL en las base de datos

de la Corpocesar, montada sobre el administrador MySQLYog Entreprise.

A partir de estas consultas se obtuvo el data set utilizado para la investigación. La base

de datos es manejada por Corpocesar y administrada por el grupo de Investigación de

ingeniería Civil de la Universidad Industrial de Santander, Geomatica, cuyo director es el

doctor Hernán Porras.

/*CONSULTA PARA EXTRAER DATOS CO OCTOHORARIOS EQUIPO AUTOMÁTICO*/

SELECT* FROM equipos_automaticos WHERE variable= 'CO8H' AND FECHA BETWEEN '2009-01-01' and

'2012-12-31' group by fecha, hora INTO OUTFILE 'D:\CONSULTA1_CO8H.CSV';

/*CONSULTA PARA EXTRAER DATOS PM10 HORARIOS EQUIPO AUTOMÁTICO*/

SELECT* FROM equipos_automaticos WHERE variable= 'PM10' AND FECHA BETWEEN '2009-01-01' and

'2012-12-31' group by fecha, hora INTO OUTFILE 'D:\CONSULTA2_PM10H.CSV';

/*CONSULTA PARA EXTRAER DATOS METEOROLÓGICOS HORARIOS*/

SELECT* FROM datos_meteorologia WHERE FECHA BETWEEN '2009-01-01' and '2012-12-31' group by

fecha, hora, COD_PRECIPITACION into outfile 'D:\CONSULTA3_METEOH.CSV';

/*CONSULTA PARA EXTRAER DATOS PM10 EQUIPOS MANUALES DIARIOS*/

SELECT* FROM datos_zm WHERE FECHA_INICIO BETWEEN '2009-01-01' and '2012-12-31' group by

FECHA_INICIO into outfile 'D:\CONSULTA4_PM10M.CSV';

C. Anexo: Verificación de Datos

CALIDAD DE LOS DATOS ENCONTRADOS EN LOS

CONTAMINANTES

Campo Revisión Cantidad

encontrada Descripción Posibles Causa Soluciones

CO

Auto

Faltantes 9731

Datos que no fueron reportados en la base de datos. Estos aparecen como espacios en blanco en la base de datos (null)

Fallas de energía

Fallas en la medición

Mantenimiento del equipo programado

Mantenimiento del equipo no programado

Calibración

Datos irremplazables; deben ser suprimidos

Datos Nulos 8

Datos que se muestran con valor igual a cero.


Falla humana al ser incluido en la base de datos.


Datos

atípicos 5

Son datos superiores al máximo de medida (datos superiores a 20 mg/m3) Son también datos inferiores a cero




PM10

Auto

Faltantes 12048


Fallas de energía




Daño del equipo


Datos Nulos 1245

Datos que se muestran con valor igual a cero. En la realidad no existe un dato de material particulado igual a cero

Fallas de energía




Datos

atípicos 464

Son datos superiores al máximo de medida horaria del equipo (datos superiores a 100 µg/m3) Son también datos inferiores a cero. En al ambiente no existe un muestreo de material particulado negativo


Daño del equipo




PM10

Manual

Faltantes 58


Fallas de energía





Datos Nulos 0 Datos que se muestran con valor igual a cero.

- -

Datos

atípicos 2

Son datos superiores al máximo de medida horaria del equipo (datos superiores a 100 µg/m3) Son también datos inferiores a cero. En al ambiente no existe un muestreo de material particulado negativo


Daño del equipo


CALIDAD DE LOS DATOS ENCONTRADOS EN LA

METEOROLOGÍA

Campo Revisión Cantidad

encontrada Descripción Posibles Causa

Posibles soluciones

Temperatura Horaria

Faltantes 2847


Fallas de energía




Promedio horario en la misma hora en el mes

Datos iguales a cero

2

Datos que se muestran con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero



Datos atípicos

28

Son datos superiores al máximo nivel medido de temperatura medido en el atributo Temperatura Máxima Horaria (datos superiores a 45°C) Son datos inferiores al mínimo nivel medido de temperatura medido en el atributo Temperatura Mínima Horaria (datos inferiores a 20°C)



Temperatura Máxima horaria

Faltantes 14135


Fallas de energía




Daño del equipo

Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica. Este atributo debe ser

Datos 2 Datos que se muestran Fallas de energía Promedio horario

Anexo C: Verificación de Datos 97

iguales a cero

con valor igual a cero. En la región de monitoreo no existen temperatura iguales a cero


en la misma hora en el mes Cruce con otra base de datos meteorológica

Datos atípicos

0 - - -

Temperatura Mínima horaria

Faltantes 14135


Fallas de energía




Daño del equipo

Promedio horario en la misma hora en el mes. Cruce con otra base de datos meteorológica


2


Fallas de energía



Datos atípicos

13

Estos valores fueron

tomados como atípicos

debido a que eran

temperaturas muy bajas,

propias de climas fríos,

estos eran inferiores de

15°C.



Humedad Relativa

Faltantes 9278


Fallas de energía






2

Datos que se muestran con valor igual a cero. En la región de monitoreo es muy improbable humedades iguales a cero

Fallas de energía



Datos atípicos

0 - - -

Punto de Rocío

Faltantes 14224


Fallas de energía




Sobre pasa mas del 60% de datos perdidos, por lo cual no serán tomados en cuenta Datos

Nulos 2


Fallas de energía


Datos atípicos

0 - -


Faltantes 7688

Datos que no fueron reportados en la base de datos.

Fallas de energía


Promedio horario en la misma hora en el mes.


Estos aparecen como espacios en blanco en la base de datos (null)



Cruce con otra base de datos meteorológica


2

Datos que se muestran con valor igual a cero. En la región de monitoreo es muy improbable vientos con muestreo horarios iguales a cero

Fallas de energía



Datos fuera de la unidad base

4350

Son datos incluidos en la

base de datos en

unidades de diferentes a

la unida base

Inclusión de datos a la base de datos, falla humana

Pasar los datos escritos en km/h a la unidad base de m/s

Datos atípicos

0 - - -


Faltantes 8525


Fallas de energía






0

Datos que se muestran con valor igual a cero. Los datos reportados son valores numéricos de 0 a 359.

Fallas de energía



Datos fuera de la unidad base

1097

Son datos incluidos en la

base de datos en

unidades de diferentes a

la unida base

Inclusión de datos a la base de datos, falla humana

Pasar los datos escritos en tipo de Letra a la unidad base de grados

Datos atípicos

0 - -


Faltantes 14135


Fallas de energía






2

Temperaturas que se muestran con valor igual a cero y no son propias de climas cálidos.

Fallas de energía



Datos atípicos

0 - - -

Índice de Calor

Faltantes 14224

Datos que no fueron reportados en la base de datos. Estos aparecen como

espacios en blanco en la

base de datos (null)

Fallas de energía




Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta

Datos 2 Temperaturas que se Fallas de energía

Anexo C: Verificación de Datos 99

iguales a cero

muestran con valor igual a

cero y no son propias de

climas cálidos.


Datos atípicos

0 -

Índice de THW

Faltantes 14224




Fallas de energía




Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta Datos

iguales a cero

2

Temperaturas que se

muestran con valor igual a

cero y no son propias de

climas cálidos.

Fallas de energía


Datos atípicos

0 - -

Presión Atmosférica

Faltantes 1210




Fallas de energía






2




Fallas de energía



Datos atípicos

0 - - -

Precipitación

Faltantes 1786




Fallas de energía




Cruce con otra base de datos meteorológica, o remplazados por 0


2




Fallas de energía



Datos atípicos

12

Muestra acumulaciones muy altas, comparables regiones muy lluviosa (valores superiores a 60mm en una hora)

Fallas en la medición Cruce con otra base de datos meteorológica, o remplazados por 0

Rata de Precipitación

Faltantes 13460



Fallas de energía



Mantenimiento del



base de datos (null) equipo no programado


2

Estos datos fueron

reportados como valores

con décimas y el equipo

no monitorea este atributo

con decimales

Fallas humana



Datos atípicos

12

Muestra velocidades de precipitación muy altas, comparables con climas fríos y templados.

Fallas en la medición Cruce con otra base de datos meteorológica, o remplazados por 0

Radiación Solar

Faltantes 22492




Fallas de energía




Sobre pasa más del 40% de datos perdidos, por lo cual no serán tomados en cuenta para el estudio Datos

Nulos 0 - -

Datos atípicos

0 - -

Índice UV

Faltantes 28065




Fallas de energía




Sobre pasa más del 60% de datos perdidos, por lo cual no serán tomados en cuenta Datos

iguales a cero

0 - -

Datos atípicos

0 - -

Temperatura interna

Estos datos NO son tomados en cuenta debido a que representa medidas dentro del recinto donde se encontraba la consola que almacenaba los datos y no son representativos como medidas meteorológicas para el estudio

Humedad interna



D. Anexo: Gráficas De La Limpieza Del Conjunto de Datos

A continuación se muestran algunas gráficas que se usaron en la etapa de limpieza de

datos, todas realizadas sobre el software Rapid Miner.

LIMPIEZA DE DATOS ADICIONALES

a)

b)

c)

d)


e)

f)

g)

h)

i)

j)

k)

l)

Anexo D: Limpieza del Conjunto de Datos 103

m)

n)

En la siguiente tabla se evidencia las soluciones que fueron desarrolladas en todas las

fallas encontradas en los registros de las bases de datos.

SOLUCIONES EJECUTADAS A LAS FALLAS ENCONTRADAS EN

LOS REGISTROS

Atributo Falla encontrada Solución ejecutada

Temperatura

Nulos, fuera de rango o faltantes horario

Se obtiene el promedio horario de la hora perdida en el mes.

Nulos, fuera de rango o faltantes del mes

No hay datos reportados

Humedad

Relativa




Se obtiene el promedio horario de la hora perdida en el año.

Velocidad del

Viento





Dirección del

viento

Fuera de rango o faltantes. horario


Fuera de rango o faltantes del mes

Se obtiene el promedio horario de la hora perdida en el año

Se toman valores de la base de datos del IDEAM para completar los faltantes que no se pueda usar la solución anterior.

Presión

Atmosférica





Precipitación Fuera de rango o faltantes horario

Son remplazados por ceros, si el dato anterior y posterior es cero; en caso contrario será remplazado por la media entre los dos datos anterior y posterior.


Fuera de rango o faltantes mensual


Atributo Falla encontrada Solución ejecutada

Temperatura





Humedad

Relativa




Se obtiene el promedio horario de la hora perdida en el año.

Velocidad del

Viento





Dirección del

viento

Fuera de rango o faltantes. horario


Fuera de rango o faltantes del mes

Se obtiene el promedio horario de la hora perdida en el año

Se toman valores de la base de datos del IDEAM para completar los faltantes que no se pueda usar la solución anterior.

Presión

Atmosférica





Precipitación

Fuera de rango o faltantes horario

Son remplazados por ceros, si el dato anterior y posterior es cero; en caso contrario será remplazado por la media entre los dos datos anterior y posterior.

Fuera de rango o faltantes mensual


E. Anexo: Revisión de los Modelos

Para los modelos de serie de tiempo se puede identificar una acción alternativa, al

ejecutar el modelo obtenido con más días anteriores a la estimación.

Resultados de los modelos de serie de tiempo para ICACO e ICAPM10 con 12 días de entrada

Entradas MAE

ICA CO ICA PM10

12 días anteriores 2,88312616 11,9250244

11 días anteriores 2,83297355 16,0174382

10 días anteriores 2,96823277 12,651968

9 días anteriores 2,95654751 11,3353655

8 días anteriores 2,90787044 13,4790618

7 días anteriores 2,89127902 9,4921493

6 días anteriores 2,92191117 8,83506739

5 días anteriores 2,91175411 17,9603724

4 días anteriores 2,92427004 9,07061872

3 días anteriores 2,83844514 11,7813881

2 días anteriores 2,97400087 10,0604061

1 día anterior 3,33088378 11,5114614

A partir de este análisis se obtienen los resultados alternativos de la tabla anterior, en

donde se evidencia que en los modelos de serie de tiempo para ICACO e ICAPM10,

aunque se le incluyan más días anteriores a la estimación, el MAE no mejora

considerablemente, por tal motivo no se hace necesario incluir más entradas al modelo.

Bibliografía

[1] J. M. Barrón Adame, “Modelado de un Sistema de Supervisión de la calidad del aire usando técnicas de Fusión de Sensores y Redes Neuronales,” Universidad politécnica de madrid, 2010.

[2] S. V Barai, A. K. Gupta, and J. Kodali, “Air Quality Forecaster : Moving Window Based,” in Applications of Soft Computing, E. Avineri, M. Köppen, K. Dahal, Y. Sunitiyoso, and R. Roy, Eds. Kharagpur, India: Springer Berlin / Heidelberg, 2009, pp. 137–145.

[3] M. Conderación de Grupos Ecologistas, “Ecologístas en Acción,” Agosto de 2006, 2006. [Online]. Available: http://www.ecologistasenaccion.org/spip.php?article5681.

[4] OMS, “World Health Organization (WHO),” 2011. [Online]. Available: http://www.who.int/mediacentre/factsheets/fs313/en/index.html.

[5] M. Caselli, L. Trizio, G. Gennaro, and P. Ielpo, “A Simple Feedforward Neural Network for the PM10 Forecasting: Comparison with a Radial Basis Function Network and a Multivariate Linear Regression Model,” Water. Air. Soil Pollut., vol. 201, no. 1–4, pp. 365–377, Dec. 2008.

[6] M. Shekarrizfard and K. Hadad, “Wavelet transform-based artificial neural networks ( WT-ANN ) in PM 10 pollution level estimation , based on circular variables,” Environ. Sci. Pollut. Res., vol. 19, no. 1, pp. 256–268, 2012.

[7] World Health Organization - WHO, “Guías de calidad del aire de la OMS relativas al material particulado, el ozono, el dióxido de nitrógeno y el dióxido de azufre,” Ginebra1211, Suiza, 2005.

[8] Universidad Industrial de Santander - Corpocesar, “Informe De Operación Del Sistema De Vigilancia De Calidad De Aire De La Ciudad De Valledupar, Departamento Del Cesar - Anual,” Valledupar, Cesar, 2012.

[9] W.-Z. Lu and D. Wang, “Ground-level ozone prediction by support vector machine approach with a cost-sensitive classification scheme.,” Sci. Total Environ., vol. 395, no. 2–3, pp. 109–16, Jun. 2008.

[10] A. K. Paschalidou, P. A. Kassomenos, and A. Bartzokas, “A comparative study on various statistical techniques predicting ozone concentrations : implications to environmental management,” Environ. Monit. Assess., vol. 148, no. 1, pp. 277–289, 2009.

[11] AXESNET S.A.S, “Sistema de Informacion Ambiental de Colombia - SIAC,” 2012. [Online]. Available: http://www.siac.gov.co/contenido/contenido.aspx?catID=585&conID=620. [Accessed: 28-Jun-2012].

[12] World Health Organization, “Guías de calidad del aire actualización mundial - Reporte de la reunión de un grupo de trabajo en Bonn - Alemania,” Washington, D.C. 20037, 2005.

[13] W. G. Cobourn, “An enhanced PM2.5 air quality forecast model based on nonlinear regression and back-trajectory concentrations,” Atmos. Environ., vol. 44, no. 25, pp. 3015–3023, Aug. 2010.

[14] M. Mohandes, A. Balghonaim, M. Kassas, S. Rehman, and T. O. Halawani, “Use of radial basis functions for estimating monthly mean daily solar radiation,” Sol. Energy, vol. 68, no. 2, pp. 161–168, Feb. 2000.


[15] W. Z. Lu, W. J. Wang, X. K. Wang, Z. B. Xu, and A. Y. T. Leung, “Using Improved Neural Networkmodel To Analyze Rsp, Nox And No2 Levels In Urban Air Inmong Kok, Hong Kong,” Environ. Monit. Assess., vol. 87, no. 2, pp. 235–254, 2003.

[16] P. Perez, “Prediction of maximum of 24-h average of PM10 concentrations 30 h in advance in Santiago, Chile,” Atmos. Environ., vol. 36, pp. 4555–4561, 2002.

[17] P. Perez, R. Palacios, and A. Castillo, “Carbon monoxide concentration forecasting in Santiago, Chile.,” J. Air Waste Manag. Assoc., vol. 54, no. 8, pp. 908–13, Aug. 2004.

[18] P. Perez and J. Reyes, “An integrated neural network model for PM10 forecasting,” Atmos. Environ., vol. 40, no. 16, pp. 2845–2851, May 2006.

[19] L. A. Díaz-Robles, J. C. Ortega, J. S. Fu, G. D. Reed, J. C. Chow, J. G. Watson, and J. A. Moncada-Herrera, “A hybrid ARIMA and artificial neural networks model to forecast particulate matter in urban areas: The case of Temuco, Chile,” Atmos. Environ., vol. 42, no. 35, pp. 8331–8340, Nov. 2008.

[20] B. Yeganeh, M. S. P. Motlagh, Y. Rashidi, and H. Kamalan, “Prediction of CO concentrations based on a hybrid Partial Least Square and Support Vector Machine model,” Atmos. Environ., vol. 55, pp. 357–365, Aug. 2012.

[21] J. T. Palma and R. Marín, Inteligencia Artificial: Método, técnicas y aplicaciones, 1st ed. Madrid, España: McGraw-Hill, 2008, pp. 1–1022.

[22] W.-Z. Lu and W.-J. Wang, “Potential assessment of the ‘support vector machine’ method in forecasting ambient air pollutant trends.,” Chemosphere, vol. 59, no. 5, pp. 693–701, Apr. 2005.

[23] M. Khashei and M. Bijari, “An artificial neural network (p,d,q) model for timeseries forecasting,” Expert Syst. Appl., vol. 37, no. 1, pp. 479–489, Jan. 2010.

[24] H. Niska, M. Rantamäki, T. Hiltunen, A. Karppinen, J. Kukkonen, J. Ruuskanen, and M. Kolehmainen, “Evaluation of an integrated modelling system containing a multi-layer perceptron model and the numerical weather prediction model HIRLAM for the forecasting of urban airborne pollutant concentrations,” Atmos. Environ., vol. 39, no. 35, pp. 6524–6536, Nov. 2005.

[25] A. J. Calleja Gómez, “Minería de Datos con Weka para la Predicción del Precio de Automóviles de Segunda Mano,” UNIVERSIDAD POLITÉCNICA DE VALENCIA, 2010.

[26] J. Han and M. Kamber, Data Mining Concepts and Techniques, Second. USA;: Elsevier; Morgan Kaufmann Publishers, 2006, p. 772.

[27] K. Gibert, “Técnicas híbridas de Inteligencia Artificial y Estadística para el descubrimiento de conocimiento y la minería de datos,” in Tendencias de la Minería de Datos en España, 1st ed., vol. 1, J. S. Giráldez, Raúl; Riquelme, José C.; Aguilar-Ruiz, Ed. Barcelona, España, 2004, p. 12.

[28] J. M. Molina López and J. G. Herrero, “Técnicas de análisis de datos,” Madrid, España, 2006.

[29] K. P. Moustris, I. C. Ziomas, and A. G. Paliatsos, “3-Day-Ahead Forecasting of Regional Pollution Index for the Pollutants NO2, CO, SO2, and O3 Using Artificial Neural Networks in Athens , Greece,” Water, Air, Soil Pollut., vol. 209, no. 1, pp. 29–43, 2010.

[30] Departamento Administrativo de Función Pública, Decreto 3570 del 27 de Septiembre 2011. Colombia, 2011, p. 27.

[31] Congreso de la República de Colombia, Ley General Ambiental de Colombia - Ley 99 de 1993, vol. 1993, no. 41. Colombia, 1993, p. 12.

[32] Departamento Administrativo de Función Pública, DECRETO No. 1868 DEL 3 DE AGOSTO DE 1994, no. 1868. 1994, p. 29.

Bibliografía 109

[33] Ministerio de Ambiente y Vivienda, Resolución 601 del 4 de Abril 2006, no. 601. 2006, pp. 1–13.

[34] Corpocesar - K2 Ingeniería, “Informe Modelo de Dispersión de Calidad del Aire,” Valledupar, Cesar, 2009.

[35] Universidad Industrial de Santander - Corpocesar, “Informe De Operación Del Sistema Especial De Vigilancia De Calidad De Aire En La Zona Carbonífera Del Departamento Del Cesar - Anual,” La Jagua, Cesar, 2012.

[36] Environmental Protection Agency US, “A Guide to Air Quality and Your Health,” New York, New York, USA, 2009.

[37] D. Voukantsis, K. Karatzas, J. Kukkonen, T. Räsänen, A. Karppinen, and M. Kolehmainen, “Intercomparison of air quality data using principal component analysis, and forecasting of PM10 and PM2.5 concentrations using artificial neural networks, in Thessaloniki and Helsinki.,” Sci. Total Environ., vol. 409, no. 7, pp. 1266–76, Mar. 2011.

[38] J. Žabkar, R. Žabkar, D. Vladušič, D. Čemas, D. Šuc, and I. Bratko, “Prediction of ozone concentrations,” Ecol. Model., vol. 191, no. 1, pp. 68–82, Jan. 2006.

[39] A. K. Paschalidou and S. Karakitsios, “Forecasting hourly PM 10 concentration in Cyprus through artificial neural networks and multiple regression models : implications to local environmental management,” Environ. Sci. Pollut. Res., vol. 18, no. 2, pp. 316–327, 2011.

[40] M. Pollo-Catteneo, P. Pytel, R. Garcia, C. Vegega, and H. Ramón, “Prácticas y aplicaciones de ingeniería de requisitos en proyectos de explotación de información,” in XV Work Shop de Investigadores de Ciencias de la Computación, 2013, pp. 171–175.

[41] J. Hernández Orallo, M. J. Ramirez Quintana, and C. Ferri Ramirez, Introducción a la Minería de Datos, Primera. España: Pearson Prentice Hall, 2008, p. 656.

[42] Y. Sadahiro and T. Kobayashi, “Exploratory analysis of time series data: Detection of partial similarities, clustering, and visualization,” Comput. Environ. Urban Syst., vol. 45, pp. 24–33, May 2014.

[43] T. Bengtsson and J. E. Cavanaugh, “State-space discrimination and clustering of atmospheric time series data based on Kullback information measures,” Environmetrics, vol. 19, no. April 2007, pp. 103–121, 2008.

[44] D. Muñoz and F. Rodrigo, “Aplicación del análisis cluster para el estudio de la relación Nao-Precipitaciones de invierno en el sur de la Península Ibérica,” Universidad de Almería, 2002.

[45] X. Gong and M. B. Richman, “On the application of cluster analysis to growing season precipitation data in north america east of the rockies,” Am. Meteorol. Soc., vol. 100, no. 730t9–0628, p. 897, 1995.

[46] M. Vazirgiannis, M. Halkini, and D. Gunopulos, Uncertainty Handling and Quality Assessment in Data Mining. Advanced Information and Knowledge Processing, First. Heidelberg, Alemania: Springer-Verlag, 2003, p. 226.

[47] I. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, Second. Estados Unidos: Morgan Kaufmann Series in Data Systems Management, 2005, p. 213.

[48] M. Berry and G. Linoff, Data Mining Techniques: for marketing, sales and customer relationship management, Second. Indiana, Estados Unidos: Wiley Publishing Inc., 2004, p. 643.

[49] D. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, First. New Jersey, Estados Unidos: John Wiley & Sons Inc, 2005, p. 222.


[50] D. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, First. Massachusetts, Estados Unidos: The Massachusetts Institute of Technology, 2001, p. 546.

[51] G. G. Molero Castillo, “Desarrollo de un Modelo basado en Técnicas de Minería de Datos para Clasificar Zonas climatológicas similares en el estado de Michoacán,” Universidad Nacional Autónoma de Mexico, 2008.

[52] C. Bouveyron and C. Brunet-Saumard, “Model-based clustering of high-dimensional data: A review,” Comput. Stat. Data Anal., vol. 71, pp. 52–78, Mar. 2014.

[53] J. MacQueen, “Some methods for classification and analysis of multivariate observations,” in Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1997, pp. 281–297.

[54] J. Hartigan, Clustering algorithms, First. New York, USA, 1975, p. 365. [55] J. Han and M. Kamber, Data Mining Concepts and Techniques, Second. USA;: Elsevier;

Morgan Kaufmann Publishers, 2006, p. 772. [56] P. Kaufman, Leonard Rousseeuw, Finding groups in data: An introduction to Cluster

Analysis, First. New York, USA: John Wiley and Son Inc, 1990, p. 335. [57] J. H. Stock and M. W. Watson, “The Evolution of National and Regional Factors in U.S.

Housing Construction,” in Robert F. Engle Festschfift Conference, 1998. [58] M. Ferrán Aranaz, “UNA METODOLOGÍA DE MINERÍA DE DATOS PARA LA

AGRUPACIÓN DE SERIES TEMPORALES: APLICACIÓN AL SECTOR DE LA CONSTRUCCIÓN RESIDENCIAL,” Universidad Complutense de Madrid, 2011.

[59] T. Velmurugan, “Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data,” Appl. Soft Comput., vol. 19, pp. 134–146, Jun. 2014.

[60] F. Karaca and F. Camci, “Distant source contributions to PM10 profile evaluated by SOM based cluster analysis of air mass trajectory sets,” Atmos. Environ., vol. 44, no. 7, pp. 892–899, Mar. 2010.

[61] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,” ACM Computing Surveys, vol. 31, no. 3. pp. 264–323, 1999.

[62] E. R. Hruschka, R. J. G. B. Campello, A. A. Freitas, and A. C. P. L. F. de Carvalho, “A Survey of Evolutionary Algorithms for Clustering,” IEEE Trans. Syst. Man, Cybern. Part C (Applications Rev., vol. 39, no. 2, pp. 133–155, Mar. 2009.

[63] A. . Jain, R. P. W. Duin, and J. Mao, “Statistical pattern recognition: a review,” IEEE Trans. Pattern Anal. Mach. Intell, vol. 22, no. 1, pp. 4–37, 2000.

[64] C. E. Bedregal Lizárraga, “Agrupamiento de Datos utilizando técnicas MAM-SOM,” Universidad Católica San Pablo, 2008.

[65] J. L. Devore, Probabilidad y Estadística para Ingeniería y Ciencias, Sexta. Mexico: UNAM, Facultad de Ingenierías, 2005, pp. 496–632.

[66] A. L. Webster, Estadística Aplicada a los Negocios y la Economía, Tercera. Bogotá, Colombia: McGraw-Hill, 2001, pp. 410–453.

[67] I. H. Witten, F. Eibe, and M. A. Hall, Data Mining Practical Machine Learning Tools and Techniques, 3rd ed. Burlington, MA 01803, USA: Morgan Kaufmann, 2011, pp. 1–666.

[68] J. L. Devore, Probabilidad y Estadística para Ingeniería y Ciencias, Sexta. Mexico: UNAM, Facultad de Ingenierías, 2005, pp. 496–632.

[69] R. Walpole, R. Myers, and S. Myers, Probabilidad y Estadistica para ingenieros, Sexta. Mexico, Mexico: Prentice Hall, 1998, p. 752.

Bibliografía 111

[70] M. Mohandes, A. Balghonaim, M. Kassas, S. Rehman, and T. O. Halawani, “Use of radial basis functions for estimating monthly mean daily solar radiation,” Sol. Energy, vol. 68, no. 2, pp. 161–168, Feb. 2000.

[71] B. Martín del Brío and A. Sanz Molina, Redes Neuronales y Sistemas Borroso, Tercera. Mexico, Mexico: Alfaomega, 2007, p. 404.

[72] A. I. Galushkin, Neural Networks Theory, First. Moscow, Russia: Springer-Verlag, 2007, p. 396.

[73] P. Isasi Viñuela and I. Galván León, Redes de Neuronas Artificiales Un Enfoque Práctico, 1st ed. Madrid, España: Pearson Prentice Hall, 2004, p. 1.213.

[74] G. Grivas and A. Chaloulakou, “Artificial neural network models for prediction of PM10 hourly concentrations, in the Greater Area of Athens, Greece,” Atmos. Environ., vol. 40, no. 7, pp. 1216–1229, Mar. 2006.

[75] H. Abdel-galil and E. Hamdy K, “Communications Estimation Of Air Pollutant Concentrations From Meteorological Parameters Using Artificial Neural Network,” Electr. Eng., vol. 57, no. 1335–3632, pp. 105–110, 2006.

[76] J. Hooyberghs, C. Mensink, G. Dumont, F. Fierens, and O. Brasseur, “A neural network forecast for daily average PM concentrations in Belgium,” Atmos. Environ., vol. 39, no. 18, pp. 3279–3289, Jun. 2005.

[77] H. J. S. Fernando, M. C. Mammarella, G. Grandoni, P. Fedele, R. Di Marco, R. Dimitrova, and P. Hyde, “Forecasting PM10 in metropolitan areas: Efficacy of neural networks.,” Environ. Pollut., vol. 163, pp. 62–7, Apr. 2012.