WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería de Datos

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

WEKA: Programa que Permite una mayor Comprensión y

Acercamiento a la Minería de Datos

Sánchez, J.1

Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela. [email protected].

Resumen

El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso

al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla

en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e

implementado en Java.

Palabras clave: WebApps, KDD, Minería de Datos, WEKA.

WEKA: program that allows to a greater understanding and approach to the Mining of Data

Summary

WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among

others), with which users have the possibility of accelerating their learning. In addition, it diminishes the costs of reproduction, publication and distribution of the printed material, another adventage is the access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of the KDD (Knowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is

so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet “Introduction to the Arti ficial Intelligence and Expert Systems”, or to be a new subjet of this degree course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the

University of Waikato, New Zealand, under license GNU and implemented in Java.

Index terms: WebApps, KDD, Data Mining, WEKA.

Introducción

La reflexión planteada por Nichols (1995) permite comprender la sobrecarga de

información a la que somos sometido actualmente: “Una edición semanal del New York Times contiene más información de lo que

la persona promedio podría encontrar en toda su vida en la Inglaterra del siglo XVII. Se ha producido más información en los últimos 30

años que en los previos 5000 años. Cerca de 1000 libros se publican internacionalmente cada

día, y el total del conocimiento impreso se dobla cada ocho años”.

Gracias a los avances tecnológicos y en

especial a la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo

casi nulo. Con el desarrollo de software y hardware, grandes cantidades de datos son recogidas y almacenadas en base de datos. Por

tanto, el análisis de estos datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.

mailto:[email protected]


Por otra parte, con el advenimiento del

Internet, la información presenta una ubicuidad sin precedente y crece de una manera acelerada, para verificar esto sólo basta usar un

buscador como google e introducir la palabra información, cuyo resultado son 368000000 sitios posibles, si se pudiera examinar cada uno

de los sitios anteriores en sólo un minuto el resultado serían 6133333 horas, en otras palabras tomaría 255555 días, el tiempo

potencial total necesario: más de 700 años. Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que

efectúen procesos de búsquedas y aún más, de tecnologías que ayuden a comprender su contenido.

Debido al ya mencionado agigantado avance en el hardware y la mayor comprensión del software ha derivado la redefinición y

actualización de conceptos fundamentales, entre ellos el de información, además, de su clasificación llamada “espectro de información”,

el cual está formado por: datos, información, conocimiento y sabiduría.

Figura 1. Espectro de Información.

Un dato es un conjunto discreto de factores

objetivos de un hecho real. El concepto de dato es definido por como un registro de transacciones. Un dato no dice nada sobre el

porqué de las cosas, y por si mismo tiene poca o ninguna relevancia o propósito. A pesar de todo, los datos son importantes para las

organizaciones, ya que son la base para la creación de la información.

Los investigadores que han estudiado el

concepto de información, lo describen como un mensaje. Como cualquier mensaje tiene un emisor y un receptor. La información es capaz

de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y

comportamiento. La palabra informar

originalmente significa “dar forma a”, y es estrictamente el receptor quien decide si el mensaje que ha recibido es realmente

información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que la escribe,

pero a su vez puede ser juzgado como ruido por el que la recibe. A diferencia de los datos, la información tiene significado (relevancia y

propósito). Los datos se convierten en información cuando su creador les añade significado.

Para Davenport y Prusak (1998) el conocimiento es una mezcla de experiencias, valores, información y saber hacer con la

incorporación de nuevas experiencias e información y útil para la acción. El conocimiento es originado y aplicado en la mente de los

expertos; lo que queda inmediatamente claro es que el conocimiento no es simple, es una mezcla de varios elementos. Es un flujo que tiene una

estructura formalizada, es intuitivo y difícil de captar en palabras o de entender plenamente en forma lógica. El conocimiento existe dentro de

las personas, como parte de la complejidad humana y de nuestra impredecibilidad.

La sabiduría que no es más que el

procesamiento de conocimiento el cual a su vez produce nuevo conocimiento, no puede ser tratada o usada actualmente ya que no se

poseen los recursos o herramientas computacionales para ello.

En la actualidad, la mayoría de los

programas, aplicaciones, sistemas de información, es decir, el software existente se ha construido para procesar datos o información.

Sólo la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento.

Pero son las organizaciones quienes hacen

un uso intensivo del software para el control y mantenimiento de las mismas, además, son estas quienes invierten en el desarrollo e

investigación de los sistemas. No es de extrañar que las organizaciones

den diferentes niveles de uso a sus datos. Entre

estos: a) Nivel operacional: se utilizan sistemas de información que monitorean las actividades y transacciones elementales. b) Nivel de

administración: realiza las operaciones de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. c)

Nivel de conocimiento: realiza las actividades de análisis, seguimiento, control y toma de decisiones, realiza la consulta sobre información


almacenada. d) Nivel estratégico: realiza las

actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro.

Ante todo lo anterior, los datos existen y además se les dan diferentes niveles de uso, pero estos son almacenados en las base de

datos, estas últimas son una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse de manera eficiente.

Sobre el uso dado a los datos en el tiempo nace el OLTP (On-Line Transaction Processing, Procesamiento de Transacciones en Línea),

dedicadas a la captura y almacenamiento de transacciones; y el OLAP (On-Line Analytical Processing, Procesamiento Analítico en Línea)

permiten el análisis y navegación de los datos. Conocido el nivel de uso en el tiempo de los

datos, es entendible porque a las bases de datos

se les puede extraer conocimiento de diversas formas como: a) Conocimiento evidente: fácilmente recuperable con SQL. b)

Conocimiento multidimensional: considera los datos con cierta estructura y relevancia, se usa el OLAP. c) Conocimiento oculto: información

evidente oculta a priori y potencialmente útil sólo se descubre con DM. d) Conocimiento profundo: información almacenada en la base de datos,

pero que resulta imposible recuperar a menos que se disponga de alguna clave que oriente la búsqueda.

Figura 2. Conocimiento en la Base de Datos.

Son Fayyad, Piatesky y Smyth (1996)

quienes definen el KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimiento en Base de Datos) como el proceso no trivial de

identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensible a partir de los datos.

El KDD es un conjunto de pasos interactivos

e iterativos. Es interactivo porque el usuario es quien decide, supervisa y controla cada una de las fases del proceso, además, es iterativo

debido a que se puede acceder desde y hacia cualquier fase en todo momento.

El KDD es un proceso complejo que incluye

las siguientes fases: a) Integración y recopilación, b) Selección, limpieza y transformación, c) Minería de Datos, d)

Evaluación e interpretación y e) Difusión y uso. Observar las fases clarifica la conexión

entre el KDD y la Minería de Datos; el KDD es el

proceso global de descubrir conocimiento útil desde las bases de datos mientras la Minería de Datos se refiere a la obtención de patrones o

modelos.

Figura 3. Fases del KDD.

Figura 4. Esfuerzo requerido en Fases del KDD.


Siguiendo el mismo orden de las fases del

KDD, se requerirá de esfuerzo: 15%, 60%, 20% y 5% (que agrupa la fase 4 y 5) respectivamente de dedicación para su culminación, esto se

aprecia en la Figura 4. La Minería de Datos es un área de cuyo

objetivo es predecir resultados y/o descubrir

relaciones en los datos. La Minería de Datos puede ser descriptiva (descubrir patrones que describen los datos), o predictivos (para

pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto, permite entre muchas otras cosas: a) Explorar

grandes cantidades de datos (generalmente relacionado al mercadeo o a los negocios), b) Búsqueda de modelos consistentes y/o

relaciones sistemáticas entre las variables y c) Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de

datos. Las partes en las que se divide la Minería

de Datos son: a) Fuente de datos, b) Pre-

procesamiento, c) Exploración y Transformación, d) Reconocimiento de Patrones y e) Evaluación e Integración.

Figura 5. Partes de la Minería de Datos.

Las técnicas en las que se fundamenta la

Minería de Datos son: a) Predicción: permite la

obtención de tendencias y comportamientos en bases de datos (donde se utiliza: Regresión y Clasificación) y b) Descubrimiento de

conocimiento: permite filtrar los datos contenidos en la bases de datos y con esto la identificación de patrones previamente desconocidos

(básicamente comprende: Detección de desviaciones, Clustering, Reglas de asociación y Visualización). Esto se observa en la figura 6.

Figura 6. Técnicas de la Minería de Datos. La integración de las técnicas de Minería de

Datos en las actividades diarias se ha convertido en algo habitual, para ello sólo bastara con leer los siguientes ámbitos de aplicación que indican

Ferri, C., Hernández, J. y Ramírez, M. (2004): a) En la banca y finanzas, b) Análisis de mercado, distribución y cualquier otro elemento

constituyente del comercio, c) Salud pública y privada así como los diferentes tipos de seguros, d) Educación, e) Procesos de manufactura,

servicios e industriales, f) Medicina, g) Biología y bioingeniería, h) Telecomunicaciones, i) Correo electrónico y agendas personales, j) Recursos

humanos, k) Web, l) Turismo, m) Trafico, n) Hacienda, ñ) Policiales y de seguridad ciudadana, o) Deportes, p) Políticas, entre

muchísimo otros. Se nota la gran diversidad de aplicaciones

de uso para la Minería de Datos, de all í que en

la actualidad existan diferentes suites y herramientas especificas tanto bajo licencia de software privativo (SPSS Clementine, Kepler,

Oracle Data Mining Suite, DBMiner, DB2 Intelligent Miner, SAS Enterprise Miner, STATISTICA Data Miner, sólo por nombrar

algunas) como de software libre (WEKA, YALE, TariyKDD, JavaNNS); que permiten el preprocesado de los datos, varios modelo de

análisis, facilidad para el diseño de las soluciones y de experimentos debido al soporte grafico amigable con que se presentan los

resultados. WEKA (Waikato Environment for Knowledge

Analysis) fue desarrollada y es mantenida por un

grupo de investigadores de la Universidad de Waikato (Nueva Zelanda).

Las cuatro (4) opciones de interfaz de

trabajo con el programa son: Explorer: es la opción que permite ejecutar

los algoritmos de análisis y comparar resultados

sobre un único conjunto de datos.


Experimenter: es la opción que permite

definir experimentos complejos y almacenar resultados.

Knowledge Flow: es la opción que permite

llevar a cabo las mismas operaciones que Experimenter pero representado como un grafo dirigido.

Simple Cli: es “Command-Line Interfaz” es una ventana de comandos java para ejecutar las clases WEKA.

Al ahondar sobre la interfaz de trabajo Explorer se encuentran los siguientes seis (6) subentornos de ejecución:

Preprocess: permite el uso de las herramientas y filtros para cargar y manipular los datos.

Classify: permite el acceso a las técnicas de clasificación y regresión.

Cluster: permite integrar varios métodos de

agrupamiento. Associate: permite incluir las reglas de

asociación.

Select Attributes: permite aplicar las técnicas de reducción de atributos.

Visualize: permite visualizar el

comportamiento de los datos. Además, los datos se pueden importar en

varios formatos: ARFF, CVS, C.45, binarios, o

pueden provenir desde un URL o de una base de datos (usando JDBC).

Al importar el ejemplo iris.arff en la interfaz

de trabajo Explorer el subentorno de ejecución Preprocess en la opción Open File el programa nos mostrara la siguiente ventana:

Figura 7. Preprocess de iris.arff.

El WEKA permite hacer diferente

tratamiento con los datos: a) Supervisados, que consideran la información de la clase y b) No supervisados: no consideran la información de la

clase. Al seleccionar el atributo class resulta:

Figura 8. Selección atributo class de iris.arff.

Si sobre la opción Filter se pulsa sobre el

boton choose y luego en el menú unsupervised y en el submenú attribute la opción Discretize y luego sobre el botón Filter resultara la siguiente

ventana:

Figura 9. Menú unsupervised de iris.arff.

Discretize, permite t ransformar los atributos continuos a atributos nominales, es decir, la conversión de un tipo numérico a uno nominal

que representa rangos. Ejemplo: Calificaciones entre el rango 0 a 10 que adquieren el significado de reprobado, muy deficiente,

deficiente, regular, excelente. Al pulsar sobre el botón Apply se mostrara:


Figura 10. Resultado de aplicar Discretize. Al revisar el segundo subentorno de

ejecución el Clasify, presenta cuatro (4) opciones en el Test Options:

Use trainig set: la muestra es usada para

entrenar y probar al mismo tiempo. Los resultados obtenidos no corresponden con la realidad.

Supplied test set: los at ributos de los datos son escritos en un nuevo archivo de formato ARFF sobre el cual se efectuará la clasificación.

Cross-validation: permite dividir la muestra en k partes, sobre estas se procede a entrenar el clasificador con las k-1 partes y evaluar con la

parte k actual. Percentage split: indica el porcentaje de la

muestra que empleara para probar el

clasificador. Además, el WEKA ofrece ocho opciones

para clasificar: Bayes: métodos basados en el aprendizaje

de Bayes. Functions: métodos matemáticos. Lazy: métodos basados en el aprendizaje

del perezoso. Meta: métodos que resultan de la

combinación de diferentes métodos de

aprendizaje. Mi: métodos que aprenden mediante la

variación de la densidad de los algoritmos.

Misc: métodos que aprenden como si leyeran los datos.

Trees: métodos que aprenden mediante

arboles de decisión. Rules: métodos que aprenden y esto se

puede expresar como reglas.

Se pueden observar las ocho (8) opciones en la figura 11.

Figura 11. Opciones del subentorno Classify.

El tercer subentorno de ejecución el Cluster

presenta nueve (9) algoritmos para agrupar

datos. CobWeb: utiliza el algoritmo CobWeb. DBScan: utiliza el algoritmo DBScan.

EM: utiliza el algoritmo EM. FarthestFirst: utiliza el algoritmo

FarthestFirst.

FilteredCluster: agrupa los datos arbitrariamente y luego son pasados por un filtro arbitrario.

MakeDensityBasedClusterer: los datos son envueltos en clases y devuelven su distribución y densidad.

OPTICS: utiliza el algoritmo OPTICS. SimpleKMeans: utiliza el algoritmo de k -

medias.

XMeans: utiliza el algoritmo de x-medias. Esto se puede apreciar en la siguiente

figura:

Figura 12. Opciones del subentorno Cluster.


El cuarto subentorno de ejecución el

Associate y ofrece cinco (5) algoritmos para asociar datos:

Apriori: utiliza el algoritmo Apriori.

FilteredAssociator: utiliza el algoritmo que asocia los datos arbitrariamente además de filtrarlos arbitrariamente también.

GeneralizedSequentialPatterns: utiliza el algoritmo GSP.

PredictiveApriori: utiliza el algoritmo Apriori

para hacer reglas de asociación. Tertius: utiliza el algoritmo de Tertius.

Figura 13. Opciones del subentorno Associate.

La segunda interfaz de t rabajo Experimenter posee tres (3) subentornos de ejecución.

Setup: permite la carga de los archivos así

como la creación de los mismos. Run: permite ejecutar el archivo con los

algoritmos indicados en Setup.

Analyse: permite configurar las pruebas sobre los datos.

Figura 14. Opciones de Experimenter.

La tercera interfaz de trabajo Knowledge

Flow consta de ocho (8) subentornos de ejecución:

DataSources: permite leer los datos en los

diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.

DataSkin: permite guardar los datos en los

diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.

Filters: permite efectuar el pre-

procesamiento de los datos, se dividen supervisados y no supervisados.

Classifiers: permite efectuar la clasificación

de los datos, se dividen en: bayes, functions, lazy, meta, mi, misc, trees y rules.

Clusterers: permite aplicar las técnicas de

agrupamiento de datos. Associations: permite aplicar las técnicas de

asociación de los datos.

Evaluation: permite evaluar o designar el conjunto de datos para el entrenamiento.

Visualization: permite visualizar ya sea

como texto o grafico el resultado de los algoritmos.

En la figura 15 se pueden observar los ocho

(8) subentornos de ejecución presentes en la interfaz de trabajo.

Figura 15. Opciones de Knowledge Flow. La última interfaz de trabajo SimpleCLI está

compuesta por siete comandos posibles: java <classname> <args>. break.

kill. cls. history.

exit. help <command>


Figura 16. Opciones de SimpleCLI.

No es más que un breve paseo de las

posibilidades que ofrece el WEKA, este hace

uso de las técnicas de la Minería de Datos, como valor agregado por estar implementado en Java, no presenta problemas de portabilidad (el

sistema operativo debe disponer de la máquina virtual apropiada para su funcionamiento).

Resultados

Las asignaturas de las carreras de la UNA, muy específicamente Introducción a la

Inteligencia Arti ficial y Sistemas Expertos (347), no escapan de la carencia y poca disponibilidad de medios instruccionales orientados a potenciar

las destrezas adquiridas y en especial los referidos al KDD del cual la Minería de Datos, constituye una fase muy importante, y de este

modo responder a las exigencias del entorno laboral actual.

Es tan trascendental el tema que la llamada

Inteligencia de los Negocios (Business Intelligence) que es el proceso de analizar los bienes de todo tipo (especialmente los datos)

acumulados en la empresa y extraer de ellos conocimiento apoyándose justamente en las técnicas que suministra la Minería de Datos.

Pentaho BI aprovecha la arquitectura, soporte, estándares, funcionalidad e innovación del software libre dispersas en diferentes áreas y

entrelazándolas para obtener una plataforma de BI cuyos componentes son: Reportes (Pentaho Reporting Engine), servidor OLAP (Mondrian),

integración de datos (Kettle), Minería de Datos (WEKA), y suite de BI.

En este sentido, WEKA por ser un sistema

multiplataforma con arquitectura basada en componentes independientes, con una interfaz

grafica amigable donde intuitivamente el usuario

puede usar cualquiera de los tres (3) interfaz de trabajo: Explorer, Experimenter y Knowledge Flow, así como sus respectivos subentornos de

ejecución, por tanto son de fácil uso y comprensión; esta suite de Minería de Datos permite la inclusión de contenidos que sin

software, quedarían sólo como una lectura y, en consecuencia, la adquisición de un conocimiento más completo y tangible en forma más didáctica,

atractiva y sencilla.

Conclusiones

El KDD está compuesto por cinco (5) fases en las cuales curiosamente no es necesaria la misma dedicación. La segunda fase: Selección,

limpieza y transformación abarca el 60% del tiempo total, esto es debido a su complejidad ya que garantiza la mayor corrección, exactitud y

calidad de los datos, y elimina los datos erróneos (Outliers) o faltantes (missing values). Si los datos no cumplen las condiciones que

garantizan su veracidad los patrones generados por la tercera fase: Minería de Datos no son confiables.

El WEKA es una colección de algoritmos para resolver los problemas planteados por las organizaciones a la Minería de Datos. Se

presenta bajo licencia GNU GPL (General Public License) permitiendo que el software sea usado, copiado y redistribuido libremente, además el

código fuente puede ser estudiado y modificado sin restricción alguna, este tipo de licencia posee las siguientes ventajas: a) Reducir costos, b)

Flexibilidad en la adaptación de los componentes, c) El emprender un proyecto a bajos costos y permitiendo una alta escalabilidad

y d) El desarrollo y mantenimiento del programa, así como, los repositorios provienen de diferentes fuentes. En la página web

http://www.cs.waikato.ac.nz/~ml/weka/index.html puede descargarse las diferentes versiones: estable (última versión 3.6.0), libro (última

versión 3.4.14) y para desarrolladores (última versión 3.7.0) en los siguientes sistemas operativos: Windows, Mac OS X y Linux, así

como la documentación y los requisitos para la instalación. También en la página web se pueden descargar más de una docena de base

de datos de diversos repositorios, por otra parte al menos cincuenta proyectos activos (WekaWiki) de diversas áreas de conocimiento.

Lo anterior garantiza el continuo mejoramiento, actualización y evolución del

http://www.cs.waikato.ac.nz/~ml/weka/index.html


WEKA, por otra parte, la Constitución Nacional

de la República Bolivariana de Venezuela en su artículo 110 y el decreto 3.390, indica que la Administración Pública Nacional empleará

prioritariamente las herramientas de código abierto.

Agradecimientos

Este trabajo ha sido realizado parcialmente gracias al apoyo de la Universidad Nacional

Abierta.

Referencias bibliográficas

Berthold, M. y Hand, D. (2003). Intelligent Data Analysis: An Introduction. Berlin: Springer.

Davenport, T. y Prusak, L. (1998). Work ing

Knowledge: How organizations manage what they know. Boston: Hardvard Business Scholl Press.

Fayyad, U., Piatesky-Shapiro, G. y Smyth, P. (1996). From Data Mining for Knowlegde Discovery: An Overview. Menlo Park:

American Association for Artificial Intelligence

(AAAI/MIT). Ferri, C., Hernández, J. y Ramírez, M. (2004).

Introducción a la Minería de Datos. Madrid:

Pearson Prentice Hall. Nichols, J. (1995). Using Future Trends to Inform

Planning/Marketing. Library Trends, 43(03),

349-366. Pérez, C. y Santín, D. (2006). Data Mining

Soluciones con Enterprise Miner. México D.F:

Alfaomega Grupo Editor. White, C. (1999). IBM Enterprise Analytics for

the Intelligent e-Business. Morgan Hill: IBM

Press.

Reseña curricular

J. Sánchez: Profesor de la Universidad Nacional Abierta, Venezuela. Ingeniero de Sistemas. Asesor Académico. Principal área de

interés: Inteligencia Artificial.

Education

WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería de Datos