Upload
jean-sanchez
View
480
Download
0
Embed Size (px)
Citation preview
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
WEKA: Programa que Permite una mayor Comprensión y
Acercamiento a la Minería de Datos
Sánchez, J.1
Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela. [email protected].
Resumen
El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso
al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla
en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e
implementado en Java.
Palabras clave: WebApps, KDD, Minería de Datos, WEKA.
WEKA: program that allows to a greater understanding and approach to the Mining of Data
Summary
WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among
others), with which users have the possibility of accelerating their learning. In addition, it diminishes the costs of reproduction, publication and distribution of the printed material, another adventage is the access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of the KDD (Knowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is
so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet “Introduction to the Arti ficial Intelligence and Expert Systems”, or to be a new subjet of this degree course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the
University of Waikato, New Zealand, under license GNU and implemented in Java.
Index terms: WebApps, KDD, Data Mining, WEKA.
Introducción
La reflexión planteada por Nichols (1995) permite comprender la sobrecarga de
información a la que somos sometido actualmente: “Una edición semanal del New York Times contiene más información de lo que
la persona promedio podría encontrar en toda su vida en la Inglaterra del siglo XVII. Se ha producido más información en los últimos 30
años que en los previos 5000 años. Cerca de 1000 libros se publican internacionalmente cada
día, y el total del conocimiento impreso se dobla cada ocho años”.
Gracias a los avances tecnológicos y en
especial a la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo
casi nulo. Con el desarrollo de software y hardware, grandes cantidades de datos son recogidas y almacenadas en base de datos. Por
tanto, el análisis de estos datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Por otra parte, con el advenimiento del
Internet, la información presenta una ubicuidad sin precedente y crece de una manera acelerada, para verificar esto sólo basta usar un
buscador como google e introducir la palabra información, cuyo resultado son 368000000 sitios posibles, si se pudiera examinar cada uno
de los sitios anteriores en sólo un minuto el resultado serían 6133333 horas, en otras palabras tomaría 255555 días, el tiempo
potencial total necesario: más de 700 años. Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que
efectúen procesos de búsquedas y aún más, de tecnologías que ayuden a comprender su contenido.
Debido al ya mencionado agigantado avance en el hardware y la mayor comprensión del software ha derivado la redefinición y
actualización de conceptos fundamentales, entre ellos el de información, además, de su clasificación llamada “espectro de información”,
el cual está formado por: datos, información, conocimiento y sabiduría.
Figura 1. Espectro de Información.
Un dato es un conjunto discreto de factores
objetivos de un hecho real. El concepto de dato es definido por como un registro de transacciones. Un dato no dice nada sobre el
porqué de las cosas, y por si mismo tiene poca o ninguna relevancia o propósito. A pesar de todo, los datos son importantes para las
organizaciones, ya que son la base para la creación de la información.
Los investigadores que han estudiado el
concepto de información, lo describen como un mensaje. Como cualquier mensaje tiene un emisor y un receptor. La información es capaz
de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y
comportamiento. La palabra informar
originalmente significa “dar forma a”, y es estrictamente el receptor quien decide si el mensaje que ha recibido es realmente
información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que la escribe,
pero a su vez puede ser juzgado como ruido por el que la recibe. A diferencia de los datos, la información tiene significado (relevancia y
propósito). Los datos se convierten en información cuando su creador les añade significado.
Para Davenport y Prusak (1998) el conocimiento es una mezcla de experiencias, valores, información y saber hacer con la
incorporación de nuevas experiencias e información y útil para la acción. El conocimiento es originado y aplicado en la mente de los
expertos; lo que queda inmediatamente claro es que el conocimiento no es simple, es una mezcla de varios elementos. Es un flujo que tiene una
estructura formalizada, es intuitivo y difícil de captar en palabras o de entender plenamente en forma lógica. El conocimiento existe dentro de
las personas, como parte de la complejidad humana y de nuestra impredecibilidad.
La sabiduría que no es más que el
procesamiento de conocimiento el cual a su vez produce nuevo conocimiento, no puede ser tratada o usada actualmente ya que no se
poseen los recursos o herramientas computacionales para ello.
En la actualidad, la mayoría de los
programas, aplicaciones, sistemas de información, es decir, el software existente se ha construido para procesar datos o información.
Sólo la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento.
Pero son las organizaciones quienes hacen
un uso intensivo del software para el control y mantenimiento de las mismas, además, son estas quienes invierten en el desarrollo e
investigación de los sistemas. No es de extrañar que las organizaciones
den diferentes niveles de uso a sus datos. Entre
estos: a) Nivel operacional: se utilizan sistemas de información que monitorean las actividades y transacciones elementales. b) Nivel de
administración: realiza las operaciones de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. c)
Nivel de conocimiento: realiza las actividades de análisis, seguimiento, control y toma de decisiones, realiza la consulta sobre información
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
almacenada. d) Nivel estratégico: realiza las
actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro.
Ante todo lo anterior, los datos existen y además se les dan diferentes niveles de uso, pero estos son almacenados en las base de
datos, estas últimas son una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse de manera eficiente.
Sobre el uso dado a los datos en el tiempo nace el OLTP (On-Line Transaction Processing, Procesamiento de Transacciones en Línea),
dedicadas a la captura y almacenamiento de transacciones; y el OLAP (On-Line Analytical Processing, Procesamiento Analítico en Línea)
permiten el análisis y navegación de los datos. Conocido el nivel de uso en el tiempo de los
datos, es entendible porque a las bases de datos
se les puede extraer conocimiento de diversas formas como: a) Conocimiento evidente: fácilmente recuperable con SQL. b)
Conocimiento multidimensional: considera los datos con cierta estructura y relevancia, se usa el OLAP. c) Conocimiento oculto: información
evidente oculta a priori y potencialmente útil sólo se descubre con DM. d) Conocimiento profundo: información almacenada en la base de datos,
pero que resulta imposible recuperar a menos que se disponga de alguna clave que oriente la búsqueda.
Figura 2. Conocimiento en la Base de Datos.
Son Fayyad, Piatesky y Smyth (1996)
quienes definen el KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimiento en Base de Datos) como el proceso no trivial de
identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensible a partir de los datos.
El KDD es un conjunto de pasos interactivos
e iterativos. Es interactivo porque el usuario es quien decide, supervisa y controla cada una de las fases del proceso, además, es iterativo
debido a que se puede acceder desde y hacia cualquier fase en todo momento.
El KDD es un proceso complejo que incluye
las siguientes fases: a) Integración y recopilación, b) Selección, limpieza y transformación, c) Minería de Datos, d)
Evaluación e interpretación y e) Difusión y uso. Observar las fases clarifica la conexión
entre el KDD y la Minería de Datos; el KDD es el
proceso global de descubrir conocimiento útil desde las bases de datos mientras la Minería de Datos se refiere a la obtención de patrones o
modelos.
Figura 3. Fases del KDD.
Figura 4. Esfuerzo requerido en Fases del KDD.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Siguiendo el mismo orden de las fases del
KDD, se requerirá de esfuerzo: 15%, 60%, 20% y 5% (que agrupa la fase 4 y 5) respectivamente de dedicación para su culminación, esto se
aprecia en la Figura 4. La Minería de Datos es un área de cuyo
objetivo es predecir resultados y/o descubrir
relaciones en los datos. La Minería de Datos puede ser descriptiva (descubrir patrones que describen los datos), o predictivos (para
pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto, permite entre muchas otras cosas: a) Explorar
grandes cantidades de datos (generalmente relacionado al mercadeo o a los negocios), b) Búsqueda de modelos consistentes y/o
relaciones sistemáticas entre las variables y c) Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de
datos. Las partes en las que se divide la Minería
de Datos son: a) Fuente de datos, b) Pre-
procesamiento, c) Exploración y Transformación, d) Reconocimiento de Patrones y e) Evaluación e Integración.
Figura 5. Partes de la Minería de Datos.
Las técnicas en las que se fundamenta la
Minería de Datos son: a) Predicción: permite la
obtención de tendencias y comportamientos en bases de datos (donde se utiliza: Regresión y Clasificación) y b) Descubrimiento de
conocimiento: permite filtrar los datos contenidos en la bases de datos y con esto la identificación de patrones previamente desconocidos
(básicamente comprende: Detección de desviaciones, Clustering, Reglas de asociación y Visualización). Esto se observa en la figura 6.
Figura 6. Técnicas de la Minería de Datos. La integración de las técnicas de Minería de
Datos en las actividades diarias se ha convertido en algo habitual, para ello sólo bastara con leer los siguientes ámbitos de aplicación que indican
Ferri, C., Hernández, J. y Ramírez, M. (2004): a) En la banca y finanzas, b) Análisis de mercado, distribución y cualquier otro elemento
constituyente del comercio, c) Salud pública y privada así como los diferentes tipos de seguros, d) Educación, e) Procesos de manufactura,
servicios e industriales, f) Medicina, g) Biología y bioingeniería, h) Telecomunicaciones, i) Correo electrónico y agendas personales, j) Recursos
humanos, k) Web, l) Turismo, m) Trafico, n) Hacienda, ñ) Policiales y de seguridad ciudadana, o) Deportes, p) Políticas, entre
muchísimo otros. Se nota la gran diversidad de aplicaciones
de uso para la Minería de Datos, de all í que en
la actualidad existan diferentes suites y herramientas especificas tanto bajo licencia de software privativo (SPSS Clementine, Kepler,
Oracle Data Mining Suite, DBMiner, DB2 Intelligent Miner, SAS Enterprise Miner, STATISTICA Data Miner, sólo por nombrar
algunas) como de software libre (WEKA, YALE, TariyKDD, JavaNNS); que permiten el preprocesado de los datos, varios modelo de
análisis, facilidad para el diseño de las soluciones y de experimentos debido al soporte grafico amigable con que se presentan los
resultados. WEKA (Waikato Environment for Knowledge
Analysis) fue desarrollada y es mantenida por un
grupo de investigadores de la Universidad de Waikato (Nueva Zelanda).
Las cuatro (4) opciones de interfaz de
trabajo con el programa son: Explorer: es la opción que permite ejecutar
los algoritmos de análisis y comparar resultados
sobre un único conjunto de datos.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Experimenter: es la opción que permite
definir experimentos complejos y almacenar resultados.
Knowledge Flow: es la opción que permite
llevar a cabo las mismas operaciones que Experimenter pero representado como un grafo dirigido.
Simple Cli: es “Command-Line Interfaz” es una ventana de comandos java para ejecutar las clases WEKA.
Al ahondar sobre la interfaz de trabajo Explorer se encuentran los siguientes seis (6) subentornos de ejecución:
Preprocess: permite el uso de las herramientas y filtros para cargar y manipular los datos.
Classify: permite el acceso a las técnicas de clasificación y regresión.
Cluster: permite integrar varios métodos de
agrupamiento. Associate: permite incluir las reglas de
asociación.
Select Attributes: permite aplicar las técnicas de reducción de atributos.
Visualize: permite visualizar el
comportamiento de los datos. Además, los datos se pueden importar en
varios formatos: ARFF, CVS, C.45, binarios, o
pueden provenir desde un URL o de una base de datos (usando JDBC).
Al importar el ejemplo iris.arff en la interfaz
de trabajo Explorer el subentorno de ejecución Preprocess en la opción Open File el programa nos mostrara la siguiente ventana:
Figura 7. Preprocess de iris.arff.
El WEKA permite hacer diferente
tratamiento con los datos: a) Supervisados, que consideran la información de la clase y b) No supervisados: no consideran la información de la
clase. Al seleccionar el atributo class resulta:
Figura 8. Selección atributo class de iris.arff.
Si sobre la opción Filter se pulsa sobre el
boton choose y luego en el menú unsupervised y en el submenú attribute la opción Discretize y luego sobre el botón Filter resultara la siguiente
ventana:
Figura 9. Menú unsupervised de iris.arff.
Discretize, permite t ransformar los atributos continuos a atributos nominales, es decir, la conversión de un tipo numérico a uno nominal
que representa rangos. Ejemplo: Calificaciones entre el rango 0 a 10 que adquieren el significado de reprobado, muy deficiente,
deficiente, regular, excelente. Al pulsar sobre el botón Apply se mostrara:
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Figura 10. Resultado de aplicar Discretize. Al revisar el segundo subentorno de
ejecución el Clasify, presenta cuatro (4) opciones en el Test Options:
Use trainig set: la muestra es usada para
entrenar y probar al mismo tiempo. Los resultados obtenidos no corresponden con la realidad.
Supplied test set: los at ributos de los datos son escritos en un nuevo archivo de formato ARFF sobre el cual se efectuará la clasificación.
Cross-validation: permite dividir la muestra en k partes, sobre estas se procede a entrenar el clasificador con las k-1 partes y evaluar con la
parte k actual. Percentage split: indica el porcentaje de la
muestra que empleara para probar el
clasificador. Además, el WEKA ofrece ocho opciones
para clasificar: Bayes: métodos basados en el aprendizaje
de Bayes. Functions: métodos matemáticos. Lazy: métodos basados en el aprendizaje
del perezoso. Meta: métodos que resultan de la
combinación de diferentes métodos de
aprendizaje. Mi: métodos que aprenden mediante la
variación de la densidad de los algoritmos.
Misc: métodos que aprenden como si leyeran los datos.
Trees: métodos que aprenden mediante
arboles de decisión. Rules: métodos que aprenden y esto se
puede expresar como reglas.
Se pueden observar las ocho (8) opciones en la figura 11.
Figura 11. Opciones del subentorno Classify.
El tercer subentorno de ejecución el Cluster
presenta nueve (9) algoritmos para agrupar
datos. CobWeb: utiliza el algoritmo CobWeb. DBScan: utiliza el algoritmo DBScan.
EM: utiliza el algoritmo EM. FarthestFirst: utiliza el algoritmo
FarthestFirst.
FilteredCluster: agrupa los datos arbitrariamente y luego son pasados por un filtro arbitrario.
MakeDensityBasedClusterer: los datos son envueltos en clases y devuelven su distribución y densidad.
OPTICS: utiliza el algoritmo OPTICS. SimpleKMeans: utiliza el algoritmo de k -
medias.
XMeans: utiliza el algoritmo de x-medias. Esto se puede apreciar en la siguiente
figura:
Figura 12. Opciones del subentorno Cluster.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
El cuarto subentorno de ejecución el
Associate y ofrece cinco (5) algoritmos para asociar datos:
Apriori: utiliza el algoritmo Apriori.
FilteredAssociator: utiliza el algoritmo que asocia los datos arbitrariamente además de filtrarlos arbitrariamente también.
GeneralizedSequentialPatterns: utiliza el algoritmo GSP.
PredictiveApriori: utiliza el algoritmo Apriori
para hacer reglas de asociación. Tertius: utiliza el algoritmo de Tertius.
Figura 13. Opciones del subentorno Associate.
La segunda interfaz de t rabajo Experimenter posee tres (3) subentornos de ejecución.
Setup: permite la carga de los archivos así
como la creación de los mismos. Run: permite ejecutar el archivo con los
algoritmos indicados en Setup.
Analyse: permite configurar las pruebas sobre los datos.
Figura 14. Opciones de Experimenter.
La tercera interfaz de trabajo Knowledge
Flow consta de ocho (8) subentornos de ejecución:
DataSources: permite leer los datos en los
diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.
DataSkin: permite guardar los datos en los
diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.
Filters: permite efectuar el pre-
procesamiento de los datos, se dividen supervisados y no supervisados.
Classifiers: permite efectuar la clasificación
de los datos, se dividen en: bayes, functions, lazy, meta, mi, misc, trees y rules.
Clusterers: permite aplicar las técnicas de
agrupamiento de datos. Associations: permite aplicar las técnicas de
asociación de los datos.
Evaluation: permite evaluar o designar el conjunto de datos para el entrenamiento.
Visualization: permite visualizar ya sea
como texto o grafico el resultado de los algoritmos.
En la figura 15 se pueden observar los ocho
(8) subentornos de ejecución presentes en la interfaz de trabajo.
Figura 15. Opciones de Knowledge Flow. La última interfaz de trabajo SimpleCLI está
compuesta por siete comandos posibles: java <classname> <args>. break.
kill. cls. history.
exit. help <command>
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Figura 16. Opciones de SimpleCLI.
No es más que un breve paseo de las
posibilidades que ofrece el WEKA, este hace
uso de las técnicas de la Minería de Datos, como valor agregado por estar implementado en Java, no presenta problemas de portabilidad (el
sistema operativo debe disponer de la máquina virtual apropiada para su funcionamiento).
Resultados
Las asignaturas de las carreras de la UNA, muy específicamente Introducción a la
Inteligencia Arti ficial y Sistemas Expertos (347), no escapan de la carencia y poca disponibilidad de medios instruccionales orientados a potenciar
las destrezas adquiridas y en especial los referidos al KDD del cual la Minería de Datos, constituye una fase muy importante, y de este
modo responder a las exigencias del entorno laboral actual.
Es tan trascendental el tema que la llamada
Inteligencia de los Negocios (Business Intelligence) que es el proceso de analizar los bienes de todo tipo (especialmente los datos)
acumulados en la empresa y extraer de ellos conocimiento apoyándose justamente en las técnicas que suministra la Minería de Datos.
Pentaho BI aprovecha la arquitectura, soporte, estándares, funcionalidad e innovación del software libre dispersas en diferentes áreas y
entrelazándolas para obtener una plataforma de BI cuyos componentes son: Reportes (Pentaho Reporting Engine), servidor OLAP (Mondrian),
integración de datos (Kettle), Minería de Datos (WEKA), y suite de BI.
En este sentido, WEKA por ser un sistema
multiplataforma con arquitectura basada en componentes independientes, con una interfaz
grafica amigable donde intuitivamente el usuario
puede usar cualquiera de los tres (3) interfaz de trabajo: Explorer, Experimenter y Knowledge Flow, así como sus respectivos subentornos de
ejecución, por tanto son de fácil uso y comprensión; esta suite de Minería de Datos permite la inclusión de contenidos que sin
software, quedarían sólo como una lectura y, en consecuencia, la adquisición de un conocimiento más completo y tangible en forma más didáctica,
atractiva y sencilla.
Conclusiones
El KDD está compuesto por cinco (5) fases en las cuales curiosamente no es necesaria la misma dedicación. La segunda fase: Selección,
limpieza y transformación abarca el 60% del tiempo total, esto es debido a su complejidad ya que garantiza la mayor corrección, exactitud y
calidad de los datos, y elimina los datos erróneos (Outliers) o faltantes (missing values). Si los datos no cumplen las condiciones que
garantizan su veracidad los patrones generados por la tercera fase: Minería de Datos no son confiables.
El WEKA es una colección de algoritmos para resolver los problemas planteados por las organizaciones a la Minería de Datos. Se
presenta bajo licencia GNU GPL (General Public License) permitiendo que el software sea usado, copiado y redistribuido libremente, además el
código fuente puede ser estudiado y modificado sin restricción alguna, este tipo de licencia posee las siguientes ventajas: a) Reducir costos, b)
Flexibilidad en la adaptación de los componentes, c) El emprender un proyecto a bajos costos y permitiendo una alta escalabilidad
y d) El desarrollo y mantenimiento del programa, así como, los repositorios provienen de diferentes fuentes. En la página web
http://www.cs.waikato.ac.nz/~ml/weka/index.html puede descargarse las diferentes versiones: estable (última versión 3.6.0), libro (última
versión 3.4.14) y para desarrolladores (última versión 3.7.0) en los siguientes sistemas operativos: Windows, Mac OS X y Linux, así
como la documentación y los requisitos para la instalación. También en la página web se pueden descargar más de una docena de base
de datos de diversos repositorios, por otra parte al menos cincuenta proyectos activos (WekaWiki) de diversas áreas de conocimiento.
Lo anterior garantiza el continuo mejoramiento, actualización y evolución del
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
WEKA, por otra parte, la Constitución Nacional
de la República Bolivariana de Venezuela en su artículo 110 y el decreto 3.390, indica que la Administración Pública Nacional empleará
prioritariamente las herramientas de código abierto.
Agradecimientos
Este trabajo ha sido realizado parcialmente gracias al apoyo de la Universidad Nacional
Abierta.
Referencias bibliográficas
Berthold, M. y Hand, D. (2003). Intelligent Data Analysis: An Introduction. Berlin: Springer.
Davenport, T. y Prusak, L. (1998). Work ing
Knowledge: How organizations manage what they know. Boston: Hardvard Business Scholl Press.
Fayyad, U., Piatesky-Shapiro, G. y Smyth, P. (1996). From Data Mining for Knowlegde Discovery: An Overview. Menlo Park:
American Association for Artificial Intelligence
(AAAI/MIT). Ferri, C., Hernández, J. y Ramírez, M. (2004).
Introducción a la Minería de Datos. Madrid:
Pearson Prentice Hall. Nichols, J. (1995). Using Future Trends to Inform
Planning/Marketing. Library Trends, 43(03),
349-366. Pérez, C. y Santín, D. (2006). Data Mining
Soluciones con Enterprise Miner. México D.F:
Alfaomega Grupo Editor. White, C. (1999). IBM Enterprise Analytics for
the Intelligent e-Business. Morgan Hill: IBM
Press.
Reseña curricular
J. Sánchez: Profesor de la Universidad Nacional Abierta, Venezuela. Ingeniero de Sistemas. Asesor Académico. Principal área de
interés: Inteligencia Artificial.