Upload
alex-sosa
View
42
Download
2
Embed Size (px)
Citation preview
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
ii
Aplicacin de las Tcnicas de Minera de Datos en
la Extraccin del Conocimiento
PORTADA
TABLA DE CONTENIDOS
PORTADA................................................................................................................iiTABLA DE CONTENIDOS .......................................................................................ii
LISTA DE FIGURAS ............................................................................................... iv
LISTA DE TABLAS ................................................................................................. vi
1 INTRODUCCIN.............................................................................................. 1
1.1. Motivacin.................................................................................................. 1
1.2. Objetivos.................................................................................................... 1
2 DESARROLLO................................................................................................. 2
2.1 Tcnicas de Minera de Datos ................................................................... 2
2.2 Tcnicas de Minera de Datos ms Usadas............................................... 4
2.2.1 Redes Neuronales............................................................................... 4
2.2.2 rboles de Decisin............................................................................. 4
2.2.3 Algoritmos Genticos .......................................................................... 5
2.2.4 Clustering (Agrupamiento)................................................................... 5
2.2.5 Aprendizaje Automtico....................................................................... 6
2.3 Tcnica de Minera de Datos: Regresin Lineal ........................................ 62.4 Primer Ejercicio de Tcnicas de Minera de Datos: Regresin Lineal...... 10
2.4.1 Diccionario de Datos ......................................................................... 11
2.4.2 Seleccin de Atributos....................................................................... 15
2.4.3 Aplicacin de la Minera de Datos y Obtencin del Mejor Modelo..... 17
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
iii
2.4.4 Prueba y validacin del Modelo......................................................... 19
2.5 Tcnica de Minera de Datos: rboles de Decisin ................................. 21
2.5.1 Poda y Reestructuracin ................................................................... 23
2.5.2 Algoritmos Basados en rboles de Decisin..................................... 24
2.6 Segundo Ejercicio de Tcnicas de Minera de Datos: rboles de Decisin24
2.6.1 Transformacin de los Datos............................................................. 25
2.7 Tercer Ejercicio de Tcnicas de Minera de Datos: rboles de Decisin. 30
2.7.1 Diccionario de Datos ......................................................................... 30
2.7.2 Seleccin de Atributos....................................................................... 30
2.7.3 Aplicando La Prepoda ....................................................................... 33
2.7.4 Aplicando La Pospoda....................................................................... 34
2.8 Tcnica de Minera de Datos: Redes Neuronales.................................... 36
2.8.1 Elementos de una Red Neuronal....................................................... 37
2.8.2 Caractersticas de las redes Neuronales........................................... 38
2.8.3 Modelos de Redes Neuronales ......................................................... 43
2.8.4 Ventajas de las Redes Neuronales ................................................... 47
2.9 Cuarto Ejercicio de Tcnicas de Minera de Datos: Redes Neuronales... 49
3 CONCLUSIONES........................................................................................... 53
4 RECOMENDACIONES................................................................................... 54
5 REFERENCIAS.............................................................................................. 55
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
iv
LISTA DE FIGURAS
Figura 2.1 Grafica Mostrando el Ajuste de una Recta, a travs de la Regresin
Lineal ...................................................................................................................... 7Figura 2.2 Grafica Mostrando un Comportamiento No Lineal de los Datos ............ 8
Figura 2.3 Imagen mostrando Tabla de Datos y Grafica con un Ajuste de los Datosa una Lnea de Regresin Lineal. ........................................................................... 9
Figura 2.4 Grafica Mostrando el Ajuste de los Pares tiempo, Ln(estim) a una Recta................................................................................................................................ 9
Figura 2.5 Ajuste Exponencial para el Par Tiempo, Estimacin............................ 10
Figura 2.6 Imagen Mostrando el Archivo zoo.csv en el Explorador de Weka..... 13
Figura 2.7 Configuracin del Experimento para el Conjunto de Datos zoo.arff..... 14
Figura 2.8 Imagen Mostrando la Vista Minable despus de la Primera Seleccin deAtributos................................................................................................................ 16
Figura 2.9 Imagen Mostrando la Seleccin de los Mejores Atributos con elEvaluador CfsSubsetEval de Weka .................................................................... 17
Figura 2.10 Imagen Mostrando el Mejor Modelo de regresin Lineal para elConjunto de Datos zoo.arff.................................................................................... 18
Figura 2.11 Imagen Mostrando la Programacin del Modelo Resultante deRegresin Lineal en JBuilder ................................................................................ 20
Figura 2.12 Imagen Mostrando el Resultado de una de las Pruebas del Sistema dePrediccin ............................................................................................................. 20
Figura 2.13 rbol de Decisin para Jugar Golf ..................................................... 23
Figura 2.14 Imagen Mostrando la Configuracin del Experimentador para losDatos Transformados del Conjunto de Datos Zoo2.arff...................................... 26
Figura 2.15 Imagen Mostrando el Resultado del Experimento Enfrentando rboles
de Decisin y Reglas, Comparando el Porcentaje de Correctos........................... 27Figura 2.16 Imagen Mostrando el Resultado del Algoritmo NBTree con el Conjuntode Datos Zoo2.arff ................................................................................................ 28
Figura 2.17 Imagen Mostrando los Atributos ms Relevantes del Conjunto deDatos Zoo2.arff de Acuerdo al Evaluador GainRatioAttributeEval ........................ 29
Figura 2.18 Mejor Modelo para el Conjunto de Datos Zoo2.arff ........................... 29
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
v
Figura 2.19 Diccionario de Datos del Conjunto de Datos car.arff.......................... 30
Figura 2.20 Imagen Mostrando el Resultado de la Evaluacin del Algoritmo J48con el Conjunto de Datos car.arff.......................................................................... 31
Figura 2.21 Imagen Mostrando el Resultado del Evaluador de Atributos para elConjunto de Datos car.arff .................................................................................... 32
Figura 2.22 Resultado del Algoritmo J48 despus de Eliminar los Atributos MenosDeterminantes....................................................................................................... 33
Figura 2.23 Ventana Mostrando la Configuracin de la Prepoda en el Exploradorde Weka ................................................................................................................ 33
Figura 2.24 Resultado de la Evaluacin del Algoritmo J48 despus de la Prepoda.............................................................................................................................. 34
Figura 2.25 Ventana Mostrando la Configuracin de la Pospoda en el Exploradorde Weka ................................................................................................................ 35
Figura 2.26 Resultado de la Evaluacin del Algoritmo J48 despus de la Pospoda.............................................................................................................................. 35
Figura 2.27 Sistema Global de Proceso de una Red Neuronal............................. 37
Figura 2.28 Modelo de Neurona Artificial Standard............................................... 38
Figura 2.29 Diferentes Arquitecturas de Redes Neuronales ................................. 39
Figura 2.30 Arquitectura (izquierda) y Funcin de Transferencia (derecha) de unPerceptrn Simple................................................................................................. 44
Figura 2.31 Neurona lineal de la Adalina .............................................................. 45
Figura 2.32 Arquitectura del Perceptrn Multicapa ............................................... 46
Figura 2.33 Regiones de decisin obtenidas para el perceptrn simple (arriba), elperceptrn multicapa con una capa oculta (en medio) y el perceptrn multicapacon dos capas ocultas (abajo)............................................................................... 47
Figura 2.34 Resultado de la Red Neuronal en Weka con los Parmetros porDefault................................................................................................................... 50
Figura 2.35 Salvando el Modelo de Redes Neuronales (MultilayerPerceptron) delConjunto de Datos zoo.arff.................................................................................... 51
Figura 2.36 Pantalla Principal del Sistema de Prediccin del Tipo de Animal ...... 52
Figura 2.37 Prueba del Sistema Predictor ............................................................ 52
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
vi
LISTA DE TABLAS
Tabla 2.1 Tabla Mostrando algunas Tcnicas de Minera de Datos ....................... 3
Tabla 2.2 Diccionario de Datos de la Vista Minable para el Ejercicio de Regresin
Lineal .................................................................................................................... 11
Tabla 2.3 Tabla Mostrando los Valores que puede tener la Clase Type ............ 12
Tabla 2.4 Tabla Mostrando los Coeficientes de Correlacin de los AlgoritmosEvaluados ............................................................................................................. 14
Tabla 2.5 Tabla Mostrando los Datos de validacin del Modelo ........................... 19
Tabla 2.6 Tabla de Ejemplos para Decidir si Jugar Golf o No............................... 22
Tabla 2.7 Tabla Mostrando la Vista Minada, una vez que se Transformaron los
Atributos y la Clase ............................................................................................... 25Tabla 2.8 Tabla Comparativa del Resultado del Experimentador Comparando los
Algoritmos de rboles de Decisin y Reglas del Conjunto de Datos Zoo2.arff..... 28
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
1
1 INTRODUCCIN
1.1.Motivacin
En este trabajo se presenta la forma en que pueden aplicarse las tcnicas de
minera de datos en la construccin y validacin de modelos que nos permita
realizar un anlisis de datos dirigido al descubrimiento del conocimiento. El
conocer y aprender de estas tcnicas las cuales nos apoyarn para el desarrollo
de nuestra monografa, es la principal motivacin.
1.2.Objetivos
Modelacin de problemas y aplicacin de diferentes tcnicas del rea de
extraccin de conocimiento. El objetivo de esta tarea es adquirir el conocimiento
necesario para aplicar tcnicas de extraccin de conocimiento. Haciendo un
anlisis crtico sobre modificaciones en los parmetros de los distintos modelos,
con el fin de obtener posibles mejoras en la solucin.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
2
2 DESARROLLO
2.1 Tcnicas de Minera de Datos
La minera de datos ha dado lugar a una paulatina sustitucin del anlisis de
datos dirigido a la verificacin por un enfoque de anlisis de datos dirigido al
descubrimiento del conocimiento (Moreno Garca, Miguel Quintales, Garca
Pealvo, & Polo Martn). La principal diferencia entre ambos se encuentra en que
en el ltimo se descubre informacin sin necesidad de formular previamente una
hiptesis. La aplicacin automatizada de algoritmos de minera de datos permite
detectar fcilmente patrones en los datos, razn por la cual esta tcnica es mucho
ms eficiente que el anlisis dirigido a la verificacin cuando se intenta explorar
datos procedentes de repositorios de gran tamao y complejidad elevada. Dichas
tcnicas emergentes se encuentran en continua evolucin como resultado de la
colaboracin entre campos de investigacin tales como bases de datos,
reconocimiento de patrones, inteligencia artificial, sistemas expertos, estadstica,
visualizacin, recuperacin de informacin, y computacin de altas prestaciones.
Los algoritmos de minera de datos se clasifican en dos grandes categoras:
supervisados o predictivos y no supervisados o de descubrimiento del
conocimiento [Weiss y Indurkhya,1998]. Los algoritmos supervisados o predictivos
predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros
atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se
induce una relacin entre dicha etiqueta y otra serie de atributos. Esas relaciones
sirven para realizar la prediccin en datos cuya etiqueta es desconocida. Estaforma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos
fases: Entrenamiento (construccin de un modelo usando un subconjunto de datos
con etiqueta conocida) y prueba (prueba del modelo sobre el resto de los datos).
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-de
3
En la Tabla 2.1 se muestran algunas de las tcnicas de minera de ambas
categoras:
Tabla 2.1 Tabla Mostrando algunas Tcnicas de Minera de Datos
La aplicacin de los algoritmos de minera de datos requiere la realizacin de
una serie de actividades previas encaminadas a preparar los datos de entrada
debido a que, en muchas ocasiones dichos datos proceden de fuentes
heterogneas, no tienen el formato adecuado o contienen ruido. Por otra parte, es
necesario interpretar y evaluar los resultados obtenidos. El proceso completo
consta de las siguientes etapas [Cabena et al., 1998]:
1. Determinacin de los Objetivos
2. Preparacin de los Datos
a. Seleccin: Identificacin de las fuentes de informacin externas
e internas y seleccin del subconjunto de datos necesario.
b. Preprocesamiento: estudio de la calidad de los datos y
determinacin de las operaciones de minera que se pueden
realizar.
c. Transformacin de los Datos: conversin de datos en unmodelo analtico.
3. Minera de Datos: tratamiento automatizado de los datos seleccionados
con una combinacin apropiada de algoritmos.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
4
4. Anlisis de los Resultados: interpretacin de los resultados obtenidos en
la etapa anterior, generalmente con la ayuda de una tcnica de
visualizacin.
5. Asimilacin del Conocimiento: aplicacin del conocimiento descubierto.
2.2 Tcnicas de Minera de Datos ms Usadas
2.2.1 Redes Neuronales
Esta tcnica de inteligencia artificial, en los ltimos aos se ha convertido en
uno de los instrumentos de uso frecuente para detectar categoras comunes en losdatos, debido a que son capaces de detectar y aprender complejos patrones, y
caractersticas de los datos.
Una de las principales caractersticas de las redes neuronales, es que son
capaces de trabajar con datos incompletos e incluso paradjicos, que
dependiendo del problema puede resultar una ventaja o un inconveniente.
Adems esta tcnica posee dos formas de aprendizaje: supervisado y no
supervisado.
2.2.2 rboles de Decisin
Est tcnica se encuentra dentro de una metodologa de aprendizaje
supervisado. Su representacin es en forma de rbol en donde cada nodo es una
decisin, los cuales a su vez generan reglas para la clasificacin de un conjunto
de datos.
Los rboles de decisin son fciles de usar, admiten atributos discretos y
continuos, tratan bien los atributos no significativos y los valores faltantes. Su
principal ventaja es la facilidad de interpretacin.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
5
2.2.3 Algoritmos Genticos
Los algoritmos genticos imitan la evolucin de las especies mediante la
mutacin, reproduccin y seleccin, como tambin proporcionan programas yoptimizaciones que pueden ser usadas en la construccin y entrenamiento de
otras estructuras como es el caso de las redes neuronales. Adems los algoritmos
genticos son inspirados en el principio de la supervivencia de los ms aptos.
2.2.4 Clustering (Agrupamiento)
Agrupan datos dentro de un nmero de clases preestablecidas o no,partiendo de criterios de distancia o similitud, de manera que las clases sean
similares entre s y distintas con las otras clases. Su utilizacin ha proporcionado
significativos resultados en lo que respecta a los clasificadores o reconocedores
de patrones, como en el modelado de sistemas. Este mtodo debido a su
naturaleza flexible se puede combinar fcilmente con otro tipo de tcnica de
minera de datos, dando como resultado un sistema hbrido.
Un problema relacionado con el anlisis de cluster es la seleccin de factores
en tareas de clasificacin, debido a que no todas las variables tienen la misma
importancia a la hora de agrupar los objetos. Otro problema de gran importancia y
que actualmente despierta un gran inters es la fusin de conocimiento, ya que
existen mltiples fuentes de informacin sobre un mismo tema, los cuales no
utilizan una categorizacin homognea de los objetos. Para poder solucionar estos
inconvenientes es necesario fusionar la informacin a la hora de recopilar,
comparar o resumir los datos.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
6
2.2.5 Aprendizaje Automtico
Esta tcnica de inteligencia artificial es utilizada para inferir conocimiento del
resultado de la aplicacin de alguna de las otras tcnicas antes mencionadas.
2.3 Tcnica de Minera de Datos: Regresin Lineal
En este ejercicio veremos la aplicacin de la regresin lineal como tcnica de
la Minera de Datos. La regresin Lineal forma parte de la modelizacin estadstica
la cual consiste en explicar el comportamiento de una variable a partir del
conocimiento de otras. Se habla de un modelo de regresin cuando la variable derespuesta (clase) y las variables explicativas (atributos) son todas ellas
cuantitativas. Si se tiene una sola variable de respuesta, hablamos de regresin
simple, si se cuenta de varias variables de respuesta se trata de un problema de
regresin mltiple.
La regresin lineal, es la funcin de regresin ms simple y sin duda la ms
utilizada para realizar la tarea de prediccin numrica. En la regresin lineal, la
idea es estimar la variable objetivo (y) como una ecuacin que contiene como
incgnitas al resto de las variables (x1, . . . ,xn). El modelo de regresin lineal que
reducida a una sola variable de respuesta tiene la forma: y = a + b * x
Estos coeficientes pueden obtenerse fcilmente mediante el mtodo de los
mnimos cuadrados:
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
7
En la Figura 2.1 se observa cmo se ajusta un modelo de regresin lineal a
una serie de datos, obteniendo la recta de regresin.
Figura 2.1 Grafica Mostrando el Ajuste de una Recta, a travs de la RegresinLineal
En la Figura 2.1 se observa un ajuste apropiado de la recta a los datos, pero
hay ocasiones en que los datos tienen un comportamiento tal que no se pueden
ajustar a una recta es decir tienen un comportamiento no lineal (ver Figura 2.2).
Estos modelos se pueden convertir en modelos lineales con simples
transformaciones. Para estimar curvas es necesario usar otra regresin, por
ejemplo, regresin exponencial:
Cmo estimamos ahora a y b? Se toman logaritmos:
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
8
ln(y) = ln(a ebx) ln(y) = ln(a)+ln(ebx) y = a + bx
Es decir, tenemos un problema de regresin lineal entre y = ln(y) yx. Una
vez estimados a y b podemos calculara = ea
Figura 2.2 Grafica Mostrando un Comportamiento No Lineal de los Datos
Para explicar mejor esto, consideremos los datos de la Figura 2.3, tratemos
de explicar la respuesta a un estimulo a lo largo del tiempo (horas). Si usramos
regresin lineal tendramos los resultados que se muestran en la grafica de la
Figura 2.3. Aunque el grado de explicacin con la funcin recta es relativamente
alto (78.1%), el ajuste puede ser mejorado utilizando la funcin exponencial:
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
9
Figura 2.3 Imagen mostrando Tabla de Datos y Grafica con un Ajuste de los Datos
a una Lnea de Regresin Lineal.
Ajustamos los pares (tiempo, Ln(estim)) a una recta:
Ln(estim) = 0 + 1 tiempo + , Obteniendo: 0=1.68 y 1=-0.33. (ver
Figura 2.4)
Figura 2.4 Grafica Mostrando el Ajuste de los Pares tiempo, Ln(estim) a una Recta
tiempo estimulo
0.50 4.50
1.00 4.00
2.00 3.82
3.00 2.50
3.50 2.004.00 1.40
5.00 0.55
6.00 0.67
7.00 0.36
8.00 0.41
9.00 0.24
10.00 0.12
11.00 0.29
12.00 0.11
y = -0.375x + 3.696
R = 0.781
0.00
0.50
1.00
1.50
2.00
2.50
3.00
3.50
4.00
4.50
5.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
RespuestaalEstimulo
tiempo en Horas
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
10
Entonces, el ajuste exponencial para (tiempo, estimacin) es el que se
muestra en la figura.
Figura 2.5 Ajuste Exponencial para el Par Tiempo, Estimacin
2.4 Primer Ejercicio de Tcnicas de Minera de Datos: Regresin Lineal
El objetivo de este ejercicio es la construccin de un modelo de prediccin, el
cual se har sobre un conjunto de datos procedentes del repositorio UCI. Este
conjunto de datos es un desglose de los animales que pertenecen a cierto tipo. Se
pretende encontrar un algoritmo de aprendizaje efectivo para este conjunto de
datos seleccionado, analizando los puntos fuertes y dbiles de cada algoritmo,
usar el algoritmo, generar un clasificador y hacer una prediccin de cmo se
comportar con nuevos datos. Aplicar a los nuevos datos y comparar los
resultados con los que se haban predicho.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
11
2.4.1 Diccionario de Datos
Se dispone de una simple base de datos que contienen 17 atributos. El
atributo "tipo" es la clase. En la Tabla 2.2 se muestra el diccionario de datos de lavista minable.
Tabla 2.2 Diccionario de Datos de la Vista Minable para el Ejercicio de RegresinLineal
La clase como se mencion anteriormente es el campo type, el cual puedetener los valores que se muestran en la tabla
Atributo Descripcin Tipo de Dato
animal_name Nombre del Animal Unico por cada instancia
hair Campo que indica si el animal tiene pelo el animal Booleano
feathers Campo que indica si el animal tiene plumas Booleano
eggs Campo que indica si el animal pone huevos Booleano
milk Campo que indica si el animal produce leche Booleano
airborne Campo que indica si el animal vuela Booleano
aquatic Campo que indica si el animal es acuatico Booleano
predator Campo que indica si el animal es depredador Booleano
toothed Campo que indica si el animal tiene dientes Booleano
backbone Campo que indica si el animal tiene vertebras Booleano
breathes Campo que indica si el animal respira con pulmones Booleano
venomous Campo que indica si el animal es venenoso Booleano
fins Campo que indica si el animal tiene aletas Booleano
legs Campo que indica el numero de patas del animal Numerico (valores en el rango: {0,2,4,5,6,8})
tail Campo que indica si el animal tiene cola Booleano
domestic Campo que indica si el animal es domestico Booleano
catsize Campo que indica si el animal es pequeo (del tamao de un gato) Booleano
type Campo que indica el tipo de animal (clase) Numerico Valores en el rango [1,7])
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
12
Tabla 2.3 Tabla Mostrando los Valores que puede tener la Clase Type
En resumen, tenemos 18 atributos (1 atributo tipo cadena: nombre del
animal, 15 atributos booleanos y 2 numricos). Y el conjunto de datos se conforma
de 101 instancias.
Antes de trabajar con el conjunto de datos en Weka, cambiamos los ttulos
de los atributos al espaol para una mejor comprensin del modelo. Ejecutamos
Weka y abrimos el archivo zoo.csv con el Explorador (ver Figura 2.6). En primera
instancia observamos que el atributo nombre_animal se puede eliminar ya que es
nico en el conjunto de datos. Una vez eliminado el atributo nombre_animal,
convertimos el archivo csv a un archivo arff para poder trabajarlo en el
Experimentador.
Type Animales
1 aardvark, antelope, bear, boar, buffalo, calf,
cavy, cheetah, deer, dolphin, elephant,
fruitbat, giraffe, girl, goat, gorilla, hamster,
hare, leopard, lion, lynx, mink, mole, mongoose,opossum, oryx, platypus, polecat, pony,
porpoise, puma, pussycat, raccoon, reindeer,
seal, sealion, squirrel, vampire, vole, wallaby,wolf
1 chicken, crow, dove, duck, flamingo, gull, hawk,
kiwi, lark, ostrich, parakeet, penguin, pheasant,
rhea, skimmer, skua, sparrow, swan, vulture, wren
3 pitviper, seasnake, slowworm, tortoise, tuatara
4 bass, carp, catfish, chub, dogfish, haddock,
herring, pike, piranha, seahorse, sole, stingray, tuna
5 frog, frog, newt, toad
6 flea, gnat, honeybee, housefly, ladybird, moth, termite, wasp7 clam, crab, crayfish, lobster, octopus,
scorpion, seawasp, slug, starfish, worm
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
13
Figura 2.6 Imagen Mostrando el Archivo zoo.csv en el Explorador de Weka
Una vez que tenemos el archivo arff, abrimos el Experimentador de Weka y
hacemos lo siguiente:
Abrimos el archivo zoo.arff.
Configuramos el modo de evaluacin con una validacin cruzada.
Seleccionamos los algoritmos a evaluar (regresin lineal, red neuronal,
RBFNetwork, M5P y el meta de regresin por discretizacin usando el
clasificador J48).
La configuracin del experimentador debe estar como se muestra en la
Figura 2.7.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
14
Figura 2.7 Configuracin del Experimento para el Conjunto de Datos zoo.arff
A continuacin ejecutamos el experimento y se selecciona la regresin lineal
como el mejor algoritmo por tener el mejor coeficiente de correlacin (ver Tabla
2.4)
Tabla 2.4 Tabla Mostrando los Coeficientes de Correlacin de los AlgoritmosEvaluados
Tipo Algoritmo algoritmo
Coeficiente
Correlacin
error medio
absoluto
Functions LinearRegresion 0.9840 0.2275
Meta
RegresionByDiscretizacion
con Clasificador J48 0.9823 0.0858Functions MultilayerPerceptron 0.9782 0.1613
Reglas M5Rules 0.9652 0.1854
Arbol M5P 0.9646 0.2105
Functions RBFNetwork 0.6043 1.2684
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
15
Una vez que definimos el algoritmo a usar, regresamos al Explorador de
Weka para tratar de encontrar el mejor modelo, de tal forma que sea sencillo y
comprensible. Evaluamos el algoritmo LinearRegresion con los valores por
defecto y con el conjunto de datos total, dando como resultado:
-0.2078 * tiene_pelo +-0.9963 * tiene_plumas +0.3477 * pone_huevos +-2.3174 * produce_leche +-0.2345 * vuela +0.3936 * es_acuatico +0.7639 * tiene_dientes +-3.3404 * tiene_vertebras +-0.2877 * tiene_aletas +-0.1713 * tiene_cola +6.2299
De aqu se puede decir que el atributo que ms influye para determinar de
qu tipo es un animal es si tiene vertebras, despus si es un animal que produce
leche. Por otro lado observamos que hay atributos que no intervienen en cuanto a
la prediccin a travs de regresin lineal del tipo de animal, como son: si es
depredador, si respira con pulmones, si es venenoso, el numero de patas quetiene, el tamao y si es domestico.
En resumen: iniciamos con 17 atributos y una clase a predecir, de inicio
eliminamos un atributo (nombre del animal) por ser nico en la vista minable. Una
vez que aplicamos la regresin lineal se observa que hay 6 atributos que no
influyen en la prediccin del tipo, nicamente se consideran10 atributos en la
regresin lineal.
2.4.2 Seleccin de Atributos
Vamos a eliminar los atributos que no influyen de acuerdo con la regresin
lineal, obteniendo la vista que se muestra en la Figura 2.8.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
16
Figura 2.8 Imagen Mostrando la Vista Minable despus de la Primera Seleccin deAtributos
Ejecutamos nuevamente el algoritmo de regresin lineal a la nueva vista
minable obteniendo los siguientes resultados: De un coeficiente de correlacin de
0.984 sube a un coeficiente de correlacin de 0.9866 por tanto se mejor elmodelo con esta primera seleccin o filtrado de atributos.
En el Explorador de Weka en la pestaa Select Attributes, seleccionamos el
evaluador de atributos: CfsSubsetEval, el cual evala el valor de un subconjunto
de atributos teniendo en cuenta la capacidad de prediccin individual de cada
caracterstica, junto con el grado de redundancia entre ellos.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
17
Figura 2.9 Imagen Mostrando la Seleccin de los Mejores Atributos con elEvaluador CfsSubsetEval de Weka
De esta seleccin de atributos se obtiene que los atributos con ms peso en
el conjunto de datos son: Si produce leche, si tiene vertebras y si tiene cola.
2.4.3 Aplicacin de la Minera de Datos y Obtencin del Mejor Modelo
A continuacin evaluamos de nueva cuenta el algoritmo de regresin lineal,
pero ahora nicamente con los atributos que se obtuvieron a travs del evaluador
CfsSubsetEval. De esta evaluacin se obtiene un coeficiente de correlacin de
0.7107 lo cual est muy por debajo del anterior que era de 0.9866, con lo cual esta
seleccin de atributos no mejora el modelo y el mejor modelo con regresin lineal
es el que tiene los atributos mostrados en la Figura 2.8. Y por tanto el mejor
modelo de regresin lineal es el que se muestra en la figura .
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
18
Figura 2.10 Imagen Mostrando el Mejor Modelo de regresin Lineal para elConjunto de Datos zoo.arff
De este modelo de regresin lineal optimo, se desprende la siguiente
ecuacin:
-0.2078 * tiene_pelo +-0.9963 * tiene_plumas +0.3477 * pone_huevos +-2.3174 * produce_leche +-0.2345 * vuela +
0.3936 * es_acuatico +0.7639 * tiene_dientes +-3.3404 * tiene_vertebras +-0.2877 * tiene_aletas +-0.1713 * tiene_cola +6.2299
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
19
Como se mencion anteriormente, los atributos que ms influyen para
determinar a qu tipo de animal pertenece es: si tiene vertebras y si es un animal
que produce leche.
2.4.4 Prueba y validacin del Modelo
Una vez que obtuvimos el modelo, hacemos uso de una herramienta de
programacin, para este ejercicio usamos el lenguaje java. En el ambiente
JBuilder programamos el modelo de regresin lineal (ver Figura 2.11). Ejecutamos
el programa y probamos el modelo con los datos mostrados en la Tabla 2.5.
Tabla 2.5 Tabla Mostrando los Datos de validacin del Modelo
nombre_animal
tiene_
pelo
tiene_pl
umas
pone_h
uevos
produce_l
eche vuela
es_acua
tico
tiene_di
entes
tiene_ver
tebras
tiene_a
letas
tiene_
cola tipo
bear 1 0 0 1 0 0 1 1 0 0 1
chicken 0 1 1 0 1 0 0 1 0 1 2
dolphin 0 0 0 1 0 1 1 1 1 1 1
flamingo 0 1 1 0 1 0 0 1 0 1 2
frog 0 0 1 0 0 1 1 1 0 0 5
frog 0 0 1 0 0 1 1 1 0 0 5
gorilla 1 0 0 1 0 0 1 1 0 0 1
leopard 1 0 0 1 0 0 1 1 0 1 1
lion 1 0 0 1 0 0 1 1 0 1 1
penguin 0 1 1 0 0 1 0 1 0 1 2
seahorse 0 0 1 0 0 1 1 1 1 1 4
tortoise 0 0 1 0 0 0 0 1 0 1 3
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
20
Figura 2.11 Imagen Mostrando la Programacin del Modelo Resultante deRegresin Lineal en JBuilder
Los casos probados son acertados por el sistema de prediccin elaborado en
base al modelo generado en Weka, tal y como se ve en el ejemplo del pingino en
la figura.
Figura 2.12 Imagen Mostrando el Resultado de una de las Pruebas del Sistema dePrediccin
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
21
2.5 Tcnica de Minera de Datos: rboles de Decisin
En este tema se va a presentar el algoritmo de rboles de decisin. El cual
se basa en una particin del dominio de definicin de las variables de respuesta,se va a poder representar el conocimiento sobre el problema por medio de una
estructura de rbol.
De todos los mtodos de aprendizaje, los mtodos basados en rboles de
decisin son quizs el mtodo ms fcil de utilizar y de comprender. Un rbol de
decisin es un conjunto de condiciones organizadas en una estructura jerrquica,
de manera tal que la decisin final pueda tomarse siguiendo las condiciones quese cumplen desde la raz del rbol hasta alguna de sus hojas.
Cada nodo interno corresponde a una prueba en el valor de uno de los
atributos y las ramas estn etiquetadas con los posibles valores de la prueba.
Cada hoja especifica el valor de la clase.
Existe una serie de algoritmos desarrollados desde los principios de los 60spara la construccin de rboles de decisin. CLS (Hunt et al., 1966), ID3 (Quinlan,
1979), CART (Breiman et al., 1984), ACLS (Niblett et al., 1982), ASSISTANT
(Cestnik et al., 1987), C4.5 (Quinlan, 1993), etc. Muchos de estos desarrollos se
han convertido en herramientas comerciales, por ejemplo, RuleMaster (1984), Ex-
Tran (1984), Expert-Ease (1983), y C5/See5 (2000). Por otro lado, la gran mayora
de los ambientes de KDD incluyen alguna versin de ID3 o de CART.
La tarea de aprendizaje para la cual los rboles de decisin se adecuan
mejor es la clasificacin. La estructura de condicin y ramificacin de un rbol de
decisin es idnea para determinar de entre varias clases a que clase pertenece
un objeto.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
22
Los rboles de decisin estn limitados a hablar de un solo objeto, o sea, son
esencialmente proposicionales, siendo cada prueba de atributo una proposicin.
Por otro lado, los rboles de decisin son completamente expresivos dentro de la
clase de lenguajes proposicionales. O sea que cualquier funcin Booleana puedeser descrita por un rbol de decisin.
Consideremos los datos mostrados en la Tabla 2.6, en donde de acuerdo a
condiciones del ambiente se decide o no a jugar golf.
Tabla 2.6 Tabla de Ejemplos para Decidir si Jugar Golf o No
De este conjunto de datos se obtiene un rbol de decisin como el que se
muestra en la Figura 2.13. Con el rbol construido, podemos preguntar si esta bien
jugar el sbado en la maana con ambiente soleado, temperatura alta, humedad
alta y con viento, a lo cual el rbol me responde que no.
Ambiente Temperatura Humedad Viento Clase
soleado alta alta no Nsoleado alta alta si N
nublado alta alta no P
lluvia media alta no P
lluvia baja normal no P
lluvia baja normal si N
nublado baja normal si P
soleado media alta no N
soleado baja normal no P
luvia media normal no P
soleado media normal si Pnublado media alta si P
nublado alta normal no P
lluvia media alta si N
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
23
Figura 2.13 rbol de Decisin para Jugar Golf
2.5.1 Poda y Reestructuracin
Los algoritmos de rboles de decisin obtienen un modelo completo y
consistente con respecto a la evidencia, ya que cubre todos los ejemplos vistos y
los cubre de manera correcta. Esto parece ptimo pero, se vuelve demasiado
ingenuo en la realidad, ya que ajustarse demasiado a la evidencia, puede tener
como consecuencia que el modelo se comporte mal para nuevos ejemplos.
Una forma de limitar este problema es modificar los algoritmos de
aprendizaje de tal forma que obtenga modelos ms generales. En el contexto de
los rboles de decisin generalizar significa eliminar condiciones de las ramas del
rbol. Este proceso en los rboles de decisin se ve grficamente como un
proceso de poda.
Los nodos que estn por debajo del lmite de poda se eliminan, ya que se
consideran demasiado especficos. Existen los mtodos de prepoda y pospoda. La
prepoda se realza durante la construccin del rbol, se trata de determinar el
criterio de parada a la hora de seguir especializando en una rama. La prepoda
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
24
est basada en el nmero de ejemplos por nodo. La pospoda se realiza despus
de la construccin del rbol y se trata d eliminar nodos de abajo a arriba hasta un
cierto lmite.
2.5.2 Algoritmos Basados en rboles de Decisin.
Basndose en diferentes particiones, en un criterio de particin y otras
extensiones hay diferentes algoritmos de rboles de decisin dos de los ms
conocidos son:
CART [Breiman et al. 1984] y derivados. Son mtodos divide y vencersque construyen rboles binarios.
ID3 [Quinlan 1983] [Quinlan 1986], C4.5 [Quinlan 1993]. Son mtodos divide
y vencers y estn basados en criterios de particin derivados de la ganancia
(GainRatio). Tienen poda basada en reglas u otros mecanismos ms sofisticados.
Weka tiene una versin ms avanzada, la J48.
2.6 Segundo Ejercicio de Tcnicas de Minera de Datos: rboles deDecisin
Para este segundo ejercicio, vamos a usar el mismo conjunto de datos
utilizado anteriormente para el modelo de regresin de lineal (zoo.csv). Ahora
vamos a ilustrar el uso de rboles de decisin. Para poder hacer uso y evaluacin
de los algoritmos de rboles de decisin con el conjunto de datos, ser necesario
hacer algunas transformaciones a los atributos, de tal forma que los atributos
numricos los transformemos a atributos nominales y poder utilizar las tcnicas de
rboles de decisin en Minera de Datos.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
25
2.6.1 Transformacin de los Datos.
Para hacer la transformacin de los atributos, abrimos el archivo zoo.csv en
Excel. Utilizando la opcin reemplazar, cambiamos todos los atributos booleanoscuyo valor sea 0 a NO, y cuyo valor sea 1 a SI.
Al valor de la clase le anteponemos la palabra TIPO, de esta forma y a
travs de un rbol de decisin predecir de acuerdo a los dems atributos a cual
tipo pertenece un cierto animal. El resultado final de la vista minable queda como
se muestra en la Tabla 2.7. El conjunto de datos resultante se llama ahora
zoo2.arff.
Ya con la vista minable lista para ser analizada por diferentes mtodos de
rboles de decisin o reglas, abrimos el experimentador y enfrentamos los
siguientes algoritmos de rboles de decisin: J48 y NBtreee; y los algoritmos de
reglas: JRip y Ridor.
Tabla 2.7 Tabla Mostrando la Vista Minada, una vez que se Transformaron losAtributos y la Clase
nombre_animtiene_ptiene_ppone_hproduc vuela es_acu es_dep tiene_dtiene_v resp_p es_ven tiene_anum_p tiene_c domestpequetipo
aardvark SI NO NO SI NO NO SI SI SI SI NO NO 4 NO NO SI TIPO 1antelope SI NO NO SI NO NO NO SI SI SI NO NO 4 SI NO SI TIPO 1
bass NO NO SI NO NO SI SI SI SI NO NO SI 0 SI NO NO TIPO 4
bear SI NO NO SI NO NO SI SI SI SI NO NO 4 NO NO SI TIPO 1
boar SI NO NO SI NO NO SI SI SI SI NO NO 4 SI NO SI TIPO 1
buffalo SI NO NO SI NO NO NO SI SI SI NO NO 4 SI NO SI TIPO 1
calf SI NO NO SI NO NO NO SI SI SI NO NO 4 SI SI SI TIPO 1
carp NO NO SI NO NO SI NO SI SI NO NO SI 0 SI SI NO TIPO 4
catfish NO NO SI NO NO SI SI SI SI NO NO SI 0 SI NO NO TIPO 4
cavy SI NO NO SI NO NO NO SI SI SI NO NO 4 NO SI NO TIPO 1
cheetah SI NO NO SI NO NO SI SI SI SI NO NO 4 SI NO SI TIPO 1
chicken NO SI SI NO SI NO NO NO SI SI NO NO 2 SI SI NO TIPO 2
chub NO NO SI NO NO SI SI SI SI NO NO SI 0 SI NO NO TIPO 4
clam NO NO SI NO NO NO SI NO NO NO NO NO 0 NO NO NO TIPO 7
crab NO NO SI NO NO SI SI NO NO NO NO NO 4 NO NO NO TIPO 7
crayfish NO NO SI NO NO SI SI NO NO NO NO NO 6 NO NO NO TIPO 7
crow NO SI SI NO SI NO SI NO SI SI NO NO 2 SI NO NO TIPO 2
deer SI NO NO SI NO NO NO SI SI SI NO NO 4 SI NO SI TIPO 1
dogfish NO NO SI NO NO SI SI SI SI NO NO SI 0 SI NO SI TIPO 4
dolphin NO NO NO SI NO SI SI SI SI SI NO SI 0 SI NO SI TIPO 1
dove NO SI SI NO SI NO NO NO SI SI NO NO 2 SI SI NO TIPO 2
duck NO SI SI NO SI SI NO NO SI SI NO NO 2 SI NO NO TIPO 2
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
26
El experimentador lo configuramos con el mtodo de evaluacin de
validacin cruzada (ver Figura 2.14).
Figura 2.14 Imagen Mostrando la Configuracin del Experimentador para losDatos Transformados del Conjunto de Datos Zoo2.arff
Al ejecutar el experimentador y tomando como base el algoritmo J48, y comocampo de comparacin el porcentaje de correctos, hay un empate aun y cuando el
algoritmo NBTree tiene un mejor porcentaje de correctos (ver Figura 2.15).
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
27
Figura 2.15 Imagen Mostrando el Resultado del Experimento Enfrentando rbolesde Decisin y Reglas, Comparando el Porcentaje de Correctos.
Dado que hay empate y como estamos comparando rboles de decisin,
cambiamos el campo de comparacin al nmero de reglas, de tal forma que se
obtenga cual de los algoritmos genera el menor nmero de reglas, y ver cual
modelo es ms comprensible.
De este nuevo enfrentamiento resulta ganador el algoritmo de reglas Ridor,
pero como estamos comparando nmero de reglas, para este experimento pierde.
El algoritmo que tiene menos reglas es el algoritmo de rboles de decisin NBTree
y como tambin fue el que tuvo el mejor porcentaje de correctos, es el algoritmo
con el cual trabajaremos para encontrar el mejor modelo para el conjunto de datos
(ver Tabla 2.8).
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
28
Tabla 2.8 Tabla Comparativa del Resultado del Experimentador Comparando losAlgoritmos de rboles de Decisin y Reglas del Conjunto de DatosZoo2.arff
En el explorador cargamos el conjunto de datos Zoo2.arff y ejecutamos el
algoritmo de rboles de decisin NBTree usando el conjunto completo de
atributos, dando como resultado un 94.0594% de instancias clasificadas
correctamente, generando un rbol de 5 reglas (ver Figura 2.16).
Figura 2.16 Imagen Mostrando el Resultado del Algoritmo NBTree con el Conjuntode Datos Zoo2.arff
Ahora ejecutamos el proceso de seleccin de atributosGainRatioAttributeEval para ver cules son los atributos ms determinantes en el
conjunto de datos. De esta evaluacin se obtiene que los atributos ms
determinantes son: tiene_vertebras, tiene_plumas, produce_leche, tiene_dientes,
pone_huevos, resp_pulmonar, tiene_pelo, tiene_aletas, num_patas y tiene_cola
(ver ).
Algoritmo
Porcentaje de
Correctos
Desviacin
Estandar
Numero de
Reglas
Desviacin
Estandar
Trees.J48 9.35 0.74 8.35 0.82
Trees.NBTree 9.60 0.72 4.68 0.93
Rules.Jrip 9.04 0.84 7.21 0.66
Rules.Ridor 9.29 0.73 11.71 1.84
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
29
Figura 2.17 Imagen Mostrando los Atributos ms Relevantes del Conjunto deDatos Zoo2.arff de Acuerdo al Evaluador GainRatioAttributeEval
Eliminamos los atributos no relevantes y ejecutamos de nuevo el algoritmo
NBTree, obteniendo un 96.0396% de instancias clasificadas correctamente,
generando un rbol de 4 reglas (ver Figura 2.18), con lo que se obtiene el mejor
modelo.
Figura 2.18 Mejor Modelo para el Conjunto de Datos Zoo2.arff
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
30
2.7 Tercer Ejercicio de Tcnicas de Minera de Datos: rboles de Decisin
En este tercer ejercicio vamos a utilizar el algoritmo J48 con el conjunto de
datos car.arff, con el objetivo de ver el uso de la prepoda y la pospoda en Weka.
El conjunto de datos car.arff, contiene informacin referente a ciertas
caractersticas de autos y basndose en esas caractersticas el modelo hace una
evaluacin del vehculo para su adquisicin.
2.7.1 Diccionario de Datos
Se dispone de un conjunto de datos que contienen 6 atributos. La clase es el
campo "Evaluacion". En la tabla se muestra el diccionario de datos de la vista
minable.
Figura 2.19 Diccionario de Datos del Conjunto de Datos car.arff
2.7.2 Seleccin de Atributos
Abrimos el conjunto de datos en el explorador de Weka, seleccionamos el
algoritmo J48 y lo ejecutamos. Como resultado tenemos un porcentaje de
instancias clasificadas correctamente es de 92.3611% y un total de 131 reglas (ver
Figura 2.20).
Atributo Descripcin valores de los Atributos
Precio Precio del Automovil v-high, high, med, low
Costo_Mantenimiento Costo de mantenimiento v-high, high, med, low
Num_Puertas Numero de puertas 2, 3, 4, 5 - MORENum_Personas Numero de Pasajeros 2, 4, MORE
Cajuela Tamao de la Cajuela small, med, big
Seguridad Especificacion de Seguridad low, med, high
Evaluacion Evaluacin de adquisicin unacc, acc, good, v-good
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
31
Figura 2.20 Imagen Mostrando el Resultado de la Evaluacin del Algoritmo J48con el Conjunto de Datos car.arff
A continuacin ejecutamos el evaluador de atributos GainRatioAttribEval
para ver cules son los atributos ms determinantes (ver Figura 2.21). De esta
evaluacin se encuentra que solamente hay un atributo que cuyo ranking es muy
bajo. Eliminamos el atributo que no tiene mucha influencia.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
32
Figura 2.21 Imagen Mostrando el Resultado del Evaluador de Atributos para elConjunto de Datos car.arff
Una vez eliminado el atributo menos determinante, ejecutamos nuevamente
el algoritmo J48 obteniendo un 93.2292% de instancias clasificadas
correctamente, con un total de 128 reglas, con lo cual se mejora el modelo inicial
(ver Figura 2.22).
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
33
Figura 2.22 Resultado del Algoritmo J48 despus de Eliminar los Atributos MenosDeterminantes
2.7.3 Aplicando La Prepoda
A continuacin vamos a aplicar la prepoda para ver si es posible mejorar el
porcentaje de correctos y reducir el nmero de reglas. Para hacer esto hacemos
clic en el algoritmo J48 y cambiamos el campo ConfidenceFactor de 0.25 a 0.05
(ver Figura 2.23) y ejecutamos de nuevo el clasificador.
Figura 2.23 Ventana Mostrando la Configuracin de la Prepoda en el Exploradorde Weka
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
34
Con la prepoda obtenemos un 87.8472% de instancias clasificadas
correctamente con 64 reglas. Es decir baj el nmero de hojas, pero tambin baj
el porcentaje de instancias clasificadas.
Figura 2.24 Resultado de la Evaluacin del Algoritmo J48 despus de la Prepoda
Aun y cuando se pierden 5 puntos en instancias clasificadas correctamente,
se disminuyeron 114 reglas por lo que el modelo despus de la prepoda es mejor,
por ser un modelo ms comprensible que el anterior.
2.7.4 Aplicando La Pospoda
A continuacin vamos a aplicar la pospoda y evaluar el modelo. Para hacer
esto hacemos clic en el algoritmo J48 y restauramos el valor del campo
ConfidenceFactor a 0.25 y cambiamos ahora el valor del campo de
minNumObj de 3 a 10 (ver ) y ejecutamos de nuevo el clasificador.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
35
Figura 2.25 Ventana Mostrando la Configuracin de la Pospoda en el Exploradorde Weka
Con la pospoda se obtiene un porcentaje de correctos de 86.2847% con 44
reglas (ver Figura 2.26). Con la pospoda se pierden casi 9 puntos de porcentaje de
correcto pero se eliminan 134 reglas con lo que considerando la comprensibilidad
este sera el mejor modelo.
Figura 2.26 Resultado de la Evaluacin del Algoritmo J48 despus de la Pospoda
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
36
2.8 Tcnica de Minera de Datos: Redes Neuronales
Con las Redes Neuronales se busca la solucin de problemas complejos, no
como una secuencia de pasos, sino como la evolucin de unos sistemas decomputacin inspirados en el cerebro humano, y dotados por tanto de cierta
"inteligencia", los cuales no son sino la combinacin de elementos simples de
proceso interconectados, que operando de forma paralela en varios estilos
consiguen resolver problemas relacionados con el reconocimiento de patrones,
prediccin, codificacin, control y optimizacin entre otras aplicaciones.
El elemento bsico de un sistema neuronal biolgico es la neurona. Unsistema neuronal biolgico est compuesto por millones de neuronas organizadas
en capas. En la emulacin de dicho sistema neuronal biolgico, por medio de un
sistema neuronal artificial, se puede establecer una estructura jerrquica similar a
la existente en el cerebro. El elemento esencial ser la neurona artificial, la cual se
organizar en capas. Varias capas constituirn una red neuronal. Finalmente una
red neuronal junto con los interfaces de entrada y salida constituir el sistema
global de proceso (vase Figura 2.27).
Las redes neuronales artificiales buscan tres conceptos clave a emular:
1. Procesamiento Paralelo, derivado de que los miles de millones de
neuronas que intervienen, por ejemplo en el proceso de ver, estn
operando en paralelo sobre la totalidad de la imagen.
2. Memoria Distribuida, mientras que en un computador la informacin
est en posiciones de memoria bien definidas, en las redes
neuronales biolgicas dicha informacin est distribuida por la sinapsis
de la red, existiendo una redundancia en el almacenamiento, para
evitar la prdida de informacin en caso de que una sinapsis resulte
daada.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
37
3. Adaptabilidad al Entorno, por medio de la informacin de las
sinapsis. Por esta adaptabilidad se puede aprender de la experiencia y
es posible generalizar conceptos a partir de casos particulares.
Figura 2.27 Sistema Global de Proceso de una Red Neuronal
2.8.1 Elementos de una Red Neuronal
Las redes neuronales artificiales son modelos que intentan reproducir el
comportamiento del cerebro. Como tal modelo, realiza una simplificacin,
averiguando cules son los elementos relevantes del sistema, bien porque la
cantidad de informacin de que se dispone es excesiva o bien porque es
redundante. Los principales elementos de una red neuronal son Unidad de
proceso, estado de activacin y la funcin de salida o transferencia (ver Figura
2.28)
1. Unidad de proceso: La neurona Artificial. Existen tres tipos de
unidades en cualquier sistema: entradas, salidas y ocultas. Las
unidades de entrada reciben seales desde el entorno; las de salida
envan la seal fuera de la red, y las unidades ocultas son aquellas
cuyas entradas y salidas se encuentran dentro del sistema. Se conoce
como capa o nivel a un conjunto de neuronas cuyas entradas
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
38
provienen de la misma fuente y cuyas salidas se dirigen al mismo
destino.
2. Estado de Activacin. Los estados del sistema en un tiempo t se
representan por un vector A(t). Los valores de activacin pueden sercontinuos o discretos, limitados o ilimitados. Si son discretos, suelen
tomar un conjunto discreto de valores binarios, as un estado activo se
indicara con un 1 y un estado pasivo se representara por un cero. En
otros modelos se considera un conjunto de estados de activacin, en
cuyo valor entre [0,1], o en el intervalo [-1,1], siendo una funcin
sigmoidal.
3. Funcin de Salida o de Transferencia. Asociada con cada unidadhay una funcin de salida, que transforma el estado actual de
activacin en una seal de salida.
Figura 2.28 Modelo de Neurona Artificial Standard
2.8.2 Caractersticas de las redes Neuronales
Existen cuatro aspectos que caracterizan una red neuronal: su topologa, el
mecanismo de aprendizaje, tipo de asociacin realizada entre la informacin de
entrada y salida, y la forma de representacin de estas informaciones.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
39
1. Topologa de las Redes Neuronales. La arquitectura de las redes
neuronales consiste en la organizacin y disposicin de las neuronas formando
capas ms o menos alejadas de la entrada y salida de la red. En este sentido, los
parmetros fundamentales de la red son: el nmero de capas, el nmero deneuronas por capa, el grado de conectividad y el tipo de conexiones entre
neuronas (ver Figura 2.29).
Figura 2.29 Diferentes Arquitecturas de Redes Neuronales
Redes Monocapa: Se establecen conexiones laterales, cruzadas o
autorrecurrentes entre las neuronas que pertenecen a la nica capa que
constituye la red. Se utilizan en tareas relacionadas con lo que se conoce como
autoasociacin; por ejemplo, para generar informaciones de entrada que se
presentan a la red incompleta o distorsionada.
Redes Mult icapa:Son aquellas que disponen de conjuntos de neuronas
agrupadas en varios niveles o capas. Una forma de distinguir la capa a la que
pertenece la neurona, consiste en fijarse en el origen de las seales que recibe a
la entrada y el destino de la seal de salida. Segn el tipo de conexin, como se
vio previamente, se distinguen las redes feedforward, y las redes
feedforward/feedback.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
40
2. Mecanismo de Aprendizaje. El aprendizaje es el proceso por el cual una
red neuronal modifica sus pesos en respuesta a una informacin de entrada. Los
cambios que se producen durante el proceso de aprendizaje se reducen a la
destruccin, modificacin y creacin de conexiones entre las neuronas, la creacinde una nueva conexin implica que el peso de la misma pasa a tener un valor
distinto de cero, una conexin se destruye cuando su peso pasa a ser cero. Se
puede afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido)
cuando los valores de los pesos permanecen estables (dwij / dt = 0).
Un criterio para diferenciar las reglas de aprendizaje se basa en considerar si
la red puede aprender durante su funcionamiento habitual, o si el aprendizajesupone la desconexin de la red.
Otro criterio suele considerar dos tipos de reglas de aprendizaje: las de
aprendizaje supervisado y las correspondientes a un aprendizaje no supervisado,
estas reglas dan pie a una de las clasificaciones que se realizan de las RNA:
Redes neuronales con aprendizaje supervisado y redes neuronales con
aprendizaje no supervisado. La diferencia fundamental entre ambos tipos estribaen la existencia o no de un agente externo (supervisor) que controle el aprendizaje
de la red.
Redes c on Aprendizaje Supervisado. El proceso de aprendizaje se realiza
mediante un entrenamiento controlado por un agente externo (supervisor,
maestro) que determina la respuesta que debera generar la red a partir de una
entrada determinada. El supervisor comprueba la salida de la red y en el caso de
que sta no coincida con la deseada, se proceder a modificar los pesos de las
conexiones, con el fin de conseguir que la salida se aproxime a la deseada. Se
consideran tres formas de llevar a cabo este tipo de aprendizaje:
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
41
Aprendizaje por correccin de error: Consiste en ajustar los pesos en
funcin de la diferencia entre los valores deseados y los obtenidos en
la salida de la red; es decir, en funcin del error.
Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el
entrenamiento exactamente la salida que se desea que proporcione la
red ante una determinada entrada. La funcin del supervisor se reduce
a indicar mediante una seal de refuerzo si la salida obtenida en la red
se ajusta a la deseada (xito=+1 o fracaso=-1), y en funcin de ello se
ajustan los pesos basndose en un mecanismo de probabilidades.
Aprendizaje estocstico: Este tipo de aprendizaje consiste
bsicamente en realizar cambios aleatorios en los valores de los
pesos de las conexiones de la red y evaluar su efecto a partir del
objetivo deseado y de distribuciones de probabilidad.
Redes con Aprendizaje No Supervisado. Estas redes no requieren
influencia externa para ajustar los pesos de las conexiones entre neuronas. La redno recibe ninguna informacin por parte del entorno que le indique si la salida
generada es o no correcta, as que existen varias posibilidades en cuanto a la
interpretacin de la salida de estas redes. En general en este tipo de aprendizaje
se suelen considerar dos tipos:
Aprendizaje Hebbiano: Consiste bsicamente en el ajuste de los
pesos de las conexiones de acuerdo con la correlacin, as si las dosunidades son activas (positivas), se produce un reforzamiento de la
conexin. Por el contrario cuando un es activa y la otra pasiva
(negativa), se produce un debilitamiento de la conexin.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
42
Aprendizaje competitivo y cooperativo: Las neuronas compiten (y
cooperan) unas con otras con el fin de llevar a cabo una tarea dada.
Con este tipo de aprendizaje se pretende que cuando se presente a la
red cierta informacin de entrada, solo una de las neuronas de salida
se active (alcance su valor de respuesta mximo). Por tanto las
neuronas compiten por activarse , quedando finalmente una, o una por
grupo, como neurona vencedora
3. Tipo de Asociacin entre las Informaciones de Entrada y Salida. Las
RNA son sistemas que almacenan cierta informacin aprendida; est informacin
se registra de forma distribuida en los pesos asociados a las conexiones entreneuronas de entrada y salida. Existen dos formas primarias de realizar esa
asociacin de entrada/salida. Una primera sera la denominada heteroasociacin,
que se refiere al caso en el que la red aprende parejas de datos [(A1, B1), (A2,
B2) (An, Bn)], de tal forma que cuando se presente cierta informacin de
entrada Ai, deber responder generndola correspondiente salida Bi. La segunda
se conoce como autoasociacin, donde la red aprende ciertas informaciones A1,
A2An, de tal forma que cuando se le presenta una informacin de entrada
realizar una autocorrelacin, respondiendo con uno de los datos almacenados, el
ms parecido al de la entrada.
Estos dos mecanismos de asociacin dan lugar a dos tipos de redes
neuronales: las redes heteroasosciativas y las autoasociativas. Una red
heteroasociativa podra considerarse aquella que computa cierta funcin, que en
la mayora de los casos no podr expresarse analticamente, entre un conjunto de
entradas y un conjunto de salidas, correspondiendo a cada posible entrada una
determinada salida. Existen redes heteroasociativas con conexiones feedforward,
feedforward/feedback y redes con conexiones laterales. Tambin existen redes
heteroasociativas multidimensionales y su aprendizaje puede ser supervisado o no
supervisado.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
43
Por otra parte, una red autoasociativa es una red cuya principal misin es
reconstruir una determinada informacin de entrada que se presenta incompleta o
distorsionada (le asocia el dato almacenado ms parecido). Pueden
implementarse con una sola capa, existen conexiones laterales o tambinautorrecurrentes, habitualmente son de aprendizaje no supervisado.
4. Representacin de la Informacin de Entrada y Salida. Las redes
neuronales pueden tambin clasificarse en funcin de la forma en que se
representan las informaciones de entrada y las respuestas o datos de salida. As
un gran nmero de redes, tanto los datos de entrada como de salida son de
naturaleza analgica, cuando esto ocurre, las funciones de activacin de lasneuronas sern tambin continuas, del tipo lineal o sigmoidal. Otras redes slo
admiten valores discretos o binarios a su entrada, generando tambin unas
respuestas en la salida de tipo binario. En este caso, las funciones de activacin
de las neuronas son de tipo escaln. Existe tambin un tipo de redes hbridas en
las que las informaciones de entrada pueden ser valores continuos, aunque las
salidas de la red son discretas.
2.8.3 Modelos de Redes Neuronales
Perceptrn Simple. El perceptrn simple fue introducido por Rosenblatt
(1962) y es un modelo unidireccional compuesto por dos capas de neuronas, una
de entrada y otra de salida. La operacin en un perceptrn simple que consta de n
neuronas de entrada y m neuronas de salida se puede expresar como:
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
44
Las neuronas de entrada son discretas y la funcin de activacin de las
neuronas de la capa de salida es de tipo escaln. Vase la Figura 2.30.
Figura 2.30 Arquitectura (izquierda) y Funcin de Transferencia (derecha) de unPerceptrn Simple
El perceptrn simple puede utilizarse como clasificador, radicando su
importancia histrica en su carcter de dispositivo entrenable, ya que el algoritmo
de aprendizaje del modelo introducido por Rosenblatt (1962) permite determinar
automticamente los pesos sinpticos que clasifican un conjunto de patrones a
partir de un conjunto de ejemplos etiquetados.
La Adalina. Otro modelo de red neuronal artificial clsico es la Adalina,
introducida por Widrow y Hoff (1960), cuyo nombre proviene de ADAptative LInear
Neuron. En la Adalina las entradas pueden ser continuas y se utiliza una neurona
similar a la del perceptrn simple, pero en este caso de respuesta lineal (vase la
Figura 2.31). A diferencia del asociador lineal la adalina incorpora un parmetro
adicional denominado bias, el cual no debe de ser considerado como un umbral de
disparo, sino como un parmetro que proporciona un grado de libertad adicional almodelo.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
45
Figura 2.31 Neurona lineal de la Adalina
Teniendo en cuenta lo anterior, la ecuacin de la adalina resulta ser:
Otra diferencia fundamental de la adalina con respecto del asociador lineal y
el perceptrn simple radica en la regla de aprendizaje. En la adalina se utiliza la
regla de Widrow-Hoff, tambin conocida como LMS (Least Mean Square) o regla
de mnimos cuadrados. Esta regla permite actualizaciones de los pesos
proporcionales al error cometido por la neurona.
La regla de actualizacin de pesos LMS que se lleva a cabo en la adalina se
fundamenta en considerar el aprendizaje de dichos pesos como un problema deoptimizacin de una determinada funcin de coste. Dicha funcin de coste va a
medir el rendimiento actual de la red y depender de los pesos sinpticos de la
misma.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
46
Perceptrn Multicapa. Una manera de solventar estas limitaciones del
perceptrn simple, ya que con el tan slo podemos discriminar patrones que
pueden ser separados por un hiperplano (una recta en el caso de dos neuronas de
entrada) es por medio de la inclusin de capas ocultas, obteniendo de esta formauna red neuronal que se denomina perceptrn multicapa. La estructura del MLP
con una nica capa oculta se muestra en la Figura 2.32.
Figura 2.32 Arquitectura del Perceptrn Multicapa
La Figura 2.33 muestra las regiones de decisin que se obtienen para
distintas arquitecturas de redes neuronales considerando dos neuronas en la capa
inicial. As por ejemplo para una arquitectura de perceptrn simple la regin de
decisin es una recta, mientras que el perceptrn multicapa con una nica capa de
neuronas ocultas puede discriminar regiones convexas. Por otra parte el
perceptrn multicapa con dos capas de neuronas ocultas es capaz de discriminar
regiones de forma arbitraria.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
47
El perceptrn multicapa o MLP (Multi-Layer Perceptron) se suele entrenar por
medio de un algoritmo de retropropagacin de errores o BP (Back Propagation) de
ah que dicha arquitectura se conozca tambin bajo el nombre de red de
retropropagacin.
Figura 2.33 Regiones de decisin obtenidas para el perceptrn simple (arriba), elperceptrn multicapa con una capa oculta (en medio) y el perceptrnmulticapa con dos capas ocultas (abajo)
2.8.4 Ventajas de las Redes Neuronales
Debido a su constitucin y a sus fundamentos, las RNA presentan un grannmero de caractersticas semejantes a las del cerebro. Por ejemplo, son capaces
de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos,
de abstraer caractersticas esenciales a partir de entradas que representan
informacin irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
48
este tipo de tecnologa se est aplicando en mltiples reas. Estas ventajas
incluyen:
1. Aprendizaje Adaptativo: Es una de las caractersticas ms atractivas de
las redes neuronales, es la capacidad de aprender a realizar tareas basadas en un
entrenamiento o una experiencia inicial. En el proceso de aprendizaje, los enlaces
ponderados de las neuronas se ajustan de manera que se obtengan unos
resultados especficos. Una RNA no necesita un algoritmo para resolver un
problema, ya que ella puede generar su propia distribucin de los pesos de los
enlaces mediante el aprendizaje. Tambin existen redes que continan
aprendiendo a lo largo de su vida, despus de completado e periodo inicial deentrenamiento.
2. Autoorganizacin: Las redes neuronales usan su capacidad de
aprendizaje adaptativo para organizar la informacin que reciben durante el
aprendizaje y/o la operacin. Una RNA puede crear su propia organizacin o
representacin de la informacin que recibe mediante una etapa de aprendizaje.
Esta autoorganizacin provoca la facultad de las redes neuronales de responderapropiadamente cuando se les presentan datos o situaciones a los que no haban
sido expuestas anteriormente.
3. Tolerancia a Fallos: Comparados con los sistemas computacionales
tradicionales, los cuales pierden su funcionalidad en cuanto sufren un pequeo
error de memoria, en las redes neuronales, si se produce un fallo en un pequeo
nmero de neuronas, aunque el comportamiento del sistema se ve influenciado,
sin embargo no sufre una cada repentina.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
49
Hay dos aspectos distintos respecto a la tolerancia a fallos: primero, las
redes pueden aprender a reconocer patrones con ruido, distorsionados, o
incompleta. Segundo pueden seguir realizando su funcin (con cierta degradacin)
aunque se destruya parte de la red.
La razn por la que las redes neuronales son tolerantes a fallos es que
tienen su informacin distribuida en las conexiones entre neuronas, existiendo
cierto grado de redundancia en ese tipo de almacenamiento, a diferencia de la
mayora de los ordenadores algortmicos y sistemas de recuperacin de datos que
almacenan cada pieza de informacin en un estado nico, localizado y
direccionable.
4. Operacin en Tiempo Real: Los computadores neuronales pueden ser
realizados en paralelo, y se disean y fabrican mquinas con hardware especial
para obtener esta capacidad.
5. Fcil insercin dentro de la tecnologa existente. Debido a que una red
puede ser rpidamente entrenada, comprobada, verificada y trasladada a unaimplementacin hardware de bajo costo, es fcil insertar RNA para aplicaciones
especficas dentro de sistemas existentes (chips, por ejemplo). De esta manera,
las redes neuronales se pueden utilizar para mejorar sistemas de forma
incremental, y cada paso puede ser evaluado antes de acometer un desarrollo
ms amplio.
2.9 Cuarto Ejercicio de Tcnicas de Minera de Datos: Redes Neuronales
En Weka las redes neuronales (algoritmo de funcin MultiLayerPerceptron)
se utilizan como otro tipo de clasificador cualquiera. Para esta prctica vamos a
utilizar el conjunto de datos de ejemplo iris.arff, el cual se encuentra en el
directorio de instalacin de Weka.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
50
Abrimos el conjunto de datos en el explorador de Weka y seleccionamos el
algoritmo de red neuronal MultiLayerPerceptron que se encuentra en el conjunto
de functions en los clasificadores. Ejecutamos la prueba y obtenemos un
97.3333% de instancias clasificadas correctamente (ver Error! Reference source not
found.)
Figura 2.34 Resultado de la Red Neuronal en Weka con los Parmetros porDefault
Si observamos el inicio de la ventana de salida del explorador de Weka,
vemos como est configurado el algoritmo:
Scheme weka.classifiers.functions.MultilayerPerceptron -L0.3 -M0.2 -N500 -
V0 -S0 -E20 H a
En la configuracin de la red neuronal, tenemos un parmetro H a, este
parmetro define las capas ocultas de la red neuronal.
Con el modelo generado en Weka elaboramos un pequeo sistema predictr
del tipo de animal. Este fue desarrollado en java bajo el ambiente JBuilder. Lo
primero que hay que hacer es generar el modelo desde Weka. Para hacer esto
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
51
nos posicionamos sobre el algoritmo en la lista de resultados y hacemos clic
derecho para que nos aparezcan ms opciones (ver Figura 2.35).
Figura 2.35 Salvando el Modelo de Redes Neuronales (MultilayerPerceptron) delConjunto de Datos zoo.arff
Seleccionamos la opcin Save model y le indicamos el nombre y la ruta en
donde salvaremos el archivo de modelo. Y esto sera todo lo que se requiere para
generar el programa predictivo en java. El programa ya generado se muestra en la
Figura 2.36.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
52
Figura 2.36 Pantalla Principal del Sistema de Prediccin del Tipo de Animal
Este sistema lo probamos con diferentes datos teniendo una buena
respuesta (ver Figura 2.37).
Figura 2.37 Prueba del Sistema Predictor
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
53
3 CONCLUSIONES
Durante el desarrollo de este trabajo se han ofrecido unos pocos ejemplos
del uso de tcnicas de minera de datos en la construccin de modelos predictivoscon datos procedentes del repositorio de conjuntos de datos: UCI, no obstante las
posibilidades que ofrece este nuevo enfoque de tratamiento de datos son mucho
mayores, ya que el nmero de tcnicas que engloba es mucho ms amplio. Por
otra parte, los mtodos de minera de datos llevan asociados una serie de
mecanismos (estimacin de errores, matrices de confusin, matrices de prdida,
curvas de esfuerzo y aprendizaje, anlisis sensitivo de entradas...) que permiten
realizar una mejor validacin emprica de los modelos y un anlisis de resultados
ms completo y fiable que el que ofrece el enfoque clsico.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del
54
4 RECOMENDACIONES
Es recomendable estudiar ms a fondo cada una de las principales tcnicas
de Minera de datos como son los rboles de decisin, la regresin lineal, lasredes neuronales, y como es que estn desarrolladas en el ambiente Weka, de tal
forma que se pueda hacer un mejor modelo del problema si se conocen los
parmetros que pueden ser configurados en cada uno de ellos.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
55
5 REFERENCIAS
LIBROS:
Hernandez Orallo, J., Ramrez Quintana, M. J., & Ferr Ramrez, C. (2004).Introduccin a la Minera de Datos. Pearson Educacin. S.A.
OTROS:
Daza P., S. p. (s.f.). Monografias.com. Recuperado el Diciembre de 2008, deRedes Neuronales Artificiales. Fundamentos, Modelos y Aplicaciones:
http://www.monografias.com/trabajos12/redneur/redneur.shtmlElexgaray, G. (s.f.). la Minera de Datos. Recuperado el 10 de Diciembre de 2008,de Aplicaciones prcticas de los algoritmos de minera de datos.
Gonzlez Daz, E., Prez Hernndez, Z., & Espinosa Conde, I. (s.f.).Monografias.com. Recuperado el Octubre de 2008, de Tcnicas de Minera deDatos: http://www.monografias.com/trabajos55/mineria-de-datos/mineria-de-datos.shtml
Martn Ramos, R., Ramos Palmero, R. M., Grau Avalos, R., & garca Lorenzo, M.
M. (s.f.).Aplicacin de mtodos de seleccin de atributos para determinar factoresrelevantes en la evaluacin nutricional de los nios. Recuperado el 9 de Diciembrede 2008, de http://bvs.sld.cu/revistas/gme/pub/vol.9.(1)_01/p1.html
Molina Lpez, J. M., & Garca Herrero, J. (2006). Tcnicas de Analisis de Datos,Aplicaciones Prcticas Utilizando Microsoft Excel y Weka.
Morales, E., & Gonzlez, J. (s.f.).Aprendizaje Computacional. Recuperado el 5 deDiciembre de 2008, de 2008:http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/principal.html
Moreno Garca, M. N., Miguel Quintales, L. A., Garca Pealvo, F. J., & PoloMartn, M. J. (s.f.). Aplicacin de Tcnicas de Minera de Datos en la Construcciny Validacin de Modelos Predictivos y Asociativos a partir de Especificaciones deRequisitos de Software. Universidad de Salamanca, Departamento de Informticay Automtica.
Moujahid, A., Inza, I., & Larraaga, P. (s.f.). rboles de Clasificacin.
5/23/2018 Aplicaci n de Las T cnicas de Miner a de Datos en La Extracci n Del Conocimient...
http:///reader/full/aplicacion-de-las-tecnicas-de-mineria-de-datos-en-la-extraccion-del-
56
Oporto Daz, S., Aquino Morales, I., Chvez Cuzcano, J. K., & Prez Pinche, C. O.(s.f.). Comparacin de Cuatro Tcnicas de Seleccin de CaractersticasEnvolventes usando Redes Neuronales, Arboles de Decisin, Mquinas de Vectorde Soporte y Clasicador Bayesiano.
Sucar, L. E. (s.f.). Redes Bayesianas.