Mineria de datos secuenciales

Inteligencia de negocios

Objetivos: ▫ Buscar información teórica de lo que abarca, describe y caracteriza a

una Minería de datos secuenciales

▫ Ampliar nuestros conocimientos, mediante el entendimiento de toda esta información encontrada acerca de nuestro tema

▫ A partir de la presente investigación poder entender los pro y contra que nos ofrece este tipo de minería de datos

▫ Tener claro todos los conceptos teóricos básicos para poder entender las aplicaciones de los patrones secuenciales.

Resumen:

• En este trabajo se presenta una breve introducción de lo que es la minería de datos en forma general, y luego enfocándonos a la minería de datos secuenciales. La finalidad es tener un conocimiento claro de los conceptos que abarca este tipo de técnica de minería de datos como es la de patrones secuenciales, mismos que utilizaremos en las siguientes fases de nuestro proyecto.

• Iniciamos la presente fase, con una descripción de lo que es minería de datos, tipos y técnicas, luego nos enfocamos en minería de datos secuenciales, concepto, características, problemas que nos permite resolver, así como las ventajas y desventajas que nos ofrece.

Introducción: • La minería de datos puede definirse como la extracción no trivial de

información implícita, previamente desconocida ypotencialmente útil a partir de los datos, es decir es el“descubrimiento eficiente de información valiosa, no-obvia de una grancolección de datos”. Se la considera como una técnica de descubrimiento deconocimiento que, a su vez, hace uso de diferentes tecnologías paraconseguirlo como: agrupamiento automático, predicción, clasificación,asociación de atributos, detección de patrones secuenciales, etc.

Introducción: ▫ En el siguiente gráfico podemos observar la clasificación de

Minería de Datos (DM) en dos grupos: tareas descriptivas ypredictivas, nosotros nos enfocamos en las descriptivasespecíficamente en el grupo de Asociación (color verde en elgrafico), y dentro de este en Patrones secuenciales

Introducción: ▫ Las tareas o métodos descriptivos o también llamados no

supervisados son utilizados cuando una aplicación no es losuficientemente madura y no tiene el potencial necesario para unasolución predictiva, descubriendo patrones y tendencias en losdatos actuales (no utilizan datos históricos), que permitan explorarlas propiedades de los datos examinados, no para predecir nuevosdatos, sino para llevar acciones y obtener beneficio (científico o denegocio) de ellas

▫ El descubrimiento de patrones secuenciales es muy utilizado enla industria ventas al por menor, y también en el dominio de lamedicina. El resultado de esta técnica se presenta como una lista detransacciones.

▫ Los algoritmos de patrones secuenciales son muy útiles a la hora dedescubrir la tendencia de los datos como: El número de revistasdeportivas vendidas a clientes con N° de crédito

Desarrollo: • Definición de Minería de Datos secuenciales.-

▫ Es la extracción de patrones frecuentes relacionados con el tiempo uotro tipo de secuencia

▫ Es una clase especial de dependencia en las que el orden deacontecimientos es considerado. En un análisis de cesta de compras, lasasociaciones describen dependencias entre artículos en un tiempo dado.El patrón secuencial describe el modelo que hace compras de un clienteparticular o un grupo de clientes relacionando las distintastransacciones efectuadas por el o ellos a lo largo del tiempo.

▫ Son eventos que se enlazan con el paso del tiempo, por ejemplo si secompra una casa, 65% de las veces se comprará un refrigerador dentrode las siguientes dos semanas.

Patrones Secuenciales:

• Se trata de buscar asociaciones de la forma: "si sucede el evento X en elinstante de tiempo t entonces sucederá el evento Y en el instante t+n“.

• El objetivo de la tarea es poder describir de forma concisa relacionestemporales que existen entre los valores de los atributos del conjunto deejemplos.

• Utiliza reglas de asociación secuenciales.- reglas que expresan patrones decomportamiento secuencial, es decir, que se dan en instantes distintos en eltiempo.

Características: ▫ El orden importa

▫ Objetivo: encontrar patrones en secuencia

▫ Una secuencia es una lista ordenada de itemsets, donde cada itemset es un elemento de la secuencia

▫ El tamaño de una secuencia es su cantidad de elementos (itemsets)

▫ La longitud de una secuencia es su cantidad de items

▫ El soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto de secuencias S

▫ Las secuencias frecuentes (o patrones secuenciales) son las subsecuencias de una secuencia que tienen un soporte mínimo

Tipos de valores que usa: ▫ El número de revistas deportivas vendidas a clientes en un

supermercado▫ Transacciones comerciales▫ Recorrido de un cliente por las secciones de un supermercado▫ Marketing focalizado▫ Ventas de artículos▫ propensión de uso de productos▫ segmentación por comportamiento de compra▫ propensión a la compra▫ Registros sobre accesos a páginas web▫ Orden de compra de productos▫ Rutas de ubicación de archivos▫ Adn, proteínas▫ Registros transaccionales: transacciones comerciales, operaciones

realizadas con una tarjeta de crédito▫ Relacionales: ej: detectar patrones de un tipo, estructura de servicios

que ofrece un banco, o en un supermercado

Entornos: ▫ Entorno en los que se desarrolla:

Áreas:

Medicina

Biología, bioingeniería

Web

Análisis de mercado, distribución y en el comercio

Aplicaciones financieras y banca

Aplicaciones de seguro y salud privada

Deportes

Tipo de base de datos:

Base de datos temporales

Base de datos documentales

Base de datos relacionales

Entornos: Entorno en los que no se desarrolla:

▫ Áreas: En entornos predictivos En entornos de naturaleza variable. La variabilidad viene determinada

por la inexistencia de un orden predeterminado de aparición de los hechos o eventos.

La recuperación de la información.- una tarea típica en encontrar documentos a partir de palabras claves

Política: diseño de campañas políticas, estudio de tendencias políticas Policiales: identificación de posibles terroristas en un aeropuerto Procesos industriales: detección de piezas con trabas. Modelos de calidad

▫ Tipo de base de datos: Base de datos espaciales Base de datos multimedia

Tipos de problemas que ayuda a solucionar: • Algunas de las técnicas de minería de datos existentes para datos

secuenciales son: clasificación con datos secuenciales, agrupamiento de patrones secuenciales y reglas de asociación con datos secuenciales

• Algunos problemas que se resuelven con estas técnicas de la minería de datos secuenciales son:

▫ Clasificación con datos secuenciales

▫ Agrupamiento de patrones secuenciales

▫ Reglas de asociación con datos secuenciales

Clasificación con datos secuenciales: • Donde datos contiguos presentan algún tipo de relación

• Aplicaciones:

▫ Reconocimiento de caracteres escritos.-

El reconocimiento de caracteres tiene como objeto la asociación de uncaracter a la identidad correspondiente de entre un conjunto desímbolos que componen el alfabeto considerado. Dicho mecanismo sepuede dar en varias situaciones, desde reconocimiento de letras onúmeros aislados hasta análisis o comprensión de documentos, dondeel procedimiento estudiado no es más que una pequeña pieza de unrompezabezas.

Ayuda a: automatizar la lectura de direcciones postales, cheques bancarios, formularios de impuestos, formularios de censo y lectores de texto para discapacitados, entre otros.

▫ Reconocimiento de correo spam de un correo electrónico

Agrupamiento de patrones secuenciales: • Se define como la tarea de separar en grupos a los datos, de

manera que los miembros de un mismo grupo sean muy similares entre sí, y al mismo tiempo sean diferentes a los objetivos de otros grupos.

• Aplicaciones:

▫ En este caso se busca los grupos de secuencias con alta conexión

Agrupar secuencias transaccionales comerciales puede ayudar a identificar diferentes grupos de clientes de acuerdo a sus compras

Biología, bioingeniería:

Encontrar grupos con secuencias de proteínas similares puede ayudar a identificar secuencias de idéntica funcionalidad

Análisis de secuencias de genes

Predecir si un compuesto químico causa cáncer

Clasificación de cuerpos celestes

Agrupamiento de patrones secuenciales

• Encontrar agrupamientos detal forma que los objetos deun grupo sean similaresentre sí y diferentes de losobjetos de otros grupos

• 1. Los patrones se procesan por lotes de longitud M

• 2. Durante el procesamiento de un lote los patrones se asignan al agrupamiento más cercano y se recalcula el centro.

• 3. Finalizado un lote se evalúa la partición con el objetivo de reducir el número de agrupamientos:

▫ a) Se mezclan parejas de agrupamientos que no disten más de unumbralC

▫ b) Se eliminan los que tengan pocos patrones

▫ c) Si no son aplicables ninguna de las anteriores, se aplica una mezcla forzosa hasta conseguir K agrupamientos

Se procesan los primeros 15 patrones únicamente

• Ventajas:

• Flexibilidad: Su comportamiento puede ajustarse gracias a suamplio conjunto de parámetros.

• Eficiencia: Cálculos muy sencillos, basta con recorrer una vez el conjunto de datos.

• Desventajas:

• Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

• Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.

Características principales

Funcionamiento

El parámetro K se considera un valor máximo (puede devolverun número de agrupamientos menor).

Partiendo de un único agrupamiento, se van creando nuevosagrupamientos conforme se procesan nuevos patronessecuencialmente (algoritmo incremental).

Los patrones se procesan secuencialmente por lotes. Al finalde cada lote, se evalúan los agrupamientos obtenidos y sereduce su número.

Creación de agrupamientos

Se selecciona arbitrariamente el centro del primer agrupamiento.

Posteriormente, se procesan secuencialmente los demás patrones:

Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide).

Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano.

En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Mezcla de agrupamientos

Cada M patrones, se mezclan agrupamientos:

1. Mezcla por cercanía (se mezclan dos agrupamientos si la distancia entre ellos es menor que C).

2. Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos.

3. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K.

El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).

ParámetrosK: Número deseado de agrupamientos.

R: Umbral de distancia para crear agrupamientos.

C: Umbral de distancia para mezclar agrupamientos.

M: Longitud del “lote” (patrones procesados entre procesos de mezcla)

T : Umbral para la eliminación de agrupamientos (% sobre M)

Reglas de asociación con datos secuenciales: • Expresan patrones de comportamiento secuenciales, es decir que se dan en instantes

distintos (pero cercanos) en el tiempo.

• Aplicaciones:

▫ Si se compra una casa, 65% de las veces se comprará un refrigerador dentro de las siguientes dos semanas. (distribución y marketing)

▫ Si un cliente compra un reproductor de DVD, es probable que el mes siguiente compre varias películas en formato DVD.(distribución y marketing)

▫ Dentro de la minería Web:

El 40% de las personas que consultan la página web de información sobre la cartelera, visitan en menos de dos días la página web de compras de entradas de cine.(análisis de navegación sobre páginas web)

Aplicaciones:

• Dentro de la minería Web: (Ejemplo Web)• Personalización del servicio a nuevos usuarios (mediante ofertascruzadas de productos, enlaces dinámicos a otras áreas del servidor quepuedan ser de su interés, etc.).• Establecimiento de nuevas tarifas de publicidad en nuestroservidor (las páginas más visitadas por determinado tipo declientes pueden tener un precio particularizado).• Reorganización de la estructura de nuestras páginas en elservidor.

• Telecomunicaciones:•Establecimiento de patrones de llamadas

• Otra áreas:•Correo electrónico y agendas personales, gestión de avisos•Detección de fraude en el comercio electrónico

Métodos Representativos

• AprioriAll

• AprioriSome

• DynamicSome (DynamicS)

AprioriAll• Tiene como objetivo hallar las secuencias de conjuntos de items que

cumplan una mínima cobertura.

• Se divide en 5 fases:

▫ Fase de ordenamiento

▫ Fase de fijación de límites para conjuntos: Se determinan grandes conjuntos de productos y se fijan sus límites.

▫ Fase de transformación: Se determina cuales de los conjuntos de secuencias, están contenidos en una secuencia de cliente.

▫ Fase de secuencias: Se encuentran las secuencias deseadas; se repite proceso. En cada pasada se analizan los conjuntos determinados.

▫ Fase de determinación de Máximos.

Ventajas: • Para llegar a estos niveles de análisis la minería de datos utiliza a gran escala la

ciencia estadística para describir los patrones de compra, agrupar clientes, formarsegmentos, clasificar nuevos clientes, etc; lo que nos permite tener un mayorgrado de certeza de que nuestro estudio y además a poder tomarmejores decisiones.

• Como uno de los primeros pasos a la hora de diseñar un algoritmo deagrupamiento de secuencias es establecer una media de similitud entre secuencias,esto permite que haya una mayor aproximación en el alineamientoóptimo entre dos secuencias para poder compararlas

• La utilización de patrones de secuencia, permite ahorrar grandes cantidadesde tiempo en la construcción del conocimiento.

Desventajas: • El problema de descubrir patrones secuenciales se centra en localizar la

presencia de un conjunto de elementos seguida por otro elemento en unconjunto de transacciones o visitas ordenadas en el tiempo, esto causa unpoco de lentitud en la aplicación de esta técnica.

• Problema de eficiencia, ya que la estimación de la similitud entresecuencias es más costosa que medir la similitud entre datos. Esteproblema restringe en la práctica la utilización de estos métodos deagrupamiento sólo a problemas de tamaño limitado

Aplicación de un método para obtener patrones secuenciales:

▫ Explicación teórica del ejemplo

▫ Explicación de la herramienta (WEKA, Algoritmo AprioriAll)

▫ Explicación de los resultados

Preparación de Datosarchivo con las clases, atributos, valores, datos y las relaciones

Relaciones

Resultados

Las relaciones-patrones que se encontró en nuestro ejemplo son las siguientes:

• La tripulación era de edad adulta y en la mayoría de sexo masculino. Lo que nos indica que no había mucho espacio para las mujeres en cuanto a preparación para este tipo de actividades.

• De las personas que no sobrevivieron la mayoría era de dad adulta y del sexo masculino, lo que nos dice que eran más los hombres los que tenían acceso a este tipo de transporte.

• Algo relevante que podemos decir es que el numero de niños que habían en el barco era muy bajo al igual que el de mujeres.

• El número de sobrevivientes es menor al de los que murieron, por lo que vemos las medidas de contingencia no pudieron hacer nada frente al accidente.

Conclusiones basándonos en el ejemplo

A qué nos ayudan estas conclusiones?

• En el campo del marketing, enfocar al sector masculino laspropagandas relacionadas a viajes en barco.

• De educación, ofrecer carreras que tengan que ver con lanavegación.

• Realizar planes para poder actuar en caso de accidentes.

• Dar una mayor preparación a la tripulación en cuanto aaccidentes se refiere.

• El análisis sobre la toma de decisiones apoyados en la descripciónde hechos debe ser en mayor magnitud, es decir tratar casosgeneral y no tan solo uno en particular.

• La panorámica sería muy pobre en términos reales a nivel de unapoblación y demasiado exagerada en términos de que esparticular.

A qué nos ayudan estas conclusiones?

Conclusiones Finales del Tema

• Minería de datos secuenciales, es un tema que actualmente se estadando, es usado más dentro de la Minera Web (Web Mining)

• Técnicas como el agrupamiento automático de clientes, laclasificación de los usuarios y la personalización de servicios,permiten tomar una posición en este mercado que nos diferencie denuestros competidores.

• Dependiendo de los objetivos buscados se puede emplear el métododentro de la minería de datos secuenciales.

Travel

Mineria de datos secuenciales