Minería de Datos: Qué significa realmente y ejemplos de utilización

1

Julio Iglesias12 Junio 2014

Cuando Nemo encontró a (su) patrón

Minería de datos

http://www.softobert.com/_home/home.htm



http://www.softobert.com/_home/home_cast.htm



Minería de datos

Definición y características

Algoritmos

Metodología

• Demos

Objetivos y agenda

Cuando Nemo encontró a su patrón

Evolución

37

Informes

barras verdes

Herramientas

primarias

1970s

Documentar

el negocio

E-comm

Merchandising

analítico

2000

OLAP

Reporting

Basado en

Web

Data Mining

1990s1980s

Primeros DWs

Data Marts

Hojas de cálculo

Informes

DSS

2010+

Big Data

Data Streaming

Comprender

el negocioMejorar

el negocioPredecir

el negocio

Qué pasa

con el negocio

¿?

TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO

Tecnologías de BI

¿Qué buscamos?

6

Análisis Predictivo

Predictive Analysis

Presentation Exploration Discovery

Passive

Interactive

Proactive

Role of Software

Business

Insight

Canned reporting

Ad-hoc reporting

OLAP

Data mining

Self-service Analysis

7

WH?

QUE

(What)

QUIEN

(Who)

DONDE

(Where)

CUANDO

(When)

CUAL

(Which)

POR QUE?

(Why)

Otras tecnologías de BI no dan respuesta…

WH?

Minería de datos

Extracción y análisis de información oculta y predecible de grandes bases

de datos mediante identificación de modelos, patrones y relaciones.

Definición

También conocida por (KDD- Knowledge Discovery in Databases)

Ejemplo supermercado

http://www.google.es/url?sa=i&source=images&cd=&cad=rja&docid=-TLHbO0HTyGdeM&tbnid=2QJ18X-ZCHXaHM:&ved=0CAgQjRwwAA&url=http://pensamientoyentorno.wordpress.com/2013/03/13/el-curioso-diseno-de-los-supermercados/&ei=slCKUZrjBYXQ7AaGg4HIAw&psig=AFQjCNG_zcCh0W5X81_M3O2QHCHMIDnEmw&ust=1368105522137581

11

Mediante el Data Mining seremos capaces de realizar acciones

específicas y personalizadas:

• Descubrir patrones de comportamiento

• Fidelizar a los “mejores” clientes

• Motivos de éxito o fracaso de un nuevo producto/medicamento

• Distinguir los clientes/pacientes potencialmente más compradores o usuarios

de un servicio/producto

• Predecir automáticamente los comportamientos y futuras compras de un

cliente comparando con clientes del mismo perfil

• Detección de fraude

• Conocer las características de los clientes desvinculados y sus motivos de

abandono

• Qué productos tienden a venderse con otros

• ¿A qué grupos de clientes debo lanzar una campaña específica?

• …

Posibles utilidades

Minería de datos

Componentes

Componentes

Algoritmos(estadística)

Datos Modelo

Datos

Datos

Datos, necesito datos….

16

Tarjetas perforadas5 ¼

3 ½ 20 Mb

100 Mb

600 Mb

1 Gb4 Gb

4,7 Gb

9 Gb

16 Gb

1 Tb

<20 años 1 millón

Evolución capacidad

Datos, necesito datos…

Datos, muchos datos…

Algoritmos

Algoritmos(estadística)

Conjunto de herramientas y

técnicas para buscar

patrones.

Componente estadística

Algunos pueden producir

más de un resultado

Utilizar diferentes

algoritmos para diferentes

tareas

Combinar algoritmos para

solucionar un problema

particular

Decision Trees

Naïve Bayesian

Clustering

Sequence Clustering

Association Rules

Neural Network

Time Series

….

Algoritmos de minería

Qué clientes comprarán un determinado producto con una

probabilidad X?

Clasificación (Predicción)

Probabilidad de que un cliente tenga un determinado perfil?

Segmentación

Recomendar un producto a un cliente que realiza una determianda

compra

Asociación

Probabilidad de que un cliente compre un producto en el futuro

Predicción de secuencias

Predecir la venta de los próximos 5 meses y su error

Forecasting

Escenarios

√ √ √ √ √ √

√ √ √ √ √

√ √ √

√ √ √ √ √ √

√ √ √

√

√

Classification

Regression

Segmentaion

Assoc. Analysis

Anomaly Detect.

Seq. Analysis

Time series

√ - second choice√ - first choice

¿Cuál escoger?

Algorithm Description

Decision Trees Finds the odds of an outcome based on values in a training set

Association Rules

Identifies relationships between cases

Clustering Classifies cases into distinctive groups based on any attribute sets

Naïve Bayes Clearly shows the differences in a particular variable for various data elements

Sequence Clustering

Groups or clusters data based on a sequence of previous events

Time Series Analyzes and forecasts time-based data combining the powerof ARTXP (developed by Microsoft Research) for short-term predictionswith ARIMA (in SQL 2008) for long-term accuracy.

Neural Nets Seeks to uncover non-intuitive relationships in data

Linear Regression

Determines the relationship between columns in order to predict an outcome

Logistic Regression

Determines the relationship between columns in order to evaluate the probability that a column will contain a specific state

Algoritmos/Técnicas

Veamos algunos ejemplos…

Arboles de decisión


262626

Arboles de Decisión (modelos predictivos)

Son útiles para predecir el valor de ciertos valores

a partir de otros datos

Se realiza una clasificación, empezando por los atributos más

significativos hasta terminar por los menos significativos.

De esta manera es posible establecer una serie de reglas

sobre qué factores (atributos) afectan a cada caso del modelo

y tener una base a partir de la cual estimar como responderán

otros casos en el futuro (predicción)

Riesgo

Crediticio

CasadosBajo : 55%Alto : 45%

SolterosBajo : 45%Alto : 55%

AsalariadosBajo : 65%Alto : 35%

CasadosBajo : 45%Alto : 55%

SolterosBajo : 40%Alto : 60%

AutónomosBajo : 50%Alto : 50%

Deudas BajasBajo : 80%Alto : 20%

Deudas Altas100%

Todos100%

Componentes


Asociación

Amazon y Netflix

Amazon: 35% de las ventas del producto

provienen de recomendaciones

Netflix: 75% del streaming de vídeo

viene de recomendaciones

Asociación

Cesta compra

Navegación Web

Componentes

Asociación

Series temporales

33

Análisis de Series Temporales

Se utilizan para hallar predecir el comprotamiento de variables que

dependen del tiempo.

Se necesita una base de datos histórica.

Se utiliza para la pevisión de demanda o stocks en un almacén o

para la previsión del número de periódicos a enviar a un quiosco, etc.

tiempo

Ene Feb Mar Abr May Jun Jul Aug Sep Oct Nov Dic Ene

PresentePasado Futuro

?

Series temporales

Componentes

Previsión

Clústering

36

Clustering

Utilizado para realizar agrupaciones de registros de acuerdo a

características comunes, obteniendo grupos de registros con

comportamiento o características parecidas entre entre ellos y

diferenciadas con los otros grupos..

El clustering es útil especialmente para realizar tareas de Marketing

tales como segmentación de clientes.

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clustering

Casos

Clústering

Componentes

Clustering

38

No todo es comercial….

Componentes

Breast Cancer

Modelo

Modelo

41

¿ Como se realiza el proceso de DM ?

Modelo

MotorDM

Datosa tratar

MotorDM

Datos tratados

Datos deentrenamiento

Modelo

Modelo

Creación de un modelo

42

Uno de los pasos más importantes en un estudio es obtener la

base de datos para el estudio.

Las bases de datos o muestras de estudio no sólo se elaboran con

información interna de la empresa, sino que muchas veces se

necesita de información externa.

Si no se dispone de la información correcta o de la información

necesaria, el estudio o análisis puede resultar un fracaso o inducir a

conclusiones equivocadas. Importante dedicar un extenso tiempo en

obtener la información y también en validarla.

A tener en cuenta

43

El siguiente paso a realizar para obtener la base preparada para el

estudio es realizar unos procesos de calidad de los datos y de la

muestra.

• Comprobar que la muestra sea representativa (que represente a la población

que queremos analizar)

• Conocer cómo se han obtenido los datos, si han sido tratados o

manipulados con anterioridad, etc.

• Que no haya valores o registros erróneos

• Que no haya valores perdidos o missing

• …

Todos aquellos registros erróneos no se deben tener en cuenta en el

estudio.

Calidad de los datos

Estandarización Puntos de Tiempo

• Examinar los últimos meses antes de abandono

• Abandono de diferentes clientes ocurren en diferentes momentos

44

45

Interpretar los resultados

Resumen

47

Interpretar los resultados

“…no disponer de la información correcta / necesaria,

puede ser peor…”

Cuando Nemo encontró a (su) patrón

“…no disponer de la información es malo…”

Correlación vs Causalidad

La causalidad es una relación entre un evento (causa) y un segundo

evento (efecto), en la cual el segundo evento se entiende como

consecuencia del primero

Causalidad

Se considera que dos variables cuantitativas están correlacionadas cuando

los valores de una de ellas varían sistemáticamente con respecto a los

valores homónimos de las otras.

Correlación

Correlación vs Causalidad

http://www.tylervigen.com/

http://www.tylervigen.com/

He visto la luz… ¿?

51

Conclusiones

• No es ciencia ficción, pero hay que trabajarlo

• VOLUMEN: Grandes volúmenes de datos.

• Minería no es necesariamente Big Data

• ALGORITMO:

• Cada algoritmo pudiera necesitar la información de entrada de una forma

determinada.

• Respuesta = ¿+? De un algoritmo

• INTERPRETACION: Se deben hacer preguntas concretas y saber interpretar las

respuestas.

• MODELO: Importante contar con alguien experto en el tema para validarlo

• MADUREZ en la empresa en proyectos de BI

www.eug.es

[email protected]

http://www.eug.es/

mailto:[email protected]

Technology

Minería de Datos: Qué significa realmente y ejemplos de utilización