41
Análisis Predictivo con Pentaho Data Mining Buscando modelos más allá de la analítica

Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

  • Upload
    pentaho

  • View
    2.022

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Análisis Predictivo con Pentaho Data Mining Buscando modelos más allá de la analítica

Page 2: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Carenne Ludeña. DATA SCIENTIST

 

•  Presentación •  Analítica Predictiva (PA):

•  ¿Qué?, ¿Dónde?, ¿Cuándo? •  Realidades Cambiantes: PA y Big

Data •  El “Data Science Team” •  Tendencias, mitos y realidades

•  PA, Big Data y Pentaho •  Weka-R •  Integración (PDI) •  Un caso en desarrollo: predicción de

Churn •  Dos casos de estudio •  Arquitectura de un proyecto •  Pentaho + Matrix DataLabs

Page 3: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Presentador Jose L. Camara Channel Manager LATAM / Pentaho Jose has more than 15 years of experience in sales, distribution, consulting and support of Business Intelligence and Data Integration Solutions. Jose has been involved in different types of projects like Data Warehouse, Data Cleansing, Data Governance, Data Consolidation, Master Data Management, OLAP Analysis, Predictive Analysis and Business Intelligence with customers such as General Electric, Merrill Lynch, Nike, BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex, Telmex, Lime Communications and some others providing hundreds of thousand of dollars in savings during the implementation of these projects. Currently José works for Pentaho as a Channel Manager for Latin America

Page 4: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

LOS EXPOSITORES

Carlos Urgelles DATA SCIENTIST

 

Carenne Ludeña DATA SCIENTIST

 

Carenne es Científica de Datos e investigadora en matemática estadística. Luego de su doctorado en la Universidad de Orsay (Francia), trabajó durante 15 años en el Instituto Venezolano de Investigaciones Científicas y es Coordinadora de la maestría de Modelos Aleatorios de la Universidad Central de Venezuela. Combina sus intereses académicos con desarrollo de aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Es experta en minería de datos y el uso de R y Weka. En 2011 fue galardonada con el premio de la Fundación Empresas Polar, una de las distinciones científicas más importantes de Venezuela.

Carlos tiene más de 20 años de experiencia en consultaría de desarrollo de sistemas de información especializados en el área de Inteligencia de Negocios. Se ha desempeñado como consultor, líder técnico, gerente de proyectos y ventas. Posee más de 50 proyectos implantados en 7 paises y en áreas que incluyen ventas, finanzas, consolidación y planificación financiera, logística e inventarios. Con muchas horas de cursos dictados en su haber, en los 90 hizo la labor de evangelización de BI en Latinoamérica y ha sido una gran promotor de Pentaho en la región. Es un emprendedor de proyectos relacionados con BI.

Page 5: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

ANALÍTICA PREDICTIVA ¿QUÉ, CUÁNDO Y DÓNDE?

Es un término que engloba una serie de técnicas, algoritmos y procedimientos para la extracción de patrones subyacentes en la data. Estos patrones permiten descubrir, predecir, entender y explicar.

 

Caterpillar  Inc.  reduced  rota1ng  machinery  anomalies  by  nearly  45  percent,  thanks  to  improvents  delivered  bydata-­‐mining  methods.  

Predicting Quality Outcomes Through Data Mining

Page 6: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

APLICACIONES

APLICACIONES

Sector    público  

Energía  

Tele- comunicaciones

Retail  

Petróleo  

Salud  

Banca    Y  

 aseguradoras  

Mercadeo

E-gobierno

Producción/Distribución

Churn

Atención individualizada Control automatizado

Historias automatizadas

Modelos de riesgo Detección de fraude

Campañas dirigidas

Page 7: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

•  Cada día hay más datos •  Se requieren respuestas en tiempo real •  Muchos negocios: atención

individualizada del clientes •  Control de Calidad de datos •  Mercados competidos: atracción de

nuevos clientes y diseño de nuevos productos

•  Tecnología que evoluciona rápidamente •  En conclusión: ¡más y más rápido!

 

REALIDADES CAMBIANTES

Page 8: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

BA en un punto de inflexión

8  

(Gartner,  December  2011)  

“The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured and unstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”  J|M|P  Securi1es,  Big  Data  and  How  BI  Got  Its  Groove  Back,  Nov.  2011  

   (IDC  Digital  Universe  Study,  June  2011)                  

40

35

30

25

20

15

10

5

0 2005 2010 2015 2020

ZB

   (IDC  Digital  Universe  Study,  June  2011)                  

Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI

Page 9: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

•  Fenómeno Big Data:

• Volumen • Variedad • Velocidad • Veracidad

•  Se requiere poder extraer, procesar y almacenar grandes volúmenes de datos en tiempo real

•  Aplicaciones de algoritmos de alta demanda de tiempo y memoria •  Imperativo: mecanismos eficientes

para pre-procesamiento y análisis de datos •  Nuevas tecnologías de extracción, capacidad

de almacenamiento y análisis implican nuevas tendencias en el manejo de información

 

ANALÍTICA PREDICTIVA Y BIG DATA

Page 10: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

BIG DATA / NUEVAS TENDENCIAS

Variedad y volumen:

Bases de datos no estructuradas

Web mining

Crawling de redes sociales

Text mining

Spatial data mining

…  

Page 11: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

DE MINERÍA DE DATOS AL DATA SCIENCE TEAM

•  Ahora es un trabajo de equipo •  Manejo, extracción y análisis de la información, tarea

compleja •  Se requiere de especialistas capaces de trabajar en

conjunto •  Tendencia de grandes empresas y empresas de BI

alrededor del mundo

•  Data Science Team (DST): •  Ingenieros de datos (manejo y extracción

de información)

•  Analistas de datos •  Estadísticos

•  Expertos en fraude y calidad de datos •  No es siempre posible crear un DST. Opciones:

• Tercerización • Consultoría

 

Page 12: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

ANALÍTICA PREDICTIVA EN CIFRAS

Empresas líderes y su relación con Big Data Fuente: Estudio Aberdeen 2013

Los líderes aumentan su tendencia a seguirlo siendo por su incremento en el uso de habilidades asociadas al uso inteligente de la información.

 

Keeping Up with Customers – Dynamic Behavior Profiles  

Page 13: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Pedictive Analytics Fuente: Estudio Aberdeen 2013

Dynamic Offers Drive Perfomance  

ANALÍTICA PREDICTIVA EN CIFRAS

Page 14: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

LAS EMPRESAS LÍDERES Y ADOPCIÓN DE ESTRATEGIAS DE AP

Hug a Geek- State of IT/Marketing Alignment  

Predictive Value – Best-in-Class Adoption of Data Analytics Technologies for Marketing  

Los líderes invierten más en tecnología y los que invierten más son líderes. La mayor inversión de las empresas líderes es en Analítica Predictiva.

 

Page 15: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

CIFRAS EN AMÉRICA LATINA

Inversión en BD/PA a nivel mundial  

Median Spending per company on Big Data in 2012- by country

 

Percentage of Companies whose Big Data initiatives have

Improved Decision-Making  

Inversión baja, pero alto impacto

Page 16: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

MITOS

•  Es interesante pero demasiado costoso para mi empresa

•  Para poder hacer analítica predictiva o minería de datos es necesario invertir en la compra de software especializado

•  Es necesario contar con personal calificado y entrenado y mi empresa no puede costear este gasto

•  El tipo de información que se obtiene de la aplicación de este tipo de técnicas la sabe de todos modos el que “sabe del negocio”

•  En conclusión: no vale la pena  

Page 17: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

REALIDADES

•  Existen “soluciones a la medida”. •  Una intervención puntual puede

resolver un problema importante •  La inversión en software depende de

las necesidades de la empresa •  Pueden implementarse

soluciones “llave en mano” •  La instalación de DST es un proceso

gradual y no es necesario en todos los casos

•  “El que sabe del negocio” tiene una visión intuitiva importante. Sin embargo, esta información es:

•  Intransferible y no automatizable •  Ineficiente al aumentar el volumen

del negocio •  Incompleta

•  Uso inteligente de la información= más y mejores negocios

 

Page 18: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Data Mining, Big Data y Pentaho

Page 19: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

•  Apoyo en todo el proceso de exploración y construcción de modelos

Pre-procesamiento de datos Evaluación y comparación estadística de modelos Exploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos

•  Herramientas y Algoritmos 69 (y aumentando) herramientas (filtros) para pre-procesamiento 118 (y aumentando) algoritmos de clasificación/regresión 11 (y aumentando) algoritmos de agrupamiento 18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda 6 algoritmos de reglas de asociación

•  Interfaces Explorer – exploración, visualización y procesamiento de data. Construcción, evalución preliminar y exportación de modelos. Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticas para determinación de diferencias significativas en modelos. KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos.

•  Integración a la suite Pentaho

 

PENTAHO DATA MINING (AKA WEKA)

Page 20: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

BIG DATA Y PENTAHO

20  

•  Incorporación de información en formato no tradicional y manejo eficiente de grandes

volúmenes de datos: bases de datos no estructuradas integradas a Pentaho

•  Algunos ejemplos

•  Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho

•  Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL

Page 21: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Integración de procesos

en PDI  

R/ PDM (WEKA)  

Procesamiento Big Data

 

BIG DATA, PDM, R, PENTAHO BA

Page 22: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

EXTRACCIÓN+PROCESAMIENTO+REPORTING

22  

Análisis/predicción/integración •  Exploración •  Descubrimiento •  Modelaje y predicción    

Gerencia para la toma de decisiones •  Visualización y exploración •  Tableros/Índices •  Seguimiento

interactivo del negocio    

•  Uso versátil de la información •  Facilidad •  Velocidad •  Flexibilidad    

Extracción

Procesamiento

Reportes

Page 23: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE

CANCELACIÓN o CHURN

23  

El Churn o cancelación de clientes, se refiere a la proporción o tasa de clientes que se van o dejan al proveedor de un servicio durante un horizonte de tiempo determinado.

 

El modelo de predicción Churn busca identificar los suscriptores con alta probabilidad de abandonar el servicio en el futuro cercano , su valor para el negocio y los factores que la causan, para así tomar las acciones correspondientes.

 

La cancelación de un cliente siempre genera pérdidas. Es mas difícil y costoso conseguir un nuevo cliente que retenerlo.

 

Modelos de cancelación de clientes (Churn) Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atención individualizada. Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva

Page 24: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Caracterización de clientes

 

Identificación de variables

y análisis supervivencia  

Identificación de Grupos

de influencia y redes sociales  

Conocer cuáles son las variables que más influyen Si probabilidad de cancelación alta: cuál es la probabilidad de cancelación en 3 meses o 6 meses

 

A veces es relevante conocer las redes de interacción de clientes

§  Recuperables/ No recuperables

§  Probabilidad de recuperación

 

Técnicas de análisis

UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE

CANCELACIÓN o CHURN

Page 25: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Esquema Modular Pentaho-Weka-R Exploración: integración Pentaho/Weka/R

•  Esquema modular

•  Mejor modelo

•  Segmentación previa

•  Análisis supervivencia

•  Análisis redes

 

 

Modelaje

Integración

Análisis Exploratio

UN EJEMPLO EN DESARROLLO CÁLCULO DE PROBABILIDADES DE

CANCELACIÓN o CHURN

Page 26: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Analítica Predictiva Casos de estudio

Page 27: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Segmentación de clientes: información valiosa sub-utilizada •  Datos históricos de fidelidad y consumo (RFM). •  ¿Quién compra qué y cómo paga? •  Campañas dirigidas/Nuevos productos

 

Detección de fraude: problema importante con significativas implicaciones económicas y sociales

•  Detección de valores o patrones anómalos •  Estrategias sofisticadas y variadas: difícil con Big Data

 

CASOS DE ESTUDIO

Page 28: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Empresa de telecomunicaciones Data: varios millones de registros con más de 350 atributos Características de clientes (forma de pago, tecnología, localización geográfica, planes,...) Variables de uso: agregados mensuales de llamadas (entrantes y salientes por operadora), mensajes (entrantes y salientes por operadora), volumen de datos. Variables de consumo  

Determinar la vigencia de planes pre-existentes. Mejorar el rendimiento del proceso de mercadeo/ventas: mercadeo dirigido. Detectar nuevas necesidades y targets Proponer nuevos productos u oportunidades de negocio  

Preparando la Data Muestreo inicial de la data: Pentaho + hadoop Exploración-determinación de variables informativas: WEKA Construcción de un modelo de segmentación inicial: WEKA Construyendo el modelo Segmentación: k-medias (algoritmo paralelizble usando hadoop map/reducer) Ajuste y selección del mejor modelo: WEKA Exportando el modelo: Knowledge Flow plugins Aplicando el modelo a toda la data: PDI Esquemas integrados en Pentaho para análisis y reportes  

SEGMENTACIÓN DE CLIENTES

Introducción  

Page 29: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

•  Segmentación automatizada:

Datos futuros

•  Aplicación de los modelos sobre toda la base de datos

 

•   Exploración: datos pasados y

presentes

•  Descubrir relaciones entre variables o entre individuos.

•  Determinar segmentos que respondan a las expectativas del negocio.

•  Descubrir cuáles son las variables que determinan ciertos comportamientos

•  Construcción de modelos de segmentación apropiados

 

 

 

Integración modelos

Map-Reduce

Creación del Modelo base

(knowledge flow)

SEGMENTACIÓN DE CLIENTES

Page 30: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

SEGMENTACIÓN DE CLIENTES

Soluciones •  Análisis de probabilidades de clasificación

permite detectar casos confusos •  Análisis de planes existentes con segmentos identificados

 

Pentaho/Weka •  Integración del segmentador al sistema de manejo de clientes permite

utilizar las herramientas de BI con esta nueva variable

•  Diseñar nuevas políticas de mercadeo y ventas

•  Mejora en eficiencia: mayor adaptabilidad a las necesidades reales de clientes

No existen planes adaptados para 14% de clientes en pre-pago con mayor consumo  

Patrones de consumo de 76% de clientes deben canalizarse mejor. No hay planes adecuados para este grupo de clientes mayoritario  

Más de 90% de planes hechos para menos de 10% de clientes post-pago sin diferenciar características de consumo

 

Análisis y conclusiones  

Page 31: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Empresa de distribución masiva Data: relaciones de ventas de empresas revendedoras (varios millones de clientes) a su empresa matriz. Datos diarios de ventas Comportamiento estacional marcado: Variaciones interdiarias Variaciones trimestrales Tendencia creciente anual

 

Luego de un cambio de plataforma tecnológica ocurrida a final de abril 2007, la empresa matriz sospecha que una de las revendedoras está “maquillando” los números. Sin embargo dado el gran volumen de datos se hace difícil observar anomalías que sólo se intuyen por una pérdida en la masa global de las ganancias reportadas.

 

Preparando la data: Limpieza de datos: datos faltantes Eliminación de tendencias: anuales, trimestrales y diarios (por día de la semana).

Construyendo el modelo: Análisis exploratorio en R Aplicación de transformaciones adecuadas.

Determinación de mecanismo de fraude. Estimación de pérdidas generadas por el fraude  

DETECCIÓN DE FRAUDE

Introducción  

Page 32: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Diseño de modelos

Solución a la medida

Análisis exploratorio Pentaho/R

Evaluación  del  problema:    comprensión  del  mecanismo  de  fraude  y  es1mación  de  pérdidas  

Exploración  y  creación  de  una  transformación  apropiada  de  los  datos  para  determinación  cuan1ta1va  de  fraude  

 

 

DETECCIÓN DE FRAUDE

Esquema PENTAHO-R

Page 33: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Soluciones •  Fraude ocasionado por eliminación de

valores que sobrepasan un cierto umbral.

•  Las pérdidas estimadas se basan en la relación entre las ganancias diarias y la mediana.  

 

Pentaho/R •  Solución a la medida

•  El ajuste monetario debido al reconocimiento del fraude fue significativo.

 

Transformación apropiada permite análisis cuantitativo de mecanismo de fraude  

El análisis de los grupos antes y después permite hacer un cálculo de ganancias no percibidas.      

Análisis y conclusiones

DETECCIÓN DE FRAUDE

Page 34: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Arquitectura de un proyecto

Page 35: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

ARQUITECTURA PENTAHO DATA MINING

Data warehouse

Pentaho Data Integration •  Combinar/preparar data

•  Construir & guardar modelos de DM

•  Incluir modelos para Scoring & actualización del DW con predicciones

Pentaho Data Mining (WEKA) •  Exploración & preparación de data

•  Construir, probar y comparar modelos

Repositorio ETL de transformación

Servidor Pentaho BA •  Dashboards, reporting etc.  

Page 36: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

•  Creación del repositorio:

•  Pre-procesamiento/calidad de data

•  Análisis descriptivo y predictivo:

•  Pre-procesamiento para análisis (grandes

volúmenes)

•  Análisis descriptivo/reducción de dimensiones

•  Creación y evaluación de modelos

•  Agregación y/o selección de modelos

•  Creación de modelos exportables Pentaho y/o

elaboración entregables

•  Creación reportes y dashboards en Pentaho

•  Ajustes

•  Análisis de efectividad

 

ARQUITECTURA DE UN PROYECTO

Recepción de los Datos Data Quality Kick Off

Semana  0  

Semana  1  

Semana  2  

Semana  3  

Semana  4  –  Semana  N  

Pre-­‐procesamiento Análisis  DescripFvo  y  PredicFvo  

Creación  Modelo   Evaluación  Modelo   Exportación/Entregables  

Reportes  y  Dahboards   Ajustes  

Análisis  de  EfecFvidad  

Page 37: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Pentaho +

Matrix Data Labs

Page 38: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

SOLUCIONES A LA MEDIDA  SOPORTE

CONSULTORÍA CAPACITACIÓN

SOLUCIONES INTEGRADAS PENTAHO + BD + DM EN SITIO OUTSOURCING SAAS

Herramienta flexible •  Pentaho Business Analytics •  Pentaho Data Mining    

Equipo multifacético •  Analítica + BI •  Big Data +PA •  Científicos de datos •  Web and text mining  

PENTAHO + MATRIX DATA LABS

Page 39: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

Matrix Data Labs , unidad de negocios de Matrix CPM Solutions, nace en 2012 como una iniciativa

de Carenne, Carlos y sus equipos de trabajo, convencidos del gran potencial

del desarrollo de esta área en la región. Matrix Data Labs desarrolla proyectos con

tecnología de estado del arte en el área de analítica predictiva, Big Data e integración

de información.

Page 40: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

MATRIX CPM SOLUTIONS

•  Empresa fundada en Diciembre de 2005

•  Con oficinas en Venezuela y Colombia

•  Amplia experiencia en el desarrollo de modelos de Inteligencia de Negocios.

•  “Pentaho Certified Partner” desde Enero 2007. “Pentaho Gold Reseller” Febrero 2009. “Latin American Partner of the Year 2008”. “Pentaho Global Partner Award 2011; Reseller of the Year”

•  “Infobright System Integrator & Reseller Partner” desde Abril 2009

•  Cuenta con experiencia en soporte, consultoría y capacitación en USA, México, República Dominicana, Colombia, Venezuela, Bolivia, Perú, Ecuador, El Salvador y Chile.

Page 41: Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

www.matrixcpmsolutions.com [email protected]  

Carenne Ludeña [email protected] Carlos Urgelles [email protected]