Analítica Avanzada y Big Data -...

Preview:

Citation preview

Panorámica general de Data Science y Big DataLos roles del futuro

Rodrigo AbtData Scientist / Advanced Analytics & Big Data Manager en Axity

rodrigo.abt@axity.com

Enero 2019

¿Saben quién pintó este cuadro?

El mercado para Analítica Avanzada y Big Data es una gran oportunidad

Se proyecta que en el mundo el mercado de Analítica

Avanzada crecerá de US$ 7.000 millones (2014) a más

de US$ 29.000 millones (2019), con una tasa de

crecimiento anual de 33,2%

Fuente: Markets and Research

Según IDC Chile, se estima que la inversión en Big Data & Analytics aumentará en 18% en Chile al 2018, llegando hasta los US$ 500 millones

Fuente: IDC Chile, abril 2017

¿Qué necesito saber sobre estos temas?

Actualmente hay varios conceptos en boga

Inteligencia Artificial

Analítica Avanzada Data Science

Big Data

Machine Learning

¿Qué significa cada uno?

Data Lake

Inteligencia Artificial

Máquinas que operan imitando los procesos cognitivos del ser humano

…es un aspiracional

IA no es un concepto “nuevo”

Era de los “Sistemas Expertos”

Primeros prototipos

1997: Deep Blue derrota a Gary Kasparov

2011: IBM Watson gana el Jeopardy

2017: AlphaGo vence 3 partidos seguidos al campeón de GO

Machine Learning

Aprendizaje de máquinas a través de algoritmos, sin programación previa

Hay distintos métodos de aprendizaje

La aplicación de Machine Learning requiere varios pasos…

Extracción, limpieza, preparación, selección de variables

Separación de sets de entrenamiento / prueba

Entrenamiento / Calibración

Predicción / Resultado / Evaluación

70%

30%

Data Science

Uso del método científico para generación de insights a partir de los datos

Data Science ha tenido un boom exponencial los últimos años…

Bases de datos

Estadística

Data Science es una disciplina que combina múltiples aspectos

Programación

Machine Learning

Conocimiento de negocio

Data Science

Analítica Avanzada

Patrones y tendencias con modelos

Algoritmos complejos y computación avanzada

Foco en predicción

ANÁLISIS DESCRIPTIVO¿Qué pasó? ¿Por qué?

ANÁLISIS PREDICTIVO¿Qué pasará?

DESORDEN¿Qué tenemos?

ANÁLISIS PRESCRIPTIVO¿Cómo hacemos que suceda?

Las iniciativas con Analítica Avanzada dependen del nivel de madurez

Las iniciativas de Analítica Avanzada / Data Science son iterativas

Necesidad

Exploración

Preparación

Modelado

Evaluación

Liberación

Estándar CRISP-DM

Analítica Avanzada BI Tradicional

Predicción, optimización y simulación

Estructurados y no estructurados

“Qué pasará"

Algoritmos complejos y/o

arquitecturas tecnológicas especiales

Data Scientists, Analistas de Negocio,

Usuarios finales de negocio

Foco

Uso de datos

Preguntas

Implementación

Usuarios

Uso Proactivo

Reportes y visualizaciones

Estructurados y algunos no

estructurados

"Qué pasó"

Requerimientos cuantificables y

normalmente predecibles

Usuarios finales de negocio, Analistas

Reactivo

VS

Casos de uso en Analítica Avanzada

• Predicción de fuga

• Sistemas automáticos de recomendación

• Identificación de fraudes y anomalías

• Segmentación de clientes / audiencias

• Comprensión de comportamientos

• Detección de patrones complejos

• Optimización de precios, lugares, combinaciones

• Scores de riesgo

Ejemplo: Mantenimiento predictivo

Ejemplo: Clustering y fuga de clientes

Big Data

Datos de gran…

Data Lake

Almacenamiento e integración de múltiples fuentes de información sin forzar una estructura predefinida

Arquitectura típica de Data Lake

Fuentes

Sandbox

Modelos analíticos

batch

(near) real time

Modelos de datos

Gobierno

Datos crudosLanding Zone Visualizaciones, reportes y

aplicaciones

Metadata Calidad Catálogo Seguridad

Usuarios de negocio

Analistas / Data Scientists

Data Lake Data Warehouse

Integración de datos oportuna Integración de datos correcta

Estructurados y no estructuradosEstructurados y algunos no estructurados

“Qué pasa ahora y qué pasará" "Qué pasó"

Arquitecturas especiales, escalabilidad horizontal (muchas máquinas)

Escalabilidad vertical (más memoria, más disco, misma máquina)

Data Scientists, Analistas de Negocio, Usuarios finales de negocio

Usuarios finales de negocio

Foco

Uso de datos

Preguntas

Implementación

Usuarios

Uso Proactivo Reactivo

VSVS

Hadoop: ecosistema de facto en Big Data

❖ Esquema de almacenamiento + motor de cálculo + orquestador de recursos

❖ Gratuito. Pero tiene distribuciones: Cloudera, Hortonworks, MapR

❖ Escalamiento horizontal On-Premise y/o Cloud

❖ Múltiples herramientas asociadas

Ojo, no es una base de datos!

Algunas herramientas del ecosistema Hadoop

Casos de uso en Big Data

• Analítica de Redes Sociales (Twitter, Facebook, Instagram, etc.)

• Analítica de archivos masivos (Logs, Videos, Audios, Imágenes)

• Integración operacional de sistemas

• Vistas 360º de clientes / empleados

• IoT

• Mantenimiento preventivo

• Análisis y monitoreo de actividades masivas

• Optimización de precios

• Eficiencia operacional

Inteligencia Artificial

Co

nte

xto

, a

da

pta

ció

n

Analítica Avanzada

Big Data

Data Science

Machine Learning

Optimización

¿Qué empresa y aplicaciones famosas existen con estas tecnologías?

Sistemas recomendadores

Descubrimiento y curado de contenido

Traducción, búsquedas, álbumes inteligentes (fotos)

CRM Inteligente (predicción y scoring de Leads)

Sugerencias de etiquetado, noticias personalizadas

Detección de enfermedades (ej. Cáncer)

Asistentes inteligentes (Siri, Cortana)

¿Cuáles son los roles asociados?

Aritmética básica

Copiar y pegar código de Google, Stack Overflow, Kaggle Reddit

Estadística, programación, comunicación

“Data Scientist”

El Data Scientist perfecto….

La verdad es que son temas de equipo

Rol principal: Extraer conocimiento desde los datos y agregar valor con modelos

Habilidades clave:Matemáticas, Estadística, Programación, Comunicación, Machine Learning

Programas (ej.):SQL, Python, R

Rol principal: Crear consultas y visualizaciones para entender patrones

Habilidades clave:Estadística, Comunicación, Conocimiento del Negocio, Visualización

Programas (ej.):Excel, Tableau, SQL

Rol principal: Crear interfaces de consulta a datos desde múltiples fuentes y sistemas

Habilidades clave:Programación avanzada, Sistemas distribuidos, Big Data, Flujos de información

Programas (ej.):Hadoop, NoSQL, Python

Otros roles

Machine Learning EngineerRol principal: diseñar y desarrollar sistemas y modelos basados en Machine Learning

Big Data ArchitectRol principal: diseñar componentes de almacenamiento, ingesta y consumo de datos de gran volumen, variabilidad y/o velocidad de generación

¿Dónde aplican los roles?

Almacenamiento Flujos / procesamiento / deploy Modelos / algoritmos / apps Visualización

Ingeniero de Datos

Científico de Datos

Ingeniero Machine Learning

Arquitecto Big Data Analista de Datos

¿Dónde comenzar?

• Reforzar las bases matemáticas: Cálculo, Álgebra y Estadística Inferencial

• Reforzar las bases informáticas: programación, bases de datos, SQL

• Profundizar en lenguajes de programación: Python ó R

• Aprender sobre Storytelling y visualización con datos

• Existen muchos cursos gratuitos (EdX, Coursera, Udemy)

• Focalizarse: en alguna industria y algún rol

Recomendaciones

• Estudiar (mucho)

• Practicar (mucho)

• Saber a tiempo si es esto lo mío o no

Recommended