47
Big Data & Big Opportunities 24 de Noviembre 2016 Aguascalientes, Aguascalientes

Big data big opportunities

Embed Size (px)

Citation preview

Big Data & Big Opportunities

24 de Noviembre 2016

Aguascalientes, Aguascalientes

https://upload.wikimedia.org/wikipedia/commons/9/9b/Social_Network_Analysis_Visualization.png https://upload.wikimedia.org/wikipedia/commons/4/46/BigData_2267x1146_white.png https://upload.wikimedia.org/wikipedia/commons/thumb/1/1b/R_logo.svg/2000px-R_logo.svg.png http://shingeki.tv/

@ab

xda

@abxda

¿Qué es Big Data?

Perfiles de https://www.researchgate.net/

Cómputo Paralelo y Distribuido@abxda

¿Qué es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

@abxda

¿Qué es Big Data?

Diciembre 2004

Octubre 2003

@abxda

¿Qué es Big Data?

2006> 100,000 Artículos

2007 @abxda

Hadoop (2006 - 2008)

@abxda

Big Data es Software Libre

@abxda

Hadoop (2006 – 20..)

@abxda

¿Qué es Big Data? (2009 – 2016…)

@abxda

Matei Zaharia Ion Stoica

(2009 – 2016…)

@abxda

¿Qué es un Científico de Datos?

http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist

Hilary Mason, Chief Data Scientist at bitly

@abxda

¿Qué es un Científico de Datos?

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html

Experto encomputación ydesarrollo avanzados(Big Data)

Experto enModelado

Estadístico

Experto enel dominio de

datos

Unicornio

Zonapeligrosa!

Investigacióntradicional

Machinelearning

CIENCIADE

DATOS

@abxda

Big Money

@abxda

(2013)

@abxda

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos Crudoshdfs://

Información(Significado)

TomarDecisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…Análisis de Redes (Grafos)

Minería de Datos

Velocidad

Varie

dad

VolumenCiencia de Datos

(Transforma/Modela)Cómputo Distribuido y Paralelo

ArquitecturaBig Data & Ciencia de Datos

@abxda

@abxda

¿Qué clase de #BigData es esta?

En operaciones de Machine Learning, una sola tarjeta de Video, es 45 veces mas poderosa que el XEON mas rápido.

2560 CUDA CORES

@abxda

Business Understanding

Data Acquisition and

Understanding

Deployment

Modeling

• Transform, Binning• Temporal, Text, Image, etc• Feature Selection

Feature Engineering

• Algorithms, Ensemble• Hyper-parameter Tuning• Retraining

Model Fitting

• Cross Validation• Model ReportingModel

Evaluation

• On-Premises vs Cloud• Database vs Files Data Source

• Streaming vs Batch• Low vs High Frequency Pipeline

• Structured vs Unstructured• Data Validation and Cleanup• Visualization

Data Wrangling

• On-Premises vs Cloud• Database vs Data Lake vs …• Small vs Medium vs Big Data

Analytics Environment

Customer Acceptance END

Production

Pipeline

START

Intelligent Applications

Web Services

Management-Group: The managers of theEntire data science unit.

• Chief Data Scientist• Domain Experts (Staff)• Research Scientists (Staff)• Agile Master (Staff)• Systems Engineering Expert (Staff)

• Data Engineering Team• Data Engineer• SysAdmin• Statistician• Geomatic Engineer• Dataviz Expert• GPU Developer• IoT Expert

• Data Science Team• Data Scientist• Statistician• Mathematician• Machine Learning Expert• Deep Learning Expert

• Data Product Team• Data Engineer• Software Architect• UX Expert• App Developer• Web Developer

Performant

Model

https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-microsoft

Equipo de Ciencia de Datos

@eOswaldOd@abxda

Twitter como fuente de Big Data (Primer Proyecto Piloto)Para medir el pulso emotivo de México …y mucho más …

@abxda

Hydra

Octubre 2013

@abxda

Consulta Geográfica

@abxda

Visualización de la Base de Datos

200 Millones de Tuits400 Gb800 Mb Diarios

@abxda

Visualización de la Base de Datos

~100 Millones de Tuits

@abxda

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

~1,000,000 Tuiteros generaron ~ 100 Millones de Tuits

@abxda

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Machine LearningEl Secreto de Big Data

@abxda

Análisis del Sentimiento (Diario)

C#{RESTful:API}

{NoSQL}

@abxda

#Necaxa

@abxda

@VickSil1@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

DENUE & Twitter

@abxda

Horarios de Tuiteo cerca de algún sector

@abxda

4.9 M de Polígonos de Voronoi (DENUE)

@abxda

Big Spatial Join (4.9 M DENUE +60 M Tweets)

@abxda

SpatialSpark (Nov. 2015)

@abxda

SpatialSpark: Open Source

@abxda

Runing Code into Local Apache Spark

@abxda

@abxda

DENUE - Twitter

@abxda

Training and modelingSatellite Images

Imagery satellite Labeled by remote

sensing experts Mathematical Modeling

(Feature Extraction)

http://scikit-learn.org/http://www.r-project.org/

Machine LearningMethods

Imagery satelliteAutomaticClassifier

Land Cover, Classes

@abxda

Proceso de Machine LearningImágenes de Satélite

@abxda

Preguntas

@abxda

[email protected]

@abxda