35
Qué tecnologías están sustentando el Big Data ¿Cuáles son sus retos? Jordi Torres UPC/BSC Madrid - 18/09/2012

Big Data en IDC-Madrid

Embed Size (px)

DESCRIPTION

Qué tecnologías están sustentando el Big Data ¿Cuáles son sus retos? IDC, Madrid

Citation preview

Page 1: Big Data en IDC-Madrid

Qué tecnologías

están sustentando

el Big Data

¿Cuáles son sus

retos?

Jordi Torres

UPC/BSC

Madrid - 18/09/2012

Page 2: Big Data en IDC-Madrid

Marea de información

Page 3: Big Data en IDC-Madrid

2009:

0,8 Zettabytes

Marea de información

(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB

1 Gigabyte (GB) = 1.000.000.000 bytes

Page 4: Big Data en IDC-Madrid

2009:

0,8 Zettabytes

2020: 35,2 Zettabytes

Marea de información

(*) 1 Zettabyte (ZB) = 1.000.000.000.000 GB

1 Gigabyte (GB) = 1.000.000.000 bytes

Page 5: Big Data en IDC-Madrid

2009:

0,8 Zettabytes

2020: 35,2 Zettabytes

3 V y …

Page 6: Big Data en IDC-Madrid

¡ LA PREGUNTA !

Page 7: Big Data en IDC-Madrid

¿Vamos a poder

con todo ello?

¡ LA PREGUNTA !

Page 8: Big Data en IDC-Madrid

¿Vamos a poder

con todo ello?

¡ LA PREGUNTA ! ¿Qué se está ya

ofreciendo e

investigando?

Page 9: Big Data en IDC-Madrid

Volumen de datos GBs PBs

Tie

mp

o d

e r

esp

ue

sta

¿Vamos a poder

con todo ello?

Page 10: Big Data en IDC-Madrid

GBs PBs

Tie

mp

o d

e r

esp

ue

sta

?

¿Vamos a poder

con todo ello?

!Se ha desbordado la capacidad de las

tecnologías actuales!

Volumen de datos

Page 11: Big Data en IDC-Madrid

Almacenamiento

Gestión

Procesado

Análisis

Qué tecnologías

están sustentando

el Big Data

¿cuáles son sus

retos?

Page 12: Big Data en IDC-Madrid

Almacenamiento

HHD 100 más barato que RAM

Pero 1000 veces más lento

vs

¡Más y más rápido!

Page 13: Big Data en IDC-Madrid

Almacenamiento

Solid- state drive (SSD)

además no volátil

Propuesta actual

¡Más y más rápido!

Page 14: Big Data en IDC-Madrid

Almacenamiento

Solid- state drive (SSD)

además no volátil

Storage Class Memory (SCM)

Propuesta actual

Investigación

¡Más y más rápido!

Page 15: Big Data en IDC-Madrid

Gestión

Atomicity,

Consistency,

Isolation &

Durability

p.ej. “esquemas” o las

propiedades ACID

¡Las BD relacionales

no pueden con todo!

Page 16: Big Data en IDC-Madrid

Gestión Propuesta actual

“NO SQL systems”

Self-* NoSQL systems

Nuevas propiedades BASE: Basically Available, Soft state,

Eventual consistency

Investigación

Ej. Facebook

¡Las BD relacionales

no pueden con todo!

Page 17: Big Data en IDC-Madrid

Procesado

entornos masivamente

paralelos+distribuidos

y tolerante a fallos

Hacen falta nuevos

modelos programación

Page 18: Big Data en IDC-Madrid

Procesado Propuesta actual

“LA” soluciones open source

y propietarias

GBs PBs

Tie

mp

o d

e r

esp

ue

sta

Hacen falta nuevos

modelos programación

Page 19: Big Data en IDC-Madrid

Difícil pensar en

MapReduce

+

NoSQL

Hace falta

“DESAPRENDER”

Page 20: Big Data en IDC-Madrid

Difícil pensar en

MapReduce

+

NoSQL

Solución(open source)

Hace falta

“DESAPRENDER”

Niveles de

abstracción

Hbase/Cassandra

(No-SQL system)

Hive

(SQL based language)

Pig

(Data Flow Language)

Solución (industria)

Por ejemplo SQL+NoSQL

Page 21: Big Data en IDC-Madrid

SQL+NoSQL:

p.ej. integrar funcionalidades MapReduce

Conectores MapReduce para DW

Data

ETL

Data

Data

ETL

Normalized data

Normalized data

DataWarehouse

Business Users Business Analysts Etc.

Data

Data

Hadoop ODBC driver

Page 22: Big Data en IDC-Madrid

Gestión integrada de:

• la jerarquía de almacenamiento,

• transparente al usuario

• autogestionada para ser

optimizada

• …

Investigación

RDBMS

IN-MEMORY

APPLICATION

Escenario que tendremos:

Page 23: Big Data en IDC-Madrid

Análisis

probablemente

¡EL RETO MÁS

IMPORTANTE! para ustedes

Page 24: Big Data en IDC-Madrid

Análisis

conocimiento

información

datos

+

Vo

lum

en

- +

-

Valo

r

Page 25: Big Data en IDC-Madrid

Propuesta actual

Investigación

Análisis

Data Mining,

Machine Learning ,

….

La mayoría de algoritmos se

ejecutan bien en miles de

registros, pero son hoy por

hoy impracticables en miles de

millones. ¡En ello estamos!

conocimiento

información

datos

+

Vo

lum

en

- +

-

Valo

r

Page 26: Big Data en IDC-Madrid

Investigación

Análisis

La mayoría de algoritmos se

ejecutan bien en miles de

registros, pero son hoy por

hoy impracticables en miles de

millones. ¡En ello estamos!

¿Reflejo de los avances

actuales?

Page 27: Big Data en IDC-Madrid

O cada uno en

su casa …

Source: http://www.smartplanet.com/blog/business-brains/retailer-or-a-data-company-wal-mart-is-now-both/20850

Page 28: Big Data en IDC-Madrid

“Oddly, machine learning research mirrors the way cryptography research developed around the middle of the 20th century. Much of the cutting edge research was done in secret, and we’re only finding out now, 40 or 50 years later, what GCHQ or the NSA was doing back then. I’m hopeful that it won’t take quite that long for Amazon or Google to tell us what they’re thinking about today.” (pag 49) Alasdair Allan, senior research fellow in Astronomy at the University of Exeter

Page 29: Big Data en IDC-Madrid

Categorization (un-supervised) :

.K-means clustering

. Association Rules

. … Regression

. Linear

. Logistic Classification (supervised)

. Naïve Bayesian classifier

. Decision Trees

. Time Series Analysis

. Text Analysis

. …

¿Es fundamental

para su negocio

dominar

internamente en

sus empresas las

tecnologías de

Machine Learning?

Page 30: Big Data en IDC-Madrid

¿O quizás no?

¿El método realmente

importa en Big Data?

Page 31: Big Data en IDC-Madrid

Ej:Text processing

Ej. Clásico: Para Banko and

Brill (2001) ¿Parece que los

datos son más importantes

que los métodos?

Page 32: Big Data en IDC-Madrid

En definitiva …

“machine learning

algorithms really

don’t matter, all

that matters is the

amount of data

you have”

¿Qué piensan

ustedes?

¿Son

necesarias

estas skills?

Page 33: Big Data en IDC-Madrid

Mi visión:

(no estamos en el nivel de

maduración del Cloud)

Data Analysis & Prediction

Big Data

Cloud Computing

+ HPC

Smart Computing

… DE QUE VOY A DAR CLASES YO EN BARCELONA!!!!!!!!!

Page 34: Big Data en IDC-Madrid

Editorial UOC, Octubre 2012

Creative Commons 3.0

Profesor e investigador en nuevas tecnologías TIC

Actúa como experto para diferentes organizaciones públicas Consultor tecnológico, miembro de consejo de administración

Imparte conferencias y colabora con diferentes medios de comunicación

www.JordiTorres.eu

@JordiTorresBCN

Más información del tema:

Más información del autor:

Page 35: Big Data en IDC-Madrid

¡Gracias por

su atención!

www.bsc.es/eBusiness

Pero … especialmente a: