Download pdf - Retos del Big Data

Transcript
Page 1: Retos del Big Data

1

Retos del Big Data Jordi Torres - 25/04/2012

Page 2: Retos del Big Data

2

Se avecina una marea de información digital

Source: http://www.datacenterknowledge.com/archives/2011/06/28/digital-

universe-to-add-1-8-zettabytes-in-2011/?utm-source=feedburner&utm-

medium=feed&utm-campaign=Feed:+DataCenterKnowledge+%28Data

Boeing: (indústria) Vuelo transoceanico de un jumbo

puede generar 640 Terabytes.

Twitter: (redes sociales)

90 millones de Tweets por día que

representa 8 Terabytes.

Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes.

Page 3: Retos del Big Data

3

Los datos son más importante que

nunca, pero

Se avecina una marea de información digital

ha desbordado la capacidad de la mayoría

de las empresas para gestionarlos

y obtener beneficios a partir de ellos.

su crecimiento exponencial,

la complejidad de los formatos

y la velocidad de entrega

Page 4: Retos del Big Data

Almacenamiento: hacen falta nuevas tecnologías de almacenamiento

Bases de datos: las BD relacionales no pueden con todo

Procesado: se requieren nuevos modelos de programación

Obtención de valor: los datos no se pueden comer crudos

la información no es conocimiento “accionable”

Nuestra visión sobre “Big Data Challenges”

4

1

2

3

4

Page 5: Retos del Big Data

hacen falta nuevas tecnologías de

almacenamiento

RAM vs HHD

Solución actual:

Investigación:

Almacenamiento

HHD 100 más barato que RAM

Pero 1000 veces más lento

Solid- state drive (SSD)

además no volátil

5

1

Storage Class Memory (SCM)

Page 6: Retos del Big Data

las BD relacionales no pueden con todo

Base de datos

volumen de la información GBs PBs

Tie

mpo d

e e

jecució

n

Limitadas para

almacenar “big data”

(ACID, SQL, …)

ACID: Atomicity, Consistency, Isolation & Durability 6

2

Page 7: Retos del Big Data

Solución: los llamados “NoSQL systems”

A veces se les atribuye la propiedad BASE

(Basically Available, Soft state, Eventual consistency)

Ejemplo consistencia eventual: Facebook!

Base de datos

7

Page 8: Retos del Big Data

Se requieren nuevos modelos de programación

para manejarse con estos datos

Procesado

Solución: Para conseguir procesar grandes conjuntos de datos Google creó el modelo de programación MapReduce

Pero fue el desarrollo de Hadoop

MapReduce, por parte de Yahoo, el

que ha propiciado un ecosistema de

herramientas open source

8

3

Page 9: Retos del Big Data

9

Base de datos y procesado

Volumen de los datos GBs PBs

Tie

mpo d

e e

jecució

n

MapReduce &

NoSQL

In-memory

9

Page 10: Retos del Big Data

Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …)

Una distribución muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks, …

Hay docenas

10

Proveedores de Big Data

Page 11: Retos del Big Data

11

Difícil pensar en MapReduce+NoSQL

hace falta “desaprender”

Solución (open source):

– HIVE, sistema DW basado en Hadoop desarrollado por

Facebook que permite escribir consultas en SQL.

– PIG, lenguaje de alto nivel para ejecutar trabajos sobre

MapReduce (desarrollado per Yahoo).

Obstáculos de MapReduce+NoSQL

Page 12: Retos del Big Data

12

Propuestas de la industria para integrar NoSQL con SQL:

– Sqoop de Cloudera

– Greenplum database

– Aster Data's nCluster DW system

– …

Muchas soluciones DW han optado por conectores Hadoop

en vez de integrar sus propias funcionalidades MapReduce.

Obstáculos de MapReduce+NoSQL

Page 13: Retos del Big Data

los datos no se pueden comer crudos

la información no es conocimiento accionable

Obtención de valor

13

4

conocimiento

información

datos

+ V

olu

men

- +

-

Va

lor

Para ello tenemos

tecnicas de Data Mining

• Asociación

• Clasificación

• Clustering

• Predicción

• ...

Pero la mayoría de algoritmos se

ejecutan bien en miles de registros,

pero son hoy por hoy impracticables

en miles de millones.

Page 14: Retos del Big Data

14

Solución: Dentro del

ecosistema open source

Hadoop hay la iniciativa

Mahout

El objetivo es producir una

implementación libre de un paquete

que incluya los principales algoritmos

de Data mining que escalen sobre la

plataforma Hadoop.

Obtención de valor

Page 15: Retos del Big Data

15

Mahout no es un reflejo

de los avances,

mucha investigación

se está desarrollando

de manera silenciosa

dentro de las grandes

corporaciones

dada la importancia

que puede tener para

sus negocios.

Obtención de valor

Source: http://www.smartplanet.com/blog/business-brains/

retailer-or-a-data-company-wal-mart-is-now-both/20850

Page 16: Retos del Big Data

Empresas que ya tratan con “Big Data”

IBM

Intel

HP

Oracle

Teradata

Fujitsu

CSC

Accenture

Dell

Seagate

Capgemini

Hitachi

Atos S.A.

Huawei

Siemens

Xerox

Tata

Consultancy

SGI

EMC

Logica

Microsoft

Splunk

1010data

MarkLogic

Cloudera

Red Hat

Informatica

SAS Institute

Amazon

ClickFox

Super Micro

SAP

Think Big

Analytics

MapR

Digital

Reasoning

Pervasive

Software

Datameer

Hortonworks

DataStax

Attivio

QlikTech

HPCC Sys.

Karmasphere

Tableau

Software

16

Page 17: Retos del Big Data

Grupo Autonomic Systems and eBusiness Platforms

www.bsc.es/eBusiness

Autonomic and

Intelligent Resource

Management

Cloud Computing

+

High Performance Computing

Big Data

Green Computing

17

Page 18: Retos del Big Data

18

Colaboración con grupo LARCA

http://recerca.upc.edu/larca/research-topics

Page 19: Retos del Big Data

Experiencia en Big Data

Application placement and

scheduling:

MapReduce

Data management:

Key-Value storage

Target Applications:

Data Analytics

Bioinformatics

19

Resultados científicos en Big Data:

• 2 artículos en high level business performance goals

• 2 artículos sobre nuevas arquitecturas Hardware

• 2 artículos relacionados con energía

Page 20: Retos del Big Data

20

Proyectos Big Data en curso

Goal Use case Collaborators Technology

involved

MapReduce & NoSQL

Snapshot isolation (support to

online data generation)

Data Analytics

IBM Hadoop

& Cassandra

High level performance goal and automatic query configuration

Data Analytics and Bioinformatics (support to

drug discovery)

Life Science Dept. (BSC)

Hadoop &

Cassandra

Automatic configuration, data organization to meet high level

performance goals

Bioinformatics (support to drug discovery)

Life Science Dept. (BSC)

Cassandra

SCM

In-Memory Bioinformatics

Workflows (index construction, alignment, sorting, data

processing)

Bioinformatics (genomic sequencing)

IBM and Life Science Dept. (BSC)

PIMD

Page 21: Retos del Big Data

21

Nuestro escenario

Gestión dinámica del procesado y almacenado con

jerarquía de almacenamiento en nuevas plataformas

hardware

RDBMS

NoSQL

IN-MEMORY

APPLICATION

Storage

Hierarchy: HDD+ SSD+ SCM

In-M

em

ory

Heterogeneous Compute Nodes

Cloud Computing

+


Recommended