1
Retos del Big Data Jordi Torres - 25/04/2012
2
Se avecina una marea de información digital
Source: http://www.datacenterknowledge.com/archives/2011/06/28/digital-
universe-to-add-1-8-zettabytes-in-2011/?utm-source=feedburner&utm-
medium=feed&utm-campaign=Feed:+DataCenterKnowledge+%28Data
Boeing: (indústria) Vuelo transoceanico de un jumbo
puede generar 640 Terabytes.
Twitter: (redes sociales)
90 millones de Tweets por día que
representa 8 Terabytes.
Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes.
3
Los datos son más importante que
nunca, pero
Se avecina una marea de información digital
ha desbordado la capacidad de la mayoría
de las empresas para gestionarlos
y obtener beneficios a partir de ellos.
su crecimiento exponencial,
la complejidad de los formatos
y la velocidad de entrega
Almacenamiento: hacen falta nuevas tecnologías de almacenamiento
Bases de datos: las BD relacionales no pueden con todo
Procesado: se requieren nuevos modelos de programación
Obtención de valor: los datos no se pueden comer crudos
la información no es conocimiento “accionable”
Nuestra visión sobre “Big Data Challenges”
4
1
2
3
4
hacen falta nuevas tecnologías de
almacenamiento
RAM vs HHD
Solución actual:
Investigación:
Almacenamiento
HHD 100 más barato que RAM
Pero 1000 veces más lento
Solid- state drive (SSD)
además no volátil
5
1
Storage Class Memory (SCM)
las BD relacionales no pueden con todo
Base de datos
volumen de la información GBs PBs
Tie
mpo d
e e
jecució
n
Limitadas para
almacenar “big data”
(ACID, SQL, …)
ACID: Atomicity, Consistency, Isolation & Durability 6
2
Solución: los llamados “NoSQL systems”
A veces se les atribuye la propiedad BASE
(Basically Available, Soft state, Eventual consistency)
Ejemplo consistencia eventual: Facebook!
Base de datos
7
Se requieren nuevos modelos de programación
para manejarse con estos datos
Procesado
Solución: Para conseguir procesar grandes conjuntos de datos Google creó el modelo de programación MapReduce
Pero fue el desarrollo de Hadoop
MapReduce, por parte de Yahoo, el
que ha propiciado un ecosistema de
herramientas open source
8
3
9
Base de datos y procesado
Volumen de los datos GBs PBs
Tie
mpo d
e e
jecució
n
MapReduce &
NoSQL
In-memory
9
Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …)
Una distribución muy popular
Otros ejemplos: MapR, Greenplum, Hortonworks, …
Hay docenas
10
Proveedores de Big Data
11
Difícil pensar en MapReduce+NoSQL
hace falta “desaprender”
Solución (open source):
– HIVE, sistema DW basado en Hadoop desarrollado por
Facebook que permite escribir consultas en SQL.
– PIG, lenguaje de alto nivel para ejecutar trabajos sobre
MapReduce (desarrollado per Yahoo).
Obstáculos de MapReduce+NoSQL
12
Propuestas de la industria para integrar NoSQL con SQL:
– Sqoop de Cloudera
– Greenplum database
– Aster Data's nCluster DW system
– …
Muchas soluciones DW han optado por conectores Hadoop
en vez de integrar sus propias funcionalidades MapReduce.
Obstáculos de MapReduce+NoSQL
los datos no se pueden comer crudos
la información no es conocimiento accionable
Obtención de valor
13
4
conocimiento
información
datos
+ V
olu
men
- +
-
Va
lor
Para ello tenemos
tecnicas de Data Mining
• Asociación
• Clasificación
• Clustering
• Predicción
• ...
Pero la mayoría de algoritmos se
ejecutan bien en miles de registros,
pero son hoy por hoy impracticables
en miles de millones.
14
Solución: Dentro del
ecosistema open source
Hadoop hay la iniciativa
Mahout
El objetivo es producir una
implementación libre de un paquete
que incluya los principales algoritmos
de Data mining que escalen sobre la
plataforma Hadoop.
Obtención de valor
15
Mahout no es un reflejo
de los avances,
mucha investigación
se está desarrollando
de manera silenciosa
dentro de las grandes
corporaciones
dada la importancia
que puede tener para
sus negocios.
Obtención de valor
Source: http://www.smartplanet.com/blog/business-brains/
retailer-or-a-data-company-wal-mart-is-now-both/20850
Empresas que ya tratan con “Big Data”
IBM
Intel
HP
Oracle
Teradata
Fujitsu
CSC
Accenture
Dell
Seagate
Capgemini
Hitachi
Atos S.A.
Huawei
Siemens
Xerox
Tata
Consultancy
SGI
EMC
Logica
Microsoft
Splunk
1010data
MarkLogic
Cloudera
Red Hat
Informatica
SAS Institute
Amazon
ClickFox
Super Micro
SAP
Think Big
Analytics
MapR
Digital
Reasoning
Pervasive
Software
Datameer
Hortonworks
DataStax
Attivio
QlikTech
HPCC Sys.
Karmasphere
Tableau
Software
…
…
16
Grupo Autonomic Systems and eBusiness Platforms
www.bsc.es/eBusiness
Autonomic and
Intelligent Resource
Management
Cloud Computing
+
High Performance Computing
Big Data
Green Computing
17
18
Colaboración con grupo LARCA
http://recerca.upc.edu/larca/research-topics
Experiencia en Big Data
Application placement and
scheduling:
MapReduce
Data management:
Key-Value storage
Target Applications:
Data Analytics
Bioinformatics
19
Resultados científicos en Big Data:
• 2 artículos en high level business performance goals
• 2 artículos sobre nuevas arquitecturas Hardware
• 2 artículos relacionados con energía
20
Proyectos Big Data en curso
Goal Use case Collaborators Technology
involved
MapReduce & NoSQL
Snapshot isolation (support to
online data generation)
Data Analytics
IBM Hadoop
& Cassandra
High level performance goal and automatic query configuration
Data Analytics and Bioinformatics (support to
drug discovery)
Life Science Dept. (BSC)
Hadoop &
Cassandra
Automatic configuration, data organization to meet high level
performance goals
Bioinformatics (support to drug discovery)
Life Science Dept. (BSC)
Cassandra
SCM
In-Memory Bioinformatics
Workflows (index construction, alignment, sorting, data
processing)
Bioinformatics (genomic sequencing)
IBM and Life Science Dept. (BSC)
PIMD
21
Nuestro escenario
Gestión dinámica del procesado y almacenado con
jerarquía de almacenamiento en nuevas plataformas
hardware
RDBMS
NoSQL
IN-MEMORY
APPLICATION
Storage
Hierarchy: HDD+ SSD+ SCM
In-M
em
ory
Heterogeneous Compute Nodes
Cloud Computing
+