Upload
barcelona-tech-upc-barcelona-supercomputer-center-bsc
View
2.409
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
Big Data 2.0 retos y tendencias tecnológicas
del Big Data
Jordi Torres, UPC/BSC
www.JordiTorres.eu
Madrid - 19/06/2012
Source: Economist , Feb 25th, 2010 http://www.economist.com/node/15579717
Source: Economist , Feb 25th, 2010 http://www.economist.com/node/15579717
Twitter: (redes sociales)
90 millones de Tweets por día
que representa 8 Terabytes.
Boeing: (industria)
Vuelo transoceanico de un
jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes.
¿Big Data?
• Explosión del volumen de los datos
• 3 V : Volumen, Velocidad y Variedad
2009: 0,8
Zettabytes
2020: 35,2
Zettabytes
(*) 1 Zettabyte (ZB) = 1.000.000.000.000 (GB)
Retos tecnológicos
• Se ha desbordado la capacidad actual – Almacenamiento
– Gestión
– Procesado
– Análisis
Volum de dades GBs PBs
Tie
mp
o d
e r
esp
ue
sta
Retos tecnológicos
• Se ha desbordado la capacidad actual – Almacenamiento
– Gestión
– Procesado
– Análisis
Volum de dades GBs PBs
Tie
mp
o d
e r
esp
ue
sta
?
In-memory
Almacenamiento
• Nuevas tecnologías de almacenamiento
– RAM vs HHD
– Solución actual
– Investigación
HHD 100 más barato que RAM
Pero 1000 veces más lento
Solid- state drive (SSD)
además no volátil
Storage Class Memory (SCM)
Gestión
• Limitaciones de las BD relacionales
Solución actual:
“NoSQL systems”
Volum de dades GBs PBs
Tie
mp
o d
e r
esp
ue
sta
Gestión
• Limitación de propiedad ACID de BD
• Nueva propiedad: BASE
Ejemplo Consistencia eventual: Facebook
• Investigación: Self-* NoSQL systems
Atomicity, Consistency, Isolation & Durability
Basically Available,
Soft state,
Eventual consistency
Procesado
• Nuevos modelos de programación
– Solución actual:
Volum de dades GBs PBs
Tie
mp
o d
e r
esp
ue
sta
Procesado
• Solución Open Source:
– Hadoop
• Mercado:
– Distribuciones propias
MapReduce+NoSQL
• Difícil pensar en MapReduce+NoSQL
• Solución: Niveles de abstracción
Hace falta “desaprender”
Hbase
Hive
(SQL based language)
Pig
(Data Flow Language)
SQL+NoSQL
• Propuestas de la industria SQL+NoSQL
– Integrar funcionalidades MapReduce
– conectores Hadoop para DW
Data
ETL
Data
Data
ETL
Normalized
data
Normalized
data
DataWarehouse
Business Users
Business Analysts
Etc.
Data
Data
Hadoop
ODBC
driver
MapReduce+NoSQL
• Investigación: Gestión jerarquía de
almacenamiento
RDBMS
IN-MEMORY
APPLICATION
GBs PBs
Storage Hierarchy
Management
Análisis
• Hace falta conocimiento accionable
conocimiento
información
datos
+
Vo
lum
en
- +
-
Valo
r
Análisis
• Solución: Data Mining
• Investigación:
Asociación
Clasificación
Clustering
Predicción
...
La mayoría de algoritmos se
ejecutan bien en miles de registros,
pero son hoy por hoy impracticables
en miles de millones.
Análisis
• Solución Open Source:
Source: http://www.smartplanet.com/blog/business-brains/retailer-or-a-data-company-wal-mart-is-now-both/20850
• ¿Reflejo
de los
avances?
Recursos usados
T
¿Y el Cloud?
Recursos usados
T
Capacidad CPD
¿Y el Cloud?
Recursos usados
T
Capacidad CPD
recursos NO
usados
¿Y el Cloud?
T
Elasticidad del Cloud
¿Y el Cloud?
Oportunidades
Hace una década:
WEB 2.0 ecosistema LAMP
– Linux
– Apache
– MySQL
– PHP
hoy: DATA 2.0 ecosistema Hadoop
Conclusiones
• Está llegando el Big Data
– La tecnología se está preparando para ello
– ¿Y ustedes?
• Prepárense para subirse al Big Data
– Un reto y una oportunidad para ustedes
Para saber más …
• Blog
• Próximo libro “Del Cloud Computing al Big Data”
Editorial UOC, septiembre 2012
Creative Commons 3.0
www.JordiTorres.org/blog
Y especial gracias a
Autonomic Systems and e-Business Platforms research group
www.bsc.es/eBusiness
¡Gracias por su atención!
Y otro libro …
http://www.librosdecabecera.com/empresas-en-la-nube