Retos del Big Data

  • Published on
    10-Dec-2014

  • View
    3.667

  • Download
    2

Embed Size (px)

DESCRIPTION

Breve reflexin sobre los retos del Big Data

Transcript

  • 1. Retos del Big Data Jordi Torres - 25/04/2012 1
  • 2. Se avecina una marea de informacin digital Twitter: (redes sociales) 90 millones de Tweets por da que representa 8 Terabytes. Boeing: (indstria) Vuelo transoceanico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio) 1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 Petabytes. Source: http://www.datacenterknowledge.com/archives/2011/06/28/digital- universe-to-add-1-8-zettabytes-in-2011/?utm-source=feedburner&utm- medium=feed&utm-campaign=Feed:+DataCenterKnowledge+%28Data 2
  • 3. Se avecina una marea de informacin digital Los datos son ms importante que nunca, pero su crecimiento exponencial, la complejidad de los formatos y la velocidad de entrega ha desbordado la capacidad de la mayora de las empresas para gestionarlos y obtener beneficios a partir de ellos. 3
  • 4. Nuestra visin sobre Big Data Challenges1 Almacenamiento: hacen falta nuevas tecnologas de almacenamiento2 Bases de datos: las BD relacionales no pueden con todo3 Procesado: se requieren nuevos modelos de programacin4 Obtencin de valor: los datos no se pueden comer crudos la informacin no es conocimiento accionable 4
  • 5. 1 Almacenamientohacen falta nuevas tecnologas dealmacenamiento RAM vs HHD HHD 100 ms barato que RAM Pero 1000 veces ms lento Solid- state drive (SSD) Solucin actual: adems no voltil Investigacin: Storage Class Memory (SCM) 5
  • 6. 2 Base de datoslas BD relacionales no pueden con todo Tiempo de ejecucin Limitadas para almacenar big data (ACID, SQL, ) GBs volumen de la informacin PBs ACID: Atomicity, Consistency, Isolation & Durability 6
  • 7. Base de datos Solucin: los llamados NoSQL systems A veces se les atribuye la propiedad BASE (Basically Available, Soft state, Eventual consistency) Ejemplo consistencia eventual: Facebook! 7
  • 8. 3 ProcesadoSe requieren nuevos modelos de programacinpara manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos Google cre el modelo de programacin MapReduce Pero fue el desarrollo de Hadoop MapReduce, por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source 8
  • 9. Base de datos y procesado MapReduce & NoSQL Tiempo de ejecucin In-memory GBs Volumen de los datos PBs 9 9
  • 10. Proveedores de Big Data Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalizacin: disponibilidad, rendimiento, replicas ) Una distribucin muy popular Otros ejemplos: MapR, Greenplum, Hortonworks, Hay docenas 10
  • 11. Obstculos de MapReduce+NoSQL Difcil pensar en MapReduce+NoSQL hace falta desaprender Solucin (open source): HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL. PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo). 11
  • 12. Obstculos de MapReduce+NoSQL Propuestas de la industria para integrar NoSQL con SQL: Sqoop de Cloudera Greenplum database Aster Datas nCluster DW system Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce. 12
  • 13. 4 Obtencin de valorlos datos no se pueden comer crudosla informacin no es conocimiento accionable Para ello tenemos- datos tecnicas de Data Mining + Asociacin ClasificacinValor informacin Volumen Clustering Prediccin ...+ Pero la mayora de algoritmos se conocimiento - ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. 13
  • 14. Obtencin de valor Solucin: Dentro del ecosistema open source Hadoop hay la iniciativa Mahout El objetivo es producir una implementacin libre de un paquete que incluya los principales algoritmos de Data mining que escalen sobre la plataforma Hadoop. 14
  • 15. Obtencin de valorMahout no es un reflejode los avances,mucha investigacinse est desarrollandode manera silenciosadentro de las grandescorporacionesdada la importanciaque puede tener parasus negocios. Source: http://www.smartplanet.com/blog/business-brains/ retailer-or-a-data-company-wal-mart-is-now-both/20850 15
  • 16. Empresas que ya tratan con Big Data IBM Capgemini Logica ClickFox Hortonworks Intel Hitachi Microsoft Super Micro DataStax HP Atos S.A. Splunk SAP Attivio Oracle Huawei 1010data Think Big QlikTech Teradata Siemens MarkLogic Analytics HPCC Sys. Fujitsu Xerox Cloudera MapR Karmasphere CSC Tata Red Hat Digital Tableau Accenture Consultancy Informatica Reasoning Software Dell SGI SAS Institute Pervasive Software Seagate EMC Amazon Datameer 16
  • 17. Grupo Autonomic Systems and eBusiness Platforms Cloud Computing + High Performance Computing Autonomic and Green Computing Intelligent Big Data Resource Management www.bsc.es/eBusiness 17
  • 18. Colaboracin con grupo LARCA http://recerca.upc.edu/larca/research-topics 18
  • 19. Experiencia en Big Data Application Data Target placement and management: Applications: scheduling: MapReduce Key-Value Data Analytics storage Bioinformatics Resultados cientficos en Big Data: 2 artculos en high level business performance goals 2 artculos sobre nuevas arquitecturas Hardware 2 artculos relacionados con energa 19
  • 20. Proyectos Big Data en curso Technology Goal Use case Collaborators involved Hadoop Snapshot isolation (support to Data Analytics IBM & online data generation) Cassandra High level performance goal and Data Analytics and Hadoop Life Science Dept. MapReduce automatic query configuration Bioinformatics (support to & (BSC) & NoSQL drug discovery) Cassandra Automatic configuration, data Bioinformatics (support to Life Science Dept. organization to meet high level Cassandra performance goals drug discovery) (BSC) In-Memory Bioinformatics Workflows (index construction, Bioinformatics (genomic IBM and Life SCM alignment, sorting, data PIMD sequencing) Science Dept. (BSC) processing) 20
  • 21. Nuestro escenario Gestin dinmica del procesado y almacenado con jerarqua de almacenamiento en nuevas plataformas hardware APPLICATION IN-MEMORY RDBMS NoSQL In-Memory Storage Heterogeneous Hierarchy: Compute Nodes HDD+ SSD+ SCM + Cloud Computing 21

Recommended

View more >