Breve Historia del Big Data

  • Published on
    13-Apr-2017

  • View
    292

  • Download
    0

Embed Size (px)

Transcript

  • Historia del Big Data

    Albert CalvoLaura Chacn

    Zaira Quesada

  • Introduccin

    Introduccin Contextualizacin mbitos Historia Hardware

    "Big Data is a high-volume, high-velocity and/or high-variety information

    assets that demand cost-effective, innovative forms of information

    processing that enable enhanced insight, decision making, and process

    automation."

    Gartner, 2012

  • Introduccin

    Introduccin Contextualizacin mbitos Historia Hardware

    2,5 quintillones de bytes de datos

    Sensores para reunir datos sobre el clima

    Publicaciones en redes sociales

    Fotografas digitales y videos

    Registros de transacciones de compra

    Seales de GPS en los mviles

  • Contextualizacin

    VolumenVelocidad

    VeracidadVariedad

    Introduccin Contextualizacin mbitos Historia Hardware

  • Contextualizacin

    Volumen

    Veracidad

    Para 2020 se generarn 43 billones de Gb de datos, 300 veces ms que en 2005.

    Se estima que se crean cada da 2,3 billones de Gb de datos.

    Uno de cada de tres lderes no confa en la informacin que utiliza para tomar decisiones.

    Los datos de baja calidad cuestan a la economa estadounidense alrededor de 3,1 billones de dlares al ao.

    Introduccin Contextualizacin mbitos Historia Hardware

  • Contextualizacin

    Variedad

    Velocidad

    Cada mes en Facebook se comparten 300.000 millones de posts de contenido.

    Ms de 4.000 millones de horas de video se ven en Youtube cada mes.

    Cada dia se envan 400 millones de tuits por parte de unos 200 millones de usuarios al mes en Twitter.

    La bolsa de Nueva York maneja un terabyte de informacin comercial durante cada sesin.

    Introduccin Contextualizacin mbitos Historia Hardware

  • mbitos

    Pblico objetivo del negocio

    Clientes potenciales

    Competencia

    Tendencias de consumo

    Tendencias de mercado

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (1989)

    Tim Berners-Lee

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2002)

    Doug Cutting

    Mike CafarellaMotor de bsqueda para indexar webs

    30.000$Indexar 1 billn de pginas =

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2003)

    Google File System (GFS)

    Eficiencia + Fiabilidad de acceso a datos (cluster de procesamiento masivo en paralelo)

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2004)

    Nutch Distributed FileSystem (NDFS)

    Basado en GFS, manera barata de escalar Nutch

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2004)

    MAPREDUCE

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2007)

    Doug Cutting es contratado en Yahoo! donde crea un subproyecto de Apache Lucene llamado...

    Doug Cutting

    Septiembre de 2007

    Google publica tecnologa que utiliza: MapReduce

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2008)

    Grandes empresas comienzan a utilizar esta herramienta

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2008)

    Terasort

    Ordenar 1 TB de informacin

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2008)

    Terasort

    Ordenar 1 TB de informacin

    Introduccin Contextualizacin mbitos Historia Hardware

    218 segundos

  • Historia (2008)

    Terasort

    218 segundos 68 segundos

    Ordenar 1 TB de informacin

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (2012)

    Nace en 2010 en Berkeley

    En el ao 2013 es donada a la

    Apache Software Foundation

    Procesamiento en memoria

    Interoperabilidad: Scala, Java, Python, R

    Multiples librerias disponibles

    Introduccin Contextualizacin mbitos Historia Hardware

  • Historia (Now)

    Introduccin Contextualizacin mbitos Historia Hardware

  • Hardware

    Donde van a parar todos estos datos ?

    Todos los datos del Big Data se guardan en Centros de Datos

    El reto del Big Data es tanto almacenamiento como de anlisi

    Introduccin Contextualizacin mbitos Historia Hardware

  • Hardware

    Pegatina: This machine is server DO NOT POWER DOWN!

    1990

    Primer servidor utilizado por

    1998

    SUN Ultra II Dual 200Mhz CPUs and 256MB of RAM

    Introduccin Contextualizacin mbitos Historia Hardware

  • Hardware

    Introduccin Contextualizacin Historia Cadena de Valor Infraestructura Fuerzas Competitivas

    2013

    13 centros de datos con 900.000 servidores

    2009

    10.000 servidores

  • Hardware

    Hoy en da, cualquier empresa online tiene centros de datos y analiza estos datos.

    Introduccin Contextualizacin mbitos Historia Hardware

  • Muchas Graciasalbert.calvo.ibanez@est.fib.upc.edu | laura.chacon@est.fib.upc.edu | zaira.quesada@est.fib.upc.edu

    mailto:albert.alma@est.fib.upc.edumailto:laura.chacon@est.fib.upc.edumailto:david.delgado@est.fib.upc.edumailto:albert.alma@est.fib.upc.edu