24
Historia del Big Data Albert Calvo Laura Chacón Zaira Quesada

Breve Historia del Big Data

Embed Size (px)

Citation preview

Historia del Big Data

Albert CalvoLaura Chacón

Zaira Quesada

Introducción

Introducción · Contextualización · Ámbitos · Historia · Hardware

"Big Data is a high-volume, high-velocity and/or high-variety information

assets that demand cost-effective, innovative forms of information

processing that enable enhanced insight, decision making, and process

automation."

Gartner, 2012

Introducción

Introducción · Contextualización · Ámbitos · Historia · Hardware

2,5 quintillones de bytes de datos

Sensores para reunir datos sobre el clima

Publicaciones en redes sociales

Fotografías digitales y videos

Registros de transacciones de compra

Señales de GPS en los móviles

Contextualización

VolumenVelocidad

VeracidadVariedad

Introducción · Contextualización · Ámbitos · Historia · Hardware

Contextualización

Volumen

Veracidad

Para 2020 se generarán 43 billones de Gb de datos, 300 veces más que en 2005.

Se estima que se crean cada día 2,3 billones de Gb de datos.

Uno de cada de tres líderes no confía en la información que utiliza para tomar decisiones.

Los datos de baja calidad cuestan a la economía estadounidense alrededor de 3,1 billones de dólares al año.

Introducción · Contextualización · Ámbitos · Historia · Hardware

Contextualización

Variedad

Velocidad

Cada mes en Facebook se comparten 300.000 millones de posts de contenido.

Más de 4.000 millones de horas de video se ven en Youtube cada mes.

Cada dia se envían 400 millones de tuits por parte de unos 200 millones de usuarios al mes en Twitter.

La bolsa de Nueva York maneja un terabyte de información comercial durante cada sesión.

Introducción · Contextualización · Ámbitos · Historia · Hardware

Ámbitos

❖ Público objetivo del negocio

❖ Clientes potenciales

❖ Competencia

❖ Tendencias de consumo

❖ Tendencias de mercado

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (1989)

Tim Berners-Lee

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2002)

Doug Cutting

Mike CafarellaMotor de búsqueda para indexar webs

30.000$Indexar 1 billón de páginas =

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2003)

Google File System (GFS)

Eficiencia + Fiabilidad de acceso a datos (cluster de procesamiento masivo en paralelo)

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2004)

Nutch Distributed FileSystem (NDFS)

Basado en GFS, manera “barata” de escalar Nutch

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2004)

MAPREDUCE

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2007)

Doug Cutting es contratado en Yahoo! donde crea un subproyecto de Apache Lucene llamado...

Doug Cutting

Septiembre de 2007

Google publica tecnología que utiliza: MapReduce

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2008)

Grandes empresas comienzan a utilizar esta herramienta

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2008)

Terasort

Ordenar 1 TB de información

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2008)

Terasort

Ordenar 1 TB de información

Introducción · Contextualización · Ámbitos · Historia · Hardware

218 segundos

Historia (2008)

Terasort

218 segundos 68 segundos

Ordenar 1 TB de información

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (2012)

Nace en 2010 en Berkeley

En el año 2013 es donada a la

Apache Software Foundation

➔ Procesamiento en memoria

➔ Interoperabilidad: Scala, Java, Python, R

➔ Multiples librerias disponibles

Introducción · Contextualización · Ámbitos · Historia · Hardware

Historia (Now)

Introducción · Contextualización · Ámbitos · Historia · Hardware

Hardware

Donde van a parar todos estos datos ?

➔ Todos los datos del “Big Data” se guardan en Centros de Datos

➔ El reto del “Big Data” es tanto almacenamiento como de análisi

Introducción · Contextualización · Ámbitos · Historia · Hardware

Hardware

Pegatina: This machine is server DO NOT POWER DOWN!

1990

Primer servidor utilizado por

1998

SUN Ultra II Dual 200Mhz CPUs and 256MB of RAM

Introducción · Contextualización · Ámbitos · Historia · Hardware

Hardware

Introducción · Contextualización · Historia · Cadena de Valor · Infraestructura · Fuerzas Competitivas

2013

13 centros de datos con 900.000 servidores

2009

10.000 servidores

Hardware

Hoy en día, cualquier empresa online tiene centros de datos y analiza estos datos.

Introducción · Contextualización · Ámbitos · Historia · Hardware