View
292
Download
0
Embed Size (px)
Citation preview
Introducción
Introducción · Contextualización · Ámbitos · Historia · Hardware
"Big Data is a high-volume, high-velocity and/or high-variety information
assets that demand cost-effective, innovative forms of information
processing that enable enhanced insight, decision making, and process
automation."
Gartner, 2012
Introducción
Introducción · Contextualización · Ámbitos · Historia · Hardware
2,5 quintillones de bytes de datos
Sensores para reunir datos sobre el clima
Publicaciones en redes sociales
Fotografías digitales y videos
Registros de transacciones de compra
Señales de GPS en los móviles
Contextualización
VolumenVelocidad
VeracidadVariedad
Introducción · Contextualización · Ámbitos · Historia · Hardware
Contextualización
Volumen
Veracidad
Para 2020 se generarán 43 billones de Gb de datos, 300 veces más que en 2005.
Se estima que se crean cada día 2,3 billones de Gb de datos.
Uno de cada de tres líderes no confía en la información que utiliza para tomar decisiones.
Los datos de baja calidad cuestan a la economía estadounidense alrededor de 3,1 billones de dólares al año.
Introducción · Contextualización · Ámbitos · Historia · Hardware
Contextualización
Variedad
Velocidad
Cada mes en Facebook se comparten 300.000 millones de posts de contenido.
Más de 4.000 millones de horas de video se ven en Youtube cada mes.
Cada dia se envían 400 millones de tuits por parte de unos 200 millones de usuarios al mes en Twitter.
La bolsa de Nueva York maneja un terabyte de información comercial durante cada sesión.
Introducción · Contextualización · Ámbitos · Historia · Hardware
Ámbitos
❖ Público objetivo del negocio
❖ Clientes potenciales
❖ Competencia
❖ Tendencias de consumo
❖ Tendencias de mercado
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2002)
Doug Cutting
Mike CafarellaMotor de búsqueda para indexar webs
30.000$Indexar 1 billón de páginas =
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2003)
Google File System (GFS)
Eficiencia + Fiabilidad de acceso a datos (cluster de procesamiento masivo en paralelo)
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2004)
Nutch Distributed FileSystem (NDFS)
Basado en GFS, manera “barata” de escalar Nutch
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2007)
Doug Cutting es contratado en Yahoo! donde crea un subproyecto de Apache Lucene llamado...
Doug Cutting
Septiembre de 2007
Google publica tecnología que utiliza: MapReduce
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2008)
Grandes empresas comienzan a utilizar esta herramienta
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2008)
Terasort
Ordenar 1 TB de información
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2008)
Terasort
Ordenar 1 TB de información
Introducción · Contextualización · Ámbitos · Historia · Hardware
218 segundos
Historia (2008)
Terasort
218 segundos 68 segundos
Ordenar 1 TB de información
Introducción · Contextualización · Ámbitos · Historia · Hardware
Historia (2012)
Nace en 2010 en Berkeley
En el año 2013 es donada a la
Apache Software Foundation
➔ Procesamiento en memoria
➔ Interoperabilidad: Scala, Java, Python, R
➔ Multiples librerias disponibles
Introducción · Contextualización · Ámbitos · Historia · Hardware
Hardware
Donde van a parar todos estos datos ?
➔ Todos los datos del “Big Data” se guardan en Centros de Datos
➔ El reto del “Big Data” es tanto almacenamiento como de análisi
Introducción · Contextualización · Ámbitos · Historia · Hardware
Hardware
Pegatina: This machine is server DO NOT POWER DOWN!
1990
Primer servidor utilizado por
1998
SUN Ultra II Dual 200Mhz CPUs and 256MB of RAM
Introducción · Contextualización · Ámbitos · Historia · Hardware
Hardware
Introducción · Contextualización · Historia · Cadena de Valor · Infraestructura · Fuerzas Competitivas
2013
13 centros de datos con 900.000 servidores
2009
10.000 servidores
Hardware
Hoy en día, cualquier empresa online tiene centros de datos y analiza estos datos.
Introducción · Contextualización · Ámbitos · Historia · Hardware