Transcript
Page 1: Introduciéndose en el sector del Big Data

Artículo: Introduciendo el Big Data. 15/3/[email protected]

El “Big Data”

Walter Farah Calderón

Las primeras décadas del siglo XXI muestran que una de sus características dominantes es la generación, procesamiento y disponibilidad de grandes volúmenes de datos y, en consecuencia, de las Supercomputadoras que, a diferencia de una red que incluye servidores dispersos en distintos lugares, los concentra en un solo lugar. Watson, una de las más reconocidas, agrupa no menos de 90 de ellos.

Pero además, supercomputadoras, porque por sus características físicas y lógicas superan en mucho las tecnologías actuales, “anticuadas y arraigadas en los sistemas informáticos y tecnologías desarrolladas en la década de 1970”, como la caracteriza Sam Madden, profesor de The Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT.

Para representar fácil y rápidamente el rendimiento de una supercomputadora los expertos recurren a su particular notación científica, los FLOPS (“floating point operations per second”), es decir, la cantidad de operaciones que procesa por segundo, por lo que hablamos de teras y petas, es decir, respectivamente, de al menos un billón y mil billones de operaciones por segundo. El siguiente paso, el grail santo de la supercomputación actual, al decir de Clay Dillow, sería una máquina con capacidad exaflop, es decir, que pueda ejecutar un trillón de operaciones por segundo, 100 veces más que la mayor velocidad actual. INTEL anunció que llegará a esa meta en el 2018, con el desarrollo de su familia de chips, IXeon Phi.

En función de la capacidad de procesamiento, se genera el TOP500, una lista que incluye a las 500 supercomputadoras más veloces, actualizada dos veces al año. A noviembre de 2012, última disponible, 5 de los 10 primeros puestos de la lista son ocupados por supercomputadoras de Estados Unidos, Alemania con 2 y una cada uno, Japón, China e Italia. Domina IBM con 6 de las 10 primeras, con presencia en tres países diferentes: Estados Unidos, Alemania e Italia.

Sin embargo, a pesar del énfasis en la capacidad de procesamiento, hoy día las supercomputadoras empiezan a ser valoradas con mayor complejidad y el término empieza a ser sustituido por el de “Computación de Alto Rendimiento” (HPC); “Cluster de Computadoras de Alto Rendimiento” (HPCC); “Computación Acelerada” como la llama Cray Inc. o el “Big Data”, como le gusta utilizar a la mayoría, conceptos mucho más comprensivos que la identificación tradicional de la supercomputación con la súper velocidad de procesamiento.

La National Science Foundation caracteriza el Big Data como “large, diverse, complex, longitudinal, and/or distributed data sets”. El IBM Institute for Business Value y la Saïd Business School de University of Oxford, introducen el concepto de las “4 V del BD”: volumen, velocidad, variedad, y veracidad. Variedad, es decir, la complejidad de integrar la gestión de diferentes fuentes y tipos de datos, incluyendo estructurados, semiestructurados y no estructurados, para su disposición en múltiples formatos. Veracidad, que refiere al nivel de fiabilidad asociado con los datos y la disminución de la incertidumbre.

1

Page 2: Introduciéndose en el sector del Big Data

Artículo: Introduciendo el Big Data. 15/3/[email protected]

Otros empiezan a fijarse en el costo energético asociado a su uso y por ello, frente al TOP500, se consolida la lista Green500, que reordena los datos de aquella, de acuerdo a cuántos cálculos obtiene por vatio de electricidad.

Para noviembre de 2012, los tres primeros en el TOP500 lo son Titán, de Cray Inc.; Sequoia Blue Geen de IBM y la K Computer de la japonesa Fujitsu. Para igualar lo que procesan los 16.3 petas de Sequoia, en un día se necesitarían 120 billones de personas con 120 billones de calculadoras, durante 50 años. Titán, del U.S. Department of Energy’s (DOE), en manos del Oak Ridge National Laboratory (ORNL), el supercomputador de mayor rendimiento, inaugurado en octubre de 2012, llega a 17.89 petas. En el Green500, por el contrario, figuran Beacon de Appro, SANAM de ADtech y Titán de Cray Inc., quien no solo es primera en procesamiento sino tercera en eficiencia energética.

Una mayor cantidad de fuentes de datos y el desarrollo de fuentes digitales que permiten su recolección en tiempo real, como instrumentos, sensores, transacciones de internet, entre otras muchas, impulsan al sector del Big Data. De acuerdo a cifras de IBM, el 90% de los datos en el mundo se ha creado en los últimos dos años y hoy, todos los días, se crean 2.5 quintillones de bytes de datos.

Más de 900 millones de usuarios de Facebook registrados generan más de 1500 actualizaciones de estado cada segundo de sus intereses y su paradero. En 2011, la plataforma de comercio electrónico eBay, recolectó datos sobre más de 100 millones de usuarios activos, incluyendo los 6 millones de nuevos bienes que se ofrecen todos los días. Cuando el 14 de febrero del 2013, cerró sus puertas tras tres años de operación para una etapa de mantenimiento y renovación de equipos, el Large Hadron Collider (LHC), que hizo posible el descubrimiento de la Partícula de Higgs, entre la frontera de Suiza y Francia, había logrado acumular 100 petaflops de datos, dos veces una biblioteca colectiva que incluiría cada palabra escrita de todas las lenguas, más o menos el equivalente a 700 años de películas HD de plena calidad o mil veces todo el texto disponible en la Biblioteca del Congreso de los Estados Unidos. El “Correlator”, la supercomputadora del Radio Telescopio ALMA que en pleno funcionamiento capturará señales del radioespectro espacial, actuará como un único receptor diseñado para correlacionar las señales débiles de múltiples fuentes (de ahí el nombre con que es conocida), capaz de realizar 17 petas de operaciones por segundo.

Pero su generación no es exclusiva de internet o la investigación científica; baste pensar en empresas de exploración geológica, aeroportuarias, transacciones financieras o de telecomunicaciones, entre otras. Y su crecimiento no se detiene, porque las posibilidades son infinitas, impulsadas por dispositivos móviles como teléfonos y autos. En 2011, había 780 millones teléfonos inteligentes en todo el mundo capaces de recoger y transmitir datos de geo-localización, lo que generó más de 600 petas de datos cada mes. Se estima que el tráfico global de datos generados por las comunicaciones móviles se duplicará cada año hasta llegar a 11 exabytes por mes en 2016.

Y con ello una Nube que se expande, una Computación Cuántica que sigue madurando y, esperando, lo que llaman, Google entre otros, el “Deep Learning”, el “Aprendizaje Profundo”.

2