Introduciéndose en el sector del Big Data

  • Published on
    18-Jan-2015

  • View
    164

  • Download
    1

Embed Size (px)

DESCRIPTION

El artculo introduce conceptos introductorios para comprender el fenmeno del Big Data

Transcript

<ul><li> 1. Artculo: Introduciendo el Big Data. 15/3/2013 walterfarah@yahoo.com El Big Data Walter Farah CaldernLas primeras dcadas del siglo XXI muestran que una de sus caractersticas dominantes es lageneracin, procesamiento y disponibilidad de grandes volmenes de datos y, en consecuencia,de las Supercomputadoras que, a diferencia de una red que incluye servidores dispersos endistintos lugares, los concentra en un solo lugar. Watson, una de las ms reconocidas, agrupa nomenos de 90 de ellos.Pero adems, supercomputadoras, porque por sus caractersticas fsicas y lgicas superan enmucho las tecnologas actuales, anticuadas y arraigadas en los sistemas informticos ytecnologas desarrolladas en la dcada de 1970, como la caracteriza Sam Madden, profesor deThe Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT.Para representar fcil y rpidamente el rendimiento de una supercomputadora los expertosrecurren a su particular notacin cientfica, los FLOPS (floating point operations per second), esdecir, la cantidad de operaciones que procesa por segundo, por lo que hablamos de teras y petas,es decir, respectivamente, de al menos un billn y mil billones de operaciones por segundo. Elsiguiente paso, el grail santo de la supercomputacin actual, al decir de Clay Dillow, sera unamquina con capacidad exaflop, es decir, que pueda ejecutar un trilln de operaciones porsegundo, 100 veces ms que la mayor velocidad actual. INTEL anunci que llegar a esa meta en el2018, con el desarrollo de su familia de chips, IXeon Phi.En funcin de la capacidad de procesamiento, se genera el TOP500, una lista que incluye a las 500supercomputadoras ms veloces, actualizada dos veces al ao. A noviembre de 2012, ltimadisponible, 5 de los 10 primeros puestos de la lista son ocupados por supercomputadoras deEstados Unidos, Alemania con 2 y una cada uno, Japn, China e Italia. Domina IBM con 6 de las 10primeras, con presencia en tres pases diferentes: Estados Unidos, Alemania e Italia.Sin embargo, a pesar del nfasis en la capacidad de procesamiento, hoy da lassupercomputadoras empiezan a ser valoradas con mayor complejidad y el trmino empieza a sersustituido por el de Computacin de Alto Rendimiento (HPC); Cluster de Computadoras de AltoRendimiento (HPCC); Computacin Acelerada como la llama Cray Inc. o el Big Data, como legusta utilizar a la mayora, conceptos mucho ms comprensivos que la identificacin tradicional dela supercomputacin con la sper velocidad de procesamiento.La National Science Foundation caracteriza el Big Data como large, diverse, complex, longitudinal,and/or distributed data sets. El IBM Institute for Business Value y la Sad Business School deUniversity of Oxford, introducen el concepto de las 4 V del BD: volumen, velocidad, variedad, yveracidad. Variedad, es decir, la complejidad de integrar la gestin de diferentes fuentes y tipos dedatos, incluyendo estructurados, semiestructurados y no estructurados, para su disposicin enmltiples formatos. Veracidad, que refiere al nivel de fiabilidad asociado con los datos y ladisminucin de la incertidumbre. 1</li></ul> <p> 2. Artculo: Introduciendo el Big Data. 15/3/2013 walterfarah@yahoo.comOtros empiezan a fijarse en el costo energtico asociado a su uso y por ello, frente al TOP500, seconsolida la lista Green500, que reordena los datos de aquella, de acuerdo a cuntos clculosobtiene por vatio de electricidad.Para noviembre de 2012, los tres primeros en el TOP500 lo son Titn, de Cray Inc.; Sequoia BlueGeen de IBM y la K Computer de la japonesa Fujitsu. Para igualar lo que procesan los 16.3 petas deSequoia, en un da se necesitaran 120 billones de personas con 120 billones de calculadoras,durante 50 aos. Titn, del U.S. Department of Energys (DOE), en manos del Oak Ridge NationalLaboratory (ORNL), el supercomputador de mayor rendimiento, inaugurado en octubre de 2012,llega a 17.89 petas. En el Green500, por el contrario, figuran Beacon de Appro, SANAM de ADtechy Titn de Cray Inc., quien no solo es primera en procesamiento sino tercera en eficienciaenergtica.Una mayor cantidad de fuentes de datos y el desarrollo de fuentes digitales que permiten surecoleccin en tiempo real, como instrumentos, sensores, transacciones de internet, entre otrasmuchas, impulsan al sector del Big Data. De acuerdo a cifras de IBM, el 90% de los datos en elmundo se ha creado en los ltimos dos aos y hoy, todos los das, se crean 2.5 quintillones debytes de datos.Ms de 900 millones de usuarios de Facebook registrados generan ms de 1500 actualizaciones deestado cada segundo de sus intereses y su paradero. En 2011, la plataforma de comercioelectrnico eBay, recolect datos sobre ms de 100 millones de usuarios activos, incluyendo los 6millones de nuevos bienes que se ofrecen todos los das. Cuando el 14 de febrero del 2013, cerrsus puertas tras tres aos de operacin para una etapa de mantenimiento y renovacin deequipos, el Large Hadron Collider (LHC), que hizo posible el descubrimiento de la Partcula deHiggs, entre la frontera de Suiza y Francia, haba logrado acumular 100 petaflops de datos, dosveces una biblioteca colectiva que incluira cada palabra escrita de todas las lenguas, ms o menosel equivalente a 700 aos de pelculas HD de plena calidad o mil veces todo el texto disponible enla Biblioteca del Congreso de los Estados Unidos. El Correlator, la supercomputadora del RadioTelescopio ALMA que en pleno funcionamiento capturar seales del radioespectro espacial,actuar como un nico receptor diseado para correlacionar las seales dbiles de mltiplesfuentes (de ah el nombre con que es conocida), capaz de realizar 17 petas de operaciones porsegundo.Pero su generacin no es exclusiva de internet o la investigacin cientfica; baste pensar enempresas de exploracin geolgica, aeroportuarias, transacciones financieras o detelecomunicaciones, entre otras. Y su crecimiento no se detiene, porque las posibilidades soninfinitas, impulsadas por dispositivos mviles como telfonos y autos. En 2011, haba 780 millonestelfonos inteligentes en todo el mundo capaces de recoger y transmitir datos de geo-localizacin,lo que gener ms de 600 petas de datos cada mes. Se estima que el trfico global de datosgenerados por las comunicaciones mviles se duplicar cada ao hasta llegar a 11 exabytes pormes en 2016.Y con ello una Nube que se expande, una Computacin Cuntica que sigue madurando y,esperando, lo que llaman, Google entre otros, el Deep Learning, el Aprendizaje Profundo.2 </p>

Recommended

View more >