Big data.docx

Universidad Científica del PerúFacultad de Ciencias e Ingeniería

Título: Big Data

Asignatura: Administración y Gestión de Datos 1

Docente: García Vílchez Limber

Integrantes:

Mariño Torres Franz Pérez Angulo Geoffrey Anthony Vásquez Ribeiro Irving Bryan

Iquitos-Perú 2015

“AÑO DE LA DIVERSIFICACIÓN PRODUCTIVA Y DEL FORTALECIMIENTO DE LA EDUCACIÓN”

DEDICATORIA

Dedico este presente trabajo en primer lugar a Dios por darme la oportunidad de estudiar a mi docente por el apoyo incondicional para la culminación de mis estudios, a mis padres por el apoyo que me brindan en todo.

1

AGRADECIMIENTO

Agradezco a mi profesor por la enseña que me brinda, por compartir sus conocimientos sin ser egoísta de ello, a mis padres por el apoyo incondicional que me brindad para poder culminar con mi carrera profesional.

2

INDICE

DEDICATORIA...............................................................................................................................1

AGRADECIMIENTO.......................................................................................................................2

INDICE..........................................................................................................................................3

INTRODUCCION...........................................................................................................................5

¿De Dónde Proviene Toda La Información?................................................................................6

¿Qué No Es Big Data?..................................................................................................................7

Big Data........................................................................................................................................8

Características De Big Data:.........................................................................................................9

• Volumen de datos:.....................................................................................................9

Variedad de datos:.......................................................................................................9

Velocidad:........................................................................................................................10

Veracidad:........................................................................................................................10

Valor:..................................................................................................................................10

Tipos De Datos:..........................................................................................................................11

Web and Social Media:.........................................................................................................11

Machine-to-Machine............................................................................................................11

Big Transaction Data:............................................................................................................11

Biometrics:............................................................................................................................12

Human Generated (Generados por las personas):................................................................12

Análisis De Datos.......................................................................................................................13

Componentes De Una Plataforma Big Data..............................................................................14

Nacimiento De Apache Hadoop................................................................................................19

Big Data Con Un Crecimiento Exponencial................................................................................20

Big Data Y El Campo De Investigación.......................................................................................21

Utilidades De Big Data:..............................................................................................................23

Empresarial............................................................................................................................23

Redes Sociales:.........................................................................................................23

Consumo:.....................................................................................................................23

Big Data e intimidad:............................................................................................23

Deportes:...............................................................................................................................24

3

Profesional:.................................................................................................................24

Aficionado:..................................................................................................................24

Investigación:.........................................................................................................................24

Salud y medicina:....................................................................................................24

Defensa y seguridad:.............................................................................................25

CONCLUSION.............................................................................................................................27

BIBLIOGRAFIA............................................................................................................................28

ANEXO........................................................................................................................................29

4

INTRODUCCION

El problema de recopilar información relevante de forma eficaz ya se remonta a la época de Tolomeo II (hijo de Tolomeo I) quien funda la biblioteca de Alejandría allá por el siglo III a. C.. Tolomeo II tenía como objetivo recopilar todo el conocimiento de la época (obras de teatro, poemas épicos, tratados de filosofía, medicina, matemáticas, retórica y cualquier rama del saber de la época) para construir la mayor y mejor biblioteca del mundo, pero llegó un momento que se vio desbordado por la enorme cantidad de rollos de papiro que tenía la biblioteca (se estima que llegó a albergar 900.000 manuscritos). Entonces Tolomeo II contactó con Zenodoto que, después de visitar la biblioteca, comprendió que ordenar todo aquello era clave, pues la biblioteca no valía nada por el mero hecho de acumular centenares de rollos si nadie era capaz de encontrar uno cuando necesitara consultarlo. Después de noches de insomnio pensando cómo clasificar aquellas montañas de cestos de manuscritos, recordó el glosario de palabras antiguas de Homero que él había ordenado por grupos: los que empezaban por A todos juntos, luego los que empezaban por B y así sucesivamente. Al principio le pareció demasiado simple, pero pronto se dio cuenta de que aquello funcionaba muy bien para localizar una palabra sobre la que hubiera trabajado. Así decidió ordenar todos los rollos por orden alfabético según su autor. La tarea llevó meses, años, pero Zenodoto tuvo tiempo de ver en vida aquella inmensa biblioteca con todos los centenares de miles de rollos archivados y localizables.

Tuvieron que pasar unos veintitrés siglos para encontrarnos de nuevo con el problema de recuperar información relevante de forma eficaz. Nos encontramos en plena burbuja de Internet donde el número de páginas Web crece exponencialmente, al igual que los usuarios inexpertos que empiezan a acceder a Internet. Estos nuevos usuarios para poder encontrar información relevante podrían consultar páginas de índices como Yahoo (mantenidas de forma manual) y motores de búsquedas basados en palabras clave como AltaVista. En muchas ocasiones los resultados de las búsquedas realizadas por los usuarios no resultaban relevantes y además los sistemas de búsquedas empezaban a tener problemas de rendimiento.

Allí en cuando entramos en la era del big data.

5

¿De Dónde Proviene Toda La Información?

Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso.

Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. En muchos países se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por dispositivos móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas aquellas actividades que la mayoría de nosotros realizamos varias veces al día con nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo.

1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000

De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8

6

Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.

Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transportación, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético. Se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente.

¿Qué No Es Big Data? •  Big Data no es una base de datos enorme

•  Big Data no es un data warehouse enorme

•  Big Data no es una nueva forma de Business Intelligence

•  Big Data no es llevar las base de datos a la nube

7

Big Data:

El Big Data o Datos masivos es un concepto que hace referencia a la acumulación masiva de datos y a los procedimientos usados para identificar patrones recurrentes dentro de esos datos. Otras denominaciones para el mismo concepto son datos masivos o datos a gran escala. En la literatura científica en español con frecuencia se usa directamente el término en inglés Big Data, tal como aparece en el ensayo seminal de Viktor Schönberger Big data: La revolución de los datos masivos.

Es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. En la metodologíaMIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,13 el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un

8

reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando datos masivos como referencia.14 Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas de cómo procesar tal cantidad de datos, como MapR, Cyttek Group y Cloudera.}

Se define como el conjunto de herramientas informáticas destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos de todo tipo los cuales no pueden ser gestionados por las herramientas informáticas tradicionales. Big data es un término de origen inglés cuya traducción equivale a "Datos masivos", la tecnología big data tiene por objetivo analizar datos e información de manera inteligente que ayuden a una correcta toma de decisión.

El objetivo fundamental del big data es dotar de una infraestructura tecnológica a las empresas y organizaciones con la finalidad de poder almacenar, tratar y analizar de manera económica, rápida y flexible la gran cantidad de datos que se generan diariamente, para ello es necesario el desarrollo y la implantación tanto de hardware como de software específicos que gestionen esta explosión de datos con el objetivo de extraer valor para obtener información útil para nuestros objetivos o negocios.

Es una realidad que la cantidad de información digital que se genera diariamente en nuestro planeta crece exponencialmente, gigantes y potentes bases de datos en donde se almacenan por ejemplo todos los movimientos de dinero que se producen en una entidad bancaria, la información que registran los puntos de ventas de los grandes centros comerciales o toda la información que se genera en las redes sociales, blogs y páginas webs que se actualizan diariamente, son ejemplos entre otros de fuentes generadoras de información y datos. En este aspecto hay estudios que afirman que cada día se genera tanta información digital como

9

el equivalente a toda la información escrita a lo largo de toda la historia de la humanidad, sin duda vivimos en la era de la información digital.

Ante esta nueva realidad de la cantidad ingente de datos que se generan diariamente, muchas empresas y organización desean utilizar esta información con el objetivo de mejorar las prestaciones de sus servicios o negocios, para ello la tecnología big data ha sido desarrollada con la finalidad de capturar, almacenar y analizar toda estos datos con la finalidad de obtener información útil para nuestro negocio.

Características De Big Data:

• Volumen de datos: Como su propio nombre indica la tecnología big data (datos masivos) ha de ser capaz de gestionar un gran volumen de datos que se generan diariamente por las empresas y organizaciones de todo el mundo, por ejemplo la cadena de supermercados americana Wallmart almacena más de 1 millón de transacciones comerciales cada hora identificando los productos que compran sus clientes, más de 100.000 Gb de información almacena la red social Facebook diariamente así como 72 millones de descargas se realizan en la tienda online Appstore.

• Variedad de datos: Big data ha de tener la capacidad de combinar una gran variedad de información digital en los diferentes formatos en las que se puedan presentar ya sean en formato video, audio o texto. Diferentes fuentes de información como las nuevas tecnologías wearables que monitorizaran nuestra actividad física, el internet de las cosas que conectará los dispositivos y máquinas entre sí, millones de mensajes escritos en redes sociales como Facebook o Twitter, millones de videos subidos a Youtube por día... son ejemplos entre otros de fuentes generadoras de diferentes tipos de información.

10

•Velocidad: La tecnología Big data ha de ser capaz de almacenar y trabajar en tiempo real con las fuentes generadoras de información como sensores, cámaras de videos, redes sociales, blogs, páginas webs... fuentes que generan millones y millones de datos al segundo, por otro lado la capacidad de análisis de dichos datos han de ser rápidos reduciendo los largos tiempos de procesamiento que presentaban las herramientas tradicionales de análisis.

•Veracidad: Por último el Big Data ha de ser capaz de tratar y analizar inteligentemente este vasto volumen de datos con la finalidad de obtener una información verídica y útil que nos permita mejorar nuestra toma de decisiones.

Valor: Se refiere al valor agregado obtenido por las organizaciones, lo cual se traduce en la generación de productos y servicios personalizados, es decir, al final de genera lo que el cliente realmente desea o necesita.En resumen, podemos decir que, Big Data es pasar de una gran cantidad de datos no estructurados a estructuras de valor que apoyan la toma de decisiones en corporaciones e industrias.Fuente: asalafa en Audiencia Digital, Blog del Centro de Estudios de Estrategias Digitales, Universidad Monteávila

Con todo ello podemos definir al big data como el conjunto de herramientas informáticas que nos permite captar, almacenar y gestionar un gran volumen de información variada a una alta tasa de velocidad permitiendo obtener unos datos veraces y útiles para la toma de decisión.

11

Tipos De Datos:Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se está tratando de resolver?.

Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico.

1.- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.

Generamos una gran cantidad de datos cuando navegamos por internet. Con la web 2.0 se ha roto el paradigmawebmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de tracking utilizadas en su mayoría con fines de marketing y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.

2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.

3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.

12

La facturación, las llamadas o las transacción entre cuentas generan información que tratada pueden ser datos relevantes. Un ejemplo más claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un ingreso de X euros, la computación lo interpretará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y más metadatos.

4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.

Son el conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia. Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos

5.- Human Generated (Generados por las personas): Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.

Enviar correos electrónicos por e-mail o mensajes por WhatsApp, postear en Facebook, tuitearcontenidos o responder a una encuesta por la calle son algunas acciones cuotidianas que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de e-mails, se comparten más de 700.000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube.Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.

13

Análisis De DatosTeniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes:

•Asociación: Permite encontrar relaciones entre diferentes variables. Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los e-commerce.

•Minería de datos (Data Mining): Tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de machine learning con almacenamiento en bases de datos. Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.

•Agrupación (Clustering): El análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis. El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clustering.

•Análisis de texto (Text Analytics): Gran parte de los datos generados por las personas son textos, como e-mails, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.

14

Componentes De Una Plataforma Big Data

Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información han generado un costo potencial al no descubrir el gran valor asociado. Desde luego, el ángulo correcto que actualmente tiene el liderazgo en términos de popularidad para analizar enormes cantidades de información es la plataforma de código abierto Hadoop.Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el procesamiento.[5] Hadoop está compuesto de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS)Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños

15

subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack para lograr redundancia.

Ejemplo de HDFS

Hadoopk MapReduce:

MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas(pares de llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico.

Ejemplo de MapReduce

16

Hadoop CommonHadoop Common Components son un conjunto de librerías que soportan varios subproyectos de Hadoop.Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados los cuales son definidos a continuación:

Avro:Es un proyecto de Apache que provee servicios de serialización. Cuando se guardan datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo.

Cassandra:Cassandra es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma.

Chukwa:Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.

Flume:Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources,

17

decorators y sinks.Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y undecorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos.

HBase:Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados llamándolos familias de columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de una fila dada son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde Noviembre del 2010.

Hive:Es una infraestructura de data warehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query Language(HQL), estas sentencias HQL son separadas por un servicio de Hive y son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop.El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener información de la tabla utilizando Hive:CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext STRING, retweets INT)

COMMENT 'This is the Twitter feed table'

STORED AS SEQUENCEFILE;

LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;

SELECT from_user, SUM(retweets)

FROM TWEETS

GROUP BY from_user;

Jaql:Fue donado por IBM a la comunidad de software libre. Query Language for Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado para procesar grandes volúmenes de información. Para explotar el paralelismo, Jaql reescribe los queries

18

de alto nivel (cuando es necesario) en queries de "bajo nivel" para distribuirlos como procesos MapReduce.

Internamente el motor de Jaql transforma el query en procesos map y reduce para reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql posee de una infraestructura flexible para administrar y analizar datos semiestructurados como XML, archivos CSV, archivos planos, datos relacionales, etc.

Lucene:Es un proyecto de Apache bastante popular para realizar búsquedas sobre textos. Lucene provee de librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado en la implementación de motores de búsqueda (aunque hay que considerar que no tiene funciones de "crawling" ni análisis de documentos HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple, básicamente los documentos (document) son dividos en campos de texto (fields) y se genera un índice sobre estos campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar búsquedas rápidamente independientemente del formato del archivo, ya sean PDFs, documentos HTML, etc.

Oozie:Como pudo haber notado, existen varios procesos que son ejecutados en distintos momentos los cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo análisis de información.

Oozie es un proyecto de código abierto que simplifica los flujos de trabajo y la coordinación entre cada uno de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre dichas acciones.

Un flujo de trabajo en Oozie es definido mediante un grafo acíclico llamado Directed Acyclical Graph (DAG), y es acíclico puesto que no permite ciclos en el grafo; es decir, solo hay un punto de entrada y de salida y todas las tareas y dependencias parten del punto inicial al punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:

19

Flujo de trabajo en Oozie

Pig:

Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse más en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los programas MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue diseñado para manejar cualquier tipo de dato y Pig es el ambiente de ejecución donde estos programas son ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java.

ZooKeeper:

ZooKeeper es otro proyecto de código abierto de Apache que provee de una infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a través de un cluster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado znode.Este archivo znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo puede registrar que sea informado de los cambios ocurridos en ese znode; es decir, un servidor puede ser configurado para "vigilar" un znode en particular.

20

De este modo, las aplicaciones pueden sincronizar sus procesos a través de un cluster distribuido

Nacimiento De Apache Hadoop

Posteriormente, en 2005, Yahoo crea un proyecto open source llamado Apache Hadoop, originariamente desarrollado para soportar el motor de búsqueda Nutch pero que luego se convirtió en un estándar de facto para lo que denominamos actualmente arquitecturas Big Data.

A partir de aquí todos los grandes fabricantes de software (IBM, Oracle, Microsoft, etc.) se han sumado a esta tendencia tecnológica incorporando a sus productos diversos componentes de Apache Hadoop para poder vender sus productos como Big Data. Además han aparecido un conjunto de fabricantes especializados en Apache Hadoop que han creado sus propias distribuciones (conjunto de componentes testados e integrados entre si, así como herramientas de administración y mantenimiento) que ofrecen servicios tanto de consultoría para la implantación como soporte y mantenimiento. Cabe destacar las distribuciones de Apache Hadoop de Cloudera, MapR Technologies y Hortonworks, que contribuyen en la evolución de Apache Hadoop.

Por otro lado en muchas ocasiones se identifica Big Data con Apache Hadoop, pero existen otras arquitecturas consideradas Big Data como por ejemplo MongoDB, Google BigQuery y Amazon DynamoDB entre otros, que tienen una aproximación distinta a Apache Hadoop, aunque empiezan a tener funcionalidades cada vez más parecidas.

21

Big Data Con Un Crecimiento Exponencial

Tengamos en cuenta que actualmente el ritmo de crecimiento de los datos es exponencial, de esta manera, es lógico pensar en nuevas herramientas que nos ayuden en el tratamiento de estos silos de información, que pueden provenir de múltiples y diferentes canales, como:

•Histórico de datos: datos acumulados durante años, que pueden arrojar

estadísticas y tendencias muy representativas

•Redes sociales: muy útiles si podemos filtrar y analizar el feedback de

nuestros clientes y proveedores.

•ClickStream: conocer la navegación y el uso que hacen nuestros clientes de nuestro sistio web.

•Sensores: pueden llegar a generar auténticas montañas de datos para evaluar.

•Dispositivos móviles: la incorporación de los mismos a las estructuras

empresariales siguiendo BYOD (Bring Your Own Device).

•Internet: es una poderosa herramienta si somo capaces de organizar la información que necesitamos.

22

Big Data Y El Campo De Investigación

Los científicos e investigadores han analizado datos desde ya hace mucho tiempo, lo que ahora representa el gran reto es la escala en la que estos son generados.

Esta explosión de "grandes datos" está transformando la manera en que se conduce una investigación adquiriendo habilidades en el uso de Big Data para resolver problemas complejos relacionados con el descubrimiento científico, investigación ambiental y biomédica, educación, salud, seguridad nacional, entre otros.

De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de una solución de Big Data se encuentran:

•El Language, Interaction and Computation Laboratory (CLIC) :

En conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos.

•Lineberger Comprehensive Cancer Center - Bioinformatics Group:

23

utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer.

•El PSG College of Technology:

India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de estas secuencias.

•La Universidad Distrital Francisco Jose de Caldas:

utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá.

•La Universidad de Maryland:

es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüistica computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes.

.El Instituto de Tecnología de la Universidad de Ontario (UOIT):

junto con el Hospital de Toronto utilizan una plataforma de big data para análisis en tiempo real de IBM (IBM InfoSphere Streams), la cual permite monitorear bebés prematuros en las salas de neonatología para determinar cualquier cambio en la presión arterial, temperatura, alteraciones en los registros del electrocardiograma y electroencefalograma, etc., y así detectar hasta 24 horas antes aquellas condiciones que puedan ser una amenaza en la vida de los recién nacidos.

.Los laboratorios Pacific Northwest National Labs(PNNL):

utilizan de igual manera IBM InfoSphere Streams para analizar eventos de medidores de su red eléctrica y en tiempo real verificar aquellas excepciones o fallas en los componentes de la red, logrando comunicar casi de manera inmediata a los consumidores sobre el problema para ayudarlos en administrar su consumo de energía eléctrica.

La esclerosis múltiple es una enfermedad del sistema nervioso que afecta al cerebro y la médula espinal. La comunidad de investigación biomédica y la Universidad del Estado de Nueva York (SUNY) están

24

aplicando análisis con big data para contribuir en la progresión de la investigación, diagnóstico, tratamiento, y quizás hasta la posible cura de la esclerosis múltiple.

Con la capacidad de generar toda esta información valiosa de diferentes sistemas, las empresas y los gobiernos están lidiando con el problema de analizar los datos para dos propósitos importantes: ser capaces de detectar y responder a los acontecimientos actuales de una manera oportuna, y para poder utilizar las predicciones del aprendizaje histórico. Esta situación requiere del análisis tanto de datos en movimiento (datos actuales) como de datos en reposo (datos históricos), que son representados a diferentes y enormes volúmenes, variedades y velocidades.

Utilidades De Big Data:Este conjunto de tecnologías se puede usar en una gran variedad de ámbitos, como los siguientes.

EmpresarialRedes Sociales: Cada vez más tendemos a subir a las redes sociales toda nuestra actividad y la de nuestros conocidos. Las empresas utilizan esta información para cruzar los datos de los candidatos a un trabajo.

25

Oracle ha desarrollado una herramienta llamada Taleo Social Sourcing, la cual está integrada con las APIs de Facebook, Twitter y LinkedIn. Gracias a su uso, los departamentos de recursos humanos pueden ver, entrando la identidad del candidato, su perfil social y profesional en cuestión de segundos. Por otro lado, les permite crear una lista de posibles candidatos según el perfil profesional necesario, y así pasar a ofrecer el puesto de trabajo a un público mucho más objetivo. Por otro lado, Gate Gourmet –una compañía de catering de aerolíneas,- experimentaba una tasa de abandono del 50% de sus trabajadores asignados al aeropuerto de Chicago, y sospecharon que el problema existía en el tiempo dedicado al viaje. Para demostrarlo, hicieron análisis juntando varios data sets de sus sistemas internos y de otros externos como datos demográficos, datos de tráfico y datos de uso de redes sociales. Los resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la alta tasa de abandono con la distancia del lugar de trabajo a casa y la accesibilidad al transporte público.

Consumo: Amazon es líder en ventas cruzadas. El éxito se basa en la minería de datos masiva basando los patrones de compra de un usuario cruzados con los datos de compra de otro, creando así anuncios personalizados y boletines electrónicos que incluyen justo aquello que el usuario quiere en ese instante. Offline también nos encontramos con casos de aplicación Big Data. Nuestros teléfonos móviles envían peticiones de escucha WiFi a todos los puntos de acceso con los que nos cruzamos. Algunas compañías han decidido hacer un trazo de estas peticiones con su localización y dirección MAC para saber qué dispositivo hace cuál ruta dentro de un recinto. No hay que asustarse ya que con la dirección MAC no pueden invadir nuestra intimidad. Las grandes superficies aprovechan estos datos para sacar información como contabilizar cuánto tiempo pasan los clientes en su interior, qué rutas siguen, dónde permanecen más tiempo (ya sea escogiendo un producto o el tiempo de espera en caja) o cuál es la frecuencia de visita.

Big Data e intimidad: La cantidad de datos creados anualmente es de 2,8 Zettabytes en 2012, de los cuales el 75% son generados por los individuos según su uso de la red ya sea bajarse un archivo, conectar el GPS o enviar un correo electrónico. Se calcula que un oficinista medio genera 1,8 Terabytes al año por lo que son unos 5 GB al día de información.36 Aquí entran en juego las empresas llamadas corredores de datos. Acxiom es una de ellas, y posee unas 1.500 trazas de datos de más de 500 millones de usuarios deinternet. Todos estos datos son transformados y cruzados para incluir al usuario analizado en uno de

26

los 70 segmentos de usuarios, llamado PersonicX.37 Descrito como un “resumen de indicadores de estilo de vida, intereses y actividades”, esta correduría de datos basa su clustering en los acontecimientos vitales y es capaz de predecir más de 3.000 reacciones ante estímulos de estos clientes. En un primer momento captaba la información de los hechos reales y no virtuales de los usuarios.38 En febrero de 2013, Facebook acordó la cesión de la información personal de sus usuarios con Acxiom y otros corredores de datos haciendo cruzar las actividades de la vida off-line con las actividades on-line . A nivel usuario, nos encontramos con Google Location History: un servicio de Google que registra las ubicaciones en las cuales ha estado un usuario que lleva el móvil encima, y con el servicio de localización activado (que por defecto lo está en los terminales con Android). Al acceder a él muestra un mapa con las rutas que ha seguido el usuario, con la hora de llegada y salida de cada ubicación. Gracias a esta utilidad se crean algoritmos de recomendaciones de amigos en redes sociales y ubicaciones a visitar basados en el historial de ubicaciones del usuario. Por último, Google pagó 3.200 millones de dólares por Nest, una empresa de detectores de humo. Ahora Google ha abierto Nest Labs, donde se pretende desarrollar sensores para convertir la casa en una Smart home. Incluir estos sensores permitirá saber por ejemplo cuándo hay alguien o no en casa gracias a su interacción con los wearables, a qué temperatura está el ambiente o detectar si hay algún peligro dentro como fuego.

Deportes:Profesional: En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores. Amisco43 es un sistema aplicado por los más importantes equipos de las ligas Española,Francesa, Alemana e Inglesa des del 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.43

27

Aficionado: Aplicaciones como Runtastic, Garmin o Nike+ proveen de resultados Big Data al usuario. Este último –Nike+- va un paso más allá a nivel de organización, ya que fabrican un producto básico para sus usuarios: las zapatillas. Los 7 millones de usuarios generan una gran cantidad de datos para medir el rendimiento y su mejora, por lo que la empresa genera unos clústeres con los patrones de comportamiento de sus usuarios. Uno de sus objetivos pues, es controlar el tiempo de vida de sus zapatillas encontrando fórmulas para mejorar la calidad. Por último, hace picar a sus usuarios con el uso de la gamificación: establece que comunidades de usuarios lleguen a metas y consigan objetivos conjuntamente con el uso de la aplicación, motivando e inspirando a los corredores para usar su aplicación y a más largo plazo, sus productos deportivos.

Investigación:Salud y medicina: Hacia mediados 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. El websiteGoogle Flu Trends fue capaz de predecirla gracias a los resultados de las búsquedas. Flu Trends usa los datos de las búsquedas de los usuarios que contienen Influenza-Like Illness Symptoms (Síntomas parecidos a la enfermedad de la gripe) y los agrega según ubicación y fecha, y es capaz de predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales. Más concretamente en Nueva Zelanda44 cruzaron los datos de Google Flu Trends con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de ILI Symptoms y la extensión de la pandemia en el país. Los países con sistemas de predicción poco desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad oportunas.

Defensa y seguridad: Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de la tecnología Big Data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.

28

29

30

CONCLUSION

•La tecnología Big Data no resuelve todos los problemas de escalabilidad ni sirve para todo tipo de proyecto en el cual hay gran volumen de datos. Hay que estudiar caso a caso.

•Hay que ser crítico a la hora de elegir una solución Big Data ya que no todos los fabricantes cumplen con los requisitos que se le exige a una arquitectura Big Data. Podemos considerar a Apache Hadoop como arquitectura Big Data de referencia, aunque hay otras aproximaciones.

•Tiene que haber una necesidad de negocio que justifique un proyecto Big Data que aporte valor a negocio y con unos objetivos claros.

31

BIBLIOGRAFIA

CONSULTEC Introducción a big data http://www.gmv.com/blog_gmv/introduccion-al-

big-data/ http://www.oracle.com/lad/bigdata/overview/

index.html Fundación Innovación Bankinter “Bing data el

poder de los datos” https://es.wikipedia.org/wiki/Big_data http://www.brandchats.com/7-tipos-de-datos-que-

comprende-el-big-data/ http://www.lantares.com/blog/las-cinco-

principales-aplicaciones-de-big-data http://searchdatacenter.techtarget.com/es/

opinion/Big-data-De-la-gestion-de-datos-no-estructurados-a-la-especializacion-del-analisis

32

http://www.lantares.com/blog/las-cinco-principales-aplicaciones-de-big-data

http://www.lantares.com/blog/las-cinco-principales-aplicaciones-de-big-data

http://www.brandchats.com/7-tipos-de-datos-que-comprende-el-big-data/

http://www.brandchats.com/7-tipos-de-datos-que-comprende-el-big-data/

https://es.wikipedia.org/wiki/Big_data

http://www.oracle.com/lad/bigdata/overview/index.html

http://www.oracle.com/lad/bigdata/overview/index.html

http://www.gmv.com/blog_gmv/introduccion-al-big-data/

http://www.gmv.com/blog_gmv/introduccion-al-big-data/

ANEXO

33

https://www.google.com.pe/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRxqFQoTCIa4isq_6MgCFcEmJgodaDIL9Q&url=https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/&psig=AFQjCNHXlO8pTb2M_EWtTtsyqtQT4kRO-A&ust=1446236047648121

http://www.csc.com/big_data

Documents

Big data.docx