100
1 INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL Prof. Luis Joyanes Aguilar Inteligencia de negocios Tema 6 Big Data: Los grandes volúmenes de datos y su impacto en la inteligencia de negocios Curso 2012/13 2º C

Big Data y su impacto en la Inteligencia de Negocios

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Big Data y su impacto en la Inteligencia de Negocios

11

INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL

Prof. Luis Joyanes Aguilar

Inteligencia de negocios Tema 6 Big Data: Los grandes volúmenes de datos y su impacto en la inteligencia de negociosCurso 2012/13 – 2º C

Page 2: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas

están buscando la mejor forma de aprovechar el exceso de información.

La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera.

Página –2–

Page 3: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 El concepto de big data a menudo se relaciona con las empresas que

ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.

Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía.

Página –3–

Page 4: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 Aún quedan numerosos obstáculos en el camino. Algunos

son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición.

Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios.

Página –4–

Page 5: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

UPSUPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –5–

Page 6: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

InterContinentalLa cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido

Página –6–

Page 7: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Tabla de unidades de almacenamiento (The Economist, febrero 2010): ―data, data everywhere‖ www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –7–

Page 8: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

LA AVALANCHA DE DATOS

Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante sería 25 veces más alta que el monte Fuji.

Página –8–

Page 9: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

EL UNIVERSO DIGITAL DE DATOS

Página –9–

Page 10: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

LA AVALANCHA DE DATOS

Twitter: (redes sociales)

90 millones de Tweets por día que representa 8 Terabytes.

Boeing: (industria)

Vuelo transoceánico de un jumbo puede generar 640 Terabytes.

Wal-Mart: (comercio)

1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.

Google procesa al día 20 petabytes de información

Página –10–

Page 11: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data – McKinsey. Junio 2011

Big data: The next frontier for innovation, competition, and productivity.

http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

Página –11–

Page 12: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data – McKinsey. Junio 2011

Big data: The next frontier for innovation, competition, and productivity.

The amount of data in our world has been

exploding. Companies capture trillions of bytes of

information about their customers, suppliers, and

operations, and millions of networked sensors are

being embedded in the physical world in devices

such as mobile phones and automobiles,

sensing, creating, and communicating data.

Página –12–

Page 13: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data – McKinsey. Junio 2011

Multimedia and individuals with smartphones and

on social network sites will continue to fuel

exponential growth. Big data—large pools of data

that can be captured, communicated, aggregated,

stored, and analyzed—is now part of every sector

and function of the global economy. Like other

essential factors of production such as hard

assets and human capital, it is increasingly the

case that much of modern economic activity,

innovation, and growth simply couldn’t take place

without data.

Página –13–

Page 14: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data – McKinsey. Junio 2011

The question is what this phenomenon means. Is the

proliferation of data simply evidence of an increasingly

intrusive world? Or can big data play a useful economic

role? While most research into big data thus far has

focused on the question of its volume, our study makes the

case that the business and economic possibilities of big

data and its wider implications are important issues that

business leaders and policy makers must tackle. To inform

the debate, this study examines the potential value that big

data can create for organizations and sectors of the

economy and seeks to illustrate and quantify that value. We

also explore what leaders of organizations and policy

makers need to do to capture it.

Página –14–

Page 15: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

What do we mean by "big data"?―: McKinsey 2011

―Big data‖ refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes).

Página –15–

Page 16: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

What is big data?*

Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.

*http://www-01.ibm.com/software/data/bigdata/

Página –16–

Page 17: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

Página –17–

Page 18: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

Big data spans four dimensions: Volume, Velocity, Variety, and Veracity.

Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes—even petabytes—of information.

• Turn 12 terabytes of Tweets created each day into improved product sentiment analysis

• Convert 350 billion annual meter readings to better predict power consumption

Página –18–

Page 19: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

Velocity: Sometimes 2 minutes is too late. For time-sensitive processes such as catching fraud, big data must be used as it streams into your enterprise in order to maximize its value.

• Scrutinize 5 million trade events created each day to identify potential fraud

• Analyze 500 million daily call detail records in real-time to predict customer churn faster

Página –19–

Page 20: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together.

Monitor 100’s of live video feeds from surveillance cameras to target points of interest

Exploit the 80% data growth in images, video and documents to improve customer satisfaction

Página –20–

Page 21: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

DEFINICIÓN DE BIG DATA: IBM

Veracity: 1 in 3 business leaders don’t trust the information they use to make decisions. How can you act upon information if you don’t trust it? Establishing trust in big data presents a huge challenge as the variety and number of sources grows.

Big data is more than simply a matter of size; it is an opportunity to find insights in new and emerging types of data and content, to make your business more agile, and to answer questions that were previously considered beyond your reach. Until now, there was no practical way to harvest this opportunity. Today, IBM’s platform for big data uses state of the art technologies including patented advanced analytics to open the door to a world of possibilities.

Página –21–

Page 22: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Modelo 3V de Big Data

VOLUMEN

• Terabytes

• Records

• Transactions

• Tables, files

VELOCIDAD VARIEDAD

• Batch (por lotes) Estructurado

• Near time (casi a tiempo) No estructurado

• Real time (tiempo real) Semi-estructurado

• Streams (flujos) Todos los demás

Página –22–

Page 23: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Fuentes de Big Data

Herramientas para análisis de datos en grandes volúmenes de datos.

Infraestructuras de Big Data

Fuentes de Big Data (Soares 2012):

Web y Social media

Machine-to-Machine (M2M, Internet de las cosas)

Biometria

Datos de transacciones de grandes datos (salud, telecomunicaciones…)

Datos generados por las personas (humanos)

Página –23–

Page 24: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Store.comSunil Soares (2003). Big Data Governance. An

Emerging Imperative. Boise. MC Press Online. El

autor de este libro mantiene un blog excelente sobre

Big Data y Gobierno de Big Data

Página –24–

Page 25: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

1. Web y Social Media: Incluye contenido web e información

que es obtenida de las medios sociales como Facebook, Twitter,

LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs

de periódicos y televisiones, wikis como MediaWiki, Wikipedia,

marcadores sociales como Del.icio.us, Stumbleupon…

agregadores de contenidos como Dig, Meneame… En esta

categoría los datos se capturan, almacenan o distribuyen

teniendo presente las características siguientes: Datos de los

flujos de clics, tuits, retuits o entradas en general (feeds) de

Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos

web diversos.

Página –25–

Page 26: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a

otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc.

Página –26–

Page 27: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

3.Big Data transaccionales: Grandes datos transaccionales

procedentes de operaciones normales de transacciones de todo

tipo. Incluye registros de facturación, en telecomunicaciones

registros detallados de las llamadas (CDR), etc. Estos datos

transaccionales están disponibles en formatos tanto

semiestructurados como no estructurados. Los datos generados

procederán de registros de llamada de centros de llamada,

departamentos de facturación, reclamaciones de las personas,

presentación de documentos…

Página –27–

Page 28: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles

Página –28–

Page 29: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.

―An Overview of Biometric Recpgnition‖. http://biometrics.cse.nsu.edu/info.html

Página –29–

Page 30: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que

acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad.

Página –30–

Page 31: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Estructura de Big Data: tipos de datos

Estructurados

No estructurados No estructurados (texto, datos de vídeo, datos de audio,,,)

Semiestructurados ( a veces se conocen como ―multiestructurados‖. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –31–

Page 32: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

ESTADO ACTUAL DE BIG DATA

1. Almacenamiento:

hacen falta nuevas tecnologías de almacenamiento

2. Bases de datos:

las BD relacionales no pueden con todo

3. Procesado:

se requieren nuevos modelos de programación

4. Obtención de valor:

los datos no se pueden comer crudos (en bruto)

La información no es conocimiento ―accionable‖

Página –32–

Page 33: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos

In-Memory (en-memoria)

SAP Hana

Oracle Times Ten In.Memory Database

IBM solidDB

Relacional

Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…

Transeferencia de datos entre Hadoop y bases de datos relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

In-Memory (SAP, Oracle, Microsoft…)

Página –33–

Page 34: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

1. Almacenamiento

Hacen falta nuevas tecnologías de almacenamiento

RAM vs HHD

HHD 100 más barato que RAM

Pero 1000 veces más lento

Solución actual:

Solid- state drive (SSD) además no volátil

Investigación:

Storage Class Memory (SCM)

Página –34–

Page 35: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

2. Base de datos

Las BD relacionales no pueden con todo

Base de datos

volumen de la información

GBs

PBs Tiempo de ejecución

Limitadas para almacenar ―big data‖

(ACID, SQL, …)

ACID: Atomicity, Consistency, Isolation & Durability

Página –35–

Page 36: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

2. Bases de datos

In-Memory (en-memoria) SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

NoSQL (Not only SQL)

Relacional Sistemas RDBMS

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (heredadas, antiguas…)

Página –36–

Page 37: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

3. Procesado

Se requieren nuevos modelos de programación para manejarse con estos datos

Solución: Para conseguir procesar grandes conjuntos de

datos: MapReduce

Pero fue el desarrollo de Hadoop MapReduce,

por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce

Página –37–

Page 38: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

4. Obtención de valor los datos no se pueden comer crudos la

información no es conocimiento accionable

Para ello tenemos tecnicas de Data Mining • Asociación

• Clasificación

• Clustering

• Predicción

• ...

Pero la mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.

Página –38–

Page 39: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

4. Obtención de valor

Solución: Dentro del ecosistema open source Hadoopexiste la iniciativa Mahout

El objetivo es producir una implementación libre de un paquete que incluya los principales algoritmos de Data mining que escalen sobre la plataforma Hadoop.

Página –39–

Page 40: Big Data y su impacto en la Inteligencia de Negocios

4040

INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL

Prof. Luis Joyanes Aguilar

BASES DE DATOS NoSQL

Page 41: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos NoSQL (Not only SQL)

NoSQL – es un término utilizado para describir un subconjunto de bases de datos que difiere en varios modos de bases de datos tradicionales (RDBMS).

No tienen schemas, no permiten JOINs, no intentan garantizar ACID y escalan horizontalmente

El término fue acuñado en 1998 por Carlo Strozzi y resucitado en 2009 por Eric Evans

El propio Evans sugiere mejor referirse a esta familia de BBDD de nueva generación como ―Big Data‖

Página –41–

Page 42: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos NoSQL (Not only SQL)

Categoría de sistemas de gestión de bases de datos que no utilizan el lenguaje SQL como su principal lenguaje de consulta.

Incluyen una amplia oferta tal como Apache Hbase, Apache Cassandra, MongoDB, Apache CpuchDB, Riak, Neo4J, Redis, Membase, Amazon DynamoDBque constituye el software como servicio de Amazon Web Services

Cassandra se utiliza en organizaciones tales como Netflix, Twitter, Cisco…

Página –42–

Page 43: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos NoSQL (Not only SQL)

• NoSQL – "not only SQL” – es una categoría general de sistemas de gestión de bases de datos que difiere de modelos relacionales clásicos (RDBMS) en diferente modos:

– Estos datastores no requieren esquemas de información fijas

– Evitan las operaciones JOIN y escalan horizontalmente

• De hecho, tanto las bases de datos NoSQL como las relacionales son tipos de Almacenamiento Estructurado

Página –43–

Page 44: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos NoSQL (Not only SQL)

La principal diferencia radica en cómo guardan los datos (por ejemplo, almacenamiento de un recibo):

En una RDBMS tendríamos que partir la información en diferentes tablas y luego usar un lenguaje de programación en la parte servidora para transformar estos datos en objetos de la vida real.

En NoSQL, simplemente guardas el recibo:

NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por adelantado

¡¡¡NoSQL no es la panacea!!!

Si tus datos son relacionales, quedarte con tu RDBMS sería la opción correcta

Página –44–

Page 45: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

¿Por qué necesitamos NoSQL?

Las BBDD relacionales ofrecen bajo rendimiento ante ciertas aplicaciones intensivas de datos:

Indexación de un gran número de documentos

Servir páginas en sitios de mucho tráfico

Envío de datos de streaming

Las RDBMS están optimizadas para pequeñas pero frecuentes transacciones de lectura/escritura o largas transacciones con pocos acceso de escritura.

NoSQL puede dar servicio a grandes cargas de lectura/escritura:

Digg mantiene 3 TB de green badges (marcadores que indican las

historias votadas por otros en una red social)

Facebook que ha de realizar búsqueda en bandejas de mensajes de

más de 50 TB

Página –45–

Page 46: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Arquitectura de las BBDD NoSQL

A menudo ofrecen sólo garantías de consistencia débiles, como por ejemplo eventual consistency, o transacciones restringidas a elementos de datos simples

Emplean una arquitectura distribuida, donde los datos se guardan de modo redundante en distintos servidores, a menudo usando tablas hash distribuidas

Suelen ofrecer estructuras de datos sencillas como arrays asociativos o almacenes de pares clave-valor

Página –46–

Page 47: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

¿Quién usa NoSQL? No lo usan para todo, sólo para algunas partes de sus sistemas

empresariales:

Ubuntu DesktopCouch (CouchDB)

Adobe y Mozilla (Hbase)

Twitter

(http://www.readwriteweb.com/cloud/2011/01/how-twitter-uses-nosql.php)

Página –47–

Page 48: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Taxonomía de soluciones NoSQL

Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:

Almacenes de Clave-Valor

Almacenes de Familia de Columnas (columnares)

Almacenes de documentos

Grafos

Página –48–

Page 49: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Características BBDD orientadas a Clave-Valor

Su precursor fue Amazon Dynamo

Basadas en DHT (Distributed Hash Tables)

Modelo de datos: colección de pares clave/valor

Ejemplos: Dynomite, Voldemort, Tokyo

Página –49–

Page 50: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Características BBDD orientadas a Familia de Columnas

Su precursor es Google BigTable

Modelo de datos: familia de columnas, esto es, un modelo tabular donde cada fila puede tener una configuración diferente de columnas

Ejemplos: HBase, Hypertable, Cassandra, Riak

Buenas en:

Gestión de tamaño

Cargas de escrituras masivas orientas al stream

Alta disponibilidad

MapReduce

Página –50–

Page 51: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Características BBDD orientadas a Documentos

La precursora fue Lotus Notes

Modelo de datos: colecciones de documentos que contienen colecciones de claves-valor

Ejemplos: CouchDB, MongoDB

Buenas en:

Modelado de datos natural

Amigables al programador

Desarrollo rápido

Orientas a la web: CRUD

Página –51–

Page 52: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Características Bases de Datos Basadas en Grafos Inspiradas por la teoría de grafos

Modelo de datos: nodos, relaciones con pares clave valor en ambos

Ejemplos: AllegroGraph, VertexBD, Neo4j

Página –52–

Page 53: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Apache Cassandra Es un almacén altamente escalable, eventualmente

consistente y distribuido de estructuras clave-valor.

Iniciado por Facebook

Código abierto

Proyecto apache

Licencia: Apache License 2.0

Escrito en Java

Multiplataforma

Versión actual: 1.1.6

Web: http://cassandra.apache.org/

Documentación: http://www.datastax.com/docs/1.0/index

Página –53–

Page 54: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

¿Quién usa Apache Cassandra?

Algunos usuarios famosos de Cassandra son:

Digg

Facebook

Twitter

Rackspace

SimpleGEO

Página –54–

Page 55: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Comparación de BBDD NoSQL Cassandra vs MongoDB vs CouchDB vs Redis vs

Riak vs HBase vs Membase vs Neo4j comparison http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

NoSQL: Comparing the Different Solutions http://www.readwriteweb.com/cloud/2010/11/nosql-comparison.php

Is the Relational Database Doomed? http://www.readwriteweb.com/enterprise/2009/02/is-the-relational-

database-doomed.php

Comparing Document Databases to Key-Value Stores

http://nosql.mypopescu.com/post/659390374/comparing-document-databases-to-key-value-stores

Página –55–

Page 56: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos

NoSQL (not only SQL)… Bases de datos NoSQL:

Cassandra

MongoDB

Apache CouchDB

CouchBase

Riak

Amazon DynamoDB

Noo4J

Redis

Membase

Hbase

Bases de datos columnares (por columnas) en lugar de por filas como las bases de datos relacionales

Página –56–

Page 57: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

NoSQL or not NoSQL? En NoSQL, generalmente los datos son recuperados de manera mucho más

rápida que en un RDBMS, sin embargo las consultas que se pueden hacer son más limitadas y requieren trasladar complejidad a la aplicación

RDBMS para escribir usan locks y redos para garantizar ACID, pero NoSQL no soporta a menudo Atomicy, Consistency o Durability

Si quieres soporte transaccional integral debes seguir usando RDBMS

Aplicaciones que generan informes emplean consultas complejas para las que NoSQL no es muy adecuado

Aplicando MapReduce, las bases de datos NoSQL pueden paralelizar operaciones complejas como agregaciones estadísticas, filtros, agrupaciones o ordenación.

Desde un punto de vista de sistemas deberíamos considerar la combinación de SQL y NoSQL: LinkedIn comenzó sólo con un RDBMS, pero desarrolló su propia BBDD NoSQL

(Voldemort)

Facebook tienen una arquitectura híbrida con Memcached y MySQL junto a un OLTP (envío de mensajes al Wall), y Cassandra para la búsqueda en la bandeja de entrada

Página –57–

Page 58: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

NoSQL or not NoSQL? Los principales problemas de NoSQL son:

Su complejidad:

Instalación

Consultas (comprender bien MapReduce)

Los modelos de datos usados

Su falta de madurez

¿Dónde usarlas? Datos sociales

Procesado de datos (Hadoop)

Búsqueda (Lucene)

Caching (Memcache)

Data Warehousing

¿Qué problema quieres resolver? Transacciones

Grandes volúmenes de datos (Exabytes)

Estructura de los datos

Página –58–

Page 59: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Conclusiones NoSQL Las BBDD NoSQL son una clara alternativa a los

RDBMS

Sobre todo para algunas aplicaciones sociales y web que requieren elevada escalabilidad

No son idóneas para todo, de hecho en la mayoría de los casos las RDBMS deberían seguir siendo la primera opción:

La capacidad de hacer JOIN y las garantías ACID son muy importantes para muchas aplicaciones

Es muy posible que los RDBMS actuales evolucionen para incorporar capacidades de NoSQL

Página –59–

Page 60: Big Data y su impacto en la Inteligencia de Negocios

6060

INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL

Prof. Luis Joyanes Aguilar

TECNOLOGÍAS

BASES DE DATOS ―In-Memory‖

Page 61: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Computación en memoria ―In-Memory‖

La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado). (IBM)

Existen un amplio conjunto de tecnologías que emplean

bases de datos en memoria. SAP HANA es una de las

más acreditadas y populares.

Página –61–

Page 62: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos ―en memoria‖

Los sistemas de gestión de bases de datos confian en la memoria principal para almacenamiento de datos. Comparados con los sistemas de gestión de bases datos tradicionales que almacenan datos en disco, las bases de datos en memoria están optimizadas para alcanzar grandes velocidades.

Las bases de datos en memoria buscan procesar volúmenes masivos de grandes datos. SAP HANA, Oracle In-Memory Database, IBM solidDB… son ejemplos de bases de datos en memoria.

Página –62–

Page 63: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos ―In-Memory‖

Para conseguir el rendimiento deseado, la computación en memoria utiliza estos principios básicos:

Mantener datos en memoria principal para aumentar la velocidad de acceso a los datos.

Minimizar el movimiento de datos potenciando el concepto de almacenamiento en columna, compresión y ejecución de cálculos al nivel de base de datos.

Divide y vencerás. La potenciación de la arquitectura multi-core de los procesadores modernos y de los servidores multi-procesador, o incluso ―escalar‖ en bases de datos distribuídas para poder crecer de lo que puede proporcionar un solo servidor.

Página –63–

Page 64: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos ―In-Memory‖

La capacidad de la memoria principal en servidores ha incrementado de modo continuo durante los últimos años, mientras que los precios han caído drásticamente. Hoy, un simple servidor empresarial puede contener varios terabytes de memoria principal.

Al mismo tiempo, los precios de la memoria principal del servidor ha caído también en las últimas décadas. Este aumento de capacidad y reducción de costes hacen muy viable el sistema de mantener cantidades de datos de negocios en memoria.

Página –64–

Page 65: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Bases de datos ―In-Memory‖Memoria principal como almacén de datos

(tiempos de acceso de datos de diferentes dispositivos de almacenamiento, en relación a RAM, escala logarítmica)

Volátil.

Registros CPU (0,005)

Caché CPU (0,4-0,5)

RAM (0.0 – 1.2)

No volátil

SSD/Flash (2.000)

Disco duro (100.000 a 400.000)

Página –65–

Page 66: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13Página –66–

Page 67: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13Página –67–

Page 68: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que el

mercado del software relacionado con los frameworkopen source Apache Hadoop y el MapReduce de

Google crecerá a un ritmo anual de más del 60% hasta el año 2016.

La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.

IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Página –68–

Page 69: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que

provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clustersconstruidos con hardware genérico. En esencia, Hadoopconsiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre ―Hadoop‖ no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce.

Página –69–

Page 70: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Historia de HADOOP

● 2004-2006

– Google publica los papers de GFS y MapReduce

– Doug Cutting implementa una version Open Source en

Nutch

● 2006-2008

– Hadoop se separa de Nutch

– Se alcanza la escala web en 2008

● 2008-Hasta ahora

– Hadoop se populariza y se comienza a explotar

comercialmente.

Fuente: Hadoop: a brief history. Doug Cutting

Página –70–

Page 71: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Componentes fundamentales de Open Source

Apache Hadoop (biblioteca de software de open source)

Apache Hadoop consta de los siguientes subproyectos

HDFS (Haoop Distributed File System)

MapREduce

Hadoop Commons

y de las siguientes tecnologías

Hbase

Hive

Pig

Otras

Página –71–

Page 72: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

TECNOLOGÍAS BIG DATA (HADOOP)

Almacenamiento y acceso a datos

Como su nombre lo indica, estos componentes son los que proveen la capacidad de almacenar y acceder grandes volúmenes de datos. Aquí tenemos dos tecnologías principalmente: HDFS y HBase.

Página –72–

Page 73: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

HADOOP

HDFS (Hadoop Distributed File System). Es

un sistema de archivos distribuido que está optimizado para almacenar grandes cantidades de datos utilizando un patrón de acceso write-once read-many (escribe una vez, lee muchas). Esto hace que HDFS sea una opción adecuada cuando es necesario escribir pocos archivos grandes, que son leídos muchas veces. Un cluster HDFS tiene dos tipos de nodos: un nodo de nombre (namenode) y múltiples nodos de datos (datanodes). El primero es responsable del árbol del sistema de archivos y los metadatos, mientras que los segundos son los que realizan el acceso a los datos.

Página –73–

Page 74: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

HADOOP

HBase (Hadoop Database). HBase es una base

de datos distribuida, versionada y orientada a columnas, diseñada para almacenar tablas muy grandes (millones de registros con millones de columnas). HBase funciona encima de HDFS y usa la misma arquitectura de nodos: un nodo maestro que divide y distribuye los datos, y múltiples nodos de trabajo que realizan las operaciones de acceso a datos. Los datos de HBase típicamente se acceden por medio de tareas MapReduce, aunque también ofrece interfaces tipo REST.

Página –74–

Page 75: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

HADOOP

Procesamiento de datos

Encima de la capa de datos necesitamos frameworks para procesar dichos datos. La herramienta principal en este capa es un motor de procesamiento de tareas MapReduce.

MapReduce es un modelo de programación creado

originalmente por Google para procesar grandes cantidades de datos. Está inspirado en las funciones mapy reduce de la programación funcional, aunque en realidad aquí funcionan de forma un poco distinta:

Página –75–

Page 76: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

HADOOP

Map: En este paso, un nodo maestro recibe una tarea y la

divide en tareas más pequeñas que distribuye hacia otros nodos para que las procesen. Cada uno de estos nodos puede a su vez volver a dividir y repartir tareas, lo cual lleva a una estructura de árbol de varios niveles. Cada nodo de procesamiento, una vez que termina su tarea la regresa a su nodo maestro.

Reduce: El nodo maestro colecciona todas las respuestas

recibidas y las combina para generar la salida, es decir, la respuesta al problema que originalmente se trata de resolver.

Los beneficios principales de MapReduce son su escalabilidad y la variedad de datos que puede procesar tales como archivos, tablas de bases de datos, sitios web (web crawling).

Página –76–

Page 77: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Obstáculos de MapReduce+NoSQL

Difícil pensar en MapReduce+NoSQL hace falta ―desaprender

Solución (open source):

– HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL.

– PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo).

Página –77–

Page 78: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Obstáculos de MapReduce+NoSQL

Propuestas de la industria para integrar NoSQL con SQL:

– Sqoop de Cloudera

– Greenplum database

– Aster Data's nCluster DW system

– …

Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce.

Página –78–

Page 79: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop

―The Apache Hadoop software library is a framework that allows for the distributedprocessing of large data sets acrossclusters of computers using a simple Programming model‖

De la página de Hadoop

Página –79–

Page 80: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Componentes fundamentales de Open Source

Apache Hadoop (biblioteca de software de open source)

Apache Hadoop consta de los siguientes subproyectos

HDFS (Haoop Distributed File System)

MapREduce

Hadoop Commons

y de las siguientes tecnologías

Hbase

Hive

Pig

Otras

Página –80–

Page 81: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop

Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File Systempublicados por Google.

Está desarrollado en Java y se ejecuta dentro de la JVM.

Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera(http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop.

Página –81–

Page 82: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop Las características principales de Hadoop son

Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.

• Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.

• Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.

• Confiable: Es capaz de mantener Es capaz de mantener múltiples copias de los datos y

automáticamente hacer un re-despliegue de las tareasPágina –82–

Page 83: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop

El diseño de Hadoop se divide en dos partes principales:

Por un lado la implementación de MapReduce que se

encarga del

procesamiento de la información de forma distribuida.

Por otro lado está el sistema de ficheros distribuido

Hadoop Distributed File System (HDFS) que

se encarga de almacenar todos los datos repartiéndolos

entre cada nodo de la red Hadoop.

Página –83–

Page 84: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop

Página –84–

Page 85: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Sistema de Ficheros Distribuido

Sistema de ficheros distribuido (HDFS)

– Bloques grandes: 64 Mb

● Almacenados en el sistema de ficheros del SO

– Tolerante a Fallos (replicacion)

– Formatos habituales:

● Ficheros en formato texto (CSV)

● SequenceFiles

– Ristras de pares [clave, valor]

Página –85–

Page 86: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13Página –86–

Page 87: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop en la actualidad

Hadoop se puede utilizar en teoría para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:

• Análisis de logs

• Análisis de mercado

• Machine learning y data mining

• Procesamiento de imágenes

• Procesamiento de mensajes XML

• Web crawling

• Indexación

Página –87–

Page 88: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en

el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:

Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene ha día de hoy el mayor clúster Hadoopdel mundo que almacena hasta 30 peta bytes de información

Amazon A9: Se utiliza para la generar índices de búsqueda de los

productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos

cada uno.Página –88–

Page 89: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Hadoop en la actualidad

The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –89–

Page 90: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Distribuciones de Hadoop

Cloudera

mapR

Hortonworks

IBM… ofrece una distribución llamada InfoSphereBigInsights

Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon ElasticMapReduce

EMC ofrece Greenplus HD

Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure

Página –90–

Page 91: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Proveedores de Big Data

Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks, …

Hay docenas

Página –91–

Page 92: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Empresas que ya utilizan “Big Data”

. IBM

Intel

HP

Oracle

Teradata

Fujitsu

CSC

Accenture

Dell

Seagate

Capgemini

Página –92–

Page 93: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Definición de Analítica de Big DataBIG DATA ANALYTICS : (TDWI): 4Q 2011 Big data analytics is where advanced analytic

techniques operate on big data sets. Hence, big data analytics is really about two things—big data and analytics—plus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today.

The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: ―Which of the following best characterizes your familiarity with big data analytics and how you name it?‖ The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not:

Página –93–

Page 94: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

ANALÍTICA DE BIG DATA

Cloudera

EMC Greenplum

IBM

Impetus Technologies

Kognitio

ParAccel

SAP

SAND Technology

SAS

Tableau Software

Teradata

Página –94–

Page 95: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

BIBLIOGRAFÍA

SOARES, Sunil (2013). Big Data Governance. Anemerging Imperative. Boise, USA: MC Press.

FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.

JOYANES, Luis (2012). Computación en la nube. Estrategias de cloud computing en las empresas. Marcombo/Alfaomega: Barcelona/México

JOYANES, Luis (2013). Big Data. Análisis de los grandes volúmenes de datos. Marcombo/Alfaomega: Barcelona/México.

Página –95–

Page 96: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and StreamingData. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/

ZIKOPOULOS, Paul C. et al (2013). Harness the Powerof Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM

Página –96–

Page 97: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13Página –97–

Page 98: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February2, 2012.

www-01.ibm.com/software/data/bigdata/

Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina

Página –98–

Page 99: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

BIBLIOGRAFÍA

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –99–

Page 100: Big Data y su impacto en la Inteligencia de Negocios

© Luis Joyanes Aguilar

Universidad Pontificia de Salamanca -

Abril 2013.Curso 2012/13

Referencias, Ipiña Glz. de Artaza NoSQL vs. RDBMS

Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS databases", version 10r2

http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:2664632900346253817

NoSQL or not NoSQL? http://www.slideshare.net/ruflin/nosql-or-not-nosql/download

Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

SQL vs. NoSQL. http://www.linuxjournal.com/article/10770

Cassandra. ―NoSQL – Not only SQL (Introduction to Apache Cassandra)‖. http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-introduction-to-apache-cassandra/#.TtonPmMk6nA

http://www.datastax.com/docs/0.8/dml/using_cql

http://cassandra.apache.org/

Página –100–