Download pdf - Conferencia Cloud Computing y Big Data: los pilares del científico de datos

1 1

Prof. Luis Joyanes Aguilar

COMPUTACIÓN EN LA NUBE Y BIG DATA: pilares del Científico de Datos Cloud Computing, Big Data: Data Science Bogotá, COLOMBIA 31 de mayo, 2013

2 2

ESTADO DEL ARTE DE CLOUD COMPUTING


COMPUTACIÓN EN LA NUBE La nueva era de la computación

© Luis Joyanes Aguilar

Universidad Distrital Francisco José de Caldas Bogotá, Colombia, 31 de may0 de 2013

Página –3–



Página –4–



LA NUBE: ESE GRAN INVENTO

Página –5–



TENDENCIAS TECNOLÓGICAS DE LA DÉCADA

LAS CONSULTORAS IDC, GARTNER, FORRESTER y otras, están de acuerdo:

Cloud Computing

Social Media (Medios sociales)

Movilidad

Internet de las cosas (objetos)

NFC, Bluetooth, RFID, QR, ZigBee, Sensores…

Big Data

Página –6–


Universidad Distrital Francisco José de Caldas

Bogotá (Colombia). 31 de mayo de 2013

INTRODUCCIÓN La Nube o la Computación en Nube (Cloud

Computing) es uno de los términos tecnológicos

(buzzwords) que más se repite en todo tipo de medios de comunicación en los tres últimos años. Las empresas, las organizaciones y los negocios en general, están viendo en esta tecnología la resolución de muchos de sus problemas, sobre todo, económicos pero también de infraestructuras tecnológicas.

EL MODELO DE LA NUBE ES UN MODELO DE SERVICIOS COMO LA LUZ, EL AGUA, EL TELÉFONO, EL GAS…

Página –7–




Empresas TIC: IBM, Microsoft, Oracle, Hewlett-Packard, Cisco, EMC, VMWare etc.

Operadoras de telecomunicaciones: europeas (Telefónica, Vodafone, France Telecom, Deutch Telecom, …) , americanas (Verizon, ATT, Telmex...), etc.

Empresas de Internet que ya son, per se, empresas de la nube: Google, Yahoo¡, Amazon o redes sociales, tales como Facebook, LinkedIn, Twitter, Pinterest, Foursquare Tuenti…

Página –8–

COMPUTACIÓN EN LA NUBE




Pero ¿cómo influirá la computación en nube en la sociedad y en sus campos más sobresalientes: educación, salud, administración pública, organizaciones, empresas, … y en general, en la población? Sin lugar a dudas muy positivamente… en estos momentos muchos sectores de dicha población estamos utilizando la Nube cuando

enviamos un correo electrónico por Gmail, Yahoo o Hotmail, escuchamos música en Spotify (el

innovador servicio sueco de streaming audio, oír música

sin descarga), vemos una fotografía en Flickr o

consultamos nuestra posición geográfica en Google Maps en nuestro escritorio o en nuestro teléfono móvil

inteligente, o utilizamos aplicaciones de geolocalización

(StreetMaps) o de almacenamiento Dropbox.

Página –9–

COMPUTACIÓN EN LA NUBE




Un ejemplo de la nube

Página –10–




Sin embargo, la computación en nube, nos traerá grandes interrogantes y grandes problemas en temas tan controvertidos como la protección de datos y privacidad de los usuarios.

Otra pregunta que cada día se hacen más los analistas sociales y tecnológicos

¿desaparecerá el PC tal cómo hoy lo conocemos? ¿Será sustituido por el teléfono móvil o dispositivos tales como las tabletas electrónicas, como el iPad de Apple o alguno de sus competidores, o incluso otros dispositivos electrónicos como una videoconsola, un frigorífico o el coche?

Página –11–

LA ERA POS-PC




Los datos y las aplicaciones se reparten en nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de Internet, Google, Microsoft,

IBM, Sun Microsystems, Oracle, Amazon,.. y

poco a poco a cientos de grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a disposición de sus empleados, investigadores, doctorandos, etc. Luis JOYANES. Icade, nº 76, enero-abril, 2009, pp. 95-111.

Página –12–

“Computación en la nube (cloud computing)»




HISTORIA DE LA NUBE -1-

El concepto de la computación en la nube, o cloud computing, empezó con proveedores de servicios de Internet a gran escala como Google, Amazon AWS y otros que construyeron su propia infraestructura. De entre todos ellos emergió una arquitectura: un sistema de recursos distribuidos horizontalmente introducidos como servicios virtuales de TI escalados masivamente y manejados como recursos configurados y mancomunados de manera continua.

En el año 2006 se produjo una primera alianza entre IBM, Google y grandes universidades norteamericanas

Página –13–





Este modelo de arquitectura fue inmortalizado por George Gilder en su artículo de octubre 2006 en la

revista Wired titulado "Las fábricas de información".

Las granjas de servidores, sobre las que escribió

Gilder, eran similares en su arquitectura al procesamiento “grid” (red, parrilla), pero mientras que las redes se utilizan para aplicaciones de procesamiento técnico débilmente acoplados (loosely coupled, un sistema compuesto de subsistemas con cierta autonomía de acción, que mantienen una interrelación continua entre ellos), este nuevo modelo de nube se estaba aplicando a los servicios de Internet.

Página –14–





Dos de las grandes cabeceras mundiales de revistas económicas,

Business Week (4 de agosto de 2008) y The Economist (25 de Octubre, 2008) ya preveían en 2008 el pronto advenimiento de esta arquitectura y le dedicaron

sendos suplementos a analizar con detalle

Y en el año 2010, The Economist volvió a insistir en el impacto de la nube y Forbes , la prestigiosa revista económica de Estados Unidos, se hizo eco también en un número especial dedicado al Cloud Computing, sin

contar naturalmente el sin fin de publicaciones económicas, generalistas, tecnológicas de Europa, América del Norte, Asia, América Latina y el Caribe

Página –15–




BusinessWeek, Rachael King, August 04, 2008

Página –16–




The Economist . Octubre 2008. http://www.economist.com/node/12411882?zid=291&ah=906e69ad01d2ee51960100b7fa502595

Página –17–




The Economist, octubre 2008

Página –18–




Battle of the clouds

The fight to dominate cloud computing will

increase competition and innovation

The Economist. Oct 15th 2008

Página –19–




Definición de la nube No existe una definición estándar aceptada

universalmente; sin embargo, existen organismos internacionales cuyos objetivos son la estandarización de Tecnologías de la Información y, en particular, de Cloud Computing. Uno de estos organismos más reconocido es

el National Institute of Standards and Technology (NIST) y su Information Technology Laboratory, que define la

computación en nube (cloud computing) como:

Página –20–




DEFINICIÓN DE CLOUD COMPUTING

Página –21–




DEFINICIÓN DE CLOUD COMPUTING Para una definición más técnica de Cloud Computing o

nube sin más, podríamos decir que se trata del conjunto

de programas y servicios alojados en un servidor conectado a la Red, accesible desde cualquier computador (sea cual sea el sistema operativo que este ejecute) con conexión a Internet sin necesidad de instalar aplicaciones ejecutables en su disco duro y donde también se almacena la información generada por estas mismas aplicaciones o servicios.

Cloud Computing ha transformado de forma radical el modelo de negocio, "Este modelo de tecnología se

adapta a las necesidades de la empresa en todo momento, que sólo paga por los servicios que usa"

Página –22–



Bogotá (Colombia). 31 de mayo de 2013 Página –23–




Terminología de la NUBE (NIST) El NIST recomienda utilizar los siguientes términos

Consumidor de la nube o cliente: una persona u organización que es cliente de una nube: observes que un cliente de una nube puede ser de una nube y de otras nubes que ofrecen otros servicios

Dispositivo Cliente: Una máquina o aplicación de software que accede a una nube en una conexión de red

Proveedor de la nube o proveedor: una organización que proporciona servicios de la nube

Página –24–




FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST

Página –25–




FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST

Página –26–




FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 1. Autoservicio bajo demanda. El usuario puede acceder

a capacidades de computación en la nube de manera automática a medida que las vaya requiriendo, sin necesidad de una interacción humana con su proveedor o sus proveedores de servicios cloud, con servicios tales como tiempo de servidor y almacenamiento en red.

2. Múltiples formas de acceso a la red. Los recursos son accesibles a través de la red y por medio de mecanismos estándar que son utilizados por una amplia variedad de dispositivos de usuario (p. e. teléfonos móviles inteligentes, laptops,

ulltrabooks, tabletas, PCs de escritorio, estaciones de trabajo, aparatos de

televisión con SmartTV, videoconsolas…). Esta característica también se conoce como acceso ubicuo a la Red

Página –27–




FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 3. Agrupación de recursos. Los recursos de

computación del proveedor se agrupan para servir a múltiples consumidores (almacenamiento, memoria, ancho de banda, capacidad de procesamiento, máquinas virtuales, etc.

y son compartidos por múltiples usuarios, a los que se

van asignando capacidades en forma dinámica según sus peticiones. Existe una independencia de la posición de modo que el cliente generalmente no tiene control ni conocimiento sobre la posición exactas de los recursos proporcionados pero puede ser capaz de especificar la posición a un alto nivel de abstracción (p. e. país, estado o centro de datos). Ejemplos de recursos incluyen almacenamiento, procesamiento, memoria y ancho de banda de red.

Página –28–




FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 4. Escalabilidad - Elasticidad rápida. Los recursos se

provisionan y liberan elásticamente, muchas veces de manera automática, lo que da al usuario la impresión de que los recursos a su alcance son ilimitados y están siempre disponibles en tiempo y cantidad.

5. Pago por uso (Servicio medido). El proveedor es capaz de medir, a determinado nivel, el servicio efectivamente entregado a cada usuario, de modo que tanto proveedor como usuario tienen acceso transparente al consumo real de los recursos, lo que posibilita el pago por el uso efectivo de los servicios.

Página –29–







CARACTERÍSTICAS DE LA NUBE

Página –31–




MODELOS DE NUBE

Página –32–




LA NUBE: DESPLIEGUE DE SERVICIOS

Página –33–




SaaS

Página –34–




SaaS El término software como servicio se refiere esencialmente al

software residente (instalado) en la nube, aunque no todos los sistemas SaaS son sistemas instalados en la nube, si son

la mayoría. SaaS (Software as a Service) es la evolución natural del término software bajo demanda (Software on demand) por el que era conocido hace unos años y cuyo representante más

genuino es salesforce.com, una

empresa que proporciona software de gestión empresarial (CRM)

Página –35–




SaaS

SaaS es un modelo de software basado en la Web que provee el software totalmente disponible a través de un navegador web. Las

aplicaciones son accesibles desde diferentes dispositivos cliente a través de una interfaz cliente ligera tal como el citado navegador (p.e correo electrónico basado en web).

Aplicaciones típicas: Gmail, Google

Apps, ZOHO, Windows Office 365, Salesforce.com, Evernote… …

Página –36–




Plataforma como servicio PaaS En el modelo de plataforma como servicio, el

proveedor ofrece un entorno de desarrollo a los desarrolladores de aplicaciones, quienes desarrollan aplicaciones y ofrecen sus servicios a través de la plataforma del proveedor.

El proveedor normalmente ofrece para el desarrollo “kits de herramientas (toolkits) lenguajes de programación, herramientas y estándares de desarrollo y canales de distribución y pago” y recibe un pago por proporcionar la plataforma y los servicios de distribución y ventas.

Página –37–




Plataforma como servicio PaaS Microsoft Azure

Google Application Engine (GAE)

Salesforce.com …. Plataforma FORCE

Página –38–




Infraestructura como servicio (IaaS)

El modelo IaaS proporciona la infraestructura necesaria para ejecutar aplicaciones. Este modelo ofrece espacio de

almacenamiento, capacidad de proceso, servidores

y otro equipamiento físico, en pago por uso. Puede

incluir también, la entrega de sistemas operativos, redes y tecnología de virtualización para gestionar los recursos, en donde dicho consumidor es capaz de desplegar y ejecutar software

especifico que puede incluir sistemas operativos y aplicaciones. -- ARSYS, AWS de Amazon, IBM Cloud. Cisco, EMC,

Página –39–




PROVEEDORES DE IaaS

Cisco, EMC, VMware

Citrix

NetApp

Microsoft

Google

Amazon AWS, IBM Cloud,

ARSYS, Acens, Telvent, Interxion …

UCS Cloud Services…

Página –40–




MODELOS DE DESPLIEGUE SERVICIOS EN LA NUBE

Página –41–




Modelos de servicio de la nube

Página –42–




MODELOS DE DESPLIEGUE

. Por otra parte los modelos de despliegue que se pueden implementar en las organizaciones y empresas son:

nube privada, nube comunitaria, nube pública y nube híbrida, aunque el modelo de

nube comunitaria que propone el NIST no ha

sido muy aceptado por la industria informática y los tres modelos más aceptados en la bibliografía técnica, proveedores, organizaciones y empresas son:

privada, pública e híbrida, taxonomía que también nosotros proponemos.

Página –43–





1. Nube privada. La infraestructura de la nube se

provisiona para uso exclusivo de una único organización comprendiendo múltiples consumidores. Los servicios de la nube no se ofrecen al público en general. La infraestructura es íntegramente gestionada por una organización.

2. Nube pública. La infraestructura es operada

por un proveedor que ofrece servicios al público en general. Puede ser administrada, operada y de propiedad de una organización académica, empresa o gobierno, o alguna combinación de ellas. Existe en la propia infraestructura (on premises) del proveedor de la nube.

Página –44–





3. Nube híbrida. La infraestructura de la nube es una combinación de dos o más nubes individuales que pueden ser a su vez propias, comunitarias o públicas que permanecen como entidades únicas, pero permite portar datos o aplicaciones entre ellas.

Página –45–





4. Nube comunitaria. Una nube comunitaria

(community) es aquella nube que ha sido organizada para servir a una función o propósito común de una comunidad de consumidores. Puede ser para una organización o varias organizaciones, pero que comparten objetivos comunes como su misión, políticas, seguridad, necesidades de cumplimientos regulatorios (compliances). Una nube de comunidad puede ser administrada por la organización u organizaciones constituyentes o bien por terceras partes. Este modelo sólo suele ser recogido por el NIST; la mayoría de organizaciones, asociaciones, relacionadas con la nube, dividen los modelos de despliegue en tres: pública, privada e híbrida

Página –46–




Cloud Gis Esri

Página –47–




Cloud Storage

Un caso de estudio: Nirvanix. Los datos del cliente se replican en dos o tres centros de datos

Amazon, Gmail, en España varias empresas proveedoras , han tenido caídas de varias horas que afectó a las aplicaciones web de sus clientes. Algunas

causas: elevado número de peticiones simultáneas de autenticación. Amazon aseguró que el incidente no provocó la pérdida de ningún dato, ya que almacena múltiples copias de cada objeto en varios emplazamientos

Hay que considerar la posibilidad de que los datos sean robados o

consultados por personas no autorizadas. Quizá sea mejor no confiar en cloud storage los datos y aplicaciones críticos

para la actividad de la empresa hasta que los proveedores hayan eliminados estos riesgos potenciales.

Página –48–




Servicios OnLine (Almacenamiento Web). Gratuitos / Pago

Strato, 5 GB gratis (Proveedor de Cloud con implantación mundial)

Dropbox (ofrece 2 GB gratuitos que se pueden convertir en 8-

16 GB si se invita a otros contactos y utilizan el programa)

Box.com (5 GB gratis); SkyDrive de Microsoft (7- GB gratuitos)

Wuala (Lacie… www.wuala.com/es..., 2GB como Dropbox) ;

GlideOs (50 GB gratuitos), SugarSync (5 GB)

Amazon Drive (5GB gratuitos; 20 GB por compra de un álbum de

MP3) y Amazon S3 (Almacenamiento IaaS, GB a TB e incluso PB).

iCloud (5 GB gratuito clientes)

, …

Página –49–




OTROS MODELELOS DE SERVICIOS. Computación en la nube, Joyanes (p. 82-85)

Almacenamiento como servicio

Bases de datos como servicio

Información como servicio

Procesos como servicio

Integración como servicio

Seguridad como servicio

Gestión y gobierno como servicio

Pruebas como servicio

…

Página –50–




VIRTUALIZACIÓN DE SERVICIOS.

Computación en la nube, Joyanes (p. 151-160)

Escritorios Virtuales

Servidores virtuales

Centralitas U-PBX

Call Centers

Redes

Servicios TIC en general

Página –51–




ESCRITORIOS VIRTUALES

Un escritorio virtual (WebTop) es un espacio virtual vía Web, al cual puede acceder el usuario remotamente a sus datos, ejecutar programas, crear o modificar documentos, editar o reproducir archivos y prácticamente todas aquellas funciones que hace normalmente desde su equipo

Un servidor Web pone a disposición cierta capacidad de almacenamiento para los usuarios que mediante registro y sus correspondientes permisos, acceden a un espacio virtual o cuenta de usuario en donde alojan una copia de sus datos

Página –52–




Web Desktop… Escritorios virtuales IDÓNEOS EN EDUCACIÓN,

ADMINISTRACIÓN PÚBLICA, PYMES…

Las prestaciones son las básicas: procesador de texto, reproductor multimedia, navegador, gestor de correo, y otras menores, como agenda, calendarios, etc.

Lo más interesante el la función de almacenamiento de cualquier tipo de archivo, siempre y cuando no se exceda la capacidad ofrecida y la disponibilidad para acceder y trabajar con ellos.

Página –53–




¿Qué es la tecnología VDI? El ESCRITORIO VIRTUAL es una de las tecnologías

del cloud computing, y es una de las que más van a

cambiar la forma en que trabajamos.

Básicamente, la tecnología de escritorio virtual VDI (virtual desktop infrastructure) resulta de la

confluencia de dos tecnologías, la tecnología de virtualización de servidores, y la tecnología de escritorio remoto. Aunque comparte mucho de ambas, tiene sus propias características . Esta tecnología no es nueva, ya que fabricantes como CITRIX ya hace más de diez años que disponen de productos en el mercado, pero en este momento se puede decir que ha alcanzado un grado de plena madurez.

Página –54–




Ventajas del Escritorio Virtual (organización)

Mejora y simplifica la gestión de los PC de escritorio. Puesto que básicamente son todos iguales,

y no tienen disco duro local, se reducen enormemente las averías, y las reparaciones son mucho más sencillas y rápidas. Todo ello, además de mejorar el servicio, reduce los costes de mantenimiento.

Reducen el coste de inversión en PC, pues el

Thin Client tiene una vida útil mucho más larga, ya que dependen menos de las evoluciones de los sistemas operativos y de las aplicaciones.

Página –55–




Ventajas del Escritorio Virtual (organización) Permiten reutilizar equipos PC existentes, alargando la

vida útil de los mismos, lo que es otro factor de reducción de costes adicional.

En ocasiones es posible obtener también ahorro en licencias de software de los PC, si éstas tienen en cuenta el uso concurrente en los equipos.

Simplifican también la evolución obligada como consecuencia de la obsolescencia, por ejemplo las migraciones de la gran cantidad de equipos actualmente con Windows XP, cuya vida útil soportada está a punto de finalizar.

ahorro energético de los equipos, si se utiliza la solución basada en thin client.

Página –56–





Permiten abordar soluciones de virtualización y servicios cloud sobre aplicaciones heredadas, típicamente cliente/servidor.

Mejoran la seguridad de la información al no

contener datos locales que puedan ser robados o dañados por averías.

Como parte de un Plan de Continuidad de Negocio (BCP), permiten mantener operativos los

puestos de trabajo de los empleados en caso de desastre, que afecte a alguna de las sedes de la organización

Página –57–




Ventajas del Escritorio Virtual (Usuarios)

Al haber menos averías y ser las reparaciones mucho más rápidas, aumenta la productividad de los trabajadores derivada de las averías de sus PC, pues las interrupciones por este motivo son mucho menores.

Se elimina la pérdida de datos del usuario por averías de los discos locales del PC.

Habilita la movilidad del trabajador, facilitando la continuidad de los trabajos realizados, por ejemplo para el caso de los teletrabajadores a tiempo parcial. También facilita la movilidad de los trabajadores entre sedes y edificios corporativos.

Página –58–




CONCLUSIONES ESCRITORIO VIRTUAL En esencia, la virtualización de escritorio se basa en la

creación de un PC virtual una máquina virtual que se ejecuta en un servidor de virtualización (VDI Server), cuyas características (memoria, CPU, disco, etc.) son las típicas de un PC, con un sistema operativo, y de un sistema de comunicaciones que permite acceder a este PC virtual desde la distancia.

Para este acceso, se puede utilizar cualquier PC que ejecute el software de cliente de terminal remoto, o bien un equipo especializado que dispone del software de terminal remoto, “cliente ligero” (Thin Client), que consiste en procesador, memoria, y periféricos, y un sistema operativo empotrado, que únicamente sirve para arrancar el equipo e iniciar sesión en un servidor de VDI.

Página –59–





Para el usuario, y por supuesto en un sistema correctamente configurado, tanto en el servidor como en el cliente como en la red de comunicaciones que los une, el sistema y su manejo se parecen mucho a un PC tradicional. No obstante, los discos duros de este PC virtual ya no están en su ordenador, sino en el servidor de virtualización, es decir, si su dispositivo se avería o se extravía, no se pierden los datos guardados en estos discos locales. Por otra parte, es posible iniciar sesión desde varios lugares, bien remotamente, bien localmente, en aquellos dispositivos que tengan la conectividad y el software apropiado, lo que permite la continuidad de los trabajos iniciados en un lugar desde otro distinto.

Página –60–




ESCRITORIOS VIRTUALES

eYEos 2.5 (//www.eyeos.org/es) … GRATUITO… blog.eyesos.org

Sistema operativo orientado 100% a la Nube.

Escritorio virtual compatible con las principales

aplicaciones ofimáticas. Permite sincronizar con datos locales utilizando eyeOS Gala Sync. Reproduce video y audio. Cliente FTP, juegos, correo.-e y navegador .

Funciona con software libre y si se instala en un servidor propio se pueden añadir múltiples aplicaciones. Se instala y ejecuta en el propio

servidor, basta con contar con APACHE Y PHP.

Página –61–




Glide OS

Página –62–




MultiTabber

Página –63–




CubeDesktop

En el mercado hay muchos programas, de pago y gratuitos, que

te proporcionan varios escritorios virtuales para organizar mejor

tus ventanas y disponer de más espacio. Pero, ¿qué te parecería

poder ver el contenido de tus escritorios como si de un cubo se

tratara , Se requiere una tarjeta con aceleración 3D.

CubeDesktop crea hasta 6 escritorios virtuales accesibles

desde la bandeja de sistema, mediante combinaciones de

teclas o desde las esquinas de la pantalla con distintos efectos

en tres dimensiones.

Página –64–




Dexpot (Softonic)

Dexpot multiplica el área de pantalla del monitor hasta por veinte,

gracias a la creación y gestión de una serie de escritorios virtuales con los

que podrás mejorar sensiblemente tu capacidad de trabajo y organización

con el PC.

Dexpot coloca un icono en la bandeja de sistema desde el que puedes acceder a

todos tus escritorios virtuales, así como a las opciones de configuración del

programa, gestor de escritorios, lista de ventanas en cada uno de ellos, reglas de

escritorios, herramientas y demás. El sistema te permite copiar o mover ventanas

de un escritorio a otro. Cada uno de ellos es totalmente independiente, y puede

tener su propio fondo de pantalla, resolución e iconos.

Es uno de los gestores de múltiples escritorios más completos y a la vez más

sencillos de usar.

Página –65–




Página –66–




RETOS Y OPRTUNIDADES DE LA NUBE Los conceptos público y privado de la

informática en nube deben facilitar las relaciones entre los proveedores y los clientes mediante las tasas acordadas previamente o gratuitas, en su caso, pero siempre las ofertas comerciales deben cumplir la calidad de los requisitos de servicio de los clientes y normalmente ofrecer acuerdos de nivel de

servicio, tipo SLA (Service Level Agreements).

Página –67–




RETOS Y OPORTUNIDADES DEL CLOUD COMPUTING Privacidad de los datos. El peligro aumenta

cuando los datos se alojan en “la nube”, Los datos pueden residir en cualquier lugar o centro de datos. Esto puede suponer hasta un problema legal ya que las legislaciones de muchos países obligan a que determinados datos deben estar en territorio nacional.

Seguridad. Es necesario tener la mayor seguridad

ante amenazas externas y corrupción de datos. Es importante que los proveedores de servicios garanticen transparencia, confianza y la realización de auditorías a los sistemas de información.

Página –68–




RETOS Y OPORTUNIDADES DEL CLOUD COMPUTING

Licencias de software. Es preciso estudiar la

compatibilidad del software bajo licencia con el software en la nube.

Interoperabilidad. Es preciso que esté

garantizada la interoperabilidad entre todos los servicios-

SLA (Services Level Agreement). Es necesario el cumplimiento de acuerdos a nivel de servicio (SLA) antes de confiar a una empresa las aplicaciones de la misma.

Aplicaciones. Es necesario tener presente que las aplicaciones del modelo “cloud computing” deben estar diseñadas de modo que se puedan dividir entre múltiples servidores.

Página –69–




Consejos antes de confiar los datos de su empresa a un proveedor externo ¿Quién puede ver los datos? En muchas

empresas y organizaciones, los correos-e de los empleados son privados y no pueden verse más que con sentencia judicial. Los rastros de navegación de los usuarios, las búsquedas realizadas, etc… ¿Cómo se garantiza la privacidad?

¿Qué pasa si no se paga la factura mensual, anual,…? Se pueden borrar bruscamente todos los

datos del cliente por este motivo.

Página –70–




Consejos antes de confiar los datos de su empresa a un proveedor externo ¿Hace la nube copia de seguridad de sus

datos? ¿Qué sucede si se pierden? ¿Existe un contrato de garantía? Si su

proveedor se introduce en su negocio, cómo se garantiza la libre competencia y el no uso de información privilegiada.

¿Cómo le tratará la “nube” ante hábitos normales? ¿Se puede discriminar por razón de raza, sexo, religión, nacionalidad,…? ¿se puede infringir el copyright? ¿Qué sucede con la licencia copyleft de Creative Commons?

Página –71–




RIESGOS DE LA NUBE

Caidas del sistema «fallos de hardware/software»

Temor a la pérdida de datos

Falta de privacidad

Mercado no consolidado, aunque los proveedores son los grandes del mundo del software, por ahora.

…

Página –72–




¿CÓMO AFRONTAR LA MIGRACIÓN A LA COMPUTACIÓN EN NUBE? Recomendaciones para migrar

a la Nube

La computación en la Nube en España y resto del mundo.

Página –73–




EMPRESAS QUE HAN MIGRADO A LA NUBE

El Banco español BBVA. A principios de 2012 firmó una

alianza con Google para comenzar a utilizar el servicio Google Apps (especialmente correo-e, agenda, etc) de la nube de Google en todas sus sucursales de España, Latinoamérica y Caribe, y resto países donde tiene presencia.

La OMT (Organización Mundial del Turismo) también a primeros de 2012 firmó un acuerdo para implantar las soluciones de Nube de Microsotf en su sede central de Madrid y paulatinamente resto del mundo y recomendaciones a agencias de viaje, hoteles…

Bastantes universidades españolas también han cerrado acuerdos con Google para la solución de la Nube (correo-e)

Página –74–




Estrategias de Cloud Computing de la Unión Europea, septiembre de 2012

En septiembre de 2012, la Comisión Europea adoptó la

Estrategia Europea de Cloud Computing con

ello busca habilitar y facilitar la adopción de las tecnologías Cloud Computing en todos los sectores de la economía como palanca de productividad, crecimiento y empleo. En esta estrategia, juega un papel angular el impulso y adopción del nuevo modelo de servicios TI por el sector público.

Página –75–




Comisión Europea publica la Estrategia de Cloud-Computing (diciembre 2012)

Objetivo principal: creación de empleo y de riqueza.

Para la Comisión, las nuevas estimaciones señalan que, si

la política tiene éxito, los ingresos procedentes de la computación en nube en la UE podrían ascender en 2020 a casi 80 000 millones EUR (lo que supondría más que duplicar el crecimiento

del sector). Es decir, que con esta estrategia se estaría creando un nuevo sector y se podría hacer frente a la competencia, en especial de los EEUU.

Página –76–




Estrategia Europea de Cloud Computing de la Comisión Europea La Estrategia Europea de Cloud Computing de la Comisión

Europea está recogida en la comunicación «Liberar el potencial de la computación en nube en Europa»*. Se proponen medidas para obtener 2,5 millones de nuevos puestos de trabajo en Europa, así como un incremento anual del PIB en la Unión igual a 160.000 millones de euros (en torno a un 1 %) de aquí a 2020. Acciones claves de la estrategia son *http://administracionelectronica.gob.es/?_nfpb=true&_pageLabel=P480245061355221561934&langPae=es

Fuente: http://europa.eu (29 de septiembre de 2012)

Página –77–




Estrategia Europea de Cloud Computing de la Comisión Europea

Clarificación de normas y estándares Los trabajos en éste ámbito se desarrollarán durante 2013. La

Comisión trabajará con el apoyo de ENISA y otros órganos

pertinentes para ayudar al desarrollo de toda la UE esquemas voluntarios de certificación así como una lista de dichos programas en 2014.

Creación de términos justos de contratación

Establecimiento de un Partenariado Europeo de Cloud Computing. El European Cloud Partnership (ECP) reúne a expertos de la industria y de los usuarios del sector público para trabajar en los requisitos de contratación comunes para la computación en nube en forma abierta y completamente transparente.

Página –78–




Estrategia Europea de Cloud Computing de la Comisión Europea

En este sentido, si se desarrolla la totalidad de la estrategia sobre la nube, se prevén unos ingresos anuales suplementarios netos en la UE de 160 000 millones EUR para 2020 (o unos ingresos totales de casi 600 000 millones entre 2015 y 2020). De lo contrario, el incremento económico sería inferior en dos tercios.

Los beneficios procederían del ahorro que las empresas podrían realizar o de la productividad que podrían alcanzar gracias al acceso a la tecnología.

Por lo que se refiere al empleo, es de prever la generación de 3,8 millones de puestos de trabajo tras un despliegue completo de la estrategia (frente a 1,3 millones si no se eliminan las barreras legislativas, políticas o de otro tipo).

Página –79–




Estrategia Europea de Cloud Computing de la Comisión Europea Por otro lado, la adopción del cloud computing

podría llegar a generar en Europa 2,5 millones de nuevos puestos de trabajo y potenciar la economía de la región en us$ 160.000 millones anuales para 2020, según la Comisión Europea. Para conseguir tal objetivo, el ETSI (European Telecommunications Standards Institute) está trabajando en definir estándares de calidad para facilitar la portabilidad de datos y la interoperabilidad en 2013. Además del potencial del cloud, la migración a la nube propiciará la homogeneización de leyes de protección de datos a escala europea y la legislación sobre ciberseguridad.

Página –80–




PRIORIDADES DE LA CE EN CLOUD Cloud computing y empleo TIC, entre las

prioridades de la Comisión Europea para el periodo 2013-2014

Entre las nuevas prioridades destacan aquellas relacionadas con el cloud computing y con las competencias digitales y el empleo.

En materia de cloud computing, la Comisión Europea promocionará la computación en nube mediante el poder de compra del sector público. En este

sentido, pondrá en marcha acciones piloto en la nueva Asociación Europea de Computación en Nube (AECN) para,

apoyándose en el poder de compra público, contribuir a crear el mayor mercado de TIC relacionadas con la nube del mundo, desmantelando los actuales reductos nacionales y las percepciones negativas de los consumidores.

Página –81–




Estudio de ONTSI para España, mayo 2012

Estudio “Cloud Computing. Retos y oportunidades”, que ha elaborado el Observatorio Nacional

de las Telecomunicaciones y la SI (ONTSI), con la asistencia técnica de Deloitte, para analizar la situación actual y el impacto que está teniendo el cloud computing en España.

El impacto que tendrá sobre la inversión y el mantenimiento de empleo y, que se prevé puede alcanzar los 65.000 puestos de trabajo en un año. Iimplica que la generación de PIB derivada del cloud computing por empleo mantenido es de 46.700 euros / empleo, lo que significa que el aporte de la industria cloud a la economía española es muy ventajoso.

Página –82–




EL MERCADO DE CLOUD EN LATINOAMÉRICA Según la consultora internacional IDC (marzo 2013), el

mercado del cloud computing en Latinoamérica se puede valorar en US$ 280 millones y tendrá una tasa de crecimiento anual de un 70% entre el 2012 y 2016.

La empresa IDC confirmó que el cloud computing es un factor clave de crecimiento del gasto en tecnologías en los próximos cinco años. El estudio muestra que el gasto global de los proveedores de servicios cloud en hardware de almacenamiento, software y servicios profesionales se incrementará un 23,6% anual de aquí al 2015. Mientras que el gasto en almacenamiento en entornos de nubes privadas tendrá un crecimiento anual del 28,9% en el período estudiado.

Página –83–




EL MERCADO DE CLOUD EN LATINOAMÉRICA

En el marco del Kloud Camp 2012, un evento

educativo organizado por KIO Networks para compartir conocimientos sobre la nube, se dieron a conocer cifras sobre el futuro del cloud computing en América Latina con datos obtenidos por IDC, empresa dedicada a estudios de mercado.

Entre los datos divulgados se encuentra que la inversión en servicios de tecnologías de la información (TI) en la nube generarán 214.412 empleos en México para 2015, una cifra que contrasta notoriamente con los 44.505 plazas laborales que se espera lograr durante 2012; es decir, habrá un crecimiento del 382%.

Página –84–




EL MERCADO DE CLOUD EN LATINOAMÉRICA En América Latina se espera que Brasil, México y

Argentina generen más de 700 mil nuevos empleos relacionados con el cómputo en la nube para la misma fecha. A nivel mundial, la expansión de esta tendencia debería haber logrado 14 millones de empleos entre 2011 y 2015.

En estos países, las industrias que se verán más beneficiadas por el uso de la nube serán: comunicación y medios de comunicación, con 2.4 millones de empleos; bancos, con 1.4 millones de empleos, y manufactura, con 1.3 millones de empleos.

Página –85–

86 86

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNNIA


BIG DATA El universo digital de datos




LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito

y Nubes (clouds) de procesadores

Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.

Because in the era of big data, more isn´t just more. More is different

Página –87–




LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebook cada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos)

Página –88–




http://www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –89–




Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –90–

http://boscolg.wordpress.com/2012/11/16/big-data-como-la-avalancha-de-datos-se-ha-convertido-en-un-importante-beneficio/tabla/




El Universo Digital – EMC / IDC

Página –91–




El Universo Digital – EMC / IDC

Página –92–




OPEN DATA (Datos abiertos)

Página –93–





Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos.

Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos.

Página –94–





Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas

¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio

Página –95–





La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa.

En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco.

Página –96–





La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano.

Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros.

Página –97–




INICIATIVAS PIONERS INTERNACIONALES EN OPEN DATA

En España… además de los gobiernos autonómicos

de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org)

En Estados Unidos data.gov

En Gran Bretaña data.gov.uk En Google (presentación la semana pasada, abril

2011, del número 1) la revista de negocios

//thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA

En la Unión Europea (Iniciativa OPEN DATA)

Página –98–

99 99

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS


EL PROCESAMIENTO DE

BIG DATA Y ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, “In-Memory”…




Página –100–




Página –101–




LA AVALANCHA DE DATOS

Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –102–




EL UNIVERSO DIGITAL DE DATOS

Página –103–




LA AVALANCHA DE DATOS

Twitter: (redes sociales)

90 millones de Tweets por día que representa 8 Terabytes.

Boeing: (industria)

Vuelo transoceánico de un jumbo puede generar 640 Terabytes.

Wal-Mart: (comercio)

1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.

Google procesa al día 20 petabytes de información

Página –104–




Estructura de Big Data: tipos de datos

Estructurados

No estructurados No estructurados (texto, datos de vídeo, datos de audio,,,)

Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –105–




Bases de datos

In-Memory (en-memoria)

SAP Hana

Oracle Times Ten In.Memory Database

IBM solidDB

Relacional

Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…

Transeferencia de datos entre Hadoop y bases de datos relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

In-Memory (SAP, Oracle, Microsoft…)

Página –106–




1. Almacenamiento

Hacen falta nuevas tecnologías de almacenamiento

RAM vs HHD

HHD 100 más barato que RAM

Pero 1000 veces más lento

Solución actual:

Solid- state drive (SSD) además no volátil

Investigación:

Storage Class Memory (SCM)

Página –107–




2. Base de datos

Las BD relacionales no pueden con todo

Base de datos

volumen de la información

GBs

PBs Tiempo de ejecución

Limitadas para almacenar “big data”

(ACID, SQL, …)

ACID: Atomicity, Consistency, Isolation & Durability

Página –108–




2. Bases de datos

In-Memory (en-memoria) SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

NoSQL (Not only SQL)

Relacional Sistemas RDBMS

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (heredadas, antiguas…)

Página –109–




3. Procesado

Se requieren nuevos modelos de programación para manejarse con estos datos

Solución: Para conseguir procesar grandes conjuntos de

datos: MapReduce

Pero fue el desarrollo de Hadoop MapReduce,

por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce

Página –110–




4. Obtención de valor los datos no se pueden comer crudos la

información no es conocimiento accionable

Para ello tenemos técnicas de Data Mining • Asociación

• Clasificación

• Clustering

• Predicción

• ...

Pero la mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.

Página –111–




Arquitectura de BIG DATA La explosión creciente de grandes volúmenes de datos está configurando en unión

con la implantación de cloud computing nuevas tecnologías y herramientas para la gestión y dirección de Big Data.

Tecnologías como Bases de Datos NoSQL, Bases de datos

“in-memory”, unido a frameworks en torno a Hadoop, MapReduce y otras soluciones de big data, requieren

especialistas en esta tecnologías

Proveedores como Cloudera, Hortonwork, etc. están

ofreciendo soluciones de Big Data que cada día más populares

Soluciones como HANA de SAP, InfoSphere de IBM, Exadata/Exalytics de Oracle, EMC, Teradata, Microsoft … se requieren para hacer frente a las avalanchas de datos. …

Página –112–




BASES DE DATOS ANALÍTICAS

Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Bases de datos de procesamiento paralelo masivo (MPP)

Bases de datos “en memoria”

Almacenamiento en columnas Históricamente estas bases de datos tan especializadas

tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de

cada organización.

Página –113–




Bases de datos analíticas

Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.

Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:

Almacenamiento en columnas en lugar de filas (registros)

Massively parallel processing (MPP)

In-Memory Analytics

Página –114–




In-Memory Computing (IBM)

In-memory computing is a technology that allows the processing of massive quantities of data in main memory to provide immediate results from analysis and transaction. The data to be processed is ideally real-time data (that is, data that is available for processing or analysis immediately after it is created).

To achieve the desired performance, in-memory computing follows these basic concepts:

Página –115–





Keep data in main memory to speed up data access.

Minimize data movement by leveraging the columnar storage concept, compression, and performing calculations at the database level.

Divide and conquer. Leverage the multi-core architecture of modern processors and multi-processor servers, or even scale out into a distributed landscape, to be able to grow beyond what can be supplied by a single server.

Las bases de datos en memoria de SAP HANA utilizan diferentes tecnologías in-memory

Página –116–





2.1 Keeping data in-memory

Today, a single enterprise class server can hold several terabytes of main memory. At the same time, prices for server main memory dramatically dropped over the last few decades. This increase in capacity and reduction in cost makes it a viable approach to keep huge amounts of business data in memory. This section discusses the benefits and challenges.

2.1.1 Using main memory as the data store

The most obvious reason to use main memory as the data store for a database is because accessing data in main memory is much faster than accessing data on disk. Figure 2-1 compares the access times for data in several locations.

Página –117–





Keep data in main memory to speed up data

access.

Minimize data movement by leveraging the

columnar storage concept, compression, and performing calculations at the database level.

Divide and conquer. Leverage the multi-core

architecture of modern processors and multi-processor servers, or even scale out into a distributed landscape, to be able to grow beyond what can be supplied by a single server.

Las bases de datos en memoria de SAP HANA utilizan diferentes tecnologías in-memory

Página –118–




Página –119–




Illustration of dictionary compression

Página –120–




Row-based and column-based storage models: IBM

Página –121–




Almacenamiento por filas vs columnas

Página –122–




Almacenamiento en columnas, no filas: FUENTE: datalytics.com

Página –123–




Computación en memoria “In-Memory”

La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).

Existen un amplio conjunto de tecnologías que emplean

bases de datos en memoria. SAP HANA es una de las

más acreditadas y populares… (Oracle, IBM,…)

Página –124–




Categorías de bases de datos en BIG DATA

El concepto de base de datos que utilizábamos hasta hace 2 años HA

CAMBIADO. Distintos tipos de bases de datos, para distintos tipos de necesidades.

Bases de datos transaccionales: para almacenar

información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)

NoSQL: para capturar de manera segura y escalable, grandes

volúmenes de información continua generados por eventos.

Analíticas (In-Memory): para permitir a múltiples

usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Hadoop (HDFS & Hive): para almacenar y procesar

grandes volúmenes de información estructurada o semi-estructurada.

Página –125–




Bases de datos

In-Memory (en-memoria) SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)

Página –126–




BASES DE DATOS RELACIONALES (REPASO)

La mayoría de las bases de datos cumplen con las

propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un

comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.

Página –127–





Atomicidad (Atomicity) garantiza que las

transacciones (sean una consulta, o grupos de sentencias SQL) no se puedan subdividir, es decir, se ejecutaran totalmente, o no se ejecutaran.

Esta propiedad implica que en caso de fallo de hardware, fallo de la base de datos, o fallo de la aplicación, se actualizarán todos los datos o ninguno y se impide que la base de datos se corrompa o pierda el sincronismo lógico entre los datos.

Página –128–





Consistencia (Consistency). Garantiza que la

base de datos siempre estará en un estado consistente. De hecho, garantiza que cada transacción lleve a la base de datos de un estado consistente a otro estado consistente. En este caso, consistencia se refiere a la consistencia interna de relación entre tablas, y la consistencia en los datos almacenados. La propiedad de consistencia no permitiría guardar un entero en un campo float, o no permitiría borrar una fila que es referenciada por otra.

Esta última forma de consistencia se le llama integridad referencial.

Página –129–





Aislamiento (Isolation). Garantiza que los datos

de una operación no puede afectar a otra.

Cuando se ejecutan dos transacciones sobre los mismos datos, estas son independientes, de esta manera no se generan errores en ninguna de las dos transacciones. Esto hace que los datos que manejan cada una de las transacciones no estén disponibles hasta que la transacción ha finalizado. Generalmente esto se consigue con bloqueos

Página –130–





Durabilidad (Durability). Garantiza que una vez que la transacción se haya completado, siempre se podrá recuperar independientemente de cualquier fallo de hardware o software.

Una vez la base de datos manda la señal de que la transacción ha sido ejecutada correctamente, se puede tener la certeza de que esa transacción esta aplicada correctamente a los datos y se va a poder recuperar. La mayoría de las bases de datos utilizan un log de transacciones, y no consideran que una transacción esta

completada hasta que no esté escrita en el log.

Este log secuencial permite recuperar los datos de la transacción en

caso de un fallo del sistema, y de esta forma asegurar la consistencia de los datos.

Página –131–




BASES DE DATOS TRANSACCIONALES Utilizadas en la mayoría de las empresas en la actualidad

Motores transaccionales, diseñados y desarrollados para soportar transacciones y trabajar con pocos registros por operación.

Las soluciones de Business Intelligence involucran cientos de miles (e inclusive millones) de registros en una única operación, y deben responder en un tiempo adecuado.

Las bases de datos transaccionales no fueron diseñadas para responder a consultas analíticas sobre grandes volúmenes de información. La irrupción de Big Data comienza a dejar en evidencia estas carencias, debiendo utilizar complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de desarrollo y mantenimiento, obteniendo tiempos

Página –132–





Las bases de datos relacionales funcionan con el lenguaje SQL (Structured Query Language)

Conceptos clave: creación de bases de datos, organización de esquemas de datos, normalización, creación de índices y optimización de instalaciones.

Las bases de datos relacionales permiten separar la capa de datos de la capa de aplicación. Al cumplir el estándar SQL son intercambiables entre sí (en su mayor parte) y permiten un acceso rápido y fiable a los datos.

Página –133–




BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas

Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.

Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).

Página –134–




BASES DE DATOS NoSQL Distintos tipos de bases de datos para distintos tipos de aplicaciones:

documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL:

para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.

Características

SQL: Sin (o muy poco) soporte para SQL.

Datos accedidos a través de programas Java, no consultas

ACID: Sin integridad referencial, poco soporte transaccional

Definición de estructuras de datos flexibles (sobre la marcha)

Página –135–




BASES DE DATOS NoSQL Beneficios

Facilidad de escalamiento horizontal (clusters baratos)

Almacenamiento de grandes volúmenes (no generan cuellos de botella)

Excelentes para lecturas masivas de registros tipo clave/valor.

Desafíos…

Son de distintos vendedores y no están integradas

Estos tipos de DBs se utilizan por lo general en conjunto

Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL!

Dependencia de sistemas: vuelta a las raíces?

Página –136–




Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su

implementación son los siguientes:

– Almacenes de Clave-Valor

– Almacenes de Familia de Columnas (columnares)

– Almacenes de documentos (orientadas a documentos)

– Almacenes de Grafos (orientadas a grafos)

- Cachés de memoria

Página –137–




SOLUCIONES DE BASES DE DATOS NoSQL

Página –138–

139 139

INGENIERÍA INFORMÁTICA


Tecnologías BIG DATA

HADOOP




Logo de HADOOP

Página –140–




Logo de HADOOP

Página –141–




Fundación Apache: proyectos open source

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good


Página –142–




Fundación Apache: proyectos open source


The Apache projects are defined by collaborative consensus based processes, an open, pragmatic software license and a desire to create high quality software that leads the way in its field

Community-led development since 1999.

We consider ourselves not simply a group of projects sharing a server, but rather a community of developers and users.

Página –143–




Historia de Hadoop: Doug Cutting

Página –144–




TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que el

mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de

Google crecerá a un ritmo anual de más del 60% hasta el año 2016.

La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.

IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Página –145–




Hadoop

“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”

De la página de Hadoop

Página –146–




Componentes fundamentales de Open Source

Apache Hadoop (biblioteca de software de open source)

Apache Hadoop consta de los siguientes subproyectos

HDFS (Haoop Distributed File System)

MapReduce

Hadoop Commons

y de las siguientes tecnologías

Hbase

Hive

Pig

Otras

Página –147–




TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que

provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusters construidos con hardware genérico. En esencia, Hadoop consta de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre “Hadoop” no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce.

Página –148–




What Is Apache Hadoop? (Fundación Apache)

The Apache™ Hadoop® project develops open-

source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-avaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.

Página –149–




Historia de HADOOP ● 2004-2006

– Google publica los papers de GFS y MapReduce

– Doug Cutting implementa una versión Open Source en

Nutch

● 2006-2008

– Hadoop se separa de Nutch

– Se alcanza la escala web en 2008

● 2008-Hasta ahora

– Hadoop se populariza y se comienza a explotar

comercialmente.

Fuente: Hadoop: a brief history. Doug Cutting

Página –150–




Componentes HADOOP (Apache)

The project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

Hadoop YARN: A framework for job scheduling and cluster resource management.

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Página –151–




APACHE HADOOP

Other Hadoop-related projects at Apache include:

Avro™: A data serialization system.

Cassandra™: A scalable multi-master database with

no single points of failure.

Chukwa™: A data collection system for managing large

distributed systems.

HBase™: A scalable, distributed database that supports

structured data storage for large tables.

Página –152–




APACHE HADOOP

Hive™: A data warehouse infrastructure that provides

data summarization and ad hoc querying.

Mahout™: A Scalable machine learning and data

mining library.

Pig™: A high-level data-flow language and execution

framework for parallel computation.

ZooKeeper™: A high-performance coordination

service for distributed applications.

Página –153–




Hadoop

Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.

Está desarrollado en Java y se ejecuta dentro de la JVM.

Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop.

Página –154–




Hadoop Las características principales de Hadoop son:

Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.

• Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.

• Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.

• Confiable: Es capaz de mantener múltiples copias de los datos y

automáticamente hacer un re-despliegue de las tareas

Página –155–




Hadoop

El diseño de Hadoop se divide en dos partes principales:

Por un lado está el sistema de ficheros distribuido

Hadoop Distributed File System (HDFS) que

se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop.

Por otro lado la implementación de MapReduce que se

encarga del procesamiento de la información de forma distribuida.

Página –156–




Integración con Big Data. FUENTE: datalytics.com

Página –157–




Integración con Big Data. FUENTE: datalytics.com

Página –158–




Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en

el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:

Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene a día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 petabytes de información

Amazon A9: Se utiliza para la generar índices de búsqueda de los

productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos

cada uno. Página –159–




Hadoop en la actualidad

The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Terabytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

Además existen compañías cuyo negocio es principal es

Hadoop, como Cloudera, que comercializa CDH

(Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –160–




Distribuciones de Hadoop

Página –161–




Distribuciones de Hadoop

Cloudera

mapR

Hortonworks IBM… ofrece una distribución llamada InfoSphere

BigInsights

Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce

EMC ofrece Greenplus HD

Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure

Página –162–




Massive open online

course (MOOC) Similares a los cursos a distancia impartidos por instituciones universitarias y con certificados.

https://www.coursera.org/

http://www.udacity.com/

https://www.edx.org/




OPORTUNIDADES PARA LATINOAMÉRICA

Despliegue y comercialización de la red de alta velocidad y gran ancho de banda LTE (4G) en la actualidad (Noticia de impacto en CLOUD COMPUTING y Big Data y gran ventaja competitiva)

En Europa está comenzando el despliegue y comercialización este año 2013. En España por

problemas administrativos y técnicos (derivados del

espectro radioeléctrico) como muy pronto parece no empezará la comercialización hasta 2014.

Página –164–




Certificación Cloud Se requieren profesionales cualificados en la nube. A

medida que avanza el uso de los servicios en la nube, se hace más necesario la formación en la materia y por

consiguiente CERTIFICACIONES PROFESIONALES

De igual modo que con los estándares en Cloud Computing, ha crecido el interés de los usuarios por el

término “Cloud Training courses”.

En Octubre, Rackspace creó un curso de certificación en OpenStack, con planes para

lanzar en el futuro otros programas de aprendizaje en la

nube. Certificaciones de Cloudera, Hadoop…

Página –165–




Certificación Cloud CloudStack/OpenStack

Citrix está en el proyecto CloudStack,

Rackspace ofrece servicios de cloud pública basados en OpenStack.

Existen otras alternativas como Eucalyptus, que tienen soporte para conectarse a nubes de Amazon AWS y OpenNebula

Otras certificaciones

Página –166–




NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA El mercado tiene carencia de especialistas en Cloud

Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”..

Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA

Página –167–




NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

Community Manager, Social Media Manager y Analista Web y SEO

Ingeniero de Cloud Computing (En España hay

una universidad privada que lo lanza el próximo curso)

Ingeniero de negocios digitales (Digital Business Intelligence)

Ingeniería en Big Data (Infraestructuras, Bases de

datos NoSQL, Hadoop, Tecnologías “in-memory”…)

Analítica de datos (Analytics) y Analítica de Big Data

Página –168–




LAS TITULACIONES-PROFESIONES MÁS

DEMANDADAS en TIC EN PRÓXIMOS AÑOS

(HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI):

Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas.

LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist)

Página –169–




NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager,

SEO, Analistas Web … cada día son más demandadas y.

Sin embargo la profesión del futuro será:

EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”..

Página –170–




MUCHAS GRACIAS … ¿Preguntas?

Portal tecnológico y de conocimiento www.mhe.es/joyanes

Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com

Twitter:@luisjoyanes

www.slideshare.net/joyanes www.facebook.com/joyanesluis

PORTAL NTICS : luisjoyanes.wordpress.com

CORREO-e: [email protected] UNIVERSIDAD PONTIFICIA DE SALAMANCA – C. MADRID

172


BIBLIOGRAFÍA




BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en

la nube. Estrategias de cloud computing para las empresas. MéxicoDF: Alfaomega.

JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. MéxicoDF: Alfaomega

Colección de libros NTICS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis

Joyanes y publicada en la editorial Alfaomega de México DF. Primeros números en 2012 y 2013: Nº 1. Cloud Computing. Nº 2. Big Data

Página –173–




BIBLIOGRAFÍA BÁSICA

JOYANES, Luis. “Computación en "Nube" (Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?”. Sociedad y Utopía.

UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs. 111-127.

JOYANES, Luis (2009a) “La Computación en Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento” , ICADE, nº 76, enero-

marzo 2009, Madrid: Universidad Pontificia Comillas.

Página –174–




ÚLTIMOS LIBROS DEL prof. LUIS JOYANES

Programación en C/C++, Java y UML. México DF: McGraw-Hill, 2010.

Programación en Java 6. México DF: McGraw-Hill, 2011.

Ciberseguridad. Retos y desafíos para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador

Fundamentos generales de programación. México DF: McGraw-Hill, 2012.

Página –175–




ÚLTIMOS LIBROS DE LUIS JOYANES

Director y Editor de la Colección NTICS (Negocios, Tecnología, Información, Conocimiento y Sociedad) publicada por la editorial AlfaOmega (México DF).

El primer libro está prevista su publicación a finales de 2011 y su título

LA NUBE. El nuevo paradigma del Cloud Computing.

Página –176–




Blogs tecnológicos

TechCrunch (www.techcrunch.com)

Gizmodo (www.gizmodo.com, www.gizmodo.es)

Boing Boing (www.boingboing.com)

Engadget (www.engadget.com)

The Official Google Blog (googleblog.blospot.com)

O´Reilly (www.oreillynet.com)

Slahdot (www.slahdot.com)

Microsiervos (www.microsiervos.com)

Xataca (www.xataca.com)

Google Dirson (google.dirson.com)

Masable (www.mashable.com)

Página –177–




LECTURAS RECOMENDADAS Documentos de Cloud Computing de:

NIST

Cloud Security Alliance

ISACA

ONTSI

BANKINTER – Accenture

ENISA

Cio.com, Computing.es, idc.com/computerworld

Página –178–




BIBLIOGRAFÍA

SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.

FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.

Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)

Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00

Página –179–




BIBLIOGRAFÍA

ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/

ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Página –180–




Página –181–




REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012.

www-01.ibm.com/software/data/bigdata/

Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Página –182–




REFERENCIAS

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –183–




Referencias NoSQL vs. RDBMS

Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS databases", version 10r2

http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:2664632900346253817

NoSQL or not NoSQL? http://www.slideshare.net/ruflin/nosql-or-not-nosql/download

Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

SQL vs. NoSQL. http://www.linuxjournal.com/article/10770

Cassandra. “NoSQL – Not only SQL (Introduction to Apache Cassandra)”. http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-introduction-to-apache-cassandra/#.TtonPmMk6nA

http://www.datastax.com/docs/0.8/dml/using_cql

http://cassandra.apache.org/

Página –184–




REFERENCIAS

Fundación Apache:http://hadoop.apache.org/

Apache ZooKeeper: http://zookeeper.apache.org/

Apache Hive: http://hive.apache.org/

Pig: http://pig.apache.org/

Apache Avro: http://avro.apache.org/

Apache Hbase: http://hbase.apache.org/

Página –185–




REFERENCIAS

[1] “Hadoop Wiki”. http://wiki.apache.org/hadoop

[2] D. Engfer. “Intro to the Hadoop Stack.” http://www.slideshare.net/davidengfer/intro-to-the-hadoop-stack-javamug

[3] C. Zedlewski, E. Collins. “Hadoop Stack: Then, now and future”. http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera

[4] M. Collins. “Hadoop and MapReduce: Big Data Analytics”. Gartner Research, Enero 2011 http://www.gartner.com/id=1521016

Página –186–




LECTURAS RECOMENDADAS

ONTSI. Cloud computing: Retos y oportunidades, mayo 2012. http://www.ontsi.red.es/ontsi/sites/default/files/1-_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf

KING, Rachael (2008): “How Cloud Computing is Changing the World?” en BusinessWeek, New York, 4 august, 2008

LEINWAND, Allan (2008): “It´s 2018: Who Owns the Cloud?” en BusinessWeek, New York, 4 august, 2008

THE ECONOMIST (2008): “Let it rise. A Special report on IT Corporate” en The Economist, London, October 25th 2008.

Página –187–




Blogs tecnológicos

TechCrunch (www.techcrunch.com)

Gizmodo (www.gizmodo.com, www.gizmodo.es)

Boing Boing (www.boingboing.com)

Engadget (www.engadget.com)

The Official Google Blog (googleblog.blospot.com)

O´Reilly (www.oreillynet.com)

Slahdot (www.slahdot.com)

Microsiervos (www.microsiervos.com)

Xataca (www.xataca.com)

Google Dirson (google.dirson.com)

Masable (www.mashable.com)

Página –188–




LECTURAS RECOMENDADAS Documentos de Cloud Computing de:

NIST

Cloud Security Alliance

ISACA

ONTSI

BANKINTER – Accenture

ENISA

Cio.com, Computing.es, idc.com/computerworld

Página –189–