1 1
Prof. Luis Joyanes Aguilar
COMPUTACIÓN EN LA NUBE Y BIG DATA: pilares del Científico de Datos Cloud Computing, Big Data: Data Science Bogotá, COLOMBIA 31 de mayo, 2013
2 2
ESTADO DEL ARTE DE CLOUD COMPUTING
Prof. Luis Joyanes Aguilar
COMPUTACIÓN EN LA NUBE La nueva era de la computación
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas Bogotá, Colombia, 31 de may0 de 2013
Página –3–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas Bogotá, Colombia, 31 de may0 de 2013
Página –4–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas Bogotá, Colombia, 31 de may0 de 2013
LA NUBE: ESE GRAN INVENTO
Página –5–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas Bogotá, Colombia, 31 de may0 de 2013
TENDENCIAS TECNOLÓGICAS DE LA DÉCADA
LAS CONSULTORAS IDC, GARTNER, FORRESTER y otras, están de acuerdo:
Cloud Computing
Social Media (Medios sociales)
Movilidad
Internet de las cosas (objetos)
NFC, Bluetooth, RFID, QR, ZigBee, Sensores…
Big Data
Página –6–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
INTRODUCCIÓN La Nube o la Computación en Nube (Cloud
Computing) es uno de los términos tecnológicos
(buzzwords) que más se repite en todo tipo de medios de comunicación en los tres últimos años. Las empresas, las organizaciones y los negocios en general, están viendo en esta tecnología la resolución de muchos de sus problemas, sobre todo, económicos pero también de infraestructuras tecnológicas.
EL MODELO DE LA NUBE ES UN MODELO DE SERVICIOS COMO LA LUZ, EL AGUA, EL TELÉFONO, EL GAS…
Página –7–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Empresas TIC: IBM, Microsoft, Oracle, Hewlett-Packard, Cisco, EMC, VMWare etc.
Operadoras de telecomunicaciones: europeas (Telefónica, Vodafone, France Telecom, Deutch Telecom, …) , americanas (Verizon, ATT, Telmex...), etc.
Empresas de Internet que ya son, per se, empresas de la nube: Google, Yahoo¡, Amazon o redes sociales, tales como Facebook, LinkedIn, Twitter, Pinterest, Foursquare Tuenti…
Página –8–
COMPUTACIÓN EN LA NUBE
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Pero ¿cómo influirá la computación en nube en la sociedad y en sus campos más sobresalientes: educación, salud, administración pública, organizaciones, empresas, … y en general, en la población? Sin lugar a dudas muy positivamente… en estos momentos muchos sectores de dicha población estamos utilizando la Nube cuando
enviamos un correo electrónico por Gmail, Yahoo o Hotmail, escuchamos música en Spotify (el
innovador servicio sueco de streaming audio, oír música
sin descarga), vemos una fotografía en Flickr o
consultamos nuestra posición geográfica en Google Maps en nuestro escritorio o en nuestro teléfono móvil
inteligente, o utilizamos aplicaciones de geolocalización
(StreetMaps) o de almacenamiento Dropbox.
Página –9–
COMPUTACIÓN EN LA NUBE
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Un ejemplo de la nube
Página –10–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Sin embargo, la computación en nube, nos traerá grandes interrogantes y grandes problemas en temas tan controvertidos como la protección de datos y privacidad de los usuarios.
Otra pregunta que cada día se hacen más los analistas sociales y tecnológicos
¿desaparecerá el PC tal cómo hoy lo conocemos? ¿Será sustituido por el teléfono móvil o dispositivos tales como las tabletas electrónicas, como el iPad de Apple o alguno de sus competidores, o incluso otros dispositivos electrónicos como una videoconsola, un frigorífico o el coche?
Página –11–
LA ERA POS-PC
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Los datos y las aplicaciones se reparten en nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de Internet, Google, Microsoft,
IBM, Sun Microsystems, Oracle, Amazon,.. y
poco a poco a cientos de grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a disposición de sus empleados, investigadores, doctorandos, etc. Luis JOYANES. Icade, nº 76, enero-abril, 2009, pp. 95-111.
Página –12–
“Computación en la nube (cloud computing)»
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
HISTORIA DE LA NUBE -1-
El concepto de la computación en la nube, o cloud computing, empezó con proveedores de servicios de Internet a gran escala como Google, Amazon AWS y otros que construyeron su propia infraestructura. De entre todos ellos emergió una arquitectura: un sistema de recursos distribuidos horizontalmente introducidos como servicios virtuales de TI escalados masivamente y manejados como recursos configurados y mancomunados de manera continua.
En el año 2006 se produjo una primera alianza entre IBM, Google y grandes universidades norteamericanas
Página –13–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
HISTORIA DE LA NUBE -2-
Este modelo de arquitectura fue inmortalizado por George Gilder en su artículo de octubre 2006 en la
revista Wired titulado "Las fábricas de información".
Las granjas de servidores, sobre las que escribió
Gilder, eran similares en su arquitectura al procesamiento “grid” (red, parrilla), pero mientras que las redes se utilizan para aplicaciones de procesamiento técnico débilmente acoplados (loosely coupled, un sistema compuesto de subsistemas con cierta autonomía de acción, que mantienen una interrelación continua entre ellos), este nuevo modelo de nube se estaba aplicando a los servicios de Internet.
Página –14–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
HISTORIA DE LA NUBE -3-
Dos de las grandes cabeceras mundiales de revistas económicas,
Business Week (4 de agosto de 2008) y The Economist (25 de Octubre, 2008) ya preveían en 2008 el pronto advenimiento de esta arquitectura y le dedicaron
sendos suplementos a analizar con detalle
Y en el año 2010, The Economist volvió a insistir en el impacto de la nube y Forbes , la prestigiosa revista económica de Estados Unidos, se hizo eco también en un número especial dedicado al Cloud Computing, sin
contar naturalmente el sin fin de publicaciones económicas, generalistas, tecnológicas de Europa, América del Norte, Asia, América Latina y el Caribe
Página –15–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BusinessWeek, Rachael King, August 04, 2008
Página –16–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
The Economist . Octubre 2008. http://www.economist.com/node/12411882?zid=291&ah=906e69ad01d2ee51960100b7fa502595
Página –17–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
The Economist, octubre 2008
Página –18–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Battle of the clouds
The fight to dominate cloud computing will
increase competition and innovation
The Economist. Oct 15th 2008
Página –19–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Definición de la nube No existe una definición estándar aceptada
universalmente; sin embargo, existen organismos internacionales cuyos objetivos son la estandarización de Tecnologías de la Información y, en particular, de Cloud Computing. Uno de estos organismos más reconocido es
el National Institute of Standards and Technology (NIST) y su Information Technology Laboratory, que define la
computación en nube (cloud computing) como:
Página –20–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
DEFINICIÓN DE CLOUD COMPUTING
Página –21–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
DEFINICIÓN DE CLOUD COMPUTING Para una definición más técnica de Cloud Computing o
nube sin más, podríamos decir que se trata del conjunto
de programas y servicios alojados en un servidor conectado a la Red, accesible desde cualquier computador (sea cual sea el sistema operativo que este ejecute) con conexión a Internet sin necesidad de instalar aplicaciones ejecutables en su disco duro y donde también se almacena la información generada por estas mismas aplicaciones o servicios.
Cloud Computing ha transformado de forma radical el modelo de negocio, "Este modelo de tecnología se
adapta a las necesidades de la empresa en todo momento, que sólo paga por los servicios que usa"
Página –22–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013 Página –23–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Terminología de la NUBE (NIST) El NIST recomienda utilizar los siguientes términos
Consumidor de la nube o cliente: una persona u organización que es cliente de una nube: observes que un cliente de una nube puede ser de una nube y de otras nubes que ofrecen otros servicios
Dispositivo Cliente: Una máquina o aplicación de software que accede a una nube en una conexión de red
Proveedor de la nube o proveedor: una organización que proporciona servicios de la nube
Página –24–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST
Página –25–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST
Página –26–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 1. Autoservicio bajo demanda. El usuario puede acceder
a capacidades de computación en la nube de manera automática a medida que las vaya requiriendo, sin necesidad de una interacción humana con su proveedor o sus proveedores de servicios cloud, con servicios tales como tiempo de servidor y almacenamiento en red.
2. Múltiples formas de acceso a la red. Los recursos son accesibles a través de la red y por medio de mecanismos estándar que son utilizados por una amplia variedad de dispositivos de usuario (p. e. teléfonos móviles inteligentes, laptops,
ulltrabooks, tabletas, PCs de escritorio, estaciones de trabajo, aparatos de
televisión con SmartTV, videoconsolas…). Esta característica también se conoce como acceso ubicuo a la Red
Página –27–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 3. Agrupación de recursos. Los recursos de
computación del proveedor se agrupan para servir a múltiples consumidores (almacenamiento, memoria, ancho de banda, capacidad de procesamiento, máquinas virtuales, etc.
y son compartidos por múltiples usuarios, a los que se
van asignando capacidades en forma dinámica según sus peticiones. Existe una independencia de la posición de modo que el cliente generalmente no tiene control ni conocimiento sobre la posición exactas de los recursos proporcionados pero puede ser capaz de especificar la posición a un alto nivel de abstracción (p. e. país, estado o centro de datos). Ejemplos de recursos incluyen almacenamiento, procesamiento, memoria y ancho de banda de red.
Página –28–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
FUENTE: Computación en la nube. Joyanes (2012): adaptado del NIST 4. Escalabilidad - Elasticidad rápida. Los recursos se
provisionan y liberan elásticamente, muchas veces de manera automática, lo que da al usuario la impresión de que los recursos a su alcance son ilimitados y están siempre disponibles en tiempo y cantidad.
5. Pago por uso (Servicio medido). El proveedor es capaz de medir, a determinado nivel, el servicio efectivamente entregado a cada usuario, de modo que tanto proveedor como usuario tienen acceso transparente al consumo real de los recursos, lo que posibilita el pago por el uso efectivo de los servicios.
Página –29–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013 Página –30–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
CARACTERÍSTICAS DE LA NUBE
Página –31–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE NUBE
Página –32–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LA NUBE: DESPLIEGUE DE SERVICIOS
Página –33–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
SaaS
Página –34–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
SaaS El término software como servicio se refiere esencialmente al
software residente (instalado) en la nube, aunque no todos los sistemas SaaS son sistemas instalados en la nube, si son
la mayoría. SaaS (Software as a Service) es la evolución natural del término software bajo demanda (Software on demand) por el que era conocido hace unos años y cuyo representante más
genuino es salesforce.com, una
empresa que proporciona software de gestión empresarial (CRM)
Página –35–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
SaaS
SaaS es un modelo de software basado en la Web que provee el software totalmente disponible a través de un navegador web. Las
aplicaciones son accesibles desde diferentes dispositivos cliente a través de una interfaz cliente ligera tal como el citado navegador (p.e correo electrónico basado en web).
Aplicaciones típicas: Gmail, Google
Apps, ZOHO, Windows Office 365, Salesforce.com, Evernote… …
Página –36–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Plataforma como servicio PaaS En el modelo de plataforma como servicio, el
proveedor ofrece un entorno de desarrollo a los desarrolladores de aplicaciones, quienes desarrollan aplicaciones y ofrecen sus servicios a través de la plataforma del proveedor.
El proveedor normalmente ofrece para el desarrollo “kits de herramientas (toolkits) lenguajes de programación, herramientas y estándares de desarrollo y canales de distribución y pago” y recibe un pago por proporcionar la plataforma y los servicios de distribución y ventas.
Página –37–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Plataforma como servicio PaaS Microsoft Azure
Google Application Engine (GAE)
Salesforce.com …. Plataforma FORCE
Página –38–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Infraestructura como servicio (IaaS)
El modelo IaaS proporciona la infraestructura necesaria para ejecutar aplicaciones. Este modelo ofrece espacio de
almacenamiento, capacidad de proceso, servidores
y otro equipamiento físico, en pago por uso. Puede
incluir también, la entrega de sistemas operativos, redes y tecnología de virtualización para gestionar los recursos, en donde dicho consumidor es capaz de desplegar y ejecutar software
especifico que puede incluir sistemas operativos y aplicaciones. -- ARSYS, AWS de Amazon, IBM Cloud. Cisco, EMC,
Página –39–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
PROVEEDORES DE IaaS
Cisco, EMC, VMware
Citrix
NetApp
Microsoft
Amazon AWS, IBM Cloud,
ARSYS, Acens, Telvent, Interxion …
UCS Cloud Services…
Página –40–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE DESPLIEGUE SERVICIOS EN LA NUBE
Página –41–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Modelos de servicio de la nube
Página –42–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE DESPLIEGUE
. Por otra parte los modelos de despliegue que se pueden implementar en las organizaciones y empresas son:
nube privada, nube comunitaria, nube pública y nube híbrida, aunque el modelo de
nube comunitaria que propone el NIST no ha
sido muy aceptado por la industria informática y los tres modelos más aceptados en la bibliografía técnica, proveedores, organizaciones y empresas son:
privada, pública e híbrida, taxonomía que también nosotros proponemos.
Página –43–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE DESPLIEGUE
1. Nube privada. La infraestructura de la nube se
provisiona para uso exclusivo de una único organización comprendiendo múltiples consumidores. Los servicios de la nube no se ofrecen al público en general. La infraestructura es íntegramente gestionada por una organización.
2. Nube pública. La infraestructura es operada
por un proveedor que ofrece servicios al público en general. Puede ser administrada, operada y de propiedad de una organización académica, empresa o gobierno, o alguna combinación de ellas. Existe en la propia infraestructura (on premises) del proveedor de la nube.
Página –44–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE DESPLIEGUE
3. Nube híbrida. La infraestructura de la nube es una combinación de dos o más nubes individuales que pueden ser a su vez propias, comunitarias o públicas que permanecen como entidades únicas, pero permite portar datos o aplicaciones entre ellas.
Página –45–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MODELOS DE DESPLIEGUE
4. Nube comunitaria. Una nube comunitaria
(community) es aquella nube que ha sido organizada para servir a una función o propósito común de una comunidad de consumidores. Puede ser para una organización o varias organizaciones, pero que comparten objetivos comunes como su misión, políticas, seguridad, necesidades de cumplimientos regulatorios (compliances). Una nube de comunidad puede ser administrada por la organización u organizaciones constituyentes o bien por terceras partes. Este modelo sólo suele ser recogido por el NIST; la mayoría de organizaciones, asociaciones, relacionadas con la nube, dividen los modelos de despliegue en tres: pública, privada e híbrida
Página –46–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Cloud Gis Esri
Página –47–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Cloud Storage
Un caso de estudio: Nirvanix. Los datos del cliente se replican en dos o tres centros de datos
Amazon, Gmail, en España varias empresas proveedoras , han tenido caídas de varias horas que afectó a las aplicaciones web de sus clientes. Algunas
causas: elevado número de peticiones simultáneas de autenticación. Amazon aseguró que el incidente no provocó la pérdida de ningún dato, ya que almacena múltiples copias de cada objeto en varios emplazamientos
Hay que considerar la posibilidad de que los datos sean robados o
consultados por personas no autorizadas. Quizá sea mejor no confiar en cloud storage los datos y aplicaciones críticos
para la actividad de la empresa hasta que los proveedores hayan eliminados estos riesgos potenciales.
Página –48–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Servicios OnLine (Almacenamiento Web). Gratuitos / Pago
Strato, 5 GB gratis (Proveedor de Cloud con implantación mundial)
Dropbox (ofrece 2 GB gratuitos que se pueden convertir en 8-
16 GB si se invita a otros contactos y utilizan el programa)
Box.com (5 GB gratis); SkyDrive de Microsoft (7- GB gratuitos)
Wuala (Lacie… www.wuala.com/es..., 2GB como Dropbox) ;
GlideOs (50 GB gratuitos), SugarSync (5 GB)
Amazon Drive (5GB gratuitos; 20 GB por compra de un álbum de
MP3) y Amazon S3 (Almacenamiento IaaS, GB a TB e incluso PB).
iCloud (5 GB gratuito clientes)
, …
Página –49–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OTROS MODELELOS DE SERVICIOS. Computación en la nube, Joyanes (p. 82-85)
Almacenamiento como servicio
Bases de datos como servicio
Información como servicio
Procesos como servicio
Integración como servicio
Seguridad como servicio
Gestión y gobierno como servicio
Pruebas como servicio
…
Página –50–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
VIRTUALIZACIÓN DE SERVICIOS.
Computación en la nube, Joyanes (p. 151-160)
Escritorios Virtuales
Servidores virtuales
Centralitas U-PBX
Call Centers
Redes
Servicios TIC en general
Página –51–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
ESCRITORIOS VIRTUALES
Un escritorio virtual (WebTop) es un espacio virtual vía Web, al cual puede acceder el usuario remotamente a sus datos, ejecutar programas, crear o modificar documentos, editar o reproducir archivos y prácticamente todas aquellas funciones que hace normalmente desde su equipo
Un servidor Web pone a disposición cierta capacidad de almacenamiento para los usuarios que mediante registro y sus correspondientes permisos, acceden a un espacio virtual o cuenta de usuario en donde alojan una copia de sus datos
Página –52–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Web Desktop… Escritorios virtuales IDÓNEOS EN EDUCACIÓN,
ADMINISTRACIÓN PÚBLICA, PYMES…
Las prestaciones son las básicas: procesador de texto, reproductor multimedia, navegador, gestor de correo, y otras menores, como agenda, calendarios, etc.
Lo más interesante el la función de almacenamiento de cualquier tipo de archivo, siempre y cuando no se exceda la capacidad ofrecida y la disponibilidad para acceder y trabajar con ellos.
Página –53–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
¿Qué es la tecnología VDI? El ESCRITORIO VIRTUAL es una de las tecnologías
del cloud computing, y es una de las que más van a
cambiar la forma en que trabajamos.
Básicamente, la tecnología de escritorio virtual VDI (virtual desktop infrastructure) resulta de la
confluencia de dos tecnologías, la tecnología de virtualización de servidores, y la tecnología de escritorio remoto. Aunque comparte mucho de ambas, tiene sus propias características . Esta tecnología no es nueva, ya que fabricantes como CITRIX ya hace más de diez años que disponen de productos en el mercado, pero en este momento se puede decir que ha alcanzado un grado de plena madurez.
Página –54–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Ventajas del Escritorio Virtual (organización)
Mejora y simplifica la gestión de los PC de escritorio. Puesto que básicamente son todos iguales,
y no tienen disco duro local, se reducen enormemente las averías, y las reparaciones son mucho más sencillas y rápidas. Todo ello, además de mejorar el servicio, reduce los costes de mantenimiento.
Reducen el coste de inversión en PC, pues el
Thin Client tiene una vida útil mucho más larga, ya que dependen menos de las evoluciones de los sistemas operativos y de las aplicaciones.
Página –55–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Ventajas del Escritorio Virtual (organización) Permiten reutilizar equipos PC existentes, alargando la
vida útil de los mismos, lo que es otro factor de reducción de costes adicional.
En ocasiones es posible obtener también ahorro en licencias de software de los PC, si éstas tienen en cuenta el uso concurrente en los equipos.
Simplifican también la evolución obligada como consecuencia de la obsolescencia, por ejemplo las migraciones de la gran cantidad de equipos actualmente con Windows XP, cuya vida útil soportada está a punto de finalizar.
ahorro energético de los equipos, si se utiliza la solución basada en thin client.
Página –56–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Ventajas del Escritorio Virtual (organización)
Permiten abordar soluciones de virtualización y servicios cloud sobre aplicaciones heredadas, típicamente cliente/servidor.
Mejoran la seguridad de la información al no
contener datos locales que puedan ser robados o dañados por averías.
Como parte de un Plan de Continuidad de Negocio (BCP), permiten mantener operativos los
puestos de trabajo de los empleados en caso de desastre, que afecte a alguna de las sedes de la organización
Página –57–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Ventajas del Escritorio Virtual (Usuarios)
Al haber menos averías y ser las reparaciones mucho más rápidas, aumenta la productividad de los trabajadores derivada de las averías de sus PC, pues las interrupciones por este motivo son mucho menores.
Se elimina la pérdida de datos del usuario por averías de los discos locales del PC.
Habilita la movilidad del trabajador, facilitando la continuidad de los trabajos realizados, por ejemplo para el caso de los teletrabajadores a tiempo parcial. También facilita la movilidad de los trabajadores entre sedes y edificios corporativos.
Página –58–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
CONCLUSIONES ESCRITORIO VIRTUAL En esencia, la virtualización de escritorio se basa en la
creación de un PC virtual una máquina virtual que se ejecuta en un servidor de virtualización (VDI Server), cuyas características (memoria, CPU, disco, etc.) son las típicas de un PC, con un sistema operativo, y de un sistema de comunicaciones que permite acceder a este PC virtual desde la distancia.
Para este acceso, se puede utilizar cualquier PC que ejecute el software de cliente de terminal remoto, o bien un equipo especializado que dispone del software de terminal remoto, “cliente ligero” (Thin Client), que consiste en procesador, memoria, y periféricos, y un sistema operativo empotrado, que únicamente sirve para arrancar el equipo e iniciar sesión en un servidor de VDI.
Página –59–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Ventajas del Escritorio Virtual (organización)
Para el usuario, y por supuesto en un sistema correctamente configurado, tanto en el servidor como en el cliente como en la red de comunicaciones que los une, el sistema y su manejo se parecen mucho a un PC tradicional. No obstante, los discos duros de este PC virtual ya no están en su ordenador, sino en el servidor de virtualización, es decir, si su dispositivo se avería o se extravía, no se pierden los datos guardados en estos discos locales. Por otra parte, es posible iniciar sesión desde varios lugares, bien remotamente, bien localmente, en aquellos dispositivos que tengan la conectividad y el software apropiado, lo que permite la continuidad de los trabajos iniciados en un lugar desde otro distinto.
Página –60–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
ESCRITORIOS VIRTUALES
eYEos 2.5 (//www.eyeos.org/es) … GRATUITO… blog.eyesos.org
Sistema operativo orientado 100% a la Nube.
Escritorio virtual compatible con las principales
aplicaciones ofimáticas. Permite sincronizar con datos locales utilizando eyeOS Gala Sync. Reproduce video y audio. Cliente FTP, juegos, correo.-e y navegador .
Funciona con software libre y si se instala en un servidor propio se pueden añadir múltiples aplicaciones. Se instala y ejecuta en el propio
servidor, basta con contar con APACHE Y PHP.
Página –61–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Glide OS
Página –62–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
MultiTabber
Página –63–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
CubeDesktop
En el mercado hay muchos programas, de pago y gratuitos, que
te proporcionan varios escritorios virtuales para organizar mejor
tus ventanas y disponer de más espacio. Pero, ¿qué te parecería
poder ver el contenido de tus escritorios como si de un cubo se
tratara , Se requiere una tarjeta con aceleración 3D.
CubeDesktop crea hasta 6 escritorios virtuales accesibles
desde la bandeja de sistema, mediante combinaciones de
teclas o desde las esquinas de la pantalla con distintos efectos
en tres dimensiones.
Página –64–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Dexpot (Softonic)
Dexpot multiplica el área de pantalla del monitor hasta por veinte,
gracias a la creación y gestión de una serie de escritorios virtuales con los
que podrás mejorar sensiblemente tu capacidad de trabajo y organización
con el PC.
Dexpot coloca un icono en la bandeja de sistema desde el que puedes acceder a
todos tus escritorios virtuales, así como a las opciones de configuración del
programa, gestor de escritorios, lista de ventanas en cada uno de ellos, reglas de
escritorios, herramientas y demás. El sistema te permite copiar o mover ventanas
de un escritorio a otro. Cada uno de ellos es totalmente independiente, y puede
tener su propio fondo de pantalla, resolución e iconos.
Es uno de los gestores de múltiples escritorios más completos y a la vez más
sencillos de usar.
Página –65–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Página –66–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
RETOS Y OPRTUNIDADES DE LA NUBE Los conceptos público y privado de la
informática en nube deben facilitar las relaciones entre los proveedores y los clientes mediante las tasas acordadas previamente o gratuitas, en su caso, pero siempre las ofertas comerciales deben cumplir la calidad de los requisitos de servicio de los clientes y normalmente ofrecer acuerdos de nivel de
servicio, tipo SLA (Service Level Agreements).
Página –67–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
RETOS Y OPORTUNIDADES DEL CLOUD COMPUTING Privacidad de los datos. El peligro aumenta
cuando los datos se alojan en “la nube”, Los datos pueden residir en cualquier lugar o centro de datos. Esto puede suponer hasta un problema legal ya que las legislaciones de muchos países obligan a que determinados datos deben estar en territorio nacional.
Seguridad. Es necesario tener la mayor seguridad
ante amenazas externas y corrupción de datos. Es importante que los proveedores de servicios garanticen transparencia, confianza y la realización de auditorías a los sistemas de información.
Página –68–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
RETOS Y OPORTUNIDADES DEL CLOUD COMPUTING
Licencias de software. Es preciso estudiar la
compatibilidad del software bajo licencia con el software en la nube.
Interoperabilidad. Es preciso que esté
garantizada la interoperabilidad entre todos los servicios-
SLA (Services Level Agreement). Es necesario el cumplimiento de acuerdos a nivel de servicio (SLA) antes de confiar a una empresa las aplicaciones de la misma.
Aplicaciones. Es necesario tener presente que las aplicaciones del modelo “cloud computing” deben estar diseñadas de modo que se puedan dividir entre múltiples servidores.
Página –69–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Consejos antes de confiar los datos de su empresa a un proveedor externo ¿Quién puede ver los datos? En muchas
empresas y organizaciones, los correos-e de los empleados son privados y no pueden verse más que con sentencia judicial. Los rastros de navegación de los usuarios, las búsquedas realizadas, etc… ¿Cómo se garantiza la privacidad?
¿Qué pasa si no se paga la factura mensual, anual,…? Se pueden borrar bruscamente todos los
datos del cliente por este motivo.
Página –70–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Consejos antes de confiar los datos de su empresa a un proveedor externo ¿Hace la nube copia de seguridad de sus
datos? ¿Qué sucede si se pierden? ¿Existe un contrato de garantía? Si su
proveedor se introduce en su negocio, cómo se garantiza la libre competencia y el no uso de información privilegiada.
¿Cómo le tratará la “nube” ante hábitos normales? ¿Se puede discriminar por razón de raza, sexo, religión, nacionalidad,…? ¿se puede infringir el copyright? ¿Qué sucede con la licencia copyleft de Creative Commons?
Página –71–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
RIESGOS DE LA NUBE
Caidas del sistema «fallos de hardware/software»
Temor a la pérdida de datos
Falta de privacidad
Mercado no consolidado, aunque los proveedores son los grandes del mundo del software, por ahora.
…
Página –72–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
¿CÓMO AFRONTAR LA MIGRACIÓN A LA COMPUTACIÓN EN NUBE? Recomendaciones para migrar
a la Nube
La computación en la Nube en España y resto del mundo.
Página –73–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
EMPRESAS QUE HAN MIGRADO A LA NUBE
El Banco español BBVA. A principios de 2012 firmó una
alianza con Google para comenzar a utilizar el servicio Google Apps (especialmente correo-e, agenda, etc) de la nube de Google en todas sus sucursales de España, Latinoamérica y Caribe, y resto países donde tiene presencia.
La OMT (Organización Mundial del Turismo) también a primeros de 2012 firmó un acuerdo para implantar las soluciones de Nube de Microsotf en su sede central de Madrid y paulatinamente resto del mundo y recomendaciones a agencias de viaje, hoteles…
Bastantes universidades españolas también han cerrado acuerdos con Google para la solución de la Nube (correo-e)
Página –74–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estrategias de Cloud Computing de la Unión Europea, septiembre de 2012
En septiembre de 2012, la Comisión Europea adoptó la
Estrategia Europea de Cloud Computing con
ello busca habilitar y facilitar la adopción de las tecnologías Cloud Computing en todos los sectores de la economía como palanca de productividad, crecimiento y empleo. En esta estrategia, juega un papel angular el impulso y adopción del nuevo modelo de servicios TI por el sector público.
Página –75–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Comisión Europea publica la Estrategia de Cloud-Computing (diciembre 2012)
Objetivo principal: creación de empleo y de riqueza.
Para la Comisión, las nuevas estimaciones señalan que, si
la política tiene éxito, los ingresos procedentes de la computación en nube en la UE podrían ascender en 2020 a casi 80 000 millones EUR (lo que supondría más que duplicar el crecimiento
del sector). Es decir, que con esta estrategia se estaría creando un nuevo sector y se podría hacer frente a la competencia, en especial de los EEUU.
Página –76–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estrategia Europea de Cloud Computing de la Comisión Europea La Estrategia Europea de Cloud Computing de la Comisión
Europea está recogida en la comunicación «Liberar el potencial de la computación en nube en Europa»*. Se proponen medidas para obtener 2,5 millones de nuevos puestos de trabajo en Europa, así como un incremento anual del PIB en la Unión igual a 160.000 millones de euros (en torno a un 1 %) de aquí a 2020. Acciones claves de la estrategia son *http://administracionelectronica.gob.es/?_nfpb=true&_pageLabel=P480245061355221561934&langPae=es
Fuente: http://europa.eu (29 de septiembre de 2012)
Página –77–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estrategia Europea de Cloud Computing de la Comisión Europea
Clarificación de normas y estándares Los trabajos en éste ámbito se desarrollarán durante 2013. La
Comisión trabajará con el apoyo de ENISA y otros órganos
pertinentes para ayudar al desarrollo de toda la UE esquemas voluntarios de certificación así como una lista de dichos programas en 2014.
Creación de términos justos de contratación
Establecimiento de un Partenariado Europeo de Cloud Computing. El European Cloud Partnership (ECP) reúne a expertos de la industria y de los usuarios del sector público para trabajar en los requisitos de contratación comunes para la computación en nube en forma abierta y completamente transparente.
Página –78–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estrategia Europea de Cloud Computing de la Comisión Europea
En este sentido, si se desarrolla la totalidad de la estrategia sobre la nube, se prevén unos ingresos anuales suplementarios netos en la UE de 160 000 millones EUR para 2020 (o unos ingresos totales de casi 600 000 millones entre 2015 y 2020). De lo contrario, el incremento económico sería inferior en dos tercios.
Los beneficios procederían del ahorro que las empresas podrían realizar o de la productividad que podrían alcanzar gracias al acceso a la tecnología.
Por lo que se refiere al empleo, es de prever la generación de 3,8 millones de puestos de trabajo tras un despliegue completo de la estrategia (frente a 1,3 millones si no se eliminan las barreras legislativas, políticas o de otro tipo).
Página –79–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estrategia Europea de Cloud Computing de la Comisión Europea Por otro lado, la adopción del cloud computing
podría llegar a generar en Europa 2,5 millones de nuevos puestos de trabajo y potenciar la economía de la región en us$ 160.000 millones anuales para 2020, según la Comisión Europea. Para conseguir tal objetivo, el ETSI (European Telecommunications Standards Institute) está trabajando en definir estándares de calidad para facilitar la portabilidad de datos y la interoperabilidad en 2013. Además del potencial del cloud, la migración a la nube propiciará la homogeneización de leyes de protección de datos a escala europea y la legislación sobre ciberseguridad.
Página –80–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
PRIORIDADES DE LA CE EN CLOUD Cloud computing y empleo TIC, entre las
prioridades de la Comisión Europea para el periodo 2013-2014
Entre las nuevas prioridades destacan aquellas relacionadas con el cloud computing y con las competencias digitales y el empleo.
En materia de cloud computing, la Comisión Europea promocionará la computación en nube mediante el poder de compra del sector público. En este
sentido, pondrá en marcha acciones piloto en la nueva Asociación Europea de Computación en Nube (AECN) para,
apoyándose en el poder de compra público, contribuir a crear el mayor mercado de TIC relacionadas con la nube del mundo, desmantelando los actuales reductos nacionales y las percepciones negativas de los consumidores.
Página –81–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estudio de ONTSI para España, mayo 2012
Estudio “Cloud Computing. Retos y oportunidades”, que ha elaborado el Observatorio Nacional
de las Telecomunicaciones y la SI (ONTSI), con la asistencia técnica de Deloitte, para analizar la situación actual y el impacto que está teniendo el cloud computing en España.
El impacto que tendrá sobre la inversión y el mantenimiento de empleo y, que se prevé puede alcanzar los 65.000 puestos de trabajo en un año. Iimplica que la generación de PIB derivada del cloud computing por empleo mantenido es de 46.700 euros / empleo, lo que significa que el aporte de la industria cloud a la economía española es muy ventajoso.
Página –82–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
EL MERCADO DE CLOUD EN LATINOAMÉRICA Según la consultora internacional IDC (marzo 2013), el
mercado del cloud computing en Latinoamérica se puede valorar en US$ 280 millones y tendrá una tasa de crecimiento anual de un 70% entre el 2012 y 2016.
La empresa IDC confirmó que el cloud computing es un factor clave de crecimiento del gasto en tecnologías en los próximos cinco años. El estudio muestra que el gasto global de los proveedores de servicios cloud en hardware de almacenamiento, software y servicios profesionales se incrementará un 23,6% anual de aquí al 2015. Mientras que el gasto en almacenamiento en entornos de nubes privadas tendrá un crecimiento anual del 28,9% en el período estudiado.
Página –83–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
EL MERCADO DE CLOUD EN LATINOAMÉRICA
En el marco del Kloud Camp 2012, un evento
educativo organizado por KIO Networks para compartir conocimientos sobre la nube, se dieron a conocer cifras sobre el futuro del cloud computing en América Latina con datos obtenidos por IDC, empresa dedicada a estudios de mercado.
Entre los datos divulgados se encuentra que la inversión en servicios de tecnologías de la información (TI) en la nube generarán 214.412 empleos en México para 2015, una cifra que contrasta notoriamente con los 44.505 plazas laborales que se espera lograr durante 2012; es decir, habrá un crecimiento del 382%.
Página –84–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
EL MERCADO DE CLOUD EN LATINOAMÉRICA En América Latina se espera que Brasil, México y
Argentina generen más de 700 mil nuevos empleos relacionados con el cómputo en la nube para la misma fecha. A nivel mundial, la expansión de esta tendencia debería haber logrado 14 millones de empleos entre 2011 y 2015.
En estos países, las industrias que se verán más beneficiadas por el uso de la nube serán: comunicación y medios de comunicación, con 2.4 millones de empleos; bancos, con 1.4 millones de empleos, y manufactura, con 1.3 millones de empleos.
Página –85–
86 86
UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNNIA
Prof. Luis Joyanes Aguilar
BIG DATA El universo digital de datos
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito
y Nubes (clouds) de procesadores
Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.
Because in the era of big data, more isn´t just more. More is different
Página –87–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)
1TB (250.000 canciones)
20 TB (fotos “uploaded” a Facebook cada mes)
120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)
1 PB (datos procesados por los servidores de Google cada 75 minutos)
Página –88–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
http://www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –89–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –90–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
El Universo Digital – EMC / IDC
Página –91–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
El Universo Digital – EMC / IDC
Página –92–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPEN DATA (Datos abiertos)
Página –93–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPEN DATA (Datos abiertos)
Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos.
Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos.
Página –94–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPEN DATA (Datos abiertos)
Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas
¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio
Página –95–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPEN DATA (Datos abiertos)
La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa.
En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco.
Página –96–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPEN DATA (Datos abiertos)
La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano.
Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros.
Página –97–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
INICIATIVAS PIONERS INTERNACIONALES EN OPEN DATA
En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org)
En Estados Unidos data.gov
En Gran Bretaña data.gov.uk En Google (presentación la semana pasada, abril
2011, del número 1) la revista de negocios
//thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA
En la Unión Europea (Iniciativa OPEN DATA)
Página –98–
99 99
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
Prof. Luis Joyanes Aguilar
EL PROCESAMIENTO DE
BIG DATA Y ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, “In-Memory”…
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Página –100–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Página –101–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LA AVALANCHA DE DATOS
Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)
Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.
Página –102–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
EL UNIVERSO DIGITAL DE DATOS
Página –103–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de Tweets por día que representa 8 Terabytes.
Boeing: (industria)
Vuelo transoceánico de un jumbo puede generar 640 Terabytes.
Wal-Mart: (comercio)
1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.
Google procesa al día 20 petabytes de información
Página –104–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Estructura de Big Data: tipos de datos
Estructurados
No estructurados No estructurados (texto, datos de vídeo, datos de audio,,,)
Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)
Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data
Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados
Página –105–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Bases de datos
In-Memory (en-memoria)
SAP Hana
Oracle Times Ten In.Memory Database
IBM solidDB
Relacional
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
Transeferencia de datos entre Hadoop y bases de datos relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
In-Memory (SAP, Oracle, Microsoft…)
Página –106–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
1. Almacenamiento
Hacen falta nuevas tecnologías de almacenamiento
RAM vs HHD
HHD 100 más barato que RAM
Pero 1000 veces más lento
Solución actual:
Solid- state drive (SSD) además no volátil
Investigación:
Storage Class Memory (SCM)
Página –107–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
2. Base de datos
Las BD relacionales no pueden con todo
Base de datos
volumen de la información
GBs
PBs Tiempo de ejecución
Limitadas para almacenar “big data”
(ACID, SQL, …)
ACID: Atomicity, Consistency, Isolation & Durability
Página –108–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
2. Bases de datos
In-Memory (en-memoria) SAP Hana
Oracle Times Ten In-Memory Database
IBM solidDB
NoSQL (Not only SQL)
Relacional Sistemas RDBMS
Transferencia de datos entre Hadoop y bases de datos relacionales
Legacy (heredadas, antiguas…)
Página –109–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
3. Procesado
Se requieren nuevos modelos de programación para manejarse con estos datos
Solución: Para conseguir procesar grandes conjuntos de
datos: MapReduce
Pero fue el desarrollo de Hadoop MapReduce,
por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce
Página –110–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
4. Obtención de valor los datos no se pueden comer crudos la
información no es conocimiento accionable
Para ello tenemos técnicas de Data Mining • Asociación
• Clasificación
• Clustering
• Predicción
• ...
Pero la mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.
Página –111–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Arquitectura de BIG DATA La explosión creciente de grandes volúmenes de datos está configurando en unión
con la implantación de cloud computing nuevas tecnologías y herramientas para la gestión y dirección de Big Data.
Tecnologías como Bases de Datos NoSQL, Bases de datos
“in-memory”, unido a frameworks en torno a Hadoop, MapReduce y otras soluciones de big data, requieren
especialistas en esta tecnologías
Proveedores como Cloudera, Hortonwork, etc. están
ofreciendo soluciones de Big Data que cada día más populares
Soluciones como HANA de SAP, InfoSphere de IBM, Exadata/Exalytics de Oracle, EMC, Teradata, Microsoft … se requieren para hacer frente a las avalanchas de datos. …
Página –112–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS ANALÍTICAS
Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.
Bases de datos de procesamiento paralelo masivo (MPP)
Bases de datos “en memoria”
Almacenamiento en columnas Históricamente estas bases de datos tan especializadas
tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
Página –113–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Bases de datos analíticas
Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.
Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:
Almacenamiento en columnas en lugar de filas (registros)
Massively parallel processing (MPP)
In-Memory Analytics
Página –114–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
In-Memory Computing (IBM)
In-memory computing is a technology that allows the processing of massive quantities of data in main memory to provide immediate results from analysis and transaction. The data to be processed is ideally real-time data (that is, data that is available for processing or analysis immediately after it is created).
To achieve the desired performance, in-memory computing follows these basic concepts:
Página –115–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
In-Memory Computing (IBM)
Keep data in main memory to speed up data access.
Minimize data movement by leveraging the columnar storage concept, compression, and performing calculations at the database level.
Divide and conquer. Leverage the multi-core architecture of modern processors and multi-processor servers, or even scale out into a distributed landscape, to be able to grow beyond what can be supplied by a single server.
Las bases de datos en memoria de SAP HANA utilizan diferentes tecnologías in-memory
Página –116–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
In-Memory Computing (IBM)
2.1 Keeping data in-memory
Today, a single enterprise class server can hold several terabytes of main memory. At the same time, prices for server main memory dramatically dropped over the last few decades. This increase in capacity and reduction in cost makes it a viable approach to keep huge amounts of business data in memory. This section discusses the benefits and challenges.
2.1.1 Using main memory as the data store
The most obvious reason to use main memory as the data store for a database is because accessing data in main memory is much faster than accessing data on disk. Figure 2-1 compares the access times for data in several locations.
Página –117–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
In-Memory Computing (IBM)
Keep data in main memory to speed up data
access.
Minimize data movement by leveraging the
columnar storage concept, compression, and performing calculations at the database level.
Divide and conquer. Leverage the multi-core
architecture of modern processors and multi-processor servers, or even scale out into a distributed landscape, to be able to grow beyond what can be supplied by a single server.
Las bases de datos en memoria de SAP HANA utilizan diferentes tecnologías in-memory
Página –118–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Página –119–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Illustration of dictionary compression
Página –120–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Row-based and column-based storage models: IBM
Página –121–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Almacenamiento por filas vs columnas
Página –122–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Almacenamiento en columnas, no filas: FUENTE: datalytics.com
Página –123–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Computación en memoria “In-Memory”
La computación en memoria es una
tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares… (Oracle, IBM,…)
Página –124–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Categorías de bases de datos en BIG DATA
El concepto de base de datos que utilizábamos hasta hace 2 años HA
CAMBIADO. Distintos tipos de bases de datos, para distintos tipos de necesidades.
Bases de datos transaccionales: para almacenar
información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
NoSQL: para capturar de manera segura y escalable, grandes
volúmenes de información continua generados por eventos.
Analíticas (In-Memory): para permitir a múltiples
usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.
Hadoop (HDFS & Hive): para almacenar y procesar
grandes volúmenes de información estructurada o semi-estructurada.
Página –125–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Bases de datos
In-Memory (en-memoria) SAP Hana
Oracle Times Ten In-Memory Database
IBM solidDB
Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
Transferencia de datos entre Hadoop y bases de datos relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)
Página –126–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
La mayoría de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.
Página –127–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
Atomicidad (Atomicity) garantiza que las
transacciones (sean una consulta, o grupos de sentencias SQL) no se puedan subdividir, es decir, se ejecutaran totalmente, o no se ejecutaran.
Esta propiedad implica que en caso de fallo de hardware, fallo de la base de datos, o fallo de la aplicación, se actualizarán todos los datos o ninguno y se impide que la base de datos se corrompa o pierda el sincronismo lógico entre los datos.
Página –128–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
Consistencia (Consistency). Garantiza que la
base de datos siempre estará en un estado consistente. De hecho, garantiza que cada transacción lleve a la base de datos de un estado consistente a otro estado consistente. En este caso, consistencia se refiere a la consistencia interna de relación entre tablas, y la consistencia en los datos almacenados. La propiedad de consistencia no permitiría guardar un entero en un campo float, o no permitiría borrar una fila que es referenciada por otra.
Esta última forma de consistencia se le llama integridad referencial.
Página –129–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
Aislamiento (Isolation). Garantiza que los datos
de una operación no puede afectar a otra.
Cuando se ejecutan dos transacciones sobre los mismos datos, estas son independientes, de esta manera no se generan errores en ninguna de las dos transacciones. Esto hace que los datos que manejan cada una de las transacciones no estén disponibles hasta que la transacción ha finalizado. Generalmente esto se consigue con bloqueos
Página –130–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
Durabilidad (Durability). Garantiza que una vez que la transacción se haya completado, siempre se podrá recuperar independientemente de cualquier fallo de hardware o software.
Una vez la base de datos manda la señal de que la transacción ha sido ejecutada correctamente, se puede tener la certeza de que esa transacción esta aplicada correctamente a los datos y se va a poder recuperar. La mayoría de las bases de datos utilizan un log de transacciones, y no consideran que una transacción esta
completada hasta que no esté escrita en el log.
Este log secuencial permite recuperar los datos de la transacción en
caso de un fallo del sistema, y de esta forma asegurar la consistencia de los datos.
Página –131–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS TRANSACCIONALES Utilizadas en la mayoría de las empresas en la actualidad
Motores transaccionales, diseñados y desarrollados para soportar transacciones y trabajar con pocos registros por operación.
Las soluciones de Business Intelligence involucran cientos de miles (e inclusive millones) de registros en una única operación, y deben responder en un tiempo adecuado.
Las bases de datos transaccionales no fueron diseñadas para responder a consultas analíticas sobre grandes volúmenes de información. La irrupción de Big Data comienza a dejar en evidencia estas carencias, debiendo utilizar complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de desarrollo y mantenimiento, obteniendo tiempos
Página –132–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS RELACIONALES (REPASO)
Las bases de datos relacionales funcionan con el lenguaje SQL (Structured Query Language)
Conceptos clave: creación de bases de datos, organización de esquemas de datos, normalización, creación de índices y optimización de instalaciones.
Las bases de datos relacionales permiten separar la capa de datos de la capa de aplicación. Al cumplir el estándar SQL son intercambiables entre sí (en su mayor parte) y permiten un acceso rápido y fiable a los datos.
Página –133–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS NoSQL
Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas
Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.
Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).
Página –134–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS NoSQL Distintos tipos de bases de datos para distintos tipos de aplicaciones:
documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL:
para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.
Características
SQL: Sin (o muy poco) soporte para SQL.
Datos accedidos a través de programas Java, no consultas
ACID: Sin integridad referencial, poco soporte transaccional
Definición de estructuras de datos flexibles (sobre la marcha)
Página –135–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BASES DE DATOS NoSQL Beneficios
Facilidad de escalamiento horizontal (clusters baratos)
Almacenamiento de grandes volúmenes (no generan cuellos de botella)
Excelentes para lecturas masivas de registros tipo clave/valor.
Desafíos…
Son de distintos vendedores y no están integradas
Estos tipos de DBs se utilizan por lo general en conjunto
Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL!
Dependencia de sistemas: vuelta a las raíces?
Página –136–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su
implementación son los siguientes:
– Almacenes de Clave-Valor
– Almacenes de Familia de Columnas (columnares)
– Almacenes de documentos (orientadas a documentos)
– Almacenes de Grafos (orientadas a grafos)
- Cachés de memoria
Página –137–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
SOLUCIONES DE BASES DE DATOS NoSQL
Página –138–
139 139
INGENIERÍA INFORMÁTICA
Prof. Luis Joyanes Aguilar
Tecnologías BIG DATA
HADOOP
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Logo de HADOOP
Página –140–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Logo de HADOOP
Página –141–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Fundación Apache: proyectos open source
The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good
The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good
Página –142–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Fundación Apache: proyectos open source
The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good
The Apache projects are defined by collaborative consensus based processes, an open, pragmatic software license and a desire to create high quality software that leads the way in its field
Community-led development since 1999.
We consider ourselves not simply a group of projects sharing a server, but rather a community of developers and users.
Página –143–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Historia de Hadoop: Doug Cutting
Página –144–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el año 2016.
La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.
IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.
Página –145–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop
“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”
De la página de Hadoop
Página –146–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Componentes fundamentales de Open Source
Apache Hadoop (biblioteca de software de open source)
Apache Hadoop consta de los siguientes subproyectos
HDFS (Haoop Distributed File System)
MapReduce
Hadoop Commons
y de las siguientes tecnologías
Hbase
Hive
Pig
Otras
Página –147–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que
provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusters construidos con hardware genérico. En esencia, Hadoop consta de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre “Hadoop” no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce.
Página –148–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
What Is Apache Hadoop? (Fundación Apache)
The Apache™ Hadoop® project develops open-
source software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-avaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.
Página –149–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Historia de HADOOP ● 2004-2006
– Google publica los papers de GFS y MapReduce
– Doug Cutting implementa una versión Open Source en
Nutch
● 2006-2008
– Hadoop se separa de Nutch
– Se alcanza la escala web en 2008
● 2008-Hasta ahora
– Hadoop se populariza y se comienza a explotar
comercialmente.
Fuente: Hadoop: a brief history. Doug Cutting
Página –150–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Componentes HADOOP (Apache)
The project includes these modules:
Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Página –151–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
APACHE HADOOP
Other Hadoop-related projects at Apache include:
Avro™: A data serialization system.
Cassandra™: A scalable multi-master database with
no single points of failure.
Chukwa™: A data collection system for managing large
distributed systems.
HBase™: A scalable, distributed database that supports
structured data storage for large tables.
Página –152–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
APACHE HADOOP
Hive™: A data warehouse infrastructure that provides
data summarization and ad hoc querying.
Mahout™: A Scalable machine learning and data
mining library.
Pig™: A high-level data-flow language and execution
framework for parallel computation.
ZooKeeper™: A high-performance coordination
service for distributed applications.
Página –153–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop
Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.
Está desarrollado en Java y se ejecuta dentro de la JVM.
Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop.
Página –154–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop Las características principales de Hadoop son:
Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.
• Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.
• Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.
• Confiable: Es capaz de mantener múltiples copias de los datos y
automáticamente hacer un re-despliegue de las tareas
Página –155–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop
El diseño de Hadoop se divide en dos partes principales:
Por un lado está el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que
se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop.
Por otro lado la implementación de MapReduce que se
encarga del procesamiento de la información de forma distribuida.
Página –156–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Integración con Big Data. FUENTE: datalytics.com
Página –157–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Integración con Big Data. FUENTE: datalytics.com
Página –158–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:
Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.
Facebook: Tiene a día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 petabytes de información
Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos
cada uno. Página –159–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Terabytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.
Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres
Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.
Página –160–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Distribuciones de Hadoop
Página –161–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Distribuciones de Hadoop
Cloudera
mapR
Hortonworks IBM… ofrece una distribución llamada InfoSphere
BigInsights
Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce
EMC ofrece Greenplus HD
Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure
Página –162–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Massive open online
course (MOOC) Similares a los cursos a distancia impartidos por instituciones universitarias y con certificados.
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
OPORTUNIDADES PARA LATINOAMÉRICA
Despliegue y comercialización de la red de alta velocidad y gran ancho de banda LTE (4G) en la actualidad (Noticia de impacto en CLOUD COMPUTING y Big Data y gran ventaja competitiva)
En Europa está comenzando el despliegue y comercialización este año 2013. En España por
problemas administrativos y técnicos (derivados del
espectro radioeléctrico) como muy pronto parece no empezará la comercialización hasta 2014.
Página –164–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Certificación Cloud Se requieren profesionales cualificados en la nube. A
medida que avanza el uso de los servicios en la nube, se hace más necesario la formación en la materia y por
consiguiente CERTIFICACIONES PROFESIONALES
De igual modo que con los estándares en Cloud Computing, ha crecido el interés de los usuarios por el
término “Cloud Training courses”.
En Octubre, Rackspace creó un curso de certificación en OpenStack, con planes para
lanzar en el futuro otros programas de aprendizaje en la
nube. Certificaciones de Cloudera, Hadoop…
Página –165–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Certificación Cloud CloudStack/OpenStack
Citrix está en el proyecto CloudStack,
Rackspace ofrece servicios de cloud pública basados en OpenStack.
Existen otras alternativas como Eucalyptus, que tienen soporte para conectarse a nubes de Amazon AWS y OpenNebula
Otras certificaciones
Página –166–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…
UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”..
Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA
Página –167–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…
Community Manager, Social Media Manager y Analista Web y SEO
Ingeniero de Cloud Computing (En España hay
una universidad privada que lo lanza el próximo curso)
Ingeniero de negocios digitales (Digital Business Intelligence)
Ingeniería en Big Data (Infraestructuras, Bases de
datos NoSQL, Hadoop, Tecnologías “in-memory”…)
Analítica de datos (Analytics) y Analítica de Big Data
Página –168–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LAS TITULACIONES-PROFESIONES MÁS
DEMANDADAS en TIC EN PRÓXIMOS AÑOS
(HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI):
Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas.
LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist)
Página –169–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager,
SEO, Analistas Web … cada día son más demandadas y.
Sin embargo la profesión del futuro será:
EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.
HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”..
Página –170–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013 Página –171–
MUCHAS GRACIAS … ¿Preguntas?
Portal tecnológico y de conocimiento www.mhe.es/joyanes
Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com
Twitter:@luisjoyanes
www.slideshare.net/joyanes www.facebook.com/joyanesluis
PORTAL NTICS : luisjoyanes.wordpress.com
CORREO-e: [email protected] UNIVERSIDAD PONTIFICIA DE SALAMANCA – C. MADRID
172
Prof. Luis Joyanes Aguilar
BIBLIOGRAFÍA
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en
la nube. Estrategias de cloud computing para las empresas. MéxicoDF: Alfaomega.
JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. MéxicoDF: Alfaomega
Colección de libros NTICS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis
Joyanes y publicada en la editorial Alfaomega de México DF. Primeros números en 2012 y 2013: Nº 1. Cloud Computing. Nº 2. Big Data
Página –173–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BIBLIOGRAFÍA BÁSICA
JOYANES, Luis. “Computación en "Nube" (Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?”. Sociedad y Utopía.
UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs. 111-127.
JOYANES, Luis (2009a) “La Computación en Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento” , ICADE, nº 76, enero-
marzo 2009, Madrid: Universidad Pontificia Comillas.
Página –174–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
ÚLTIMOS LIBROS DEL prof. LUIS JOYANES
Programación en C/C++, Java y UML. México DF: McGraw-Hill, 2010.
Programación en Java 6. México DF: McGraw-Hill, 2011.
Ciberseguridad. Retos y desafíos para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador
Fundamentos generales de programación. México DF: McGraw-Hill, 2012.
Página –175–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
ÚLTIMOS LIBROS DE LUIS JOYANES
Director y Editor de la Colección NTICS (Negocios, Tecnología, Información, Conocimiento y Sociedad) publicada por la editorial AlfaOmega (México DF).
El primer libro está prevista su publicación a finales de 2011 y su título
LA NUBE. El nuevo paradigma del Cloud Computing.
Página –176–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Blogs tecnológicos
TechCrunch (www.techcrunch.com)
Gizmodo (www.gizmodo.com, www.gizmodo.es)
Boing Boing (www.boingboing.com)
Engadget (www.engadget.com)
The Official Google Blog (googleblog.blospot.com)
O´Reilly (www.oreillynet.com)
Slahdot (www.slahdot.com)
Microsiervos (www.microsiervos.com)
Xataca (www.xataca.com)
Google Dirson (google.dirson.com)
Masable (www.mashable.com)
Página –177–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LECTURAS RECOMENDADAS Documentos de Cloud Computing de:
NIST
Cloud Security Alliance
ISACA
ONTSI
BANKINTER – Accenture
ENISA
Cio.com, Computing.es, idc.com/computerworld
Página –178–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BIBLIOGRAFÍA
SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.
FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.
Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)
Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00
Página –179–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
BIBLIOGRAFÍA
ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.
Página –180–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Página –181–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
REFERENCIAS
McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011
James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012.
www-01.ibm.com/software/data/bigdata/
Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Página –182–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
REFERENCIAS
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
Página –183–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Referencias NoSQL vs. RDBMS
Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS databases", version 10r2
http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:2664632900346253817
NoSQL or not NoSQL? http://www.slideshare.net/ruflin/nosql-or-not-nosql/download
Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
SQL vs. NoSQL. http://www.linuxjournal.com/article/10770
Cassandra. “NoSQL – Not only SQL (Introduction to Apache Cassandra)”. http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-introduction-to-apache-cassandra/#.TtonPmMk6nA
http://www.datastax.com/docs/0.8/dml/using_cql
http://cassandra.apache.org/
Página –184–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
REFERENCIAS
Fundación Apache:http://hadoop.apache.org/
Apache ZooKeeper: http://zookeeper.apache.org/
Apache Hive: http://hive.apache.org/
Pig: http://pig.apache.org/
Apache Avro: http://avro.apache.org/
Apache Hbase: http://hbase.apache.org/
Página –185–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
REFERENCIAS
[1] “Hadoop Wiki”. http://wiki.apache.org/hadoop
[2] D. Engfer. “Intro to the Hadoop Stack.” http://www.slideshare.net/davidengfer/intro-to-the-hadoop-stack-javamug
[3] C. Zedlewski, E. Collins. “Hadoop Stack: Then, now and future”. http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera
[4] M. Collins. “Hadoop and MapReduce: Big Data Analytics”. Gartner Research, Enero 2011 http://www.gartner.com/id=1521016
Página –186–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LECTURAS RECOMENDADAS
ONTSI. Cloud computing: Retos y oportunidades, mayo 2012. http://www.ontsi.red.es/ontsi/sites/default/files/1-_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf
KING, Rachael (2008): “How Cloud Computing is Changing the World?” en BusinessWeek, New York, 4 august, 2008
LEINWAND, Allan (2008): “It´s 2018: Who Owns the Cloud?” en BusinessWeek, New York, 4 august, 2008
THE ECONOMIST (2008): “Let it rise. A Special report on IT Corporate” en The Economist, London, October 25th 2008.
Página –187–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
Blogs tecnológicos
TechCrunch (www.techcrunch.com)
Gizmodo (www.gizmodo.com, www.gizmodo.es)
Boing Boing (www.boingboing.com)
Engadget (www.engadget.com)
The Official Google Blog (googleblog.blospot.com)
O´Reilly (www.oreillynet.com)
Slahdot (www.slahdot.com)
Microsiervos (www.microsiervos.com)
Xataca (www.xataca.com)
Google Dirson (google.dirson.com)
Masable (www.mashable.com)
Página –188–
© Luis Joyanes Aguilar
Universidad Distrital Francisco José de Caldas
Bogotá (Colombia). 31 de mayo de 2013
LECTURAS RECOMENDADAS Documentos de Cloud Computing de:
NIST
Cloud Security Alliance
ISACA
ONTSI
BANKINTER – Accenture
ENISA
Cio.com, Computing.es, idc.com/computerworld
Página –189–