5
Estado del Arte sobre el Almacenamiento y Gestión de los Datos en la Nube Jesús Á. Alonso López Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: [email protected] Rafael Cano Parra Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: [email protected] Carlos E. Reyes Gonzalo Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: [email protected] Resumen—Este documento recoge la investigación realizada sobre algunos aspectos del almacenamiento y gestión de los datos dentro del paradigma de la computación en la nube. Los autores han revisado las preguntas de investigación abiertas y han seleccionado tres en las que se han centrado para revisar el estado del arte en relación con ellas: la seguridad en los datos, la integridad de los datos y los problemas relacionados con la realización de copias de seguridad. I. I NTRODUCCIÓN La computación en la nube es un paradigma emergente que afecta a diversos aspectos como son el almacenamiento de los datos y la ejecución de las aplicaciones. Hace uso de la virtualización para proporcionar ciertas ventajas frente al sistema tradicional físico, tales como una percepción de re- cursos infinitos, una gestión eficiente de recursos consumiendo sólo aquellos que son necesarios, e incluso introduciendo el concepto de “pagar por lo que utilizas”. El almacenamiento en la nube surge como una concepto dentro de la computación en la nube. Ofrece una solución de virtualización del almacenamiento en la que los datos pueden estar guardados en distintas ubicaciones físicas y usando diferentes técnicas de gestión interna. En cambio, de cara al usuario los datos se ofrecen de forma transparente, haciendo uso de una aplicación de gestión, y permite aislarle de la gestión de la infraestructura. A su vez, permite que los datos estén disponibles para el usuario desde cualquier parte del mundo a través de una conexión a Internet. Actualmente, la computación en la nube se clasifica en tres escenarios diferentes: infraestructura como servicio (IaaS), plataforma como servicio (PaaS) y software como servicio (SaaS). El almacenamiento en la nube se añade como un nuevo escenario dentro de esta clasificación: el almacena- miento como servicio (DaaS). Este escenario permite una abstracción del almacenamiento de los datos a través de un conjunto de interfaces de usuario, de forma que el usuario puede interactuar con ellos sin conocer ni preocuparse sobre cómo son gestionados y almacenados internamente sus datos. He et al. [1] y Wu et al. [2] identifican cinco ventajas clave relativas a la utilización del almacenamiento en la nube y a las aplicaciones que hacen uso de éste, que son: facilidad de gestión, manejando los datos con un simple explorador web; Tabla I ESCENARIOS DE LA COMPUTACIÓN EN LA NUBE IaaS PaaS SaaS DaaS Infrastructure as a Service Platform as a Service Software as a Service Data as a Ser- vice Servidores, redes, sistemas de almacena- miento y otros componentes físicos. Entornos de desarrollo de servicios. Aplicación completa ofrecida como un servicio. Servicios de almacena- miento. efectividad en el coste, eliminando los costes del hardware y de su mantenimiento y ofreciendo niveles altos de dis- ponibilidad y escalabilidad haciendo uso de la economía de escala; bajo impacto ante cortes y mejoras, proveyendo un coste efectivo en la redundancia del hardware y ofreciendo un servicio ininterrumpido incluso durante cortes planeados y no planeados; preparación ante desastres, ofreciendo seguridad a través del almacenamiento de los datos de forma redundante y distribuidos para que no haya pérdidas ante una recuperación de un desastre; y planificación simplificada, como una solu- ción flexible que provee nuevo almacenamiento según se va necesitando. A su vez, identifican seis oportunidades sobre su imple- mentación originarias de las seis debilidades detectadas en los distintos tipos de almacenamiento en la nube existentes. Estas oportunidades son las siguientes: seguridad, un punto recurrente en cualquier sistema; integridad de los datos, ase- gurando que los datos almacenados son correctos; potencia, ofreciendo la oportunidad de tener almacenamiento adicional; tiempo y costes en la replicación, relativas a la rapidez con la que se replican los datos y siendo importante para la resistencia de los datos; costes, reduciendo éstos al quitar la necesidad de comprar hardware adicional para el almacenamiento; y fiabilidad. Este artículo se centra en tres de las oportunidades anterio- res, y se organiza de la siguiente forma. En la sección II se mencionan algunos elementos que debería tener un sistemas de almacenamiento en la nube seguro, de igual manera se exponen problemas de casos reales. La sección III ofrece una perspectiva general de los retos existentes para la integridad

Estado artecloudstorage

Embed Size (px)

Citation preview

Page 1: Estado artecloudstorage

Estado del Arte sobre el Almacenamientoy Gestión de los Datos en la Nube

Jesús Á. Alonso LópezEscuela Técnica Superior de

Ingenieros de TelecomunicaciónUniversidad de Valladolid

Valladolid, SpainEmail: [email protected]

Rafael Cano ParraEscuela Técnica Superior de

Ingenieros de TelecomunicaciónUniversidad de Valladolid

Valladolid, SpainEmail: [email protected]

Carlos E. Reyes GonzaloEscuela Técnica Superior de

Ingenieros de TelecomunicaciónUniversidad de Valladolid

Valladolid, SpainEmail: [email protected]

Resumen—Este documento recoge la investigación realizadasobre algunos aspectos del almacenamiento y gestión de losdatos dentro del paradigma de la computación en la nube. Losautores han revisado las preguntas de investigación abiertas yhan seleccionado tres en las que se han centrado para revisar elestado del arte en relación con ellas: la seguridad en los datos,la integridad de los datos y los problemas relacionados con larealización de copias de seguridad.

I. INTRODUCCIÓN

La computación en la nube es un paradigma emergente queafecta a diversos aspectos como son el almacenamiento delos datos y la ejecución de las aplicaciones. Hace uso dela virtualización para proporcionar ciertas ventajas frente alsistema tradicional físico, tales como una percepción de re-cursos infinitos, una gestión eficiente de recursos consumiendosólo aquellos que son necesarios, e incluso introduciendo elconcepto de “pagar por lo que utilizas”.

El almacenamiento en la nube surge como una conceptodentro de la computación en la nube. Ofrece una solución devirtualización del almacenamiento en la que los datos puedenestar guardados en distintas ubicaciones físicas y usandodiferentes técnicas de gestión interna. En cambio, de cara alusuario los datos se ofrecen de forma transparente, haciendouso de una aplicación de gestión, y permite aislarle de lagestión de la infraestructura. A su vez, permite que los datosestén disponibles para el usuario desde cualquier parte delmundo a través de una conexión a Internet.

Actualmente, la computación en la nube se clasifica entres escenarios diferentes: infraestructura como servicio (IaaS),plataforma como servicio (PaaS) y software como servicio(SaaS). El almacenamiento en la nube se añade como unnuevo escenario dentro de esta clasificación: el almacena-miento como servicio (DaaS). Este escenario permite unaabstracción del almacenamiento de los datos a través de unconjunto de interfaces de usuario, de forma que el usuariopuede interactuar con ellos sin conocer ni preocuparse sobrecómo son gestionados y almacenados internamente sus datos.

He et al. [1] y Wu et al. [2] identifican cinco ventajas claverelativas a la utilización del almacenamiento en la nube y alas aplicaciones que hacen uso de éste, que son: facilidad degestión, manejando los datos con un simple explorador web;

Tabla IESCENARIOS DE LA COMPUTACIÓN EN LA NUBE

IaaS PaaS SaaS DaaSInfrastructureas a Service

Platform as aService

Software as aService

Data as a Ser-vice

Servidores,redes, sistemasde almacena-miento y otroscomponentesfísicos.

Entornos dedesarrollo deservicios.

Aplicacióncompletaofrecida comoun servicio.

Servicios dealmacena-miento.

efectividad en el coste, eliminando los costes del hardwarey de su mantenimiento y ofreciendo niveles altos de dis-ponibilidad y escalabilidad haciendo uso de la economía deescala; bajo impacto ante cortes y mejoras, proveyendo uncoste efectivo en la redundancia del hardware y ofreciendo unservicio ininterrumpido incluso durante cortes planeados y noplaneados; preparación ante desastres, ofreciendo seguridad através del almacenamiento de los datos de forma redundante ydistribuidos para que no haya pérdidas ante una recuperaciónde un desastre; y planificación simplificada, como una solu-ción flexible que provee nuevo almacenamiento según se vanecesitando.

A su vez, identifican seis oportunidades sobre su imple-mentación originarias de las seis debilidades detectadas enlos distintos tipos de almacenamiento en la nube existentes.Estas oportunidades son las siguientes: seguridad, un puntorecurrente en cualquier sistema; integridad de los datos, ase-gurando que los datos almacenados son correctos; potencia,ofreciendo la oportunidad de tener almacenamiento adicional;tiempo y costes en la replicación, relativas a la rapidez con laque se replican los datos y siendo importante para la resistenciade los datos; costes, reduciendo éstos al quitar la necesidadde comprar hardware adicional para el almacenamiento; yfiabilidad.

Este artículo se centra en tres de las oportunidades anterio-res, y se organiza de la siguiente forma. En la sección II semencionan algunos elementos que debería tener un sistemasde almacenamiento en la nube seguro, de igual manera seexponen problemas de casos reales. La sección III ofrece unaperspectiva general de los retos existentes para la integridad

Page 2: Estado artecloudstorage

de los datos, así como la descripción de algunos protocolospropuestos para conseguir una solución efectiva. Los proble-mas relacionados con el tiempo y coste de la replicación delos datos mediante copias de seguridad son tratados en lasección IV donde se hace hincapié en las técnicas para evitarduplicaciones de los datos. Finalmente, en la sección V sepresentan las conclusiones y los trabajos futuros.

II. SEGURIDAD EN LOS DATOS

Según Kamara et al. [3] los avances en las tecnologíasde redes y el aumento en las necesidades de recursos decomputación exigen a muchas organizaciones a externalizarsus necesidades de almacenamiento y computación. Al moversus datos a la nube los clientes pueden evitar los costos deconstruir y mantener una infraestructura de almacenamientoprivado, optando en su lugar por pagarle a un proveedorde servicios en función de sus necesidades. Para algunos,esto proporciona varios beneficios como la disponibilidad(es decir, ser capaz de acceder a los datos desde cualquierlugar) y la fiabilidad (es decir, no tener que preocuparse delas copias de seguridad) a un coste relativamente bajo. Peropara otros clientes, estos cambios introducen elementos quepueden significar riesgos de seguridad y privacidad. Pareceque el mayor obstáculo para la adopción de almacenamientoen la nube (y la computación en la nube en general) es supreocupación por la confidencialidad y la integridad de losdatos.

Esta reticencia se puede atribuir al deseo de proteger losdatos críticos de las obligaciones legales para preservar laconfidencialidad y la integridad de los datos. Esto último puedeocurrir cuando el cliente es responsable de mantener datos quepermitan la identificación de personas o registros médicos einformación financiera.

Para abordar dichas preocupaciones Kamara et al. [3] pro-pone un servicio de almacenamiento virtual privado (serviciode almacenamiento criptográfico) que contemple los siguienteselementos (por lo menos) de seguridad:

Confidencialidad: el proveedor de almacenamiento en lanube no debe conocer ninguna información sobre losdatos del cliente.Integridad: cualquier modificación de los datos del clientepor el proveedor de almacenamiento en la nube debe serdetectados por el cliente.Disponibilidad: los datos del cliente se pueden accederdesde cualquier máquina y en todo momento.Fiabilidad: los datos del cliente son una copia de segu-ridad fiable.Eficiencia en la recuperación: los tiempos de recupera-ción de datos son comparables a un servicio de almace-namiento en la nube pública.Posibilidad del intercambio de datos: los clientes puedencompartir sus datos con terceros de confianza.

Un aspecto importante de un servicio de almacenamientocriptográfico es que las propiedades de seguridad descritasanteriormente se consiguen sobre la base de las garantías decifrado fuerte.

Otros elementos que comprometen la seguridad se exponenpara apreciar con mayor amplitud este campo. Por ejemplo,Cachin et al. [4] advierte sobre los tiempos de inactividadde los servicios contratados, que afectan la disponibilidad demanera directa y refiere casos sucedidos en Google Mail, Hot-mail, Amazon S3 y MobileMe, sugiere revisar este apartado enlos contratos de servicios con el proveedor de almacenamientoen la nube. De igual manera se hace algunas preguntas y lasdeja en el aire: ¿qué pasaría si se paga el servicio con retraso?o ¿puede el proveedor de almacenamiento decidir que unode los documentos viola su política de seguridad y cancelarsu servicio o negarle el acceso a los datos? En el año 2008,un proveedor de almacenamiento en la nube llamado LinkUp(MediaMax) salió del negocio después de perder el 45 % delos datos almacenados de sus clientes debido a un error deladministrador del sistema.

III. INTEGRIDAD DE LOS DATOS

Al igual que la seguridad en los datos, uno de los retos muyligado a éste que surge al popularizarse el almacenamientoen la nube en el ámbito industrial y educativo es el de laintegridad de los datos. La integridad de los datos permiteasegurar al usuario que los datos que guarda y recuperadel almacenamiento en la nube son los mismos y no hansufrido modificaciones ni durante las transmisiones ni en elalmacenamiento en la nube.

Las técnicas que se empezaron a utilizar para garantizarla integridad de los datos en el almacenamiento en la nubeeran las tradicionales, tales como la firma digital, cifrado,cortafuegos, aislamiento de entornos virtuales, etc. Surgieronmultitud de dudas sobre cómo eran tratados los datos delos usuarios por los sistemas de almacenamiento en la nube,y se detectó la necesidad de definir requisitos de seguridadespecíficos para la computación en la nube.

Los protocolos que se han propuesto actualmente paragarantizar la integridad de los datos tienen dos aspectos decompletitud diferenciadores. El primero trata sobre si el diseñoestá pensado para un único servidor o si permite asegurar laintegridad cuando los datos están distribuidos entre varios ser-vidores. El segundo es relativo al carácter estático o dinámicode los datos en el almacenamiento en la nube, es decir, si sepermiten realizar operaciones sobre ellos cuando está en lanube o, en cambio, sólo se utiliza para un almacenamiento sinmodificaciones.

Feng et al. [5] comenta que los tres grandes sistemas dealmacenamiento en la nube existentes (Amazon Web Services,Windows Azure Platform y Google App Engine) contienenuna vulnerabilidad básica, como es la falta de garantía deque los datos almacenados en sus plataformas mantengansu integridad sin ser modificados. Los tres sistemas utilizanuna huella digital cifrando los datos con el algoritmo MD5y realizando la transmisión sobre canales seguros utilizandoel protocolo SSL, pero no van más allá sobre la garantía deintegridad de los datos dentro de sus plataformas. Por ellopropone un nuevo protocolo de no rechazo (NR) diseñadoespecíficamente para el contexto de la computación en la

Page 3: Estado artecloudstorage

nube, en el que utiliza un enlace de integridad entre dossesiones a través de un agente de confianza de terceros. Estádiseñado para un único servidor y no permite que los datossean dinámicos.

En el mismo año, Jianhong y Hua [6] proponen un protocoloque combina la criptografía basad en la identidad y el sistemade firma digital RSA. Este protocolo permite garantizar alusuario la verificación de la integridad de sus datos, sin teneruna copia local de los ficheros de datos y prescindiendo ini-cialmente de verificadores de terceros, aunque permite delegarla autoridad de verificación de la integridad de sus datos enagentes de confianza de terceros. Está diseñado para variosservidores, pero no permite que los datos sean dinámicos.

Un protocolo similar al de Jianhong y Hua es el que proponeLuo y Bai [7]. Es un protocolo de verificación de la integridadde los datos de forma remota basado en las firmas digitalesRSA y HLAs y utilizando agentes públicos de verificación.Está diseñado para un único servidor, pero permite garantizarla integridad incluso aunque los datos tengan modificacionesdinámicas remotamente.

Por otra parte, la mayoría de los protocolos que se utilizanpara garantizar la integridad de los datos requieren un usoelevado del procesador para el cifrado de los datos o un anchode banda grande para la transmisión de los datos. Kumar ySaxena [8] proponen un protocolo diseñado específicamentepara ser utilizado en dispositivos pequeños tales como unaPDA o un teléfono inteligente, en los que el procesador, labatería y el ancho de banda son limitados. El protocolo permitegarantizar la integridad de los datos realizando únicamente ladescarga y cifrado de una porción de bits de ellos, reduciendoasí el ancho de banda y la computación. Se crea una clavecriptográfica de cada porción de bits como un metadato y queserá la que se utilice para verificar la integridad de los datosante los agentes de verificación.

En el trabajo de Talib et al. [9] van más allá del diseñode un protocolo para garantizar la integridad de los datos, yproponen una capa llamada “CloudZone” basada en el usode sistemas multiagente en el que, además de garantizar laintegridad, permiten la reconstrucción de los datos originalesa través de la descarga de unos vectores desde los servidoresen la nube. Realiza una gestión de copias de seguridad internabasada en reglas para permitir la recuperación de los datos,los cuales pueden estar en varios servidores a la vez que setoleran los cambios dinámicos sin perder la integridad de losdatos.

IV. DUPLICACIÓN DE DATOS

La duplicación de datos es un problema que un proveedorde almacenamiento en la nube debe evitar con el fin de poderhacer un uso óptimo de los recursos disponibles. La optimiza-ción de la capacidad de almacenamiento le permitirá ahorrarcostes evitando la compra de nuevos servidores y supondrápor supuesto menores gastos operativos: se necesitará menosespacio para el centro de datos y la energía consumida tantopara alimentar equipos como para refrigerar será menor.

En [10] se señala al cuello de botella que suponen lastransferencias de datos como uno de los obstáculos (y portanto oportunidades de investigación) de la computación en lanube. Esto parece especialmente relevante para servicios dealmacenamiento y en concreto para la realización de copiasde seguridad en la nube. Los autores incluyen varios ejemplosintroducidos a su vez por Jim Gray en [11] en los quese compara el precio y el tiempo necesarios para realizaruna copia de seguridad a través de la nube con lo quecostaría enviar por mensajería copias físicas de los discos.La conclusión que extraen es que las copias de seguridadcompletas (por ejemplo semanales) se pueden realizar a travésdel envío de copias físicas mediante mensajería tradicional (víaMRW, FedEx o similares) mientras que las copias de seguridadincrementales diarias se pueden realizar a través de la nube.

Parece claro por tanto que los proveedores de servicios dealmacenamiento y de copias de seguridad en la nube debeninvestigar en técnicas que les ayuden a reducir la cantidad dedatos que se deben enviar a través de la nube.

Las técnicas de-duplicación de datos permiten optimizarel uso de los recursos detectando ficheros o fragmentos defichero duplicados y almacenando una única copia de cadabloque de fichero. Con esto se consigue no sólo un mejoraprovechamiento del almacenamiento de disco si no tambiénuna reducción de los requerimientos de ancho de banda puestoque hay menos información que transferir.

IV-A. Estrategias de de-duplicaciónEn función del tamaño de la información que se maneja se

distingue entre:De-duplicación a nivel de fichero: permite guardar unasola copia de cada fichero. Dos ficheros se consideranidénticos si se obtiene el mismo valor al aplicar unafunción hash.De-duplicación a nivel de bloque: se trabaja a nivelde bloque de fichero y se mantiene una sola copiaactualizada de cada bloque.

En función de la arquitectura del sistema de de-duplicaciónse distingue entre:

De-duplicación en destino: la de-duplicación se realizaen el dispositivo de almacenamiento destino. Reduce lautilización de espacio en disco en destino pero no lanecesidad de ancho de banda para la transmisión de losdatos.De-duplicación en origen: la de-duplicación se aplica enorigen antes de realizarse la transferencia. Se estableceuna comunicación con el nodo donde ha de residir lacopia actualizada (típicamente el nodo en el que residenlas copias de seguridad) al que se le envían firmas de hashpara comprobar la existencia de duplicados. Los bloquesque se detectan como duplicados no se envían, y sonreemplazados por punteros a los bloques más actuales.De esta forma se ahorra en espacio de almacenamientoy en uso de ancho de banda.

Hay dos factores principales [12] que nos pueden indicar elnivel de de-duplicación que se va a poder conseguir:

Page 4: Estado artecloudstorage

1. El tipo de datos: si conocemos el tipo de datos mane-jados se puede anticipar en qué nivel va a ser efectivala de-duplicación. Así por ejemplo, los ficheros creadosdentro de una misma empresa contienen informaciónredundantes que es distribuida y copiada con frecuencia.En el otro extremo, una aplicación que recoja datos dela Naturaleza normalmente va a generar datos únicos enlos cuales será difícil encontrar patrones de repetición.

2. La frecuencia en que los datos son modificados: cuantomenos se modifiquen los datos mayor es la frecuencia deque todas las copias existentes de esos datos contenganlo mismo. Por el contrario, actualizaciones frecuentesen los datos hacen que los algoritmos tengan menosprobabilidades de encontrar datos duplicados.

Otro aspecto a considerar es el incremento en el volumende datos total; si éste aumenta es muy posible que se deba aque se ha almacenado datos que no existían previamente. Engeneral, y salvo que el crecimiento se deba a la realización deuna copia de datos ya existentes, cuando el volumen total dedatos crece el ratio de de-duplicación será más bajo porquehay más datos únicos.

IV-B. Revisión de algunos sistemas de de-duplicación paraalmacenamiento en la nube

Entre la literatura existente se pueden encontrar variosejemplos de técnicas de de-duplicación de datos orientados amejorar el coste y el tiempo requeridos para hacer una copiade seguridad en la nube.

Tan et al. [13] propone un sistema denominado SAM(Semantic-AwareMulti-Tiered Source De-duplication) pararealizar copias de seguridad en la nube. El sistema utilizade-duplicación de datos híbrida, tanto a nivel de fragmentocomo a nivel de fichero e intenta explotar la semántica delos ficheros. Para ello se analiza meta información como eldónde está situado, su fecha de última modificación, el tipode fichero y su tamaño. Según la evaluación realizada por losautores se consigue una de-duplicación eficiente manteniendoun sobre coste de procesamiento controlado. Consigue reducirel tiempo empleado en realizar una copia de seguridad en un38.7 %.

Los mismos autores recuerdan en [14] que no sólo se debemejorar el tiempo de realización de una copia de seguridadsi no también el tiempo de restauración. Proponen el sistemaCABdedupe que captura y utiliza lo que denominan “rela-ciones causales” entre copias de seguridad cronológicas deun conjunto de datos. Para ello utilizan unos componentesdenominados “File Monitor”, “File List” y “File Recipe”. “FileMonitor” es un demonio que anota todas las operaciones quese realizan sobre los datos y los anota en las estructuras dedatos “File List” y “File Recipe”. Utilizando la informaciónque contienen esas estructuras de datos CABdedupe es capazde identificar qué ficheros y qué fragmentos de fichero hancambiado desde la última copia de seguridad. Sólo aquellosque han cambiado son transmitidos en la operación de copiade seguridad o de restauración. Explotando esa información

consiguen mejorar el tiempo de ejecución de operaciones decopia de seguridad y restauración en un ratio de 103:1.

La seguridad es un aspecto que ha de tenerse en cuentaen los procesos de de-duplicación de datos. Así, Harnik etal. [15] alertan sobre como la de-duplicación de un conjuntode ficheros en un espacio en el que hay ficheros y/o ver-siones de distintos usuarios puede suponer un riesgo parala privacidad; en concreto demuestran en su artículo que elproceso de-duplicación de varias copias de un mismo ficheropertenecientes a distintos usuarios puede utilizarse para revelarinformación acerca de los contenidos de los ficheros de otrosusuarios e incluso como un canal por el que software maliciosopuede comunicarse con el exterior saltándose la protecciónde los cortafuegos. Como precisamente en los entornos deficheros compartidos por varios usuarios es donde las técnicasde de-duplicación tiene más efectividad los autores intentansubsanar los riesgos desvelados con una propuesta de sistemaque permite mejorar la privacidad a costa de un pequeñodescenso en la efectividad de la de-duplicación.

V. CONCLUSIONES Y TRABAJOS FUTUROS

Exponer algunos problemas relacionados con la seguridady la fiabilidad da pie para afirmar que existen frentes abiertospara la investigación y el desarrollo de estas áreas, las solucio-nes que se han encontrado corresponden en muchos casos alentorno académico, por lo que se debe esperar para utilizarlosen entorno reales. Corresponde a los clientes, en este caso alos usuarios de los servicios de almacenamiento en la nube,exigir elementos que ofrezcan confianza y garantía en casode modificación y/o perdida de datos a los proveedores dealmacenamiento en la nube.

La integridad de los datos es uno de los retos más discu-tidos por la comunidad científica del almacenamiento en lanube. Inicialmente se utilizaron las técnicas tradicionales deseguridad e integridad, pero se requieren nuevos protocolosespecíficos y adaptados a la computación en la nube. En esteartículo se hacen referencia a cinco protocolos de integridadde los datos en el campo del almacenamiento en la nubeque presentan la evolución en este campo. Ofrecen solucionestanto para entornos de uno o varios servidores y para datostanto estáticos como dinámicos. Se basan en técnicas decifrado ya existentes como RSA o HLAs, tienen en cuentafactores para la reducción de la computación y del anchode banda, e incluso van más allá y proponen una capa quepermita la recuperación de los datos gracias a las técnicas degarantización de la integridad de los datos. Existen multitudde líneas de investigación abiertas en aras a lograr protocolosque sean eficientes, que permitan garantizar la integridadpara datos distribuidos en varios servidores, con un carácterdinámico y prescindiendo de agentes externos de verificaciónsin prescindir de la seguridad sobre la integridad de los datos.

Las técnicas de de-duplicación de datos aplicadas a laobtención y restauración de copias de seguridad expuestasanteriormente demuestran que hay esfuerzo de investigacióndedicado a solucionar el problema que supone la transferenciade grandes volúmenes de información en la nube. En ese

Page 5: Estado artecloudstorage

sentido es de esperar que la de-duplicación de datos junto conla mejora en el precio de conexiones del rango de decenasde Gbps consigan hacer que los transferencias de datos en lanube puedan mejorar la tasa de transferencia que se consigueenviando físicamente discos por mensajería como DHL oFedEx. Desde luego esto ayudaría a mejorar la credibilidadde las soluciones de almacenamiento y copias de seguridad enla nube.

REFERENCIAS

[1] Q. He, Z. Li, and X. Zhang, “Analysis of the key technology oncloud storage,” in Future Information Technology and ManagementEngineering (FITME), 2010 International Conference on, vol. 1, oct.2010, pp. 426 –429.

[2] J. Wu, L. Ping, X. Ge, Y. Wang, and J. Fu, “Cloud storage asthe infrastructure of cloud computing,” in Intelligent Computing andCognitive Informatics (ICICCI), 2010 International Conference on, june2010, pp. 380 –383.

[3] S. Kamara and K. Lauter, “Cryptographic cloud storage financialcryptography and data security,” in Financial Cryptography andData Security, ser. Lecture Notes in Computer Science, R. Sion,R. Curtmola, S. Dietrich, A. Kiayias, J. Miret, K. Sako, andF. Sebé, Eds. Berlin, Heidelberg: Springer Berlin / Heidelberg,2010, vol. 6054, ch. 13, pp. 136–149. [Online]. Available: http://dx.doi.org/10.1007/978-3-642-14992-4\_13

[4] C. Cachin, I. Keidar, and A. Shraer, “Trusting the cloud,” SIGACTNews, vol. 40, pp. 81–86, Jun. 2009. [Online]. Available: http://doi.acm.org/10.1145/1556154.1556173

[5] J. Feng, Y. Chen, W.-S. Ku, and P. Liu, “Analysis of integrity vulnerabi-lities and a non-repudiation protocol for cloud data storage platforms,”in Parallel Processing Workshops (ICPPW), 2010 39th InternationalConference on, sept. 2010, pp. 251 –258.

[6] Z. Jianhong and C. Hua, “Secuirty storage in the cloud computing:A rsa-based assumption data integrity check without original data,” inEducational and Information Technology (ICEIT), 2010 InternationalConference on, vol. 2, sept. 2010, pp. V2–143 –V2–147.

[7] W. Luo and G. Bai, “Ensuring the data integrity in cloud data storage,”in Cloud Computing and Intelligence Systems (CCIS), 2011 IEEEInternational Conference on, sept. 2011, pp. 240 –243.

[8] R. Sravan Kumar and A. Saxena, “Data integrity proofs in cloudstorage,” in Communication Systems and Networks (COMSNETS), 2011Third International Conference on, jan. 2011, pp. 1 –4.

[9] A. Talib, R. Atan, R. Abdullah, and M. Azrifah, “Cloudzone: Towardsan integrity layer of cloud data storage based on multi agent systemarchitecture,” in Open Systems (ICOS), 2011 IEEE Conference on, sept.2011, pp. 127 –132.

[10] M. Armbrust, A. Fox, R. Griffith, A. D. Joseph, R. H. Katz,A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica,and M. Zaharia, “Above the clouds: A berkeley view of cloudcomputing,” EECS Department, University of California, Berkeley,Tech. Rep. UCB/EECS-2009-28, Feb 2009. [Online]. Available:http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html

[11] “A conversation with jim gray,” Queue, vol. 1, pp. 8–17, June 2003.[Online]. Available: http://doi.acm.org/10.1145/864056.864078

[12] M. Dutch, “Understanding data deduplication ratios,” SNIA WhitePaper, Storage Networking Industry Association, Jun. 2008.

[13] Y. Tan, H. Jiang, D. Feng, L. Tian, Z. Yan, and G. Zhou, “Sam:A semantic-aware multi-tiered source de-duplication framework forcloud backup,” in Parallel Processing (ICPP), 2010 39th InternationalConference on, sept. 2010, pp. 614 –623.

[14] Y. Tan, H. Jiang, D. Feng, L. Tian, and Z. Yan, “Cabdedupe: A causality-based deduplication performance booster for cloud backup services,”in Parallel Distributed Processing Symposium (IPDPS), 2011 IEEEInternational, may 2011, pp. 1266 –1277.

[15] D. Harnik, B. Pinkas, and A. Shulman-Peleg, “Side channels in cloudservices: Deduplication in cloud storage,” Security Privacy, IEEE, vol. 8,no. 6, pp. 40 –47, nov.-dec. 2010.