18
PROTECTION DU BIG DATA Solutions de protection des données pour Hadoop et le Business Data Lake RÉSUMÉ L’analytique Big Data progresse rapidement dans le monde de l’entreprise, entraînant de véritables transformations au niveau de leurs résultats. Parallèlement, les applications Big Data entrent souvent en production sans stratégie de protection des données fiable. Hadoop est le framework Big Data leader du marché ; les entreprises en attendent un service complet de protection des données, de la sauvegarde à la reprise après sinistre. Ce livre blanc explique comment Dell EMC Data Domain Boost for Enterprise Applications, inclus dans la gamme Dell EMC Data Protection Suite, fournit la première véritable application de sauvegarde du marché pour Hadoop. Ce logiciel offre à l’administrateur Hadoop un ensemble de commandes CLI pour réaliser ses propres sauvegardes et restaurations sur un stockage de protection Data Domain. Ce document aborde également les options de protection des données Isilon, Networker et Elastic Cloud Storage (ECS) pour la sauvegarde des autres composants du Data Lake. Mai 2017

PROTECTION DU BIG DATA - Dell EMC France · PROTECTION DU BIG DATA. Solutions de protection des données pour Hadoop et. le Business Data Lake . RÉSUMÉ. L’analytique Big Data

  • Upload
    lykiet

  • View
    214

  • Download
    2

Embed Size (px)

Citation preview

PROTECTION DU BIG DATA Solutions de protection des données pour Hadoop et le Business Data Lake

RÉSUMÉ L’analytique Big Data progresse rapidement dans le monde de l’entreprise, entraînant de véritables transformations au niveau de leurs résultats. Parallèlement, les applications Big Data entrent souvent en production sans stratégie de protection des données fiable. Hadoop est le framework Big Data leader du marché ; les entreprises en attendent un service complet de protection des données, de la sauvegarde à la reprise après sinistre. Ce livre blanc explique comment Dell EMC Data Domain Boost for Enterprise Applications, inclus dans la gamme Dell EMC Data Protection Suite, fournit la première véritable application de sauvegarde du marché pour Hadoop. Ce logiciel offre à l’administrateur Hadoop un ensemble de commandes CLI pour réaliser ses propres sauvegardes et restaurations sur un stockage de protection Data Domain. Ce document aborde également les options de protection des données Isilon, Networker et Elastic Cloud Storage (ECS) pour la sauvegarde des autres composants du Data Lake.

Mai 2017

Les informations contenues dans ce document sont fournies « en l’état ». EMC Corporation ne fournit aucune déclaration ou garantie d’aucune sorte concernant les informations contenues dans cette publication et rejette plus spécialement toute garantie implicite de qualité commerciale ou d’adéquation à une utilisation particulière.

L'utilisation, la copie et la diffusion de tout logiciel EMC décrit dans cette publication nécessitent une licence logicielle en cours de validité.

EMC2, EMC et le logo EMC sont des marques déposées ou des marques commerciales d'EMC Corporation aux États-Unis et dans d'autres pays. Toutes les autres marques citées dans le présent document sont la propriété de leurs détenteurs respectifs. © Copyright 2016 EMC Corporation. Tous droits réservés. Publié en France [10/16] [Livre blanc] [Référence H13932.4]

EMC estime que les informations figurant dans ce document sont exactes à la date de publication. Ces informations sont modifiables sans préavis.

EMC fait désormais partie du groupe d'entreprises Dell.

2

SOMMAIRE

RÉSUMÉ ANALYTIQUE ............................................................................................................5 Enjeu ................................................................................................................................................. 5

Présentation de solution .................................................................................................................... 5

INTRODUCTION ........................................................................................................................5 Audience ........................................................................................................................................... 5

CONTEXTE ................................................................................................................................6 Qu’est-ce qu’un Data Lake ? ............................................................................................................. 6

Hadoop constitue la base de la plupart des Data Lakes ................................................................... 6

Cloudera Enterprise .......................................................................................................................... 7

Hortonworks Data Platform ............................................................................................................... 7

Modèles de déploiement Hadoop courants ....................................................................................... 7

La protection des données est l’obstacle qui freine l’adoption du Big Data par les entreprises ........ 8

SAUVEGARDE ET RESTAURATION POUR HADOOP AVEC LES SOLUTIONS DE PROTECTION DES DONNÉES DELL EMC .......................................................................9

Considérations particulières relatives à la sauvegarde avec Hadoop ............................................... 9

Vue d’ensemble du stockage de protection Dell EMC Data Domain ................................................. 9

Dell EMC DD Boost for Enterprise Applications ................................................................................ 9

Mise en œuvre des sauvegardes Hadoop avec DD Boost for Enterprise Apps .............................. 11

Avantages de DD Boost for Enterprise Apps pour Hadoop ............................................................. 12

AUTRES SOLUTIONS DE PROTECTION DELL EMC POUR LE DATA LAKE ................... 12 Présentation des autres solutions de protection Dell EMC pour le Data Lake ................................ 12

Options de stockage cible Dell EMC ............................................................................................... 12

Présentation générale du stockage scale-out NAS Dell EMC Isilon ................................................ 13

Présentation de Dell EMC Elastic Cloud Storage (ECS) ................................................................. 13

Protection des données en copie distribuée Hadoop sur ECS ........................................................ 13

Avantages de l’utilisation de la protection des données en copie distribuée Hadoop sur ECS ....... 14

Vue d’ensemble des snapshots Isilon gérés par NetWorker Snapshot Management ..................... 14

Snapshots Isilon gérés par NetWorker Snapshot Management sur Data Domain .......................... 14

Avantages de l’utilisation des snapshots Isilon gérés par NetWorker sur Data Domain .................. 15

Snapshots Isilon gérés par NetWorker Snapshot Management sur Isilon ....................................... 15

Avantages de l’utilisation des snapshots Isilon gérés par NetWorker sur Isilon .............................. 16

Snapshots Isilon gérés par NetWorker Snapshot Management sur ECS ........................................ 16

3

Avantages de l’utilisation des snapshots Isilon gérés par NetWorker sur ECS ............................... 16

AVANTAGES POUR LES CLIENTS ...................................................................................... 17

CONCLUSION ........................................................................................................................ 17

4

RÉSUMÉ ANALYTIQUE L’analytique Big Data progresse rapidement dans le monde de l’entreprise, entraînant de véritables transformations au niveau de leurs résultats. D’ici peu, l’analytique Big Data influera sur les prises de décision des entreprises, devenant ainsi la nouvelle application critique. Aujourd’hui, les cas d’utilisation du Big Data progressent rapidement et entrent souvent en production sans stratégie de protection des données fiable. Les approches de sauvegarde développées en interne reposant sur l’utilisation de snapshots et la réplication atteignent aujourd’hui leurs limites face aux attentes des entreprises en matière de fiabilité, de disponibilité et de facilité de service qui sont déjà la norme pour d’autres charges applicatives. Hadoop est le framework Big Data leader du marché. Cependant, l’absence de véritables solutions de reprise après sinistre et de sauvegarde adaptées n’échappe pas aux entreprises qui utilisent ces solutions pour protéger les autres applications de leur environnement. Les entreprises attendent de Hadoop un service complet de protection des données, de la sauvegarde à la reprise après sinistre.

Dell EMC® a donc développé DD Boost for Enterprise Applications®, inclus dans la gamme Dell EMC Data Protection Suite®, pour fournir à Hadoop une application de sauvegarde dédiée. Les administrateurs Hadoop peuvent maintenant utiliser les interfaces utilisateur natives pour sauvegarder et restaurer leurs données Hadoop vers et depuis les systèmes Data Domain®, le stockage de protection Dell EMC leader du marché.

ENJEU La version native de Hadoop ne dispose pas de véritable fonction de sauvegarde à un point dans le temps. Bien que le framework dispose de fonctions de snapshot et de réplication, celles-ci ne sont pas à l’épreuve des bugs logiciels, de la corruption des données et des erreurs humaines. Le fait que la version native de Hadoop n’intègre pas de solutions de sauvegarde et de reprise après sinistre prêtes à l’emploi est un obstacle majeur à son adoption par les entreprises. Alors que les applications Big Data se démocratisent, les risques métiers de période d'interruption et de perte de données s’accroissent. C’est pourquoi les entreprises souhaitent que leurs données Hadoop soient protégées sur des SLA similaires en tant que charges applicatives IT standard.

PRESENTATION DE SOLUTION Dell EMC fournit une stratégie de protection des données efficace pour répondre aux défis posés par Hadoop et les autres environnements Big Data. Ce document présente DD Boost for Enterprise Applications, inclus dans la gamme Dell EMC Data Protection Suite, et plusieurs autres solutions Dell EMC de protection du Business Data Lake, dont :

• Les systèmes Hadoop intégrant les distributions Cloudera et Hortonworks et gérés via des outils de ligne de commande et des interfaces utilisateur de gestion natives comme Cloudera Manager et Hortonworks Ambari.

• La prise en charge des clusters Hadoop conçus à l’aide d’un stockage DAS local ou des systèmes de stockage partagés tels que Dell EMC Isilon®.

• L’utilisation de structures Hadoop natives et l’intégration dans le système de fichiers Hadoop.

• D’autres produits Dell EMC (par exemple : NetWorker®, Isilon, stockage de protection Data Domain et Elastic Cloud Storage® (ECS)) pour les sauvegardes Hadoop et d’autres frameworks Big Data.

INTRODUCTION L’objectif de ce livre blanc est de fournir des informations générales sur l’importance croissante du Data Lake, et notamment la protection Hadoop, et de décrire les différentes solutions de protection Dell EMC pertinentes. Il aidera les clients à atteindre une plus grande valeur ajoutée et à optimiser leur efficacité opérationnelle via leur mise en œuvre du Data Lake et les frameworks Big Data.

AUDIENCE Ce livre blanc est destiné aux administrateurs IT et Hadoop, aux ingénieurs système, aux partenaires et aux membres de la communauté de services professionnels Dell EMC qui cherchent à mieux comprendre et à mettre en œuvre des solutions Dell EMC de protection du Business Data Lake.

5

CONTEXTE

QU’EST-CE QU’UN DATA LAKE ? En termes simples, un Data Lake est un référentiel central unique qui collecte des données à partir d’un large éventail de sources, pour ensuite alimenter de nombreuses applications analytiques. Les Data Lakes sont constitués d’une combinaison de données structurées, semi-structurées et non structurées. Diverses applications analytiques utilisent les données de ce Data Lake, gagnant en efficacité grâce à la réutilisation et à la cohérence des données. Les Data Lakes sont une évolution des entrepôts de données d’entreprise (EDW), à la différence qu’ils ne nécessitent pas de schéma initial. Ils sont donc capables de prendre en charge de nouveaux frameworks analytiques comme Hadoop, des bases de données NoSQL, etc., qui ont les capacités pour analyser ces nouvelles sources de données. Cette flexibilité permet aux clients d’ajouter et d’utiliser facilement de nombreuses autres sources de données grâce auxquelles ils peuvent prendre de meilleures décisions commerciales.

Les Data Lakes agrègent une variété de sources de données allant des applications d’entreprise classiques aux nouvelles sources de données semi-structurées et non structurées, comme l’illustre la Figure 1 ci-dessous.

HADOOP CONSTITUE LA BASE DE LA PLUPART DES DATA LAKES Hadoop est une plate-forme de données Open Source utilisée pour gérer de grands volumes de données issues d’un large éventail de sources, à grande échelle et à grande vitesse. Hadoop est géré par l’Apache Software Foundation et a d’abord connu une adoption rapide par les grandes entreprises Web. Avec l’émergence des distributions commercialisées par des sociétés telles que Cloudera et Hortonworks, Hadoop connaît désormais une adoption rapide au sein d’entreprises généralistes.

Hadoop excelle dans le traitement distribué de grands ensembles de données sur des clusters de serveurs génériques. Ce framework convient particulièrement au traitement et à l’analyse de grandes quantités de données entrantes non structurées et semi-structurées, en plus des sources de données structurées traditionnelles. Ce sont ces avantages qui ont fait la popularité de Hadoop en tant que plate-forme d’analytique. Selon les études de marché, environ 60 % des systèmes Big Data reposent sur Hadoop, ce qui en fait la plate-forme Big Data la plus populaire.

De nombreux systèmes Big Data incluent également des bases de données pour les données semi-structurées et non structurées qui sont dans de nombreux cas alimentées par un système Hadoop (le Data Lake), et qui peuvent réinjecter les résultats dans le Data Lake. Par conséquent, la plupart des mises en œuvre de Data Lake reposent sur Hadoop.

Figure 1 : Un Data Lake d’entreprise

6

CLOUDERA ENTERPRISE Cloudera Enterprise (CDH), illustré dans la Figure 2 ci-dessous, associe dans un même package Apache Hadoop avec d’autres projets Open Source. C’est l’une des distributions commerciales de Hadoop les plus utilisées par les entreprises. La surveillance du cluster, la gestion et les opérations sont effectuées dans l’interface Cloudera Manager.

HORTONWORKS DATA PLATFORM La plate-forme d’analytique Hortonworks basée sur Apache Hadoop, illustrée dans la Figure 3 ci-dessous, est également populaire auprès des entreprises. Elle regroupe les composants d’Apache Hadoop pour un large éventail de systèmes d’analyse : lot, streaming et temps réel. La surveillance, la gestion et les opérations sont effectuées dans l’interface Hortonworks Ambari. L’un des points forts d’Hortonworks est également l’ajout de fonctions de sécurité à Hadoop.

MODELES DE DEPLOIEMENT HADOOP COURANTS

Figure 2 : Cloudera Enterprise

Figure 3 : Hortonworks Data Platform (HDP)

7

Quelle que soit la distribution, trois méthodes sont couramment utilisées pour déployer Hadoop. Elles sont illustrées dans la Figure 4 ci-dessous.

LA PROTECTION DES DONNEES EST L’OBSTACLE QUI FREINE L’ADOPTION DU BIG DATA PAR LES ENTREPRISES Alors que l’analytique Big Data est en voie de devenir la prochaine application critique d’entreprise, les entreprises exigent des solutions de reprise après sinistre, de restauration et de sauvegarde solides pour leurs systèmes Big Data, et en particulier Hadoop. Toutefois, la version native de Hadoop ne propose pas de véritables sauvegardes à un point dans le temps. Bien que le framework dispose de fonctions de snapshot et de réplication, celles-ci ne sont pas à l’épreuve des bugs logiciels, de la corruption des données et des erreurs humaines. Dans les systèmes expérimentaux à petite échelle, les snapshots et la réplication peuvent constituer une stratégie de sauvegarde et reprise après sinistre suffisante.

Mais lorsque les entreprises envisagent la mise en production de leurs applications, elles ont des attentes spécifiques en matière de fiabilité, de disponibilité et de capacité de restauration. Ce sont des domaines où une stratégie de protection des données reposant sur des snapshots et la réplication ne suffit plus. Voici quelques-uns des avantages et des inconvénients de ces approches :

Avantages Inconvénients

Snapshots • Restauration rapide • Assurent une protection contre les

erreurs humaines • Intégrés à Hadoop

• Gourmands en stockage, consomment un stockage primaire plus onéreux

• Difficiles à gérer à grande échelle • Se situent sur le stockage principal (même

domaine de panne) Réplication • Copie sur un autre système

• Intégrée à Hadoop • Nécessite des technologies de même type • Ne protège pas contre les bugs logiciels, l’erreur

humaine ou une corruption des données • Pas de copie ponctuelle

Les objectifs fondamentaux d’une stratégie de sauvegarde sont les suivants :

1. Créer une véritable copie ponctuelle des données originales sur un système distinct.

2. Effectuer la restauration depuis un point dans le temps connu valide.

Comme vous pouvez le constater, les primitives natives de Hadoop ne constituent pas une solution de sauvegarde fiable. Les entreprises qui utilisent des produits de sauvegarde pour leurs autres applications IT l’ont bien compris et réclament une véritable fonctionnalité de sauvegarde pour Hadoop. Avec l’importance croissante de l’analytique dans la prise de décisions commerciales, les coûts associés aux périodes d’interruption et aux pertes de données peuvent être élevés, d’où la nécessité pour Hadoop d’avoir une fonctionnalité de sauvegarde et de restauration.

Figure 4 : Modèles de déploiement Hadoop courants

8

SAUVEGARDE ET RESTAURATION POUR HADOOP AVEC LES SOLUTIONS DE PROTECTION DES DONNÉES DELL EMC

CONSIDERATIONS PARTICULIERES RELATIVES A LA SAUVEGARDE AVEC HADOOP Il existe des différences essentielles entre Hadoop et l’architecture traditionnelle des systèmes d’entreprise :

• Hadoop est un système scale-out reposant sur des clusters de serveurs génériques et de stockage, tolérant aux pannes de composants. Il est conçu pour traiter les données en parallèle sur plusieurs serveurs ou « nœuds ».

• Le système de fichiers Hadoop (HDFS, Hadoop Distributed File System) est également distribué. Les fichiers stockés sur HDFS sont décomposés en blocs, qui sont ensuite répartis entre les nœuds du système.

• Les clusters Hadoop sont généralement déployés sur des disques sur serveur (également appelés stockage DAS). Les systèmes de stockage partagés (NFS) tels que Dell EMC Isilon constituent une autre façon de déployer Hadoop, facilitée par l’intégration native d’Isilon avec HDFS.

• HDFS assure une haute disponibilité en répliquant chaque bloc sur plusieurs nœuds (généralement 3 fois) pour assurer la redondance.

• Les systèmes Hadoop sont exploités et gérés par des administrateurs dédiés. Par conséquent, la sauvegarde et la restauration Hadoop sont sous la responsabilité d’administrateurs Hadoop, et non des administrateurs de sauvegarde ou de stockage.

Par conséquent, la sauvegarde HDFS nécessite l’intégration d’une application de sauvegarde dans HDFS ainsi qu’au nœud de gestion du cluster (également appelé le « nœud de nom »). Les volumes de données traités par HDFS peuvent être importants, nécessitant un transfert en parallèle afin de limiter les fenêtres de sauvegarde à une taille raisonnable.

VUE D’ENSEMBLE DU STOCKAGE DE PROTECTION DELL EMC DATA DOMAIN Le stockage de protection Dell EMC Data Domain offre des niveaux de vitesse et d’efficacité leaders sur le marché, grâce à un débit pouvant atteindre 68 To/heure. Vous pouvez ainsi effectuer plus rapidement davantage de sauvegardes tout en réduisant la pression sur les fenêtres de sauvegarde. Les systèmes Data Domain utilisent la déduplication sur des segments de longueur variable pour réduire l’espace disque nécessaire et s’assurer que les données sont déjà dédupliquées lorsqu’elles arrivent sur un disque. Ceci réduit en moyenne de 10 à 30 fois les besoins de stockage à des fins de sauvegarde et d’archivage, faisant du disque une solution alternative économique à l'utilisation de bandes. Les données sur disque sont disponibles en ligne et sur site pendant des périodes plus longues, rendant ainsi les restaurations et les récupérations rapides et fiables. Cette efficacité permet aux systèmes Data Domain de protéger jusqu’à 150 Po de capacité logique pour la sauvegarde et d’archiver les données sur un seul système.

Data Domain Boost (DD Boost) est une fonctionnalité qui améliore les performances de sauvegarde jusqu’à 50 %, réduit la consommation de bande passante jusqu’à 99 %, améliore la réussite des sauvegardes grâce à l’agrégation automatique de liens et le basculement du chemin, et fournit d’autres avantages par rapport à la sauvegarde via NFS.

Les systèmes EMC Data Domain sont conçus comme des solutions de stockage de dernier recours grâce auxquelles vous avez la garantie de pouvoir récupérer vos données. L’architecture d’invulnérabilité des données EMC Data Domain est intégrée dans Data Domain Operating System (DD OS) pour fournir le meilleur moyen de défense contre les problèmes liés à l’intégrité des données. Pour plus d’informations sur les systèmes Data Domain, consultez la Fiche produit Dell EMC Data Domain, Les principaux atouts de Data Domain Boost et le Livre blanc sur l’architecture d’invulnérabilité des données Dell EMC Data Domain.

DELL EMC DD BOOST FOR ENTERPRISE APPLICATIONS DD Boost for Enterprise Applications est disponible en tant que composant de la gamme Dell EMC Data Protection Suite. DD Boost for Enterprise Applications fournit une véritable sauvegarde et restauration des données à un point dans le temps sur un système de protection Dell EMC Data Domain via le protocole DD Boost et utilise des agents d’application lors de l’intégration avec les applications suivantes : agent d’application Microsoft, agent d’application de base de données et agent d’application Hadoop. L’agent d’application Hadoop est utilisé pour la protection des charges applicatives Big Data. Tirant parti de l’efficacité de stockage et de la fiabilité des systèmes Data Domain avec le protocole DD Boost efficace en réseau, DD Boost for Enterprise Apps offre à l’administrateur Hadoop un jeu de commandes CLI pour effectuer ses propres sauvegardes et restaurations.

Les points forts de la solution de stockage pour Hadoop intégrant DD Boost for Enterprise Apps et Data Domain sont les suivants :

• Véritable sauvegarde et restauration à un point dans le temps des données Hadoop sur un système Data Domain.

• Intégration avec les interfaces de gestion natives comme Cloudera Manager et Hortonworks Ambari.

9

• Intégration HDFS transparente grâce à la redondance de stockage en 3 points qui sauvegarde une copie cohérente des données.

• Utilisation de constructions Hadoop standard (par exemple, MapReduce, distcp) pour générer des agents DD Boost distribués pour transférer les données en parallèle vers un système Data Domain.

• Efficacité de bande passante de DD Boost qui envoie seulement des données uniques sur le réseau.

• Simplicité de gestion et d’utilisation des outils. Aucun besoin de déployer ou de gérer des agents DD Boost individuels. L’administrateur Hadoop effectue la sauvegarde et la restauration à partir de la console de gestion du cluster Hadoop.

• DD Boost for Enterprise Apps propose un ensemble de commandes Linux pour la sauvegarde, la restauration, la recherche de fichiers, la rétention, etc. Chaque administrateur Hadoop peut facilement utiliser ces commandes et les intégrer à d’autres workflows.

• Les opérations de sauvegarde peuvent être planifiées et automatisées avec Oozie.

• Journal d’audit des changements apportés à la configuration.

Le tableau suivant illustre les principaux points concernant la protection des données de DD Boost for Enterprise Applications pour Hadoop :

Sources des sauvegardes Répertoires HDFS et tables HBase

Cloudera Manager et Hortonworks Ambari

Les règles de sauvegarde peuvent être associées entre ces sources et un système Data Domain cible.

Cibles de sauvegarde Un ou plusieurs systèmes Data Domain, avec licences DD Boost.

Configurations de stockage prises en charge

Stockage en attachement direct (DAS) sur serveur et

systèmes de stockage partagés (NAS) (par exemple, Dell EMC Isilon)

Interface utilisateur Application de ligne de commande Linux

Distributions prises en charge Cloudera Enterprise 5.4 et versions ultérieures

Hortonworks Data Platform 2.2 et versions ultérieures

Planification et automatisation Aucune. La planification peut être effectuée à l’aide d’Oozie ou cron.

DD Boost for Enterprise Apps ne requiert qu’une configuration minimale et s’installe uniquement sur le nœud de nom du cluster Hadoop. Le logiciel est étroitement intégré au système de fichiers Hadoop et s’appuie sur l’architecture scale-out de traitement distribué de ce dernier pour transférer en parallèle les données depuis Hadoop vers un système Data Domain. DD Boost assure un transfert de données efficace en réseau avec déduplication côté client, et Data Domain garantit l’efficacité du stockage via la déduplication et la compression. Cette association en fait la méthode la plus efficace pour le transfert de grandes quantités de données depuis un cluster Hadoop vers un système Data Domain cible. Les constructions Hadoop internes standard comme la copie de fichiers distribués et les snapshots HDFS/HBase sont utilisées pour accomplir les tâches.

La Figure 5 ci-dessous représente un cluster Hadoop avec déploiement de DD Boost for Enterprise Apps.

10

MISE EN ŒUVRE DES SAUVEGARDES HADOOP AVEC DD BOOST FOR ENTERPRISE APPS Flux de travail général de provisionnement et de configuration :

• Installez l’application sur le nœud de nom du cluster Hadoop.

• Provisionnez un ou plusieurs systèmes Data Domain (les cibles de sauvegarde). Les systèmes Data Domain existants utilisés pour la sauvegarde d’autres charges applicatives peuvent également recevoir des sauvegardes de DD Boost for Enterprise Apps, sous réserve qu’ils exécutent DD OS 6.0 et versions ultérieures.

• Les systèmes Data Domain cibles doivent disposer d’une ou de plusieurs unités de stockage provisionnées pour recevoir les flux de sauvegarde provenant de DD Boost for Enterprise Apps.

• L’authentification Kerberos (si elle est activée dans le cluster Hadoop) doit être activée durant cette étape.

Workflow général de sauvegarde et de restauration :

• Un répertoire HDFS ou une table HBase à sauvegarder est associé à un système Data Domain cible et à une unité de stockage pour les sauvegardes. C’est l’étape de provisionnement des sauvegardes.

• Les caractéristiques des durées de conservation sont également spécifiées lors de cette étape.

• Vous pouvez également définir un système Data Domain secondaire (ou distant) pour le stockage des répliques des sauvegardes provenant du système Data Domain principal.

• Une fois provisionnée, la commande sauvegarde le répertoire HDFS ou la table HBase sélectionnés sur l’unité de stockage et le système Data Domain provisionnés. Le processus de sauvegarde utilisant les snapshots HDFS au cours de son travail, veuillez vous assurer que les snapshots sont activés pour les répertoires ou les tables à sauvegarder.

• Lorsqu’une restauration est nécessaire, vous pouvez ajouter le catalogue de sauvegardes situé sur le système Data Domain cible à la liste des commandes permettant de sélectionner le point de restauration. La commande de restauration permet de restaurer le répertoire HDFS ou la table HBase sélectionnés sur HDFS.

• En raison de l’intégration HDFS, les sauvegardes s’exécutent en réalité en tant que tâches DistCp depuis HDFS vers le système Data Domain. Les tâches de restauration sont également des tâches DistCp, mais dans le sens inverse. La différence principale est que ce processus s’exécute de façon transparente en arrière-plan sans que l’utilisateur n’ait à en gérer une quelconque partie.

• En interne, les sauvegardes et les restaurations s’appuient sur DD Boost et ses avantages uniques comme la déduplication, le groupe d’interfaces dynamiques et le chiffrement TLS.

L’ensemble de commandes de protection Hadoop comprend les éléments suivants :

Configuration du système Data Domain

• Ajouter/supprimer le système Data Domain • Parcourir la configuration • Tester la connectivité du système Data Domain

Provisionnement des sauvegardes

• Associer un répertoire HDFS ou un tableau de HBase sources avec une cible Data Domain

• Définir la durée de conservation • Définir un système Data Domain cible secondaire (hors site)

Sauvegarde • Sauvegarder le répertoire HDFS/la table HBase • Configurer le serveur de sauvegarde

Restauration • Restaurer le répertoire HDFS/la table HBase • Restaurer un sous-répertoire de la sauvegarde • Restaurer la configuration principale

Recherche de fichiers

• Rechercher des sauvegardes dans un sous-répertoire/fichier • Rechercher des sauvegardes à l’aide d’une expression régulière

Gestion de la rétention

• Modifier la rétention totale • Modifier la rétention relative

Expiration • Expiration des anciennes sauvegardes

11

Liste des sauvegardes

• Répertorier une sauvegarde unique • Répertorier les sauvegardes par [filtre de plage/de date] • Configurer les listes

Suppression • Supprimer une sauvegarde unique • Supprimer des sauvegardes [filtre de plage/de date]

Kerberos • Activer/Désactiver l’authentification Kerberos

AVANTAGES DE DD BOOST FOR ENTERPRISE APPS POUR HADOOP DD Boost for Enterprise Applications constitue une véritable solution de sauvegarde et de restauration des données Hadoop. La sauvegarde et la restauration sont gérées par les administrateurs Hadoop depuis des outils de gestion de clusters, à l’aide d’outils Hadoop natifs. Il s’agit d’un workflow de sauvegarde centré sur les applications qui présente une courbe d’apprentissage simple. L’expérience d’utilisation globale est celle d’une application de sauvegarde, et non d’une gestion des snapshots et des réplications via la rédaction de scripts personnalisés.

L’intégration étroite avec HDFS permet d’utiliser des constructions Hadoop standard et des outils tels que MapReduce, Yarn et distcp pour sauvegarder et restaurer les données depuis/vers Data Domain.

DD Boost assure un transfert de données efficace en réseau avec déduplication côté client, et Data Domain garantit l’efficacité du stockage via la déduplication et la compression. Cette association en fait la méthode la plus efficace pour le transfert de grandes quantités de données depuis un cluster Hadoop vers un système Data Domain cible. L’utilisateur n’a pas à gérer les agents Boost ou les montages NFS individuellement, ce qui renforce la facilité d’utilisation. La gestion individuelle des agents par nœud ne constitue pas une bonne stratégie évolutive pour les systèmes scale-out comme Hadoop.

AUTRES SOLUTIONS DE PROTECTION DELL EMC POUR LE DATA LAKE

PRESENTATION DES AUTRES SOLUTIONS DE PROTECTION DELL EMC POUR LE DATA LAKE Dell EMC propose plusieurs autres solutions pour la protection du Business Data Lake : snapshots Isilon gérés par Dell EMC NetWorker Snapshot Management pour les déploiements de stockage partagé, et Dell EMC Elastic Cloud Storage. Ces solutions sont illustrées dans la Figure 6 ci-dessous et expliquées en détail dans le reste de ce livre blanc.

OPTIONS DE STOCKAGE CIBLE DELL EMC Comme décrites dans les paragraphes suivants, les solutions de protection Dell EMC pour le Business Data Lake illustrées dans la Figure 6 peuvent s’appuyer sur Dell EMC Data Domain, Dell EMC Isilon ou Dell EMC Elastic Cloud Storage (ECS). Le choix du stockage cible dépend de plusieurs facteurs, dont les besoins en accessibilité, en efficacité du stockage et en capacité. Les systèmes Data Domain sont le choix idéal pour les charges applicatives faciles à dédupliquer (bases de données, fichiers, etc.) et procurent des économies de stockage via la déduplication sur des segments de longueur variable et la compression les plus efficaces du marché.

Figure 6 : Autres solutions de protection Dell EMC pour le Business Data Lake

12

Isilon constitue une bonne solution pour les ensembles de données difficiles à dédupliquer (vidéo, voix, etc.) et fournit un stockage efficace et économique depuis un système unique. ECS constitue une bonne solution pour les charges applicatives en mode objet à l’échelle du Cloud (exaoctets).

PRESENTATION GENERALE DU STOCKAGE SCALE-OUT NAS DELL EMC ISILON Les solutions de stockage scale-out Dell EMC Isilon s’adressent aux entreprises désireuses de gérer leurs données plutôt que leur stockage. Les systèmes de stockage Isilon sont aussi puissants que simples à installer, à gérer et à faire évoluer jusqu’à n’importe quelle taille. Et contrairement au stockage d’entreprise traditionnel, les solutions Isilon ne perdent rien de leur simplicité, quels que soient la capacité de stockage ajoutée, le niveau de performances attendu et l’évolution des besoins métier. Isilon invite les entreprises à repenser totalement leur modèle de stockage et ainsi à découvrir qu’il incarne la solution plus simple et la plus performante.

Grâce à la combinaison efficace du système d’exploitation Isilon OneFS révolutionnaire, de matériel standard hautes performances et de puissants logiciels de gestion des données et du stockage, Isilon propose un portefeuille complet de solutions de stockage innovantes. En optimisant les applications, les workflows et les processus critiques, ces solutions sont synonymes de valeur ajoutée pour les clients. Le stockage Isilon permet aux entreprises et aux organismes de recherche du monde entier de gérer des volumes de données importants et en pleine croissance de façon extrêmement flexible, aisée et économique. Les solutions Isilon sont conçues pour augmenter la productivité et réduire les dépenses d’investissement et les coûts opérationnels tout en faisant évoluer le stockage de manière transparente, parallèlement à la croissance des données critiques. Pour plus d’informations sur Isilon, consultez la Fiche produit Dell EMC Isilon.

PRESENTATION DE DELL EMC ELASTIC CLOUD STORAGE (ECS) Les clients sont constamment à la recherche d’architectures plus efficaces afin de maîtriser la croissance Hyperscale actuelle. Optimisée par Dell EMC® ViPR®, la nouvelle appliance Elastic Cloud Storage (ECSTM) offre une infrastructure de stockage Hyperscale complète, conçue pour répondre aux besoins des applications modernes. Quelle que soit la taille de votre entreprise, l’appliance ECS vous permet de proposer des services de stockage Cloud concurrentiels et de dynamiser votre croissance sans effort. L’appliance ECS met à la portée de quiconque le profil de coût, la simplicité et l’évolutivité des services de Cloud public, avec la confiance, la fiabilité et le support que vous attendez de Dell EMC. Avec l’appliance ECS :

• Les experts en science des données encouragent les initiatives Big Data

• Les fournisseurs de Cloud proposent des services compétitifs de stockage Cloud à grande échelle

• Les entreprises et les développeurs de logiciels accélèrent l’élaboration de nouvelles solutions

L’appliance ECS rend le stockage Hyperscale et l’économie du Cloud viables pour les entreprises de toutes tailles grâce à la puissance de ViPR associée à une plate-forme matérielle standard économique, haute densité et scale-out. L’appliance ECS est disponible dans différents formats qui peuvent être déployés et développés de manière incrémentielle, afin que chaque client puisse choisir la taille adaptée à ses besoins immédiats et à ses projets de croissance. Les clients peuvent à présent optimiser leur solution en fonction de leurs besoins en matière d’applications et d’accès, ce qui leur offre la flexibilité et le contrôle auxquels ils aspirent. Pour plus d’informations sur Elastic Cloud Storage, consultez la Fiche produit Dell EMC ECS.

PROTECTION DES DONNEES EN COPIE DISTRIBUEE HADOOP SUR ECS Cette section fournit plus d’informations sur l’utilisation de l’utilitaire natif DistCp (copie distribuée) intégré avec HDFS (Hadoop File System) pour sauvegarder et restaurer les données depuis un Data Lake avec calcul et stockage intégrés sur une appliance ECS sur site.

Les clients choisissent généralement d’utiliser ECS en tant que stockage cible en fonction de 3 facteurs principaux :

1. Savez-vous déjà que vos données ne bénéficieraient pas des importantes économies de stockage apportées par la déduplication sur des segments de longueur variable et la compression fournies par les systèmes Data Domain ?

2. Avez-vous besoin du mode Hyperscale d’ECS ? (Exaoctets)

3. Avez-vous des exigences en matière d’accessibilité objet/HDFS ?

DistCp (copie distribuée) est un outil standard intégré avec toutes les distributions et versions Hadoop qui peut être utilisé pour copier des répertoires Hadoop entiers. DistCp s’exécute en tant que tâche MapReduce pour effectuer des copies de fichiers en parallèle en utilisant pleinement vos systèmes si vous le souhaitez. Il existe également une option permettant de limiter la bande passante pour contrôler l’impact sur les autres tâches.

13

Vous pouvez utiliser cette solution de deux manières différentes.

1. La première approche réalise un snapshot HDFS à partir de l’application Hadoop, puis déplace ce snapshot à l’aide de DistCp vers le stockage cible.

2. La seconde approche utilise directement DistCp sur le stockage cible. L’avantage de la première approche est que l’application est libérée lorsque le snapshot est terminé.

Dans ce scénario de protection du Data Lake, l’administrateur Hadoop utilise DistCp pour effectuer des sauvegardes complètes à l’aide de NFS via Ethernet vers une appliance ECS sur site.

La méthode standard pour restaurer une sauvegarde DistCp à partir d’ECS vers une infrastructure Hadoop traditionnelle consiste à exécuter DistCp dans le sens inverse. Il suffit d’inverser les chemins source et cible. Vous pouvez effectuer des restaurations partielles ou complètes qui peuvent être dirigées vers l’emplacement d’origine ou un autre.

Les clients ont la possibilité d’utiliser la réplication ECS sur une appliance ECS distincte installée sur un second site pour une protection de reprise après sinistre supplémentaire. Les restaurations DistC peuvent ensuite être réalisées depuis la seconde appliance EMC sur site pour la reprise après sinistre.

AVANTAGES DE L’UTILISATION DE LA PROTECTION DES DONNEES EN COPIE DISTRIBUEE HADOOP SUR ECS La protection du Data Lake en copie distribuée sur Elastic Cloud Storage apporte de nombreux bénéfices aux clients. Le plus important est que cette solution de protection du Business Data Lake fournit à Hadoop une protection de niveau entreprise contre la perte ou la corruption des données. Elle offre également à l’administrateur Hadoop une visibilité et un contrôle directs sur la protection du Data Lake.

L’appliance ECS rend le stockage Hyperscale et l’économie du Cloud viables pour les entreprises de toutes tailles grâce à la puissance de ViPR associée à une plate-forme matérielle standard économique, haute densité et scale-out. L’appliance ECS peut être déployée et développée de manière incrémentielle, pour vous permettre de choisir la taille correspondant à vos besoins immédiats et à vos prédictions de croissance. ECS vous permet d’optimiser votre solution de protection du Data Lake en fonction de vos besoins en matière d’applications, de stockage et d’accessibilité, vous offrant ainsi la flexibilité et le contrôle voulus.

Si un client utilise déjà Elastic Cloud Storage pour d’autres besoins, il peut faire appel aux mêmes processus et à la même expertise pour la protection du Data Lake.

VUE D’ENSEMBLE DES SNAPSHOTS ISILON GERES PAR NETWORKER SNAPSHOT MANAGEMENT Les snapshots Isilon gérés par NetWorker Snapshot Management, comme illustrés dans la Figure 6 à droite, sont utilisés pour la protection du Data Lake dans les déploiements où le traitement et le stockage sont séparés et où la couche HDFS s’exécute sur le stockage partagé. Comme vous utilisez un stockage partagé, les clients peuvent tirer parti de toutes les fonctions de gestion des données intégrées dans cette couche de stockage. Cela signifie que les clients peuvent utiliser les fonctionnalités de snapshots Isilon gérées par NetWorker et peuvent également effectuer des transferts vers un stockage de protection Data Domain. Un transfert est l’exécution de la sauvegarde d’un snapshot sur un périphérique de stockage de protection secondaire via NDMP. Il est généralement effectué lorsque vous avez besoin d’une rétention des données à plus long terme.

SNAPSHOTS ISILON GERES PAR NETWORKER SNAPSHOT MANAGEMENT SUR DATA DOMAIN Cette section fournit plus d’informations sur l’utilisation d’EMC NetWorker Snapshot Management pour la protection du Data Lake dans les déploiements où le traitement et le stockage sont séparés et où la couche HDFS s’exécute sur le stockage Isilon. Comme vous utilisez un stockage partagé Isilon, vous disposez de toutes les fonctions de gestion des données Isilon qui sont intégrées dans la couche de stockage. Dans ce scénario de protection du Data Lake, NetWorker gère les snapshots Isilon qui sont ensuite transférés vers un système de stockage Data Domain sur site.

Les clients choisissent généralement d’utiliser des systèmes Data Domain en tant que stockage de protection cible en fonction de trois facteurs principaux :

1. La déduplication sur des segments de longueur variable et le stockage de compression Data Domain profiteront-ils à vos données ?

2. L’évolutivité du stockage Data Domain répond-elle à vos besoins ? (Téraoctets)

3. NFS répond-il à vos exigences en matière d’accessibilité ?

L’administrateur NetWorker peut définir une seule règle d’automatisation pour le processus de protection des données, du lancement d’un snapshot sur le système Isilon au transfert de ce snapshot Isilon à l’aide du serveur de bandes NDMP via Ethernet vers un

14

système Data Domain sur site. Le système Data Domain acquiert les données du snapshot, puis effectue la déduplication sur des segments de longueur variable et la compression.

NetWorker gère les catalogues pour toutes les sauvegardes, les snapshots et les clones, ce qui rend les restaurations avec cette solution de protection du Data Lake simples et directes. NetWorker peut également gérer la rétention des snapshots. L’administrateur NetWorker peut effectuer une restauration simple et efficace à partir du snapshot initial, ou choisir l’un des savesets de sauvegarde NDMP qui ont été transférés vers le système Data Domain pour ensuite le restaurer sur le système Isilon principal en utilisant NDMP via Ethernet. La restauration à partir du snapshot offre l’avantage d’un objectif de temps de restauration beaucoup plus rapide, tandis que la restauration à partir de la sauvegarde sur un Data Domain permet d’accéder rapidement à des objectifs de point de reprise plus longs. Vous pouvez effectuer des restaurations partielles ou complètes qui peuvent être dirigées vers l’emplacement d’origine ou un autre, sur le même appareil.

Les clients ont la possibilité d’utiliser la réplication NetWorker sur un système Data Domain distinct installé sur un second site pour une protection de reprise après sinistre supplémentaire. Les restaurations NetWorker peuvent être effectuées à partir du second système Data Domain sur site pour la reprise après sinistre.

AVANTAGES DE L’UTILISATION DES SNAPSHOTS ISILON GERES PAR NETWORKER SUR DATA DOMAIN La gestion NetWorker des snapshots Isilon pour la protection du Data Lake sur un système Data Domain apporte de nombreux bénéfices aux clients. Le plus important est que cette solution de protection du Business Data Lake fournit à Hadoop une protection de niveau entreprise contre la perte ou la corruption des données, et génère de meilleurs objectifs de temps de restauration.

NetWorker Snapshot Management simplifie le processus de protection des données en automatisant la réalisation des snapshots de baie et le transfert vers Data Domain. Cette solution de protection des données propose plusieurs options de restauration, dont la restauration depuis le snapshot initial et depuis les savesets de substitution sur le stockage de protection Data Domain.

L’architecture d’invulnérabilité des données de Data Domain offre la meilleure protection des données de votre Data Lake, garantissant leur restauration fiable. Les systèmes Data Domain offrent l’efficacité du stockage grâce à la déduplication sur des segments de longueur variable et à la compression qui réduit généralement de 10 à 30 fois les besoins de stockage. Les systèmes Data Domain sont également très rapides, capables de réceptionner un volume de données allant jusqu’à 68 To/heure, minimisant ainsi le temps nécessaire pour effectuer les sauvegardes de Data Lake. Si le client utilise déjà NetWorker ou Data Domain pour d’autres besoins en matière de protection des données, il peut alors faire appel aux mêmes processus et expertise pour protéger son Data Lake. Enfin, NetWorker peut également gérer une réplication Data Domain utilisant efficacement la bande passante vers un système Data Domain situé sur un second site pour une reprise après sinistre facultative.

SNAPSHOTS ISILON GERES PAR NETWORKER SNAPSHOT MANAGEMENT SUR ISILON Cette section fournit plus d’informations sur l’utilisation de Dell EMC NetWorker Snapshot Management pour la protection du Data Lake dans les déploiements où le traitement et le stockage sont séparés et où la couche HDFS s’exécute sur le stockage Isilon. Comme vous utilisez un stockage partagé Isilon, vous disposez de toutes les fonctions de gestion des données Isilon qui sont intégrées dans la couche de stockage. Dans ce scénario de protection du Data Lake, NetWorker gère les snapshots Isilon qui sont ensuite répliqués vers un second système de stockage Isilon sur site.

Les clients qui choisissent d’utiliser les snapshots Isilon et la protection de la réplication pour cette solution le font en fonction de 4 principaux facteurs :

1. Savez-vous déjà que vos données ne bénéficieraient pas des importantes économies de stockage apportées par la déduplication sur des segments de longueur variable et la compression fournies par les systèmes Data Domain ?

2. Est-il possible de protéger la quantité de données voulue dans les fenêtres de sauvegarde allouées ?

3. L’évolutivité du stockage Isilon répond-elle à vos besoins ? (Pétaoctets)

4. Votre entreprise a-t-elle des exigences en matière d’accessibilité NFS/SMB (CIFS)/HDFS ?

L’administrateur NetWorker peut définir une seule règle d’automatisation pour le processus de protection des données, du lancement d’un snapshot sur le système Isilon à la réplication de ce snapshot Isilon à l’aide d’Isilon SyncIQ vers un second système Isilon sur site. Le second système Isilon stocke une copie des données de ce snapshot qui ont été répliquées par NetWorker et Isilon SyncIQ.

NetWorker gère les catalogues pour toutes les sauvegardes, les snapshots et les clones, ce qui rend les restaurations avec cette solution de protection du Data Lake simples et directes. NetWorker peut également gérer la rétention des snapshots. L’administrateur NetWorker peut effectuer une restauration simple à partir du snapshot initial, ou choisir l’un des snapshots qui ont été répliqués sur le système Isilon cible pour ensuite le restaurer sur le système Isilon principal. Vous pouvez effectuer des restaurations partielles ou complètes qui peuvent être dirigées vers l’emplacement d’origine ou un autre, sur le même appareil.

15

Dans un scénario de réplication à distance, NetWorker peut en outre orchestrer et gérer le transfert NDMP vers un système Data Domain ou une autre sauvegarde cible sur le site distant, déchargeant ainsi entièrement la sauvegarde du système Isilon de production. Ainsi, les sauvegardes hebdomadaires ou trimestrielles de datasets plus volumineux n’ont pas d’impact sur la production quotidienne.

AVANTAGES DE L’UTILISATION DES SNAPSHOTS ISILON GERES PAR NETWORKER SUR ISILON La gestion NetWorker des snapshots Isilon pour la protection du Data Lake sur un stockage Isilon apporte de nombreux bénéfices aux clients. Le plus important est que cette solution de protection du Business Data Lake fournit à Hadoop une protection de niveau entreprise contre la perte ou la corruption des données, et génère de meilleurs objectifs de temps de restauration.

NetWorker Snapshot Management simplifie le processus de protection des données en automatisant la réalisation des snapshots initiaux et le processus de réplication vers un système Isilon secondaire. Cette solution de protection des données propose plusieurs options de restauration, y compris la restauration depuis le snapshot initial sur le système Isilon source et depuis les snapshots répliqués sur le second système Isilon. En outre, la possibilité de transfert vers un système Data Domain permet une rétention à plus long terme et une protection renforcée contre la corruption des données et les sinistres. Les processus de snapshot, de réplication et de transfert peuvent être contrôlés par une règle unique.

Isilon est la plate-forme idéale pour Hadoop et d’autres applications Big Data. Elle atteint plus de 80 % d’efficacité du stockage grâce à l’utilisation du codage d’effacement pour protéger les données, comparé à HDFS qui présente une efficacité du stockage de 33 % seulement. Isilon possède plusieurs classes de types de nœuds. Cela permet d’optimiser différents niveaux d’Isilon pour des charges applicatives particulières.

Si le client utilise déjà Isilon ou NetWorker pour d’autres besoins, il peut faire appel aux mêmes processus et à l’expertise pour cette solution de protection du Data Lake NetWorker Snapshot Management est une fonction intégrée à NetWorker qui utilise une même interface et les mêmes workflows pour les snapshots et la sauvegarde. Enfin, NetWorker peut également gérer la réplication Isilon vers un système Isilon situé sur un second site pour une reprise après sinistre facultative.

SNAPSHOTS ISILON GERES PAR NETWORKER SNAPSHOT MANAGEMENT SUR ECS Cette section fournit plus d’informations sur l’utilisation de Dell EMC NetWorker Snapshot Management pour la protection du Data Lake dans les déploiements où le traitement et le stockage sont séparés et où la couche HDFS s’exécute sur le stockage Isilon. Comme vous utilisez un stockage partagé Isilon, vous disposez de toutes les fonctions de gestion des données Isilon qui sont intégrées dans la couche de stockage. Dans ce scénario de protection du Data Lake, NetWorker gère les snapshots Isilon qui sont ensuite transférés vers une appliance Elastic Cloud Storage (ECS) sur site.

Les clients choisissent généralement d’utiliser ECS en tant que stockage cible en fonction de 3 facteurs principaux :

1. Savez-vous déjà que vos données ne bénéficieraient pas des importantes économies de stockage apportées par la déduplication sur des segments de longueur variable et la compression fournies par les systèmes Data Domain ?

2. Avez-vous besoin du mode Hyperscale d’ECS ? (Exaoctets)

3. Avez-vous des exigences en matière d’accessibilité objet/HDFS ?

L’administrateur NetWorker peut définir une seule règle d’automatisation pour le processus de protection des données, du lancement d’un snapshot sur le Data Lake Isilon au transfert de ce snapshot Isilon à l’aide d’API ECS via Ethernet vers une seconde appliance ECS sur site.

NetWorker gère les catalogues pour toutes les sauvegardes, les snapshots et les clones, ce qui rend les restaurations avec cette solution de protection du Data Lake simples et directes. NetWorker peut également gérer la rétention des snapshots. L’administrateur NetWorker peut effectuer une restauration simple à partir du snapshot initial, ou choisir l’un des savesets qui ont été transférés vers le système ECS pour ensuite le restaurer sur le système Isilon principal grâce aux API ECS via Ethernet. Vous pouvez effectuer des restaurations partielles ou complètes qui peuvent être dirigées vers l’emplacement d’origine ou un autre, sur le même appareil.

Les clients ont la possibilité d’utiliser la réplication NetWorker sur une appliance ECS distincte installée sur un second site pour une protection de reprise après sinistre supplémentaire Les restaurations NetWorker peuvent être réalisées à partir de la seconde appliance ECS sur site pour la reprise après sinistre.

AVANTAGES DE L’UTILISATION DES SNAPSHOTS ISILON GERES PAR NETWORKER SUR ECS La gestion NetWorker des snapshots Isilon pour la protection du Data Lake sur une solution de stockage Elastic Cloud Storage apporte de nombreux bénéfices aux clients. Le plus important est que cette solution de protection du Business Data Lake fournit à Hadoop une protection de niveau entreprise contre la perte ou la corruption des données, et génère de meilleurs objectifs de temps de restauration.

16

NetWorker Snapshot Management simplifie le processus de protection des données en automatisant la réalisation des snapshots initiaux et le transfert vers ECS. Cette solution de protection des données propose plusieurs options de restauration, dont la restauration depuis le snapshot initial et depuis les savesets de substitution sur le stockage ECS.

L’appliance ECS rend le stockage Hyperscale et l’économie du Cloud viables pour les entreprises de toutes tailles grâce à la puissance de ViPR associée à une plate-forme matérielle standard économique, haute densité et scale-out. L’appliance ECS peut être déployée et développée de manière incrémentielle, pour vous permettre de choisir la taille correspondant à vos besoins immédiats et à vos prédictions de croissance. ECS vous permet d’optimiser votre solution de protection du Data Lake en fonction de vos besoins en matière d’applications, de stockage et d’accessibilité, vous offrant ainsi la flexibilité et le contrôle voulus.

Si le client utilise déjà NetWorker ou Elastic Cloud Storage pour d’autres besoins, il peut faire appel aux mêmes processus et à la même expertise pour cette solution de protection du Data Lake.

AVANTAGES POUR LES CLIENTS Comme indiqué précédemment, toutes les solutions de protection du Business Data Lake présentées dans ce document offrent à Hadoop la protection contre la perte ou la corruption de données nécessaire à l’échelle de l’entreprise. Dell EMC permet à ses clients de choisir la solution de protection qui correspond le mieux à la taille de leur Data Lake, à leurs types de données, à leurs exigences en matière d’accessibilité, à leur stockage existant et à leur expertise en matière de protection des données.

Les solutions de protection du Business Data Lake décrites dans ce livre blanc qui utilisent des systèmes Data Domain en tant que cibles de stockage offrent des avantages supplémentaires spécifiques à Data Domain. L’architecture d’invulnérabilité des données de Data Domain offre la meilleure protection des données de votre Data Lake, garantissant leur restauration fiable. Les systèmes Data Domain offrent l’efficacité du stockage grâce à la déduplication sur des segments de longueur variable et à la compression qui réduit généralement de 10 à 30 fois les besoins de stockage. Les systèmes Data Domain sont également très rapides, capables de réceptionner un volume de données allant jusqu’à 68 To/heure, minimisant ainsi le temps nécessaire pour effectuer les sauvegardes de Data Lake. Si le client utilise déjà Data Domain pour d’autres besoins en matière de protection des données, il peut alors faire appel aux mêmes processus et à la même expertise pour protéger son Data Lake.

DD Boost for Enterprise Applications, inclus dans la gamme Dell EMC Data Protection Suite, fournit une solution de protection des données pour Hadoop. L’intégration de DD Boost à Data Domain représente également un énorme avantage pour les clients Hadoop : performances de sauvegarde supérieures à celle de NFS, besoins en bande passante moindres, meilleur équilibrage de charge et fiabilité accrue. Ainsi, DD Boost for Enterprise Apps offre une expérience utilisateur inégalée grâce à son intégration avec la gestion de clusters Hadoop, avec le système de fichiers Hadoop et avec l’utilisation de constructions Hadoop natives.

Les solutions de protection du Business Data Lake décrites dans ce livre blanc qui utilisent des systèmes Isilon en tant que cibles de stockage offrent des avantages supplémentaires uniques. Isilon atteint plus de 80 % d’efficacité du stockage grâce à l’utilisation du codage d’effacement pour protéger les données, comparé à HDFS qui présente une efficacité de stockage de 33 % seulement. Isilon dispose de plusieurs classes de types de nœuds qui permettent d’optimiser différents niveaux d’Isilon pour des charges applicatives particulières. Si votre organisation utilise déjà Isilon pour d’autres besoins, elle peut faire appel aux mêmes processus et à la même expertise pour ces solutions de protection du Data Lake.

Les solutions de protection du Business Data Lake décrites dans ce livre blanc qui utilisent Elastic Cloud Storage (ECS) en tant que la cible de stockage offrent des avantages en matière d’évolutivité et d’accessibilité. L’appliance ECS rend le stockage Hyperscale et l’économie du Cloud viables pour les entreprises de toutes tailles grâce à la puissance de ViPR associée à une plate-forme matérielle standard économique, haute densité et scale-out. ECS vous permet d’optimiser votre solution de protection du Data Lake en fonction de vos besoins en matière d’applications, de stockage et d’accessibilité, vous offrant ainsi la flexibilité et le contrôle voulus. Pour finir, si votre organisation utilise déjà Elastic Cloud Storage pour d’autres besoins, elle peut faire appel aux mêmes processus et à la même expertise pour ces solutions de protection du Data Lake.

Les solutions de protection du Business Data Lake décrites dans ce livre blanc qui utilisent NetWorker offrent des avantages supplémentaires, quelle que soit l’option de stockage utilisée. L’administrateur NetWorker peut définir des règles de protection des données pour l’automatisation des activités de snapshot et de transfert, simplifiant et optimisant ainsi ses opérations quotidiennes. NetWorker permet de contrôler la rétention des sauvegardes, des snapshots et des transferts en diminuant les tâches de rétention manuelles. Enfin, les solutions NetWorker incluent une option de restauration à partir de snapshots Isilon, en plus des savesets de substitution, maximisant ainsi les objectifs de temps de restauration et la flexibilité.

CONCLUSION Ce livre blanc a démontré que les cas d’utilisation du Big Data ont évolué, a fourni une définition du Data Lake et a expliqué pourquoi les clients exigent aujourd’hui des solutions de protection du Data Lake de niveau entreprise. En tant que spécialiste des solutions Big Data, Dell EMC a présenté dans ce livre blanc une stratégie et différentes solutions de protection des données pour protéger Hadoop et d’autres Data Lakes. Dell EMC donne à ses clients le choix quant à la solution et à l’option de stockage cible qui répondent le mieux à leurs besoins d’évolutivité et d’accessibilité et qui pourront s’appuyer sur leur stockage interne ou leur expertise en matière de protection des données.

17

Pour plus d’informations sur le Big Data Dell EMC, Hadoop et les solutions pour le Business Data Lake, consultez notre page de solutions Big Data sur Dell.com et ces ressources supplémentaires :

Fiche produit Dell EMC Data Domain Operating System

Fiche produit gamme de systèmes de stockage scale-out Dell EMC Isilon

Fiche produit Dell EMC ECS Appliance optimisée par ViPR

Livre blanc sur l’architecture d’invulnérabilité des données de Dell EMC Data Domain

Fiche produit Dell EMC NetWorker

Les principaux atouts de Data Domain

18