Samedi 21 octobre 2017
NASDAQ : 6629.0532 23.9863   nasdaq0.36 %
RECHERCHE
OK
 
NEWSLETTER
newsletter
Abonnez-vous gratuitement
à notre newsletter
hebdomadaire - Cliquez ICI
Indexel
  • DOSSIERS
  • PRATIQUE
pub Publicité
 

MATERIELS

Les multiples avantages de la déduplication de données

Imprimer Envoyer à un ami Contacter la rédaction
Par Thierry Lévy-Abégnoli le 24/09/2008 - indexel.net
 
Lci_deduplication_donnees

Synonyme de réduction des espaces disques ou du trafic réseau, la déduplication de données est réalisée soit par l'outil de sauvegarde, soit par la baie de disques cible. Son champ d'applications encore restreint devrait s'étendre progressivement.

 

La déduplication des données consiste à identifier, dans les données, des séquences redondantes qu'il suffit ainsi de stocker une seule fois. La granularité d'un tel processus descend au niveau des blocs de données, éventuellement de tailles variables. Les motivations sont multiples : gain d'espace disque consommé par les sauvegardes ou par des applications de production, réduction de la charge sur le réseau, allègement des procédures de sauvegarde ou, au contraire, des restaurations. Associées aux volumes des données, elles orientent le choix d'une technologie - déduplication à la source ou à la cible, à la volée ou en mode batch - dont chacune possède ses avantages et ses inconvénients.

Quoi qu'il en soit, toutes sont apparues très récemment, surtout chez les grands constructeurs comme EMC, HP ou NetApp, dont certaines annonces remontent à l'été dernier. Pourquoi seulement en 2008 ? D'abord parce que la déduplication consomme d'importantes ressources mémoire et CPU, désormais disponibles à moindre coût. Ensuite parce que le phénomène montant de la virtualisation des serveurs attise ce besoin. Les images des différentes machines virtuelles sont en effet souvent presque identiques dont aisément déduplicables.

Déduplication à la source : par l'outil de sauvegarde

La déduplication à la source est réalisée par l'outil de sauvegarde, durant celle-ci. NetBackup Puredisk Storage de Symantec ou Avamar de EMC réalisent cette fonction. EMC vient en outre d'intégrer la technologie Avamar (issu d'un rachat) dans son outil Networker. "Le principal avantage de ce procédé, c'est la réduction d'un facteur d'environ 300 de la charge réseau, SAN ou LAN, générée par la sauvegarde", explique Miguel Dos Santos Lopes (photo), responsable produits Avamar chez EMC. La cible principale : les sites distants raccordés via des tuyaux modestes, ainsi que les serveurs virtualisés, afin de réduire les flux d'entrées/sorties sur les cartes réseau. L'espace disque mobilisé serait quant à lui divisé par 50 à 100. Ce ratio important est favorisé par le fait qu'à la source, l'outil peut identifier la nature des données. Au chapitre des inconvénients : les délais de restauration sont supérieurs à une sauvegarde sans déduplication ou réalisée sur la cible. D'autre part, le procédé n'est pas transparent vis-à-vis de l'outil de sauvegarde.

Déduplication à la cible : par la librairie virtuelle ou par un appliance

Au contraire, la déduplication à la cible est réalisée sur le système de sauvegarde. "Le procédé est moins efficace qu'à la source car le format de données vu par la cible est celui de l'outil de sauvegarde, c'est pourquoi le ratio de compression n'excède pas 20", estime Michel Parent (photo), chef produit solutions de stockage chez HP.

Ce système cible est généralement une librairie virtuelle de cartouches dont la base matérielle est une baie de disques standard. Chez HP, il s'agit des VLS (haut de gamme) et des D2D (entrée de gamme). Chez EMC, c'est la série EDL, Tous ces produits viennent tout juste d'être déclinés dans des versions offrant la déduplication. NetApp se distingue pour sa part en dédupliquant non seulement des sauvegardes mais aussi des données actives. Et cela, sur l'ensemble de ses baies et contrôleurs.

"Il s'agit généralement de serveurs de fichiers car pour les bases Exchange ou SQL, les entreprises préfèrent attendre de mieux connaître l'impact de la déduplication sur ce type de données", estime Matthieu Jamet (photo), consultant déduplication et virtualisation chez NetApp. Il est même possible de connecter un contrôleur NetApp sur une baie EMC afin de lui apporter la fonction de déduplication. Cette déduplication prise en charge par le système cible relève elle-même de deux précédés différents : à la volée ou en post processing (ou batch).

Demain : en temps réel sur des données de production

La première étant réalisée en temps réel, elle est gourmande en mémoire et en puissance CPU, ce qui la limite à des volumes de l'ordre de 10 To. La seconde, typiquement réalisée la nuit, quand les données dorment, n'est pas limitée en espace disque mais nécessite que cet espace soit capable d'accueillir les données avant déduplication. Seul le mode batch est pertinent lorsqu'il s'agit de dédupliquer des données vivantes, car il faut impérativement éviter de perturber la production.

La déduplication n'en est qu'à ses prémisses. A moyen terme, il est probable qu'on la réalisera en temps réel sur des données de production. D'ici là, des étapes plus modestes seront franchies. "Par exemple, on fera de la réplication distante de librairie à librairie, tout en dédupliquant", prévoit Michel Parent.

LIRE AUSSI
 
Partager :
LIRE AUSSI
 
pub Publicité

CloudStack by IkoulaCloudStack by Ikoula

Cloud Computing : Atouts et freins, acteurs du marché, conseils et témoignages