Matériel informatique

Compréhension déduplication des données

Déduplication des données est une technique utilisée pour réduire les besoins de capacité de stockage en se débarrassant des données en double. Après tout, si vous avez plusieurs copies d'un fichier unique, vous vraiment besoin de stocker une seule version de ce fichier, à droite ? Malheureusement, les ordinateurs génèrent souvent des données redondantes à votre insu. Par exemple, supposons que vous avez créé une présentation PowerPoint de 100 mégaoctets et il avez envoyé par courriel à dix de vos collègues. Votre programme de messagerie peut archiver tous les dix de ces messages sortants, y compris tous les dix cas de cette présentation de 100 mégaoctets. Cela se traduit presque un ensemble gigaoctet de données redondantes qui vous n'avez pas besoin. Libérant ainsi que l'espace gaspillé peut ne pas sembler comme un gros problème pour vous, mais imaginez combien d'espace gaspillé génère toute votre organisation.

Avec déduplication, ces données redondantes peuvent être éliminées, car il n'est plus nécessaire. Une seule instance reste sur le périphérique de stockage, permettant une utilisation plus efficace de stockage tout au long de votre réseau. Si vous êtes préoccupé par les coûts ou des performances SQL server virtualization, réduisant la redondance peut jouer un rôle important.

Pour s'assurer que les autres systèmes qui référencé à l'origine des données en double sont en mesure de consulter les données d'origine, déduplication des données crée une référence à la copie enregistrée restante. Par exemple, si vous affichez des copies archivées de dix courriels que vous envoyé plus tôt, chacun d'eux pointera vers la présentation sauvé 100 mégabytes et non une copie inutile et redondante.

Déduplication n'est pas seulement grande pour la capacité de stockage de récupération, il permet d'économiser l'argent de votre organisation. Après tout, si vos baies de disque dur se remplissent avec des données inutiles à votre insu, vous trouverez vous-même acheter des baies de disques plus. Grâce à la déduplication, vous pouvez sortir plus de capacité de vos systèmes de stockage existants et reporter des dépenses additionnelles. En outre, la déduplication minimise les données qui doivent être sauvegardées, permettant une plus rapide, les sauvegardes plus efficaces. Si vous payez pour votre service de sauvegarde sur une base mégaoctet ou par gigaoctet, déduplication des données peut slash ainsi vos coûts de sauvegarde.

Alors que la déduplication de fichiers joue un rôle, déduplication des données se déroule également au niveau bloc. Fichiers de particuliers sont examinées et traitées avec les itérations de chaque bloc du fichier étiquetés et enregistrés dans un index uniques. Chaque fois qu'un fichier est modifié, seuls les blocs de données modifiés sont sauvegardés. Par exemple, si vous modifiez une seule diapositive dans votre fichier PowerPoint de 100 mégabytes, seuls les blocs concernés sont enregistrés - pas le fichier entier de 100 mégaoctets. Déduplication des données bloc nécessite plus de puissance de traitement que la déduplication des données au niveau des fichiers, mais il est beaucoup plus efficace. Plusieurs développeurs de solutions de déduplication des données utilisent un mélange d'algorithmes et d'examiner les métadonnées d'un fichier pour éviter la possibilité de « faux positifs », qui peut se produire si un bloc reçoit le même numéro d'identification comme un bloc existant.

Déduplication des données est un moyen efficace de réduire les besoins de capacité de stockage et les coûts connexes. C'est généralement un des plusieurs techniques de réduction de données qui sont utilisées ensemble pour optimiser le stockage et réduire les coûts dans un stockage d'entreprise ou un environnement de virtualisation de serveur SQL.