Material informático

Deduplicación de datos de conocimiento

Desduplicación de datos es una técnica utilizada para reducir los requerimientos de capacidad de almacenamiento mediante la eliminación de datos duplicados. Después de todo, si usted tiene múltiples copias de un único archivo, realmente sólo necesita almacenar una versión de ese archivo, ¿no? Por desgracia, computadoras a menudo generan datos redundantes sin su conocimiento. Por ejemplo, digamos que tú has creado un presentación de PowerPoint de 100 megabyte y lo ha enviado a diez de sus colegas. Tu programa de correo electrónico puede archivar los diez de esos mensajes salientes incluyendo diez todas las instancias de esa presentación de 100 megabytes. Esto se traduce en casi una entera gigabyte de datos redundantes que no necesitas. Liberar que espacio desperdiciado puede no parecer una gran cosa para ti, pero Imagínate cuánto espacio desaprovechado su organización genera.

Con desduplicación, pueden eliminar estos datos redundantes puesto que ya no es necesario. Una única instancia permanece en el dispositivo de almacenamiento, permitiendo el uso más eficiente de almacenamiento a través de su red. Si estás preocupado por los costos o rendimiento de virtualización de servidor SQL, reduciendo la redundancia puede desempeñar un papel importante.

Para asegurarse de que otros sistemas que originalmente hace referencia a datos duplicados son capaces de acceder a los datos originales, la desduplicación de datos crea una referencia a la copia guardada restante. Por ejemplo, si usted ve copias archivadas de los diez que correos anteriores, cada uno de ellos apuntará a la presentación guardada 100 megabytes y no una copia innecesaria, redundante.

No sólo es la deduplicación ideal para recuperar la capacidad de almacenamiento, ahorra tu dinero de la organización. Después de todo, si tus disco duro las matrices se llenan de datos innecesarios sin tu conocimiento, te encontrarás a comprar más arreglos de discos. Mediante la deduplicación, puede sacar más de la capacidad de sus sistemas de almacenamiento de información existentes y posponer gastos adicionales. Además, minimiza la desduplicación de los datos que deben estar respaldadas, permitiendo más rápido, más eficientes backups. Si usted paga por su servicio de backup en una por megabyte o gigabyte base, desduplicación de datos puede reducir así sus costos de copia de seguridad.

Mientras que la deduplicación archivo desempeña un papel, desduplicación de datos también lleva a cabo a nivel de bloque. Archivos de individuos son examinados y procesados con iteraciones únicas de cada bloque del archivo con la etiqueta y se guarda en un índice. Cuando se modifica un archivo, sólo los bloques de datos modificados se guardan. Por ejemplo, si edita una sola diapositiva en tu archivo de PowerPoint de 100 megabytes, sólo los bloques afectados guardan - no el archivo entero 100 megabytes. Bloque desduplicación de datos requiere más potencia de procesamiento de desduplicación de datos de nivel de archivo, pero es mucho más eficiente. Muchos desarrolladores de solución de desduplicación de datos utilizan una mezcla de algoritmos y examinan los metadatos de un archivo para evitar la posibilidad de "falsos positivos" que puede resultar si un bloque recibe el mismo número de identificación como un bloque existente.

Desduplicación de datos es una forma efectiva de reducir los requerimientos de capacidad de almacenamiento y los costos asociados. Generalmente es una de varias técnicas de reducción de datos que se utilizan juntos para optimizar el almacenamiento y reducir los costos en un almacenamiento de información empresarial o entorno de virtualización de servidor SQL.