Datorhårdvara

Förstå data deduplication

Data deduplication är en teknik som används för att minska utrymmeskraven kapacitet genom att bli av dubblettdata. Trots allt, om du har flera kopior av en enda fil, du behöver egentligen bara spara en version av denna fil, rätt? Tyvärr skapa datorer ofta redundanta data utan din vetskap. Till exempel, låt oss säga att du har skapat en 100 megabyte PowerPoint-presentation och har skickat det till tio av dina kollegor. Ditt e-postprogram kan arkivera alla tio av de utgående meddelanden inklusive alla tio förekomster av 100 megabyte presentationen. Detta leder till nästan en hel gigabyte av redundanta data som du inte behöver. Att frigöra att slösat utrymme inte kan verka som en stor sak för dig, men tänk hur mycket slösat utrymme hela organisationen genererar.

Med deduplication, kan denna redundanta data elimineras eftersom det inte längre behövs. Endast en instans fortfarande på lagringsenheten, vilket möjliggör en mer effektiv användning av lagring i hela nätverket. Om du är bekymrad över kostnader eller SQL server virtualiseringsprestanda, kan minska redundans spela en viktig roll.

För att säkerställa att andra system som ursprungligen refererade dubblettdata kan ringa upp den ursprungliga datan, skapar data deduplication en referens till den återstående sparade kopian. Till exempel om du Visa arkiverade kopior av tio e-postmeddelanden du har skickat tidigare, kommer att var och en av dem peka på sparade 100 megabyte presentationen och inte en onödig, redundant kopia.

Det är inte bara deduplication stor för återvinna lagringskapacitet, det sparar pengarna organisation. Trots allt, om din hårddisk matriser fyller med onödiga data utan din vetskap, hittar du dig själv köpa fler disksystem. Genom att använda deduplication, kan du pressa mer kapacitet av din befintliga lagringssystem och skjuta upp ytterligare utgifter. Dessutom minimerar deduplication data som måste backas upp, vilket möjliggör snabbare, effektivare säkerhetskopior. Om du betalar för din backup tjänst på en per megabyte eller gigabyte basis, kan data deduplication snedstreck din säkerhetskopiering kostnader också.

Medan filen deduplication spelar en del, sker data deduplication även på blocknivå. Enskilda filer granskas och bearbetas med unika upprepningar av varje block i filen heter och sparas i ett index. När en fil ändras, sparas bara de ändrade datablock. Till exempel, om du redigerar en enskild bild i PowerPoint-filen 100 megabyte, sparas endast drabbade block - inte filen hela 100 megabyte. Block data deduplication kräver mer processorkraft än Arkiv-nivå data deduplication, men det är mycket effektivare. Många data deduplication lösning utvecklare använder en blandning av algoritmer och undersöka en fils metadata för att undvika risken för "falska positiva" som kan uppstå om ett block får samma ID-numret som ett befintligt block.

Data deduplication är ett effektivt sätt att minska krav på lagring och tillhörande kostnader. Det är oftast en av flera data tekniker som används tillsammans för att optimera lagring och minska kostnaderna i en enterprise storage eller SQL server virtualisering miljö.