其他分享
首页 > 其他分享> > [灾备] 数据去重技术

[灾备] 数据去重技术

作者:互联网

[灾备] 数据去重技术

运维少年 运维少年

    当我们进行集中数据备份和归档时,重复的数据块会导致存储费用快速上升,同时也会占用数据传输带宽,这时就需要去重技术(重复数据删除技术)。数据去重技术通常用于基于磁盘的备份系统,通过在某个时间周期内删除不同文件中不同位置的重复可变大小数据块,减少存储系统中使用的存储容量。数据去重技术的过程是指:在存储数据前,以块为单位进行哈希比对,对已经存储的数据块不再进行存储,只是用索引来记录该数据块;对没有存储的新数据块,进行物理存储,再用索引记录,这样相同的数据块物理上只存储一次。通过索引,可以看到完整的数据逻辑视图,而实际上物理存储的数据却很少。

[灾备] 数据去重技术

    基于软件的重复数据删除旨在消除源端的冗余,以此减少带宽的压力。但是,基于软件的重复数据删除维护十分困难,如果想用一个全新的产品来替换原有的备份引擎,就会导致之前的数据完全不可用。

    基于硬件的重复数据删除在存储系统本身进行数据削减,具有更高的压缩比,更加适合大型企业使用。正常情况下,备份软件会将专用设备看成一般的“磁盘系统”,并且不会感知其内部正在进行的重复数据删除进程。具有更高的压缩比,更加适合大型企业使用。

另外,数据去重又分为源端去重和目标端去重:

源端去重是指当数据从“源端”传输到“目标端”之前,在源端先对被传输的数据块进行哈希比对,如果该数据块先前已经被传输过,只需要传输哈希索引值;如果该数据块先前没有被传输过,就传输该数据块,并记录该数据块的哈希值。目标端去重是指当数据从“源端”传输到“目标端”的过程中,把数据块传送到目标端,在目标端进行去重操作。

重复数据的删除并非灾备系统中的必备环节。

标签:存储,删除,重复,技术,传输,数据,源端,灾备
来源: https://blog.51cto.com/15082392/2655083