论文部分内容阅读
存储系统中存储着海量数据,目的是为用户提供高效的、可靠的、低开销的服务。随着信息量爆发,人类进入大数据时代,数据具有海量化、多样化、分散化的特征。在海量数据中,存在着大量的冗余数据,这无疑会浪费资源、降低存储空间利用率。本文列举出基于不同机制的去除数据冗余的方法,同时分析其优缺点,并分析了大数据时代去重技术的缺陷以及需要迎接的挑战。