论文部分内容阅读
伴随着信息时代信息量的膨胀,无论是网络信息、观测数据以及生物信息都存在着大量相似程度很高的数据。然而传统的压缩方法对于这种数据项之间差异量很小的数据没能够利用这种特性提供更好的压缩效果,因此如何对这种相似数据进行有效的无损压缩具有重要的意义。目前,针对拥有极高相似度的生物数据,很多学者研究并应用了一种基于差异量表示的无损压缩技术,即用一个基础序列加上一系列差异量来表示原序列,由于数据的高相似程度,只需要非常少的差异量就可以表示原本庞大的生物序列信息,达到了很好的压缩效果。同时面对具有高维属性的数据库文件,部分学者依然应用了基于语义信息的差异压缩手段对数据库表项进行相似压缩。本文主要研究针对一般性的高相似度数据,如何应用基础序列附加差异量的技术实现对数据的高效压缩及解压还原。首先,本文对基于差异表示的无损压缩框架进行了概述。通过对现有技术的分析比较,本文提出了面向相似数据的无损压缩技术,即对高相似度的数据采用基础序列加上一组基于编辑距离或Smith Waterman相似度的差异量来表示整个数据集的技术,实现对数据集的高度压缩。针对现实中数据分段相似的特点,本文提出了一种先聚类再压缩的思想,即首先将彼此高度相似的数据聚类在一起,对聚类簇中的数据实现只用极少的差异量表示的高压缩比率,同时优化了聚类个数,使整个数据压缩在数据聚类个数和数据聚类相似性的矛盾之间找到了一个合理的折中点,实现了数据压缩的优化。同时针对字符序列中心问题,本文借鉴序列比对和字频统计的技术,提出了以虚拟聚类中心作为基础序列的方法,找出了字符序列的合理聚类中心,实现了聚类中差异量最小化的优化。同时本文还优化了压缩存储的表示形式,进一步提高了差异量压缩的压缩比率,并给出了高效的解压还原算法。最后,通过大量实际数据集的实验测试与分析,从压缩效果和压缩解压时间等方面显示本文所提出的无损压缩技术对于相似序列数据能够达到很好的压缩效果和执行效率。