面向相似数据的无损压缩技术

来源 :东北大学 | 被引量 : 1次 | 上传用户:huimiandiadia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息时代信息量的膨胀,无论是网络信息、观测数据以及生物信息都存在着大量相似程度很高的数据。然而传统的压缩方法对于这种数据项之间差异量很小的数据没能够利用这种特性提供更好的压缩效果,因此如何对这种相似数据进行有效的无损压缩具有重要的意义。目前,针对拥有极高相似度的生物数据,很多学者研究并应用了一种基于差异量表示的无损压缩技术,即用一个基础序列加上一系列差异量来表示原序列,由于数据的高相似程度,只需要非常少的差异量就可以表示原本庞大的生物序列信息,达到了很好的压缩效果。同时面对具有高维属性的数据库文件,部分学者依然应用了基于语义信息的差异压缩手段对数据库表项进行相似压缩。本文主要研究针对一般性的高相似度数据,如何应用基础序列附加差异量的技术实现对数据的高效压缩及解压还原。首先,本文对基于差异表示的无损压缩框架进行了概述。通过对现有技术的分析比较,本文提出了面向相似数据的无损压缩技术,即对高相似度的数据采用基础序列加上一组基于编辑距离或Smith Waterman相似度的差异量来表示整个数据集的技术,实现对数据集的高度压缩。针对现实中数据分段相似的特点,本文提出了一种先聚类再压缩的思想,即首先将彼此高度相似的数据聚类在一起,对聚类簇中的数据实现只用极少的差异量表示的高压缩比率,同时优化了聚类个数,使整个数据压缩在数据聚类个数和数据聚类相似性的矛盾之间找到了一个合理的折中点,实现了数据压缩的优化。同时针对字符序列中心问题,本文借鉴序列比对和字频统计的技术,提出了以虚拟聚类中心作为基础序列的方法,找出了字符序列的合理聚类中心,实现了聚类中差异量最小化的优化。同时本文还优化了压缩存储的表示形式,进一步提高了差异量压缩的压缩比率,并给出了高效的解压还原算法。最后,通过大量实际数据集的实验测试与分析,从压缩效果和压缩解压时间等方面显示本文所提出的无损压缩技术对于相似序列数据能够达到很好的压缩效果和执行效率。
其他文献
教育资源建设是教育信息化快速发展的重要保证,但随之而来的是教育资源数量的剧增,为了避免教育资源形成信息孤岛,造成教育资源的重复建设,保障教育资源的全面共享,教育资源
在水环境监测领域,相比传统人工定时定点的监测方式,无线传感器网络技术以其覆盖范围广、自组织、价格低廉和实时性好等特点可以实现对监测区域全面的、实时的监测,因而逐渐得到
信息数据量的日益膨胀给数据处理带来了一定的挑战,据统计约70%的网络信息是以文本形式显现的。然而,此类信息数量很多而且杂乱,聚类技术能够在一定程度上对这些信息进行重新
计算机动画技术在图形设备的快速发展支撑下,已经在商用领域得到了广泛的应用。随着人们对动画需求的不断增长,计算机动画的生成效率也被赋予更高的要求,如何快速、准确地生成高
随着信息化的不断发展,电子政务信息化越来越重要。但目前政府各部门的应用系统由于各自的软硬件、开发环境不一样,导致了部门间系统环境的不一致、数据格式的不一致,部门之间各
随着Web信息的激增,Web服务器维护的数据库即Deep Web存储的信息越来越多,以尽可能自动的方式实现对在线数据库中信息的有效访问是目前Deep Web数据集成的主要目标。目前互联
近年来随着网络技术的不断发展,Internet上的业务种类在不断增加,业务对服务质量(QoS)保证的需求也越来越高。传统的IP网络在业务对网络带宽、传输速率方面的需求显得力不从
近年来,随着计算机技术和网络技术的发展及普遍推广,全国城建档案馆顺应时代发展潮流,不断加大自身信息化建设,并在这一信息化过程中取得了一定程度的成果与经验."数字城市"
无线AD HOC网络是一种非集中式的无线网络。它不依赖于预先部署的基础设施,不使用带有接入点的那种集中式网络方式。相反,每个节点都具有路由功能、为其它节点转发数据。数据
当前,全球主要金融市场特别是外汇交易市场已经实现了网络化和计算机化。金融市场每天都在数据库中积累下海量的交易数据。如何利用计算机对这些数据进行有效的分析和研究,并加