论文部分内容阅读
随着信息技术的发展,越来越多的数据被人们所记录用于开展各种工作与活动。在生物信息领域,DNA作为生物体内储存着大量生物遗传信息的遗传物质,对生物生命机能产生了重要的作用。在DNA测序技术和其他各类测序技术的影响下,DNA序列数据也急速增长,数据量增长速度呈指数方式。如何利用有限的储存空间,有效地保存大量有研究作用的DNA序列数据,是现今DNA研究相关领域学者所面临的新课题。然而,传统的数据压缩算法对DNA序列的压缩结果并不理想,甚至可能导致存储空间膨胀。DNA序列内部特殊的重复结构,如直接重复,镜像重复,互补回文等,以及不同物种或相同物种不同个体DNA序列间的高度重复性,使得DNA序列的结构化压缩成为可能。本文主要研究如何利用更有效的压缩方法以减少数据的存储空间。针对有参考序列的DNA序列压缩,本文结合字典编码与统计编码的优势,提出了一种有效的DNA序列压缩方法——基于全文索引的互补上下文压缩算法。在压缩第一阶段,该方法利用高效索引结构FM-index查找并定位参考序列中的最长匹配序列,由于FM-index结构通常用于固定长度图案匹配,不利于对实际序列的匹配和记录信息,改进后的FM-index可以在有限时间内对可变长度序列进行查找与定位。为了在解码端无损恢复出输入序列,对于第一阶段未匹配的符号,本文利用互补上下文模型,根据不同的上下文模型计算符号出现概率,并结合连续上下文与非连续上下文模型计算出预测概率进行算术编码,从而实现高效的序列无损压缩。实验证明该方法对未经预处理的序列在压缩率上超过其他DNA压缩算法。针对无参考序列的DNA序列压缩,本文提出了一种基于自编码器的序列预测与压缩模型。利用卷积层结构学习数据的特征表示,通过自编码器编码部分得到序列的稀疏表示单元,并将该表示作为压缩编码的一部分。将得到的表示单元输入到解码部分重构输入序列。为了达到序列无损压缩的目的,将重构序列与输入序列间残差记录并编码压缩,作为压缩编码的另一部分。本文探索了利用深度学习技术实现序列无损压缩的可能性,通过网络学习到序列隐含的特征。实验证明本文提出的卷积自编码器模型对人类基因组DNA序列的重构准确率高达98%以上,压缩率达到4.78%,实现了比传统算法更高的压缩率。