论文部分内容阅读
随着高通量基因组测序技术的迅猛发展及测序成本的巨幅下降,基因组测序数据及其拼接而成的基因组序列数据呈指数级增长。如何有效存储和传输这些海量高通量基因组数据,是医学、生物信息学领域迫切需要解决的问题。基因组数据压缩技术成为解决该问题的重要途径,通过高效的压缩方式,减少基因组数据的存储空间和传输成本。然而,受到基因组数据自身的高度复杂性、测序数据的高通量性以及现有基因组测序技术的局限性等因素的影响,为如何有效的、快速压缩基因组数据带来了更加巨大的挑战。本文围绕着基因组序列数据和基因组测序数据的无损压缩方法开展研究,主要贡献包括以下几方面:第一,针对目前基因组序列数据无损压缩方法利用固定上下文阶数进行碱基概率预测的不足,深入分析挖掘了一阶信息熵与基因组序列压缩结果之间的相关性,提出了基于信息熵的基因组序列数据无损压缩方法。通过计算基因组序列一阶信息熵,动态确定基因组序列压缩有限上下文模型参数。使用现有的5408条细菌基因组序列数据进行无损压缩实验,验证了方法的有效性。第二,现有基因组序列数据无损压缩方法在预测碱基概率时只用到了部分碱基信息,导致预测效果不理想。针对此问题,深入研究了基于深度学习基因组序列数据的无损压缩方法。首先,使用卷积神经网络识别基因组序列数据中的局部特征,进而使用循环神经网络识别基因组序列数据中的全局特征;随后,全面整合局部特征和全局特征信息,建立预测碱基概率模型,以此进行基因组序列数据压缩;最后,通过真实的人类线粒体基因组序列数据压缩实验,验证了方法的有效性。第三,针对由于基因组测序数据的测序错误导致其错误分桶的问题,提出了基于序列纠错的基因组测序数据无损压缩方法。通过分析纠正基因组测序数据当中的碱基错误,使得测序短片段能够分配到更合理的桶中,增加了桶内数据冗余密度,从而提高了压缩结果。利用真实的五组基因组测序数据进行压缩实验,验证了方法的有效性。第四,现有基因组测序数据分桶压缩方法中仍然使用普通文本压缩方法,缺少基于基因组测序数据特征的无损压缩方法。针对此问题,提出了基于de Bruijn图的基因组测序数据无损压缩方法。在基因组测序数据分桶的基础上,构建了de Bruijn图,将测序短片段序列表示为de Bruijn图中的一条路径,并通过动态构建de Bruijn图的方法,有效避免存储原始de Bruijn图,以此节省存储空间,并获得更优的压缩结果。采用真实的八组基因组测序数据进行压缩实验,验证了方法的有效性。