高通量基因组数据的无损压缩方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量基因组测序技术的迅猛发展及测序成本的巨幅下降,基因组测序数据及其拼接而成的基因组序列数据呈指数级增长。如何有效存储和传输这些海量高通量基因组数据,是医学、生物信息学领域迫切需要解决的问题。基因组数据压缩技术成为解决该问题的重要途径,通过高效的压缩方式,减少基因组数据的存储空间和传输成本。然而,受到基因组数据自身的高度复杂性、测序数据的高通量性以及现有基因组测序技术的局限性等因素的影响,为如何有效的、快速压缩基因组数据带来了更加巨大的挑战。本文围绕着基因组序列数据和基因组测序数据的无损压缩方法开展研究,主要贡献包括以下几方面:第一,针对目前基因组序列数据无损压缩方法利用固定上下文阶数进行碱基概率预测的不足,深入分析挖掘了一阶信息熵与基因组序列压缩结果之间的相关性,提出了基于信息熵的基因组序列数据无损压缩方法。通过计算基因组序列一阶信息熵,动态确定基因组序列压缩有限上下文模型参数。使用现有的5408条细菌基因组序列数据进行无损压缩实验,验证了方法的有效性。第二,现有基因组序列数据无损压缩方法在预测碱基概率时只用到了部分碱基信息,导致预测效果不理想。针对此问题,深入研究了基于深度学习基因组序列数据的无损压缩方法。首先,使用卷积神经网络识别基因组序列数据中的局部特征,进而使用循环神经网络识别基因组序列数据中的全局特征;随后,全面整合局部特征和全局特征信息,建立预测碱基概率模型,以此进行基因组序列数据压缩;最后,通过真实的人类线粒体基因组序列数据压缩实验,验证了方法的有效性。第三,针对由于基因组测序数据的测序错误导致其错误分桶的问题,提出了基于序列纠错的基因组测序数据无损压缩方法。通过分析纠正基因组测序数据当中的碱基错误,使得测序短片段能够分配到更合理的桶中,增加了桶内数据冗余密度,从而提高了压缩结果。利用真实的五组基因组测序数据进行压缩实验,验证了方法的有效性。第四,现有基因组测序数据分桶压缩方法中仍然使用普通文本压缩方法,缺少基于基因组测序数据特征的无损压缩方法。针对此问题,提出了基于de Bruijn图的基因组测序数据无损压缩方法。在基因组测序数据分桶的基础上,构建了de Bruijn图,将测序短片段序列表示为de Bruijn图中的一条路径,并通过动态构建de Bruijn图的方法,有效避免存储原始de Bruijn图,以此节省存储空间,并获得更优的压缩结果。采用真实的八组基因组测序数据进行压缩实验,验证了方法的有效性。
其他文献
盐渍土中的离子侵蚀是导致混凝土结构耐久性失效的主要原因。基于扩散作用、结合作用、电迁移场作用以及毛细作用分析了混凝土内的氯离子迁移模型。分析因硫酸盐侵蚀导致的混
本文对建设工程项目管理中成本、进度、质量相互之间的关系作了分析,并提出了相应的控制措施,供广大工程技术人员参考。
利用机械合金化方法制备各种W-TiC合金,并通过主要物理性能测试发现:TiC的引入能有效强化晶界,提高合金材料的力学性能,特别是W-1%TiC(质量分数,下同)合金,其相对密度、抗弯强度、维氏
在PP/PA6/POE-g-MAH三元共混增强聚丙烯熔体强度的基础上,进一步研究了纳米蒙脱土、PE对PP/PA6/POE-g-MAH共混体系熔体强度的影响。研究结果表明:随着蒙脱土PP母料用量的增加
2016年4月16-17日国家电网公司的社会责任根植评优答辩会在怀柔供电培训中心举行。国家电网公司的主办者颇有创意的设计,让笔者有幸经历一次企业社会责任的扑克牌之旅。
中国渐进式的市场取向改革为经济发展注入了无限生机,改革开放快30年来.我国的综合国力、国民生产总值、人民整体生活水平以及城乡居民收入得到了大幅度的提高。中国的经济前景
本文中,我们摆脱了以往仅依靠时间序列来对研究期权市场进行研究分析的方法,转而对Agent的相关行为和特征进行了全面、系统的阐述,并尝试着用基于Agent的仿真方法对欧式买方期权
首次以牛血清白蛋白(BSA)为手性添加剂,探讨了毛细管电泳法对氧氟沙星进行手性拆分的条件。研究结果表明:选用pH=6.2;6.8;7.0;7.4;8.0的50mm。1/L磷酸盐缓冲液且分别添加适当浓度的BSA时,氧
一国汇率制度的选择是因时而异的动态过程。分析波兰转轨以来汇率制度的变化。我国人民币汇率制度应考虑国际国内实际情况的变化并完善相关条件、把握汇率制度调整的主动权且
当前,我国环保产业发展已初具规模,形成了相对完善的产业体系,产业供给能力和技术创新能力不断提升,服务领域不断拓展。目前我国的环保产业已经具备"走出去"的基础,但也面临