基于参考的基因组序列数据压缩算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:xuzhidanxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代测序技术(Next Generation Sequencing,NGS)的发展和逐步普及,基因测序变得越来越快速,费用也越来越亲民。基因组序列数据正以爆炸性的速度扩增,因而产生了海量基因组序列数据。传输,存储,处理和分析这些数据的时耗和费用日渐成为制约基因组学和生物医学发展的瓶颈。虽然现有许多通用的数据压缩算法和软件,但由于不能考虑和处理基因组序列数据的固有特性,它们不能高效地压缩基因组序列数据。因此研发有针对性的,快速有效的基因组序列数据压缩技术已经成为了一项重要而紧迫的课题。本文提出了一种高压缩率的基于参考的无损基因组序列数据压缩算法。利用相同物种间基因组的高度相似性,将待压缩目标基因组序列匹配到参考基因组序列中,以匹配结果(即两序列相同子序列的位置及长度)和目标序列的不匹配部分,代替目标基因组序列。本文创新性地设计了匹配策略选择机制,有效地结合了以有无匹配位置的限制为区分的两种主流匹配策略,即基于分段的局部匹配和全局匹配。根据参考基因组和目标基因组序列的相似程度而应用不同的匹配策略,借助哈希方法搜索两序列间相同的子序列,并评估子序列的匹配位置和匹配长度对匹配效率的影响,以确定相同子序列的匹配位置。有效地处理了基因组序列数据中的各类字符,以进一步提高匹配效率。最后借助高效的熵编码压缩器对保存匹配结果的中间文件完成压缩。实验结果表明,本文压缩算法可在至多18分钟内对FASTA格式的约3GB大小的人类完整基因组序列数据完成压缩,56组人类基因组序列测试数据压缩后的大小为4.45MB至40.67MB。本文压缩算法的平均压缩率优于现有同类型先进的基因组序列数据压缩算法,具有更好的鲁棒性,且时空复杂度与现有先进的算法处于同一数量级,具有较强的实际应用价值。本文还设计了对应的高效解压缩算法,可由已压缩文件和参考基因组序列数据快速,无损的复原目标基因组数据。完整人类基因组数据解压缩的耗时被控制在2分钟以内。
其他文献
随着教育教学工作的发展和进步,现阶段的小学语文教学工作开始应用了许多新的教学手段和教学方法,其中随堂习作教学就是重要的组成部分,在实际的小学语文教学中发挥了重要的
合成孔径雷达(Synthetic Aperture Radar,SAR)图像是通过SAR传感器主动发射电磁波并接收回波进而生成的图像。由于SAR具有强穿透性、远距离性以及全天候和全天时等特点,它可以在不受光照强弱、云层覆盖和天气等影响的情况下获取到高分辨率的SAR图像。SAR图像变化检测是通过观察同一地点同一物体在不同时刻的SAR图像,进而找出发生变化的部分以及未发生变化的部分的技术。因为该技术可
足球是世界第一运动。当下,国家在政策方面对足球运动在校园及民间的普及给予了强力支持,虽然中国足球水平还处在发展摸索的阶段,但国内对足球推广保持着极高的热情。所以,全方位的宣传足球将变得极为重要。英国是现代足球的发源地,对足球在全球的发展和推广做出了极大贡献。天空体育是英国和爱尔兰境内主要的体育电视订购品牌,自1990年以来在英国体育日益商业化及体育交流中扮演着重要角色。天空体育与英国广播公司、英国
定位精度是机载激光测深雷达系统的关键性能指标之一。计算分析表明,安置误差是决定机载激光测深雷达系统定位精度的主要因素,因此建立可靠的安置误差标定模型、设计对应的安
在能源短缺和环境污染的时代背景下,利用光催化材料将太阳能转变成特定的化学能是一种具有前景的技术手段。然而,光生载流子的复合严重地降低了材料的催化活性,限制了光催化
胶原纤维(CF)是废弃动物质资源的主要成分,来源广泛、价廉易得,具有特殊的化学特性和天然的介观结构,其分子上丰富的活性基团易与植物多酚和Ti4+等金属离子结合。而杨梅单宁(
固体氧化物燃料电池(SOFC)是一种高效、清洁的能量转换装置,可以将燃料中的化学能直接转换为电能。目前,有关SOFC的研究主要集中在改性现有阴极以提高其结构和化学稳定性,以及开发新型的中低温阴极材料和抗积碳抗硫毒化的阳极材料。(La0.8Sr0.2)0.95MnO3-δ(LSM)阴极材料具有高电子导电性、显著的氧还原催化活性和结构稳定性等优点,是一种备受青睐的传统SOFC阴极材料。为了改善LSM在
随着互联网产品和服务的快速发展和多样化,以活动为主的社交网络(Event Bsaed Social Network,EBSNs)也得到了快速的发展。在EBSNs社交平台上频繁产生着大量的各种各样的活动
社会的快速发展为我们生活带来诸多改变,随着我国经济的高速发展,环境保护与环境治理的形势日渐严峻。基于此背景,我国在生态文明建设过程中不断采取新措施以改善这种情况,其中之一便是创设《中华人民共和国环境保护税法》(下文简称“环保税法”)。该法的制定与实施是环境污染治理的重要举措,也是我国开展环境治理工作的重要前提。我国现行环保税法的创设是基于将污染费平移的“费改税”方式,使得环保税其自身特别是税目方面
GPS以其全天候、高精度、实时性等优点广泛应用于地壳形变、地球动力学、地震学等领域研究中。随着全球永久性GPS连续观测站的密集建设,以及GPS数据处理精度的不断提高,GPS能