【摘 要】
:
DNA作为长期存储生物遗传信息的载体记录着具有极高研究价值的基因数据。而近几年,随着下一代测序(next-generation sequencing,NGS)技术的高速发展,海量的DNA数据不断的涌现
论文部分内容阅读
DNA作为长期存储生物遗传信息的载体记录着具有极高研究价值的基因数据。而近几年,随着下一代测序(next-generation sequencing,NGS)技术的高速发展,海量的DNA数据不断的涌现,DNA信息的应用范围也越来越广。如何高效存储急剧增长的DNA数据信息并在其之上进行有效的随机访问和模式匹配操作,就成为了现代生物信息领域的重要研究课题之一。DNA数据是一种特殊的生物数据,它具有数据量大、数据字符集相对较小、数据重复度较高等特点,所以直接利用通用数据压缩索引算法对其进行压缩存储将无法获得理想的压缩效果。因此,我们就需要结合DNA数据的特点设计具出有针对性的DNA数据压缩索引算法,力图在保持一定查询效率的同时进一步提高DNA数据的压缩效率。本文首先利用DNA序列之间高度相似的特点设计了ALCS映射结构,该结构可以利用求取近似最长公共子序列ALCS的过程快速提取出两条相似DNA序列之间的差异信息并进行存储,从而有效地避免了序列间公共信息的重复存储现象。其中ALCS是本文在最长公共子序列LCS的基础上改进得出的一种简化结构,它采用局部最优的思想在保证信息正确映射的前提下,有效提高了映射结构整体的求取速率,并降低了求取过程所需的峰值内存。其次,本文在ALCS映射结构的基础上,针对DNA序列集设计并实现了一种高效的压缩索引算法ALCS-FM。该算法首先利用FM-index结构对参考序列创建压缩索引,再通过ALCS映射结构以及相关标记数组实现非参考序列向参考序列的信息映射,从而将完整的非参考序列信息转化成存储空间较小的差异信息,并结合参考序列的索引结构成功实现了对序列集范围内任意序列的随机访问和模式匹配操作。最后,针对结构中标记数组的数据特点,本文还设计了适用于高度稀疏0/1序列的混合编码结构和两条相似0/1序列的二元组存储结构,这些结构不仅可以实现对标记数组的有效压缩存储还可以支持ALCS-FM算法所必需的查询操作,从而有效提高了算法整体的压缩效率和查询效率。实验结果表明:ALCS-FM算法对不同相似度的多条DNA序列都有着非常显著的压缩效果,并且可以支持整个序列集范围内的随机访问和模式匹配操作。
其他文献
能源的利用与人类生产和生活息息相关,对经济社会发展也起到推动作用。近年来,随着能源危机影响不断加剧以及应用煤炭、石油等不可再生能源对环境破坏的问题越来越突出。能源利用逐渐向着可再生能源转变。可再生能源的利用能够减少环境污染,有利于环境保护。可再生能源中,生物质成型燃料的应用,不仅可以对农林废弃物进行利用,变废为宝,还能够产生可观的经济和社会效益。目前,由于成型设备存在的问题以及成型燃料质量参差不齐
随着软件项目规模的扩大,高效复用代码成为软件开发者们的共识,其中使用应用程序编程接口(Application Programming Interface,即API)是代码复用的一种重要手段。通过接口文
干扰对齐作为一种新型的干扰管理技术,以其能获得远优于传统通信技术的网络自由度,大大提升无线通信系统的网络容量的性能优势而获得学术界的广泛关注和深入研究。目前大部分
传统的机器学习是基于统计学的机器学习,其中一个基本的假设条件就是训练和测试数据来自相同的特征空间并且具有相同的概率分布。然而,在很多实际应用中,这种假设往往并不成
研究背景:气管移植是解决如原发性气道狭窄、气管粘膜损伤、气管肿瘤等疾病的主要手段。而气管移植后管腔大量纤维结缔组织生成,阻塞气管畅通,容易导致移植的失败,因此制约气
石碌含笑(Michelia shiluensis Chun et Y.F.Wu)为木兰科含笑属常绿乔木,为海南特有树种和国家Ⅱ级濒危保护植物。野外调查仅见分布于白沙、昌江、陵水、五指山等地海南中南部山区,资源分布狭窄,野生种群数量稀少,具有重要的科研和保护价值。本研究以石碌含笑为研究对象,在对石碌含笑野外种群开展全面调查的基础上,选择生长状况最为良好的吊罗山分布点开展该树种生殖生态学和种群及群落结
当前,人们对于复杂网络的研究已经成为一个新兴的话题。现实世界的诸多复杂系统都可以利用复杂网络进行表示,例如:社会关系网络,交通运输网络,神经网络,通信网络等等。网络鲁
利用多传感器组网获取监视区域中各种信息是实现实时检测、目标定位、跟踪与识别的一种重要手段,被广泛应用于智能监控、低空飞行器、无人驾驶和移动机器人等诸多领域。尤其在大范围监视空域,由低空雷达、光学传感器以及广播式自动相关监视(ADS-B)设备等构建的多传感器跟踪系统及其相关技术,日益受到国内外广泛关注。在实际中,由于传感器性能差异、目标运动模式、目标个数的不断改变、监测环境的动态变化及组网系统数据处
基于种群的进化算法在一次运行中能够产生一组近似的Pareto最优解集,因此多目标进化算法成为处理多目标优化问题中的主流方法。基于分解的多目标进化算法(MOEA/D)将一个多目
随着移动互联网技术的发展,位置相邻用户之间的数据通信业务也在逐渐增多,所以,用户设备之间的直接通信(D2D)技术正在受到越来越多的关注。本文通过对移动蜂窝网中的D2D通信