基于高通量转录组测序的序列比对算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gdcjr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,下一代测序技术获得了突飞猛进的发展,由此产生了越来越多的测序数据。如何处理这些测试数据一直以来都是生物信息学领域的一项重要研究内容,下一代测序技术应用到转录组研究领域产生了高通量转录组测序技术,简称为RNA-seq技术。RNA-seq数据分析软件的一项重要功能便是重构剪接之前的mRNA在细胞中的形态,此外,还应该能够评估每种剪接异构体的表达水平。但是,所有分析过程的第一步都是要把从RNA-seq中得到的测序片段比对到相应的参考序列上。因为内含子序列在DNA转录为成熟mRNA时会被剪切除去,所以与传统的序列比对问题相比,转录组序列比对有其固有的特殊之处,即需要将测序得到的序列分段比对到不同的外显子序列上,因此需要设计专门针对RNA-seq的序列比对算法。现有的RNA-seq序列比对算法基本上都是依赖于经典的剪接位点信号,而许多非经典的剪接信号位点具有重要的生物学功能,如GT-TG与人类腺苷酸环化酶刺激蛋白Gαs的形成有关。为此,我们设计了两个新的RNA-seq序列比对算法,用来发现多种类型的剪接位点。(])独立于剪接位点信号的转录组序列比对算法首先我们设计了一种采用重叠种子内部扩展策略的RNA-seq序列比对算法,命名为RNAMap o种子序列的重叠性能够保证由种子的比对信息能够组合出完整测序序列的定位信息。在扫描基因组时,RNAMap建立一个静态表和一个动态表来索引种子序列及其比对信息,寻找左右锚点序列之间的剪接位点,此时并不受经典剪接位点信号的限制。实验结果表明,对于含有多种类型的剪接位点的数据集,RNAMap的召回率和精确度分别达到了92.53%和97.01%,优于其它的转录组序列比对工具。(2)转录组序列比对算法改进之后我们又设计了一种采用非重叠种子之间扩展策略的RNA-seq序列比对算法,命名为RNAMap 2。该算法通过减少种子的数量来降低计算量,然后利用测序深度,即测序序列的重复性来进行比对。这在一定程度上弥补了RNAMap在运行速度方面的不足。实验结果表明,在测序序列的长度为300bp时,RNAMap2比RNAMap快将近40%。此外,RNAMap 2采用Needleman-Wunsch全局动态规划算法,能够处理编辑距离的误配情况,克服了RNAMap仅支持海明距离误配的缺点。实验结果表明,RNAMap 2的召回率比RNAMap高大约2%。
其他文献
自然场景中的文本检测与识别,比如路边或者建筑上的指示牌、交通标志、商品名称等关键文本的检测与识别是计算机视觉、机器人、盲人阅读等领域的重要组成部分。随着该领域的
近年来,诸多大数据环境下的应用呈现数据多源并发、数据聚合、在线实时处理的特征。原本承载着海量数据处理任务的Hadoop MapReduce计算框架,在实时数据处理方面,存在响应时
信息技术的发展引发了办公领域里的一场革命,办公自动化(Office Automation,简称OA)技术的快速发展不仅大大提高了人们日常办公的工作效率,而且成为增强企业核心竞争力的有力
集群系统在近年来已经逐渐成为并行计算实现载体的主流。随着计算结点性能的不断提高,集群系统的通信性能已经成为影响并行计算性能的一个重要因素。为了使得高性能计算达到
随着因特网和计算机视觉技术的发展,数字图像的产生、存储、分析和传输访问的数量呈指数级增长。全球每天都在不断地产生数以兆字节计数字图像数据,然而这些数据散乱地分布在
实现地形渲染的难点主要在于要给用户展现出真实的地形,并且保证实时性所要求的帧率(至少25FPS)。如果读取地形高度信息后,不进行任何处理直接作为顶点来渲染地形,这种方法在
软件测试是软件开发过程的重要环节,贯穿于软件生命周期的每一个阶段,目的是检验系统是否符合用户需求,尽可能地发现软件产品中存在的缺陷,以保证软件的质量,提高用户满意度
随着计算机网络技术的不断发展,这些技术在给日常生活带来方便的同时,其安全方面的隐患也日益暴露。在保障信息安全的众多技术中,密码技术无疑扮演着举足轻重的角色。图像数
集群系统简单的说就是由各种各样通用的商业化部件通过网络互连的方式组成。集群系统以其高可扩展性、高可用性以及高性价比等优点逐渐成为高性能计算机体系结构的发展趋势。
随着电子商务及手机通讯等嵌入式移动设备的兴起,嵌入式数据库管理系统得到了越来越广泛的应用空间。而通讯技术,软硬件技术的发展,使嵌入式应用技术的应用成为可能。   嵌入