论文部分内容阅读
近些年,下一代测序技术获得了突飞猛进的发展,由此产生了越来越多的测序数据。如何处理这些测试数据一直以来都是生物信息学领域的一项重要研究内容,下一代测序技术应用到转录组研究领域产生了高通量转录组测序技术,简称为RNA-seq技术。RNA-seq数据分析软件的一项重要功能便是重构剪接之前的mRNA在细胞中的形态,此外,还应该能够评估每种剪接异构体的表达水平。但是,所有分析过程的第一步都是要把从RNA-seq中得到的测序片段比对到相应的参考序列上。因为内含子序列在DNA转录为成熟mRNA时会被剪切除去,所以与传统的序列比对问题相比,转录组序列比对有其固有的特殊之处,即需要将测序得到的序列分段比对到不同的外显子序列上,因此需要设计专门针对RNA-seq的序列比对算法。现有的RNA-seq序列比对算法基本上都是依赖于经典的剪接位点信号,而许多非经典的剪接信号位点具有重要的生物学功能,如GT-TG与人类腺苷酸环化酶刺激蛋白Gαs的形成有关。为此,我们设计了两个新的RNA-seq序列比对算法,用来发现多种类型的剪接位点。(])独立于剪接位点信号的转录组序列比对算法首先我们设计了一种采用重叠种子内部扩展策略的RNA-seq序列比对算法,命名为RNAMap o种子序列的重叠性能够保证由种子的比对信息能够组合出完整测序序列的定位信息。在扫描基因组时,RNAMap建立一个静态表和一个动态表来索引种子序列及其比对信息,寻找左右锚点序列之间的剪接位点,此时并不受经典剪接位点信号的限制。实验结果表明,对于含有多种类型的剪接位点的数据集,RNAMap的召回率和精确度分别达到了92.53%和97.01%,优于其它的转录组序列比对工具。(2)转录组序列比对算法改进之后我们又设计了一种采用非重叠种子之间扩展策略的RNA-seq序列比对算法,命名为RNAMap 2。该算法通过减少种子的数量来降低计算量,然后利用测序深度,即测序序列的重复性来进行比对。这在一定程度上弥补了RNAMap在运行速度方面的不足。实验结果表明,在测序序列的长度为300bp时,RNAMap2比RNAMap快将近40%。此外,RNAMap 2采用Needleman-Wunsch全局动态规划算法,能够处理编辑距离的误配情况,克服了RNAMap仅支持海明距离误配的缺点。实验结果表明,RNAMap 2的召回率比RNAMap高大约2%。