论文部分内容阅读
随着生物技术的迅猛发展,生物信息数据资源呈现出爆炸式增长的趋势,同时计算机技术与互联网技术日益提高,使得我们对于大数据的储存、处理及传输更为便捷,对于生物大数据的整合与数据挖掘成为生命科学研究中的重要组成部分。基于计算机科学、数学与生物学的一门新兴交叉学科--生物信息学应时而生,其中对于转录组学的研究就是生物信息学中一个十分重要的基础性问题。近年来第二代RNA-seq技术依赖于其通量高、成本低的优势逐渐成为了研究转录组及其表达水平的主要手段。随着各种测序技术的发展,大量数据的产生,利用测序技术研究基因的转录组成为一个必然的趋势。二代的RNA-seq 测序数据的序列长度很短,必须经过有效组装才能恢复出全长转录本的序列,这就是本文所研究的转录组组装问题,而真核生物的转录过程中,由于可变剪接现象的存在,同一个基因可以产生多个不同的转录本,而可变剪接的模式也呈现出多样化,这无疑使转录组组装问题充满了挑战性。本文的研究主要是利用图论中的理论将转录组组装问题模型化,并利用组合优化技术解决组装过程中的难点与瓶颈。转录组组装算法大体分为两类,一类是基于参考基因组的组装算法,另一类是从头组装算法。对有些物种而言,其基因组是已知的,此时我们可以先将测序序列回贴到基因组上,根据回贴结果,确定每个基因的外显子区域及可变剪接事件,进而设计数学模型完成组装,这种策略由于存在参考信息,其组装效果往往相对较好;然而事实上,大多数物种并不存在一个完整的基因组可供参考,这时我们需要直接从测序序列出发而不基于任何参考信息来完成组装,这就是从头组装策略。两种策略各有利弊,且又互不可替代,基于两种策略均已有很多组装算法,通过在模拟数据及真实数据上的测试我们发现其组装效果并不理想,高性能的组装算法亟待开发。本文综合分析了目前组装算法的优缺点,提出来一种全新的基于参考基因组的组装算法iPAC,有效地解决了组装问题中的瓶颈,弥补了当前算法的缺陷。我们在多组模拟数据及真实数据上测试了 iPAC的表现,并与其他主流的组装算法做了全面的比较,结果充分的表明:在所有的测试数据上本文开发的组装算法iPAC可以在各方面都展现出显著的优势,iPAC的组装结果保持了高敏感度与高准确度,大大降低了假阳性转录本的存在,同时在重构低表达转录本的能力上也明显超越了其他算法。本文所提出的组装算法iPAC有以下几个创新之处:(1)引进了双端测序信息的重叠图模型,iPAC首先将双端测序序列定位成可以代表基因的剪接图中的一条双端子路,根据这些双端子路间的兼容关系,构造了重叠图,并在重叠图中设计了一种合理的路的延伸策略,得到了更长的子路,充分地利用到了每一对双端测序序列来解决可变剪接的连接问题;(2)构造了全新的相位图模型,iPAC利用测序深度信息与双端测序信息,使用梳图技术,即通过解决一系列的二次规划问题,将剪接图中每个点的入边与出边确定合理的连接关系,并结合在重叠图中获取的延伸的双端子路,构造了相位图,充分的将双端测序信息与测序深度信息整合在一起,解决了外显子两端剪接事件连接不确定这一核心难题;(3)在相位图中设计了全新的路的延伸策略,在构造完相位图后,iPAC会优先选择延伸的双端子路做为种子,在相位图中沿着梳图的方向往两侧延伸,延伸后将当前相位图中的权重做出更新,继续进行下一次的延伸,直到所有的剪接事件都被覆盖到,这使得iPAC以更高的概率获取到正确的转录本,对于各种表达水平的转录本的重构都有着明显的优势。iPAC在组装性能上有着优异的表现,不过其也存在一些不足之处。第一,从计算机技术层面上讲,iPAC的代码没有实现并行化,因此其计算效率还有提升的空间,实现并行对于计算效率的提高有着十分重要的意义,这也是我们以后努力的一个方向;第二iPAC组装完成后是使用其他工具对组装结果进行表达量的估计,这也是十分重要的一个课题,今后我们会设计自已的表达量估计模块。本文还介绍了我们开发的一个从头组装算法TransLiG,从我们的测试来看,与目前主流的从头组装算法相比,TransLiG在敏感度与准确度方面都有着十分明显的优势。同时重构低表达转录本的能力也优于其他算法,TransliG算法具有以下创新之处:(1)使用相对较大的kmer构造剪接图,然后使用小kmer对剪接图进行修正,大kmer构造剪接图可以有效的减少图中错误的连接关系,同时使用小kmer进行修正,又减少了序列的片段化问题,最终的剪接图更加可靠;(2)在解决外显子两端可变剪接事件连接不确定的问题上,引进了全新的二次规划模型,将测序深度与双端测序信息巧妙的整合到一起;(3)使用线图迭代技术得到全局最优解,TransLiG从原始的剪接图出发构造线图,并通过解决一系列的二次规划问题为线图赋权重,根据赋权结果又可进行下一次的迭代,在迭代过程中,会产生一系列的孤立点,回溯到剪接图中,这些点就是一个路覆盖,即我们组装出来的转录本。iPAC与TransLiG均为开源软件,由C++语言实现,两个软件的下载地址分别为:iPAC:http://sourceforge.net/proiects/transassembly/filesTransLiG:https:/sourceforge.net/proiects/transcriptomeassembly/files/