论文部分内容阅读
第二代测序技术的诞生为转录组学研究带来了前所未有的机遇。相比较早的EST和微阵列技术,RNA-Seq(基于第二代测序技术的转录组测序)具有灵敏度高、通量大的特点,可以准确快速的进行序列和表达量的测定。然而将大量的短Reads组装成一个完整的转录组是一个很有挑战的工作,也是后续分析结果准确与否的瓶颈所在。目前的组装有多种策略,由此而发展的软件也多种多样,由于目前还缺乏对这些软件全面的比较,人们很难恰当的从这些软件中做出选择。我们对牦牛和胡杨两个物种的多个组织进行了转录组测序,分别得到了14GB和7GB高质量的Reads。在此基础上使用四种从头组装的软件(Soapdenovo-Trans、 Trinity、Oases、Rnnotator)和两种基于基因组组装的软件(Cufflinks、Scripture)对得到的测序结果进行组装。依据牦牛和胡杨的基因组精细图和完整的注释信息对组装结果的准确性、完整性和连续性等方面对六种软件进行了全面客观的评估。在搭建了六个软件的组装平台后,我们分别对牦牛的6个样品和胡杨的两个样品进行了组装和后续的评估,主要得到如下结论:(1)在从头组装的四种软件中,采用了单Kmer的组装策略的SOAPdenovo-Trans和Trinity优于采用多Kmer结合方法的Oases和Rnnotator。单Kmer的组装的策略不仅多覆盖了5%的已知基因,且组装得到的单个转录本连续度也要高出12%。多Kmer组装虽然得到了数倍于单Kmer组装的转录本数量,但确是融合不同Kmer结果时产生的冗余造成的,提高了组装结果的错误率和复杂度。(2)从头组装的SOAPdenovo-Trans使用未知碱基N来连接Contig的组装策略降低了其组装的质量。相比于其它三种软件,SOAPdenovo-Trans牺牲了6%平均准确度,但并没有带来更长的转录本和更连续的基因。由于完整度和连续度在90%的基因平均覆盖度都要大于10乘,在目前的算法下,能够完好组装的只能是高覆盖度的基因,低覆盖度的基因无法利用N来填补空隙的策略获得准确的结果。(3)在基于基因组组装的两种软件中,采取保守策略的Cufflinks组装质量优于采取敏感策略的Scripture。Scripture获得的转录本数量超过Cufflinks数量的27%,其中短转录本(<500bp)的数量要高出190%,但中长转录本(≥500bp)的数量要少9%,总体的完整度比Cufflinks低9%,连续度低6%。在研究目标为转录本序列本身或者物种为无基因组或基因组质量不高的非模式生物的转录组组装中,Trinity可以在不损失准确性和运行效率的前提下得到更为完整的组装结果,是准确度最高和组装结果更完整的组装软件。在研究目标为可变剪切或者物种为有高质量基因组的转录组研究中,Cufflinks是可以更准确的鉴定转录本可变剪切的软件。我们的研究结果能有效的帮助研究人员根据研究目标选择合适的组装软件,充分的利用测序的数据;也为软件开发者改进组装算法提供了基本的参考信息。