论文部分内容阅读
目的:
本文旨在利用高通量测序技术(RNA-seq)对钝顶螺旋藻的转录组进行研究,测序得到的转录组数据通过denovo组装、拼接并与蛋白质数据库nr、Swiss-Prot、KEGG和COG进行blastx比对,获得蛋白功能注释信息,进一步得到COG功能分类信息、GO功能分类信息、KEGG代谢通路分析结果。在钝顶螺旋藻基因组数据亟待完善的前提下,通过生物信息学方法分析得到转录本信息,用以校正基因组注释信息。在蛋白组实验完成的前提下,与蛋白组数据进行初步整合分析,得到差异条件下表达量发生变化的基因在正常条件下的基因转录信息。本文将为后续的功能基因组、基因的结构与功能关系研究、各种诱导条件下的差异转录组研究、基因表达的分子调控机理等研究奠定基础。
方法:
培养螺旋藻,收集藻细胞,并用洗涤缓冲液除去杂菌、杂质。螺旋藻样品液氮冻存,液氮研磨后用Trizol浸泡,干冰运送。提取RNA,进行转录组测序,获得高通量测序结果。用SOAPdenovo组装软件做转录组从头组装,得到Unigene序列,通过与蛋白质数据库nr、Swiss-Prot、KEGG和COG做blastx比对得到具有最高序列相似性的蛋白,进而分析钝顶螺旋藻的基因产物直系同源性、基因功能分类以及基因产物在细胞中的代谢途径。使用MAQ分析软件将转录组数据测序读长Cleanreads定位(map)到基因组序列上,使用SAM格式转换软件和Cufflinks分析软件得到转录本信息,进而校正基因组注释信息。从差异条件样品的蛋白组中找到与正常培养条件(转录组测序样品培养条件与该正常条件一致)对应的蛋白点,并找到这些点对应的基因,以转录本作库进行blast比对,获得这些基因序列在转录本上的位置关系。并且对找到的蛋白点进行跨膜区预测、信号肽预测和蛋白结构域预测等结构分析。
结果:
1钝顶螺旋藻样品RNA-seq一共得到13,588,892条测序读长(totalreads),总碱基数(totalnucleotides)为1,223,000,280nt。拼接、组装、去除gap(N)后得到Unigene为4338个。
2用blastx将Unigene序列比对到蛋白数据库,得到与给定Unigene具有最高序列相似性的蛋白,从而得到该Unigene的COG蛋白功能注释信息。最多的功能归类为通用功能(Generalfunctionpredictiononly)占11.60%,信号转导机制(Signaltransductionmechanisms)占8.77%,氨基酸转移与代谢(Aminoacidtransportandmetabolism)占7.46%,能量产生与转化(Energyproductionandconversion)占6.79%
3搜索比较蛋白质功能分类数据库(GeneOntology,GO),得到钝顶螺旋藻Unigene的GO注释信息。比对结果显示,1945条Unigene与生物过程(biologicalprocess)有关,1074条Unigene与细胞组分(cellularcomponent)有关,对应到分子功能(molecularfunction)的Unigene有1819条。
4根据KEGG注释信息,我们进一步得到Unigene的Pathway注释结果共141个蛋白质交互网络。得知参与糖酵解途径和糖异生途径的Unigene为118条,参与戊糖磷酸途径的Unigene为48条,参与光合作用途径的Unigene为62条。并将这些Unigene定位到转录本上,用RPKM法计算表达量。
5在基因组上定位得到转录本信息,共1994个转录本。进而校正基因注释信息ORFs。存在5种情况:至少涵盖一条基因组注释完整序列的转录本共有1598个,与基因组注释序列部分重叠(overlap)的转录本有2226个,还有419个转录本落在基因组注释序列内,2054个ORF无对应转录本信息,以及获得未注释到的转录本35个。我们将最后一种情况无对应注释信息的35个转录本与nr库(非冗余蛋白库)做blastx比对,得到这35个转录本的蛋白注释信息。其中33个转录本有至少两个可信的比对结果。
6初步整合蛋白组数据,筛查蛋白组实验得到的蛋白点,并获取对应的基因注释信息(ORF)。找到在盐胁迫条件下产生三倍以上表达量变化的点N467,N423和N109,这三个点对应的基因注释信息(ORF)依次排列在一个转录本上。生物信息学预测得知N467和N423无跨膜区结构,也无信号肽结构。N109具有信号肽和跨膜区结构的可能性均较低。N423和N467均具有藻胆体连接蛋白(Phycobillisomelinkerprotein)结构域、藻胆体连接多肽(PhycobilisomeLinkerpolypeptide)结构域以及别藻蓝蛋白连接结构域(allophycocyaninlinkerdomain),N109则具有藻胆体蛋白(Phycobilisomeprotein)结构域。
结论:
1高通量测序技术(IlluminaHiSeqTM2000测序仪)可以满足转录组学分析的需要。其覆盖度、测序深度、测序准确度都可以得到保证,为今后RNA水平的研究提供了有力的技术支持。
2钝顶螺旋藻转录组测序数据与蛋白质数据库nr、Swiss-Prot、KEGG和COG比对得到的蛋白注释信息,通过包括COG功能注释,GO功能分类注释,KEGG代谢通路的分析,获得钝顶螺旋藻基因产物直系同源性、基因功能分类以及基因产物在藻细胞中的代谢途径等信息。
3转录组与基因组整合分析后得到转录本信息,可以用来校正基因组注释信息。一方面可以初步排除未对应在转录本中的注释信息,另一方面可以补充没有预测到的基因注释信息。
4转录组与蛋白组初步整合分析后,发现在盐胁迫条件下发生表达量显著变化(三倍以上)的三个编码序列依次排列在同一条转录本上。依据蛋白组二维电泳实验的数据,点N467和N109在盐胁迫条件下表达显著上调,而点N109在盐胁迫条件下表达量显著降低。说明表达量发生显著变化的基因在空间位置上可能有较大的关联性。这三个基因很可能位于一个操纵子结构中。通过生物信息学方法预测这三个点的蛋白结构等相关生物信息,获得它们的跨膜区、信号肽和结构域信息。这为深入研究钝顶螺旋藻在胁迫条件下的生物功能提供了重要的参考价值。