论文部分内容阅读
近年来,转录组测序技术的出现使低廉、高效、大规模的基因资料的发掘成为可能,被广泛应用于鉴定转录本的表达水平、发现新的基因、SNP及分子标记、基因家族鉴定及进化分析、转录图谱绘制和代谢途径等方面。对于序列信息有限的非模式生物,RNA-Seq更偏重编码区域。由于相比于基因组,重复元件和GC区比较少,使得拼接相对容易,所以转录组研究在许多非模式植物中得到了广泛应用。本研究利用转录组测序,并利用qRT-PCR技术对随机挑选的差异表达基因进行验证,分析其转录组信息及差异表达基因,探讨对不同品种的木瓜进行转录组测序分析,能够低廉、高效、大规模地发掘基因资源,为木瓜分子生物学和基因功能研究以及杂交育种等奠定基础。本研究的主要结果如下: (1)本试验利用皱皮木瓜‘长俊’和光皮木瓜‘豆青’的幼嫩叶片建立了cDNA文库,并利用Illumina Hiseq4000测序平台对其进行转录组测序,共获得304,904,950条读段(Reads),有效读段数据(clean reads)277,451,858条,占比91.00%,6个样品的高质量clean reads比例均达90%以上;用Trinity对clean reads进行从头组装,获得非冗余的基因(unigene)数据123,602条,碱基数为71,655,424bp,GC含量为42.38%,Q30均大于96%,平均长度579.73bp,N50为876bp。利用Bowtie2将用于组装的序列与组装后的转录本序列进行比对,结果显示clean reads在unigene上被比对到的reads数(mapped reads)为228,894,859条,匹配率为82.50%,数据有效。 (2)将unigene序列与GO、KO、Nr、Nt、PFAM、UniProt、eggNOG和KEGG数据库进行比对,有62,085条unigenes在至少一个数据库中得到了注释。其中,35,243条unigenes注释到GO数据库中的生物学进程、细胞组分和分子功能3个大类中的51个小类,被富集到细胞过程、代谢过程、细胞部分、细胞蛋白结合、催化活性、单生物体过程、细胞器部分、膜、膜部分、细胞成分和生物合成的unigene相对较多。15,331条unigenes(占unigene总数的12.42%)被注释到COG数据库中的24个功能分类中,其中注释unigenes数量最多的是一般功能预测,共有1972条unigenes,占12.86%,其次是翻译,核糖体结构和生物合成,有1351条unigenes,占8.81%,翻译后修饰,蛋白质转换,分子伴侣,有1205条unigenes,占7.86%,复制、重组和修复,有1122条unigenes,占7.32%,氨基酸转运与代谢,有1102条unigenes,占7.19%。 (3)GO富集分析中,差异表达基因被富集到3个大类的53个子类中,其中富集到细胞部分中的差异表达基因最多,有5584条unigenes,其次是蛋白结合,有5006条unigenes,细胞进程,有4746条unigenes,催化活性,有4629条unigenes,代谢进程,有4345条unigenes。将差异表达基因与KEGG数据库的代谢通路进行比对,总共注释到126个代谢通路中,其中富集最多的KEGG通路是植物病原体相互作用,有124条unigenes,其次是植物激素信号转导,有91条unigenes,苯丙素生物合成,有68条unigenes。随机的挑选15个差异表达基因,进行实时荧光定量PCR验证,验证结果的变化趋势与转录组测得的RPKM是一致的。 (4)本次测序共发现3,055个SSR位点,其发生频率较低,仅为2.48%。优势重复单元类型是二核苷酸,为1990,占SSR总数的65.14%,主要有(GA/TC)n和(AG/CT)n,分别为729和698,分别占木瓜二核苷酸类型SSR总数的36.63%和35.08%。在合成的40对SSR引物中,共有36对引物能够扩增出理想的PCR产物,其有效扩增率为90%。36对引物中9对引物具有多态性,占可扩增引物的25%,从中筛选出条带清晰且多态性明显的引物7对。对10个木瓜品种进行聚类,结果显示共分为四大类,第一类包括豆青、细皮、手瓜和笙花,第二类包括可食、玉兰和狮子头,第三类包括金苹果和沉香,第四类包括尖顶。 (5)在光合作用通路分析中,共有27个基因定位到该通路中,其中定位到PSII、PSI、Pet和ATPase调控关键酶的基因均呈现出上调趋势,只有Cytb6f调控关键酶的基因呈现出下调趋势,这可能影响到接受来自PSII复合体的电子并传给质体蓝素的能力。光合通路整体表现显著,说明光皮木瓜‘豆青’比皱皮木瓜‘长俊’的光合能力强。