论文部分内容阅读
目前,世界现存鸟类有一半以上是单态性鸟类,ZW型的鸟类性染色体不同于哺乳动物的XY型,且雌雄个体基因表达差异研究相对缺乏。转录组学是研究差异表达的有效手段。因此,在鸟类中开展转录组学研究,尤其是性别偏选基因差异表达研究显得尤为重要。前鸟类基因组注释比较完整的物种集中在鸡形目、雀形目、雁形目、鹦形目。而转录组学的研究主要集中在前三个目。本实验选取了鹦形目的一个代表费氏牡丹鹦鹉进行转录组研究。取一只成年费氏牡丹鹦鹉的6个器官提取RNA进行转录组测序,获取费氏牡丹鹦鹉的转录组表达图谱。费氏牡丹鹦鹉作为性别单态性鸟的代表,仅从外观很难判断性别,一个有效的方法是通过分子手段进行鉴定。为了在转录水平研究其不同性别相关基因的差异表达,本实验选取了三只雄性,三只雌性成年费氏牡丹鹦鹉,分别取大脑、肌肉、心脏器官提取RNA构建6个差异表达文库,筛选雌雄差异表达基因。基于以上实验数据尝试探讨以下科学问题:费氏牡丹鹦鹉转录组的基本信息;从费氏牡丹鹦鹉转录组数据中挖掘SSR;筛选雌雄不同性别下大脑、肌肉、心脏三个器官的差异表达基因。 本研究主要内容包括:⑴通过Illimina公司的Hiseq2500测序平台,双端100bp的测序模式,提取成年费氏牡丹鹦鹉的6个器官的RNA进行转录组测序,共获得162,808,428原始数据。去除低质量片段,接头序列,还有157,231,950最终数据。然后使用Trinity软件对最终数据进行从头装配,共产生453,145个转录本,将每个基因最长的转录本视为Unigene,共产生197,631个Unigenes。将这些Unigenes进行注释,通过Blast程序与Uniprot数据库进行比对,共有14,424 Unigenes(占所有Unigenes的7.30%)得到很好的注释,大部分基因(共11.813,占81.90%)注释到了鸟类物种。对装配好的Unigenes进行GO跟KEGG pathway功能富集分析,共有9,564 Unigenes注释到了3个GO功能分类下,3993 Unigenes在322个KEGG代谢通路中被注释。最后将这些Unigenes进行进行了COG注释,一共21,213 Unigenes注释到25个COG分类下,注释最多的是“信号转导”。⑵通过MISA软件预测费氏牡丹鹦鹉转录组中的SSR,共获得138646个SSRs,涉及到99868条序列。根据碱基重复个数不同,将SSR分为不同的类型。单碱基连续重复、双碱基连续重复、三碱基连续重复、四碱基连续重复、五碱基连续重复,分别含有的84872、19444、25210、1946、2个SSR。⑶通过Illimina公司的Hiseq2500测序平台,单端50bp测序模式,分别取成年雄性跟雌性费氏牡丹鹦鹉大脑、肌肉和心脏构建6个差异表达文库,分别获得7,672,185、8,124,566、7,672,693、8,834,614、7,972,027、8,258,429个原始序列。去除接头序列和低质量片段后最终获得7,612,395、8,067,941、7,620,755、8,762,256、7,913,657、8,188,358最终序列。采用Bowtie软件,将最终序列跟费氏牡丹鹦鹉转录本序列进行比对,错配碱基不超过2个,有90%以上的数据都可以得到很好的比对结果。⑷采用RSEM软件计算表达量FPKM,FCLog2表示样本E的平均FPKM与样本 D的平均 FPKM比值的的自然对数值。正值表示相对于样本 D,样本 E的表达量是上调的,反之下调。针对样本D大脑与样本E大脑、样本D肌肉与样本E肌肉、样本D心脏与样本E心脏满足|FCLog2|≥1筛选显著差异表达的基因,分别筛出2862、2605、3553个显著差异表达基因。针对显著差异表达基因进一步统计分析发现,在大脑跟肌肉中都显著差异表达的有491个基因,在大脑种627个,在心脏中805个,在三个器官中都显著差异表达的基因269个。针对样本组D(D大脑、D肌肉、D心脏)与样本组E(E大脑、E肌肉、E心脏)筛选两组之间的显著差异表达基因,要求在三个器官中都显著差异表达同时满足pvalue≤0.05和| FCLog2|≥1,共筛选到195个,其中159个下调基因,36个上调基因。将这195个基因,在Ensemble Genome Browser数据库进行注释,由于费氏牡丹鹦鹉的全基因组序列没有释放,所以只有49个基因可以很好的注释到染色体上。其中16个基因注释到了Z染色体,18个基因注释到11号染色体,4个基因注释到1号染色体,4个基因注释到4号染色体,2个基因注释到3号染色体,2个基因注释到7号染色体,5、14、25号染色体分别有1个基因注释。⑸对表达差异的基因,根据p-value≤0.05筛选显著富集GO。在大脑器官中,共富集118个显著差异表达基因分布在51个GO条目下,如“DNA整合”、“血红蛋白复合体”和“核糖核酸酶H活性”;在肌肉器官中,共富集792个显著差异表达基因分布在162个GO条目下,如“血小板活性”、“细胞外区域”和“三价铁结合”;在心脏器官中,共富集424个差异表达基因分布在177个GO条目下,如“DNA整合”、“细胞外区域”和“三磷酸肌醇激酶活性”。将差异表达基因进行KEGGpathway功能分析,在大脑器官中,共有16个显著富集的pathway包括70个基因,涉及到“能量代谢”、“免疫疾病”、“细菌病毒传染”等;在肌肉器官中,共有7个显著富集的pathway包括26个基因,涉及到“免疫系统”、“代谢”、等;在心脏器官中,共有8个显著富集的pathway包括35个基因,涉及到“病毒传染”、“内分泌系统“、“氨基酸代谢”、“信号转导”等。⑹从筛选出的195个显著差异表达基因中选取4个基因(CHDZ、PRUNE、APTX、KWTU9)进行荧光定量PCR验证,其中包括2个基因在雄性中表达量高,2个基因在雌性中表达高。荧光定量结果与测序结果完全一致,表明测序结果真实可靠。⑺筛选出的195个雌雄显著差异表达基因中有159个基因在雄性个体中表达量高于雌性,36个基因在雌性个体中表达高于雄性。这其中包括通常用来进行鸟类性别鉴定的CHD-Z基因只在雄性组织中表达。结合上述结果选取4个基因进行荧光定量验证结果,此4个基因可以作为在转录水平上费氏牡丹鹦鹉性别鉴定的新分子标记。