论文部分内容阅读
1.利用基因组重测序数据分析中外猪品种驯化过程中的拷贝数变异在野猪到家猪的驯化和进一步形成品种的过程中,遗传、变异和选择在不同程度上,对品种的形成以及品种差异的产生起着一定的作用。通过研究家猪与野猪及家猪不同品种之间基因组序列的差异,可以发现基因组上的变异。拷贝数变异(copy number variation,CNV)是指与生物正常的基因序列相比,基因组中所发生的长度范围介于1Kb至数Mb的变异,其形式包括重复、缺失及衍生出的复杂染色体微结构变异。本研究利用猪基因组重测序数据,对中外家猪13个品种共49个个体进行CNV分析,并分析拷贝数变异区域(CNVR)内相关基因的功能。同时,通过比较中外猪品种在驯化过程中产生的CNV,研究中外猪品种在驯化过程中受到选择的CNV及其相关基因,从而发现中外猪品种表型差异的遗传基础。为进一步解析猪基因组变异及猪品种改良奠定基础。主要结果如下:1.1利用生物信息学方法分析家猪驯化过程中的CNV。以本实验室通城猪基因组个体重测序数据及公共数据库下载的不同猪品种和野猪共49个个体重测序数据为材料,利用CNVseq和CNVnator软件分别进行CNV扫描。发现,从野猪到家猪驯化过程中产生的CNVRs共有3131个,其中拷贝数增加的区域有745个、减少的区域2364个,增加和减少都存在的区域有22个;根据CNVR在基因组上的位置,绘制出猪全基因组CNVs图谱。1.2利用实时荧光定量PCR方法验证CNVRs。利用实时荧光定量PCR方法对随机选取的28个区域进行拷贝数的验证,结果24个CNVRs的拷贝数与预测CNVRs内拷贝数的增加或减少相符合,验证符合率为86%。1.3 CNV的分布特征分析。对3131个CNVRs及上下游10Kb区域中的重复元件(SINE、LINE和LTR等)的数量及分布密度进行统计分析,结果发现在CNVRs及上下游10Kb的区域中,不同重复元件的分布密度均显著高于基因组中的平均水平,表明CNV常分布在基因组中重复元件附近,重复元件对CNV发生有重要影响。1.4家猪驯化过程中CNVR相关基因的功能分析。利用BioMart工具,在家猪驯化过程中产生的3131个CNVRs中发现1266个编码蛋白的基因,利用DAVID工具对基因进行功能富集分析,发现这些基因主要参与细胞粘附、GTP酶活性、细胞连接、免疫反应、嗅觉和MAPK通路等。1.5中外家猪在驯化过程中产生的差异cnvr及相关基因功能分析。通过分析发现,中国家猪中存在2278个cnvrs,欧洲家猪中存在1706个cnvrs。分别特异存在于中外家猪中的cnvrs有129个和147个,分别对cnvrs内相关基因进行功能富集分析,结果显示,中国家猪驯化过程中产生的特异cnvrs内相关基因的功能富集在免疫反应及生产性状上;而欧洲家猪驯化过程中产生的特异cnvrs内相关基因的功能富集在肌肉发育过程。2.利用转录组数据分析猪基因组多聚腺苷酸化位点多聚腺苷酸化是rna转录后修饰的一个重要过程,在mrna的转运及成熟mrna的翻译过程中起到关键作用。一个基因序列上多聚腺苷酸化位点(polyadenylationsite,pas)的数量以及每个pas的利用程度不同会引起选择性多聚腺苷酸化(alternativepolyadenylation,apa)的形成,从而导致同一个基因产生多个转录本,对基因的表达及功能的发挥产生重要影响。本研究利用猪转录组数据,从全基因组水平挖掘猪的pas,通过研究pas与基因表达量的关系,进一步研究pas对性状的影响。主要结果如下:2.1基于大规模转录组数据挖掘猪的多聚腺苷酸化位点。利用本实验室感染蓝耳病病毒前后的通城猪和大白猪中肺泡巨噬细胞的转录组数据及公共数据库下载的猪的转录组数据,包括12种组织、细胞及精子等的转录组数据,共计120亿个reads,,其中有194万个含有poly(a)或poly(t)的reads成功比对到基因组上,对这些reads进行pas挖掘,共得到28363个pass。2.2对pas位置进行注释。依据目前猪基因组注释文件中基因的位置信息,对本研究得到的28363个pass进行位置注释,共发现13033个(47%)pass位于7403个基因中,其中有7900个pass(61%)位于基因的3’utr,3441个pass(26%)位于基因的内含子区域,2187个pass(17%)位于基因的orf区域;利用所有转录组数据对猪的新转录本进行预测,并对剩余的15330个pass进行位置注释,结果表明,有6806个(24%)pass位于预测的新转录本内部。即:利用基因组注释文件和预测新的转录本信息,共发现19839个pass(70%)位于基因内部区域,8524个pass(30%)位于基因间区域。2.3pas在基因组和不同组织中的分布特性。基于猪基因组注释文件中基因的位置信息,对基因及其3’utr内的pas分布进行分析,结果显示,近41%的基因中存在至少两个以上的PASs,这些PAS可促使同一基因产生多个转录本;而对基因内及其3’UTR中相邻PASs间的距离分析发现,大多数PASs(45%)间的距离很近(<1Kb);对3’UTR中的PAS与终止子间的距离分析发现,PAS在3’UTR上的位置具有较大差异,该距离的中值为307nt;通过对肝脏及睾丸组织中PAS进行挖掘,分别得到12777和14375个PASs,而两个组织相同的PAS仅有4752个,占总数量的21%,并且,两个组织中相同PAS的利用率差异很大,说明PAS具有组织特异性。2.4利用Pearson方法对PAS和基因表达量进行相关性分析。本研究利用源于不同雄性激素水平的睾丸和肝脏组织的转录组数据,对每个数据中基因的表达量、相应基因内PAS的数量及覆盖的reads数进行统计,利用Pearson方法对PAS与基因表达量进行相关性分析。结果表明,基因内PAS数量与基因表达量呈中度正相关(0.4<r<0.6,p<0.01),PAS覆盖的reads数与基因表达量呈强正相关(0.6<r<0.8,p<0.01)。2.5 PAS利用率对雄性激素水平及在细菌感染机体过程中的作用分析。依据睾丸和肝脏组织中雄性激素水平的高低,对不同数据中挖掘的PAS进行差异利用率分析,结果表明,肝脏中有272个PASs在低雄性激素组中的利用率显著高于在高雄性激素组中利用率(p<0.05,|log2FC|≥1),对差异利用率PAS所在的109个基因进行功能富集分析发现,这些基因参与到了固醇及脂肪酸的代谢、甾类激素的合成和细胞色素P450的代谢等过程(p<0.05);在睾丸中,有260个PASs的利用率具有极显著差异的(p<0.05,|log2FC|≥1),相应的基因有163个,基因功能富集分析表明,很多基因同时参与精子形成和细胞周期等过程(p<0.05)。对感染沙门氏菌前后的转录组数据进行PAS分析,发现38个PASs在感染后有较高的利用率,相关基因有28个,而41个PAS在感染前有较高的利用率,相关基因有26个(p<0.05,|log2FC|≥1)。分别对感染前后高利用率PAS的相关基因进行功能富集分析,结果显示,感染后高利用率PASs的相关基因参与免疫应答和细胞因子的调控等过程,而感染前高利用率PASs的相关基因参与翻译等过程,与免疫反应无直接关系的过程(p<0.05)。