论文部分内容阅读
解析遗传变异如何影响复杂表型与疾病是遗传学研究面临的关键挑战之一。全基因组关联分析(Genome-wide association studies;GWAS)已检测出大量复杂性状相关的SNP(Single nucleotide polymorphism)。但仍存在以下问题:1)难以鉴定因果变异;2)无法解释位于非编码区域的SNP;3)无法从分子机制层面建立基因型到表型之间的联系。本论文以拟南芥和玉米为例,利用机器学习技术整合功能基因组数据,从蛋白、RNA和DNA三个层面开展SNP功能注释研究,在基因水平聚合不同层面SNP的功能效应,与表型关联分析,鉴定出一批与拟南芥和玉米开花时间相关的候选基因,从分子机制层面推断SNP与表型之间的关系,为后续复杂性状遗传机制的解析提供新的参考。具体研究结果如下:基于氨基酸序列的蛋白水平SNP功能注释基于同源氨基酸序列差异和深度学习方法注释拟南芥1001基因组和玉米AMP(Association Mapping Panel)群体中编码区SNP的功能,在拟南芥和玉米中分别鉴定了 340881和39244个蛋白功能有害型变异,发现部分变异在群体中经历了较强的负选择。通过整合GWAS结果,挖掘到较为可靠的因果变异,鉴定到一批参与重要生物学功能的基因。基于翻译起始位点的RNA水平SNP功能注释整合核糖体图谱数据(包括Ribo-Seq和QTI-Seq)构建拟南芥和玉米高质量翻译起始位点(TIS)数据集,基于卷积神经网络训练的高精度预测模型deepTIS,可准确预测拟南芥和玉米中95.2%和84.0%的转录本。基于deepTIS分别在拟南芥和玉米中注释了 30278和17250个影响TIS的SNP,发现了可能影响上游ORF(Open Reading Frame)形成的SNP,可用于在翻译起始层面推断SNP与表型的关系。基于m6A修饰的RNA水平SNP功能注释基于m6A-Seq数据利用随机森林算法在拟南芥和玉米中构建了 m6A预测模型deepEA,结果表明deepEA可准确地预测m6A修饰位点,精度(AUC)分别可达0.969和0.954。基于deepEA,分别鉴定了 556和2504个影响拟南芥和玉米m6A修饰的SNP,在RNA修饰层面推断了 SNP与表型的联系,结合生物学网络分析,鉴定到与m6A修饰相关的重要基因。基于转录因子结合位点的DNA水平SNP功能注释整合拟南芥和玉米大规模转录因子结合位点(Transcription factor binding sites;TFBS)数据,利用深度神经网络构建多标签分类模型deepTFBS,性能超越了目前较为先进的机器学习方法。基于deepTFBS模型分别在拟南芥和玉米中预测了 852904和9704个影响转录因子结合能力的SNP,注释了非编码区SNP的功能,结合现有eQTL及GWAS,可用于推断“SNP-TF结合-基因表达-表型”之间的关系,有助于从转录调控、基因表达层面解析复杂性状的遗传机制。整合SNP功能效应的基因水平关联分析基因水平关联分析有助于更直接地挖掘与复杂性状相关的基因。通过整合蛋白、RNA和DNA水平SNP的功能效应,利用混合线性模型开展基因水平关联分析,并在拟南芥和玉米开花时间相关表型中展开应用,分别鉴定到176和30个与拟南芥和玉米开花时间相关的候选基因,其中拟南芥基因COOLAIR和ATUBC1以及玉米中pebp15已经被证实与开花时间相关,进一步挖掘候选基因所包含的SNP,挖掘到可能的因果变异。以上结果表明通过整合SNP功能效应开展基因水平关联分析,有利于复杂性状关键功能基因以及因果变异的挖掘与鉴定。综上所述,本论文利用机器学习技术整合大规模功能基因组数据从蛋白、RNA和DNA层面对玉米和拟南芥编码区和非编码区的SNP进行了系统而全面的注释。聚合不同层面SNP功能效应的基因水平关联分析有助于复杂性状关键基因的挖掘。基于研究中各分析流程,开发了相应的生物信息学方法与软件,为SNP功能研究、复杂性状遗传机制的解析以及精准育种提供了参考与便利。