基于机器学习的SNP功能注释

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:Destory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
解析遗传变异如何影响复杂表型与疾病是遗传学研究面临的关键挑战之一。全基因组关联分析(Genome-wide association studies;GWAS)已检测出大量复杂性状相关的SNP(Single nucleotide polymorphism)。但仍存在以下问题:1)难以鉴定因果变异;2)无法解释位于非编码区域的SNP;3)无法从分子机制层面建立基因型到表型之间的联系。本论文以拟南芥和玉米为例,利用机器学习技术整合功能基因组数据,从蛋白、RNA和DNA三个层面开展SNP功能注释研究,在基因水平聚合不同层面SNP的功能效应,与表型关联分析,鉴定出一批与拟南芥和玉米开花时间相关的候选基因,从分子机制层面推断SNP与表型之间的关系,为后续复杂性状遗传机制的解析提供新的参考。具体研究结果如下:基于氨基酸序列的蛋白水平SNP功能注释基于同源氨基酸序列差异和深度学习方法注释拟南芥1001基因组和玉米AMP(Association Mapping Panel)群体中编码区SNP的功能,在拟南芥和玉米中分别鉴定了 340881和39244个蛋白功能有害型变异,发现部分变异在群体中经历了较强的负选择。通过整合GWAS结果,挖掘到较为可靠的因果变异,鉴定到一批参与重要生物学功能的基因。基于翻译起始位点的RNA水平SNP功能注释整合核糖体图谱数据(包括Ribo-Seq和QTI-Seq)构建拟南芥和玉米高质量翻译起始位点(TIS)数据集,基于卷积神经网络训练的高精度预测模型deepTIS,可准确预测拟南芥和玉米中95.2%和84.0%的转录本。基于deepTIS分别在拟南芥和玉米中注释了 30278和17250个影响TIS的SNP,发现了可能影响上游ORF(Open Reading Frame)形成的SNP,可用于在翻译起始层面推断SNP与表型的关系。基于m6A修饰的RNA水平SNP功能注释基于m6A-Seq数据利用随机森林算法在拟南芥和玉米中构建了 m6A预测模型deepEA,结果表明deepEA可准确地预测m6A修饰位点,精度(AUC)分别可达0.969和0.954。基于deepEA,分别鉴定了 556和2504个影响拟南芥和玉米m6A修饰的SNP,在RNA修饰层面推断了 SNP与表型的联系,结合生物学网络分析,鉴定到与m6A修饰相关的重要基因。基于转录因子结合位点的DNA水平SNP功能注释整合拟南芥和玉米大规模转录因子结合位点(Transcription factor binding sites;TFBS)数据,利用深度神经网络构建多标签分类模型deepTFBS,性能超越了目前较为先进的机器学习方法。基于deepTFBS模型分别在拟南芥和玉米中预测了 852904和9704个影响转录因子结合能力的SNP,注释了非编码区SNP的功能,结合现有eQTL及GWAS,可用于推断“SNP-TF结合-基因表达-表型”之间的关系,有助于从转录调控、基因表达层面解析复杂性状的遗传机制。整合SNP功能效应的基因水平关联分析基因水平关联分析有助于更直接地挖掘与复杂性状相关的基因。通过整合蛋白、RNA和DNA水平SNP的功能效应,利用混合线性模型开展基因水平关联分析,并在拟南芥和玉米开花时间相关表型中展开应用,分别鉴定到176和30个与拟南芥和玉米开花时间相关的候选基因,其中拟南芥基因COOLAIR和ATUBC1以及玉米中pebp15已经被证实与开花时间相关,进一步挖掘候选基因所包含的SNP,挖掘到可能的因果变异。以上结果表明通过整合SNP功能效应开展基因水平关联分析,有利于复杂性状关键功能基因以及因果变异的挖掘与鉴定。综上所述,本论文利用机器学习技术整合大规模功能基因组数据从蛋白、RNA和DNA层面对玉米和拟南芥编码区和非编码区的SNP进行了系统而全面的注释。聚合不同层面SNP功能效应的基因水平关联分析有助于复杂性状关键基因的挖掘。基于研究中各分析流程,开发了相应的生物信息学方法与软件,为SNP功能研究、复杂性状遗传机制的解析以及精准育种提供了参考与便利。
其他文献
目的 探究院内急救“3P”管理模式在经皮冠状动脉介入治疗老年急性心肌梗死患者中的应用。方法 回顾性分析成都医学院第二附属医院·核工业四一六医院2017年6月—2021年6月收治的85例老年急性心肌梗死患者的临床资料,将实施院内急救“3P”管理模式护理的患者纳入观察组(n=40),实施常规急诊护理的患者纳入对照组(n=45)。观察并比较2组关键时间节点、心肌酶谱水平、超声心动图参数指标以及救治结局。
本论文基于中国综合社会调查(CGSS)2015年的数据,运用多元回归模型分析,旨在探究当今时代社会治理以及公共服务满意度对城乡居民幸福感的影响效应。系统研究后发现,除了部分人口学变量因素对居民幸福感产生影响之外,社会治理以及公共服务满意程度对城乡居民幸福感也产生显著的正向作用。因此,政府可通过完善基础设施建设与社会保障制度、运用大数据分析满足多元需求、发挥民意导向构建政民互动等方式来提高治理与服务
在新高考改革背景下,学生自主规划人生的价值日益显现,召唤着高中开展生涯规划教育。高中生涯规划教育是指系统培养学生主动规划的意识与能力,帮助学生在认识自我的基础上进行全面的人生规划,从而实现人尽其才。但重新审视高中生涯规划教育实践发现,理念的偏误阻碍着高中生涯规划教育的纵深发展。推进高中生涯规划教育的发展需要明确以下几点:高中生涯规划教育的实质是引导学生追求终身发展,而不是功利性的报考指导;高中生涯
经皮冠状动脉介入手术治疗方法是急性心肌梗死患者临床常用治疗方式之一,不过,部分患者对经皮冠状动脉介入手术治疗方法不了解,存在一定恐惧、担忧等负面心理,一些患者可能会出现一定手术后并发症情况,影响其手术后机体恢复。所以,增强对实行经皮冠状动脉介入手术治疗的急性心肌梗死患者对应护理干预非常存在必要性,有助于将其预后质量提升。本文针对急性心肌梗死患者接受经皮冠状动脉介入手术治疗之前、介入手术治疗过程中、
<正>人生有无数个初次见面,自我介绍是你必须面对的第一关。短短的自我介绍,可能影响着你未来N年的人设。自我介绍不求出口成章,求的是恰到好处。究竟怎样的自我介绍是合适的呢?一份自我介绍不完全指南供你参考!
期刊
单一追求利润而忽视组织中其他重要事项的底线心智是理论界和实务界关注的焦点问题,然而鲜有实证研究从领导风格的角度探讨如何减少底线心智及其对职场不文明行为的影响。基于社会认知理论视角,构建一个道德型领导通过抑制员工的底线心智进而减少职场不文明行为的有调节的中介模型,探讨了底线心智在道德型领导与职场不文明行为之间的中介作用以及员工和谐型激情的调节作用。对93名领导和316名员工在两个时间段的配对数据进行
预测加工被认为是一种能统一解释所有心智现象的基本机制。预测加工理论认为,脑基于模型进行预测,知觉是脑内模型的自发性预测信号与外界作用于感官的刺激信号相互作用建构的结果。霍威、克拉克、斯旺森等人认为,预测加工与康德的心智理论有很深的渊源,并且康德的心智理论以赫姆霍茨为中介预示了预测加工。但奥兰迪、本尼、扎哈维等人对这种观点有异议。例如,他们认为,预测加工的具身性和生态心理学的解读与康德鲜有关联。通过