基于机器学习方法和区域单核苷酸多态性的高血压风险预测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:caifei123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
血压升高是造成全球疾病负担和全球死亡率的最大单一风险因素。高血压作为一种遗传性疾病,从基因层面探究其致病机理,对于减少高血压发病率,减轻家庭及社会负担都极具意义。全基因组关联分析(Genome-wide Association Study,GWAS)在复杂性状遗传学、疾病的生物机理研究领域都取得了重大发现。截止到2022年1月,所有已知的GWAS变体加在一起仅解释了血压(Blood Pressure,BP)变化的6%,占血压遗传力40%的一小部分,这便是所谓的“缺失的遗传力”问题。目前,即使尚没有统计能力来确定所有的因果变异,我们仍希望能够使用已知的遗传变异,通过建立预测模型,来解释尽可能多的遗传力。机器学习方法的“数据驱动”的特点非常适合此类任务。已有研究表明,区域内多个单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)比区域中统计最显著的单个SNP能够解释更多的遗传力。本论文使用GWAS发现的与血压相关的SNPs及其区域内SNPs,以机器学习方法为基础,尝试对高血压疾病风险进行预测,具体包括对高血压患病状态的预测以及对收缩压(Systolic Blood Pressure,SBP)、舒张压(Diastolic Blood Pressure,DBP)血压值预测。基于前馈神经网络(Feedforward Neural Network,FNN)、一维卷积神经网络(One Dimension Convolutional Neural Network,1DCNN)、长短记忆神经网络(Long Short-Term Memory,LSTM),我们分别构建了GWAS-FNN、R-1DCNN(Regional-1DCNN)、R-LSTM(Regional-LSTM)高血压风险预测模型。论文使用的数据来自UK Biobank,其中用于高血压患病状态预测的数据样本量是137,891,用于血压值预测的数据样本量是264,532。预测变量分为三大类:(1)年龄、性别、身高体重指数(Body Mass Index,BMI)三个血压的常见风险因素;(2)65个GWAS研究发现的与血压相关的SNPs;(3)这65个与血压相关区域中的2612个SNPs。论文主要的工作和结果如下:在使用预测变量(1)和单隐含层20节点的前馈神经网络的高血压风险预测模型GWAS-FNN中,在高血压风险预测方面获得了78.42%的准确率,SBP与DBP血压值预测方面,分别解释了16.42%与13.08%的血压方差。在此基础上,加入预测变量(2),准确率提升了0.92%,解释的血压方差分别增加了0.72%、0.63%,我们以此作为使用区域SNPs的高血压和血压值预测的比较基准。在使用预测变量(1)、(3)和区域一维卷积神经网络的高血压风险预测模型R-1DCNN中,在高血压风险预测方面获得了79.44%的准确率,比使用预测变量(1)和(2)的GWAS-FNN模型,准确率提升了0.10%;SBP与DBP血压值预测方面,分别解释了17.23%与14.01%的方差变化,解释的血压方差分别增加了0.09%、0.30%。这说明结合GWAS区域SNPs确实能在一定程度上解释更多的遗传力。在使用预测变量(1)、(3)和区域长短记忆人工神经网络的高血压风险预测模型R-LSTM中,我们使用LSTM层代替R-1DCNN模型中的一维卷积层,进一步解释了更多的遗传力。与GWAS-FNN模型相比较,在高血压风险预测方面获得了79.62%的准确率,准确率提升了0.28%;SBP与DBP血压值预测方面,分别解释了17.40%与14.12%的方差变化,解释的血压方差分别增加了0.26%、0.41%。本论文工作表明,R-1DCNN和R-LSTM机器学习方法结合区域SNP数据均能在一定程度上解释更多的遗传力,这为“缺失的遗传力”研究提示了一个新的方向。不过,由于区域SNP数据所带来的预测结果提升幅度较小,区域中GWAS发现的统计最显著的SNPs基本上能很好的代替整个区域。论文的不足之处包括模型训练中的随机因素可能对比较结果的微小差异带来影响;模型训练计算复杂度高、较为费时。
其他文献
高温超导材料由于具有较强俘获磁场的能力,而广泛应用于工程领域中。高温超导材料多为脆性材料,抗压不抗拉,并且在制备过程中不可避免的会出现裂纹等缺陷,因此在充磁过程中可能会由于过快的外磁场变化速率等原因,使材料受到较大的拉伸应力从而导致裂纹的扩展,最终影响超导体的性能。本文基于统一强度理论修正了应力强度因子计算公式后研究了存在Ⅰ型裂纹的高温超导块材在充磁过程中应力强度因子和最大裂纹长度的变化问题。论文
学位
近年来,微波半导体器件行业的发展愈加蓬勃,通信系统、卫星雷达和微波仪器等各个领域对微波晶体管的需求越来越大,设计人员对微波晶体管在大信号下的参数测试越来越重视。基于自动调配器的负载牵引测量系统可以直接将已知的阻抗加到被测件的输入/输出端口,获得被测件不同阻抗参数下的性能指标,是微波半导体器件参数测试的重要手段。本文从微波传输线阻抗匹配基本理论出发,研究了微波晶体管输入/输出阻抗参数和噪声参数的测试
学位
随着技术的不断发展,人体骨骼模型运动构建技术应用也越来越广泛。人体骨骼运动在电影动作合成,动画制作,游戏人物角色控制等虚拟世界中,会更加的生动和逼真,更贴近于真实的人体骨骼运动。同样在现实世界中,通过和硬件设备的结合,人体骨骼运动模型也可以应用于人体康复辅助医疗设备。当前主流的人体骨骼模型制作方式,需要依靠庞大的动作库和状态机补间技术来实现。在人体骨骼模型制作过程中,关键帧根据需要从动作库进行匹配
学位
当前电动汽车已成为汽车制造发展的必然方向,电动汽车的电驱系统是关键部件,而电驱系统中的逆变器性能和控制方式决定了电动汽车的整车质量。本课题设计了MMC型电驱系统并应用了NLC+PWM协同控制策略,以达到降低直流侧和交流侧谐波损耗的目的。目前主流的电驱系统逆变器部分都采用三相桥式拓扑,随着工业水平的不断提高,电动汽车对电驱系统的功率等级要求越来越高。目前电机侧受到绕组工艺等因素限制,无法将绕组载流能
学位
众所周知,系统死锁是一种极不理想的情况,由于死锁会造成部分或整个系统的停顿,不仅会降低生产效率,甚至导致灾难性的后果,因此系统的死锁分析与控制得到了广泛研究。根据经典的Coffman理论,资源循环等待(Resource Circular Wait,RW)被看作是死锁的四个必要条件之一。已有研究工作主要通过离线地建立一种相对固定的资源使用序列来破坏RW,进而避免系统死锁的产生。对于具有多进程的资源分
学位
随着传感器技术的不断发展,现代传感器的分辨率得到极大提高。在传感器能取得目标充足量测的支持下,研究如何估计目标形状的扩展目标跟踪技术成为了热点。基于随机集的多目标跟踪算法具有避免复杂数据关联的独特优势,受到广泛关注。本文主要研究了泊松多伯努利混合(PMBM)滤波器在多扩展目标跟踪中的应用,具体研究内容如下:(1)针对现有的GGIW-PMBM算法跟踪非椭圆形状目标时扩展状态估计效果较差的问题,提出了
学位
科技助力教育,网络技术的发展使得在线学习的应用越来越广泛并逐渐成为一种大众广泛认可且采用的学习方式。但随之而来的海量学习资源使得学习者难以快速明确自己的学习方向,容易陷入“信息迷航”,“认知过载”等,从而导致学习效率低下,针对性差等问题。如何向在线学习用户推荐适合自身的学习资源,在帮助学习者进一步掌握所学知识的基础上提高用户的学习效率是目前在线学习平台亟待解决的问题。个性化推荐算法是根据用户的历史
学位
集成电路中的封装焊点起着电气连接、机械保护、提供散热途径等作用,是保障电路发挥正常功能和保证高可靠性的关键。电路中的任何一个焊点发生失效,都有可能会导致电路断路使得系统崩溃或者元器件连接不稳定发生脱落。由于电路本身的工作特性和复杂工作环境,以及焊点和其余组件材料的限制,焊点处容易因疲劳或脆性断裂产生裂纹,导致焊点失效。现有研究大多以电阻测量、电子显微镜观察等试验手段对焊点裂纹进行研究,缺少针对焊点
学位
随着工业互联网的发展,工厂内网络呈现出融合、开放、灵活三大发展趋势。工厂内的车间级网络和现场级逐步融合,高实时控制信息和非实时数据可共网有效传输。以时间敏感网络为代表的新型网络技术打破了传统工业网络众多技术壁垒,促进工业全流程数据的实时传输。得益于种种技术,智能工厂控制平台得以与现场工业设备打通信息传递的桥梁。现存的手动排产优化方式已不能和信息获取的速度相匹配,需要进行智能化排产。然而,工厂生产情
学位
频率选择表面(Frequency Selective Surface,FSS)是一种由谐振单元按二维周期性排列构成的单层/多层平面/立体结构,它对电磁波具有频率选择特性,在飞行器雷达隐身领域中有着广阔的应用。随着电磁工作环境日益复杂多变,需要主动切换或改变工作频带等电磁特性来适应外部环境变化的需求。另一方面,雷达探测技术的快速发展也使得带内透波带外吸波的吸波/透波一体频率选择表面(Absorpti
学位