基于深度学习的基因型填充方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 1次 | 上传用户:rqcai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联分析(GWAS,Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP,Single Nucleotide Polymorphism),从中筛选出与疾病相关的SNPs。GWAS通常专注于单核苷酸多态性(SNP)与人类疾病之类的性状之间的关联,但同样可以应用于任何其他遗传变异和任何其他生物的基因与遗传性状的分析。全基因组测序为GWAS分析提供基因数据支撑,是基因分析必不可少的源头。现代基因组测序过程中,由于基因检测技术能力的限制导致很多SNPs位点无法准确检测,使得GWAS结果具有一定的假阳性,尤其会给小样本的GWAS的分析造成较多的假阳性结果。因此,开发一个能有效填补出那些无法准确检测的SNP的工具是非常重要的,能弥补基因型缺失带来的全基因组关联分析的不足。现在通常的做法是通过计算机软件的方法对未观测的基因型数据进行填充,根据遗传的动态连锁不平衡特性尽最大可能还原真实基因测序过程中无法检测的SNPs位点数据。比如,Impute v2方法是用于对观察到的基因型进行分型并估算缺失基因型的计算机软件;Minimac是基于MaCH算法的一种低内存,计算效率高的实现方法,可以处理具有数百或数千单倍型的超大型参考面板。这些传统方法都是基于HMM的线性填充方法,但由于SNPs间的生物学功能或具备一定非线性特征,线性方法往往在基因填充的精度上有一定的限制,特别是在低频和极低频基因位点的填充中;而且,对于大的参考样本,基于HMM的方法通常采用抽样的方式学习参考样本中的基因转移概率来节省时间,造成一定的填充精度损失;基于基因型的线上填充方法在参数量和参数训练的时间上也有很大限制,通常填充一段基因型数据需要花费几台电脑几个小时的时间。在本文中,我们提出基于深度学习方法来重建缺失的基因组。本模型基于全卷积网络(CNN)框架,包含由编码器模型和解码器模型组成的重建网络,编码器由CNN将参考样本和待填充样本压缩成多通道特征向量,解码器对多通道特征向量进行上采样重建,最终得到填充的基因型,编码器层和解码器层通过跳跃连接进行连接。本方法采用二分类的损失函数,来同时评估重建后的缺失区域的损失和非缺失区域的损失。本论文的创新点包括:1.采用U-net网络对基因型序列数据进行重建。U-net在计算机领域主要用于分割,对图像有很强的特征提取能力,可以对图像进行精准重建;U-net基于全卷积设计,采用编码器-解码器结构,全卷积有卷积元素位置不变特性,通常用于重建任务。2.基于U-net(GPU)的填充方法一定程度降低了基因型填充的时间,将传统方法的填充时间缩短了两个数量级,为全基因关联分析获取更多迭代机会。3.使用基于U-net的填充方法有效学习基因序列中的非线性关联,特征是在大的参考样本的基础上,不需要通过样本抽样就能够达到很好的填充精度。实验证明,在GPU环境下,本方法的填充时间相比于CPU环境下大大降低,并且在样本较低情况下与目前最先进的填充方法有一致的正确率。根据神经网络结构分析,该方法在大量样本情况下,填充正确率会高于基于HMM的线性方法。不过由于大样本目前不是很充足,在以后的实验中会验证大样本下正确率的提升。最后基于计算机矩阵计算能力的角度,分析了HMM方法在CPU集群和基于GPU的深度学习方法的填充效率,基于GPU的深度学习会更加经济且有效。
其他文献
针对国网公司提出的"标准化设计、工厂化加工、机械化施工、装配式建设"标准配送智能变电站建设要求,本文以福建漳州恒苍110k V配送式智能变电站试点工程为例,介绍预制舱在标准
一、科技人才队伍建设的基本特点淳安县科技人才队伍建设的特点可概括为总量不足、层次不高、结构不良、环境不优.
当前,我国正位于社会转型的深水区、经历着改革开放的攻坚阶段,社会各方面也发生着深刻且巨大的转变。由于对权力的监督没有及时跟上社会发展的步伐,出现了许多漏洞,使得对权
自主PLC(可编程逻辑控制器)主要用于工业控制领域,力求快速反映生产设备的实时状况。工业生产过程中出现的生产意外、非正常报警等,可以通过实时数据库实时反馈到监控中心,以
近年来,我国国民经济增长速度与城市化进程呈高速增长,然而困扰了发达国家百余年的空气污染问题却成为了我国近十几年经济、社会、人文、生态环境等发展的主要问题与发展难题