基于基因序列可视化与深度学习的结构变异基因型判别

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:muniao090908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代测序技术的飞速发展使得人们能通过大量较短的读段推测个体完整的染色体序列,同时促进了基因变异检测的发展。结构变异的基因型对于人类遗传多样性和临床疾病研究有着至关重要的影响。现有变异基因型判别方法存在检测长度范围有限、判别准确率和敏感度不足等问题,因此提高变异基因型判定的效率及扩大可测变异长度成为目前基因变异研究的热点。本文以缺失变异基因型为研究对象,提出一种创新性的以基因序列图像作为输入、通过深度学习网络判别变异基因型的方法。本文的主要工作归纳为以下三个方面:(1)对基因序列的可视化研究。序列可视化既能弥补基因数据文件可读性差的劣势,又能为深度学习网络提供图像输入。借助基因数据解析工具解读基因序列和变异基准数据的存储规则,研究基因序列映射到图像像素过程中存在的坐标、颜色对应问题,使序列图像能呈现变异序列区域不同于其他区域的多种特征。(2)对变异图像覆盖位置选取的研究。为满足后续深度学习网络对输入图像大小统一的要求,提出两种位置选取策略:断点策略和压缩策略。断点策略采集每个变异两断点处的图像,压缩策略捕获整个变异区域的图像后借助CUDA加速技术进行下采样压缩。两种可视化策略能适用于各种长度的变异基因型判别,同时为后续深度网络提供了尺寸一致的图像输入。(3)基于深度学习模型分类进行基因型判别研究。以各种基因型的基因序列图像为输入,训练深度学习模型进行基因型分类。为评估基因型判别方法的有效性,本文在不同覆盖度的仿真数据上测试包括本文方法在内的多种工具,结果证明,本文的检测策略与其他工具相比,在高低覆盖度数据上均有更广的检测长度范围、更高的准确率和敏感度。针对真实数据的基准变异文件存在过多噪声基因型的问题,本文借助仿真数据验证卷积-Bootstrapping算法的抗噪声标签性能,结果证明该改进算法能极大提升网络的抗噪声标签能力,并在此基础上估测了千人基因提供的基准缺失变异文件的基因型噪声状况。
其他文献
本文研究了乙烯丙烯酸共聚物 (EAA)作为一种改性添加剂对聚乙烯 (PE)中水树生长的抑制作用。通过添加不同含量的 EAA,在交流电场下进行水树生长试验 ,找到了交流电场下 EAA抑
<正>光合作用是高中生物的核心概念,因为光合作用过程涉及较多物理、化学知识,所以学生理解起来比较困难,尤其是对色素功能的理解存在一定困难。笔者现从物理的角度分析和理
药物分析是药学专业中理论性和实践性都很强的一门课程。笔者结合高职高专类院校的实际情况,对近几年的教学实践加以总结,从药物分析的理论教学内容、实训教学内容、教学方式和
数字崇拜与禁忌作为一种语言现象普遍存在于社会生活中。文章主要对大同方言单数的崇拜与禁忌进行了解读,最后得出大同方言中对数字的崇拜与禁忌不仅仅是语言特征、宗教迷信
目的外源性干扰PVT1表达对结直肠癌(CRC)细胞增殖、侵袭和凋亡的影响。方法体外转染小干扰RNA(siRNA)干扰RKO和HCT116细胞PVT1表达(si-PVT1组);另设阴性对照siRNA(si-NC)组。
<正>本刊讯日前,部分省、市、区企业实行特殊工时制度规定研讨会在河南郑州召开。人力资源和社会保障部劳动关系司巡视员吴文辉,河南省人力资源和社会保障厅副厅长刘京州、副
文章以某医学院校2012级三年制药学相关专业161名学生为例,1班76人,为对照组,2班85人,为实验组,对照组采用传统教学方法进行教学,实验组采用"结构-性质-应用"三位一体理念方法
以湖北省为例,在传统目视解译方法的基础上对遥感调查方法做了改进.通过遥感影像的信息提取,获得区域土地利用类型和水土流失影响因子,在此基础上建立水土流失分级指标,并使
<正>经过多年可观的稳定增长,航天产业似乎正处于能力和客户群都在快速扩张的新时代。一些新兴公司正在尝试采用创新的方法来建造和部署小卫星星座,并采用新的方式为他们的客
<正>2012年5月,中国时装界迎来了一场梦幻般高级时装发布会——郭培2013"龙的故事"。设计师郭培对于我们来说并不陌生,玫瑰坊的创始人,奥运会颁奖礼服的设计者,众多影视明星