论文部分内容阅读
下一代测序技术的飞速发展使得人们能通过大量较短的读段推测个体完整的染色体序列,同时促进了基因变异检测的发展。结构变异的基因型对于人类遗传多样性和临床疾病研究有着至关重要的影响。现有变异基因型判别方法存在检测长度范围有限、判别准确率和敏感度不足等问题,因此提高变异基因型判定的效率及扩大可测变异长度成为目前基因变异研究的热点。本文以缺失变异基因型为研究对象,提出一种创新性的以基因序列图像作为输入、通过深度学习网络判别变异基因型的方法。本文的主要工作归纳为以下三个方面:(1)对基因序列的可视化研究。序列可视化既能弥补基因数据文件可读性差的劣势,又能为深度学习网络提供图像输入。借助基因数据解析工具解读基因序列和变异基准数据的存储规则,研究基因序列映射到图像像素过程中存在的坐标、颜色对应问题,使序列图像能呈现变异序列区域不同于其他区域的多种特征。(2)对变异图像覆盖位置选取的研究。为满足后续深度学习网络对输入图像大小统一的要求,提出两种位置选取策略:断点策略和压缩策略。断点策略采集每个变异两断点处的图像,压缩策略捕获整个变异区域的图像后借助CUDA加速技术进行下采样压缩。两种可视化策略能适用于各种长度的变异基因型判别,同时为后续深度网络提供了尺寸一致的图像输入。(3)基于深度学习模型分类进行基因型判别研究。以各种基因型的基因序列图像为输入,训练深度学习模型进行基因型分类。为评估基因型判别方法的有效性,本文在不同覆盖度的仿真数据上测试包括本文方法在内的多种工具,结果证明,本文的检测策略与其他工具相比,在高低覆盖度数据上均有更广的检测长度范围、更高的准确率和敏感度。针对真实数据的基准变异文件存在过多噪声基因型的问题,本文借助仿真数据验证卷积-Bootstrapping算法的抗噪声标签性能,结果证明该改进算法能极大提升网络的抗噪声标签能力,并在此基础上估测了千人基因提供的基准缺失变异文件的基因型噪声状况。