基于遗传算法的信息SNP选择方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:leegimars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是在基因组水平上因单个核苷酸变异所引起的DNA序列的多态性。在单体型关联研究中通过利用少量的SNP位点代表单体型整体大部分信息,而这些位点被称为信息SNP位点或者标签SNP(即tag SNP或htSNP)。目前,已有较多的方法被用于信息SNP选择的相关研究中。但是,这些方法仍然存在不足,主要表现在这些方面:时间复杂度较高、信息SNP数目过多、单体型重构准确度偏低或者所选取的信息SNP在后续关联研究中效能低等。因此,在本文中,针对以上问题而提出一种基于遗传算法的信息SNP选择方法框架。基于单体型重构的信息SNP选择一般包含两个步骤:构造信息SNP子集以及单体型重构。针对SNP数据高维、低样本的特点,本文提出了一种基于遗传算法的信息SNP选择框架,分别从两个步骤上进行了改进,主要创新工作如下:本文首先根据SNP数据的特点并结合等位基因频率,采用二进制编码对SNP进行编码。在此编码的基础上,计算所有两两SNP对之间的连锁不平衡值,然后利用连锁不平衡值从所有SNP中剔除大量冗余的SNP,得到一个冗余度较小的候选子集,从而一定程度上解决了维度灾难问题。然而候选子集仍然可能存在成千上万个SNP,穷尽所有SNP的组合寻找一个最优解依然是不切实际的,因此,本文提出采用遗传算法寻找近优解,不仅有效地保证重构准确率并且大大降低了时间复杂度。同时,由于单体型中存在大量的非信息SNP,而如果采用传统的反复训练学习模型的方式进行预测非信息SNP,大大增加了时间复杂度,本文充分利用BP神经网络的多输出特点,每个输出节点对应一个非信息SNP,从而做到一次训练即可预测所有的非信息SNP,显著提高了算法的效率。最后,为了便于关联研究人员有效利用本文的方法,本文实现了一款可视化的信息SNP选择软件,该软件采用该改进算法,并利用该软件在真实数据集以及模拟数据集上进行了比较实验,从时间复杂度、信息SNP子集紧凑度以及重构准确率上评价本文方法。实验表明,本文的方法能成功地应用于信息SNP选择。
其他文献
黄河积石峡库区地质环境条件复杂,随着积石峡水电站蓄水位达到设计深度,库区公路边坡失稳问题进一步显现,轻则毁坏公路产生经济损失,重则造成重大人员伤亡,所以非常有必要对
现今,高速光通讯、光信息处理和光电子学在实用领域均已取得了飞速的发展,这些领域中,人们很看好二阶非线性光学材料的发展前景,有机非线性光学材料较之无机材料具有更大的非
手性辅助试剂应用于诱导不对称合成近年来得到了广泛的研究,在手性天然产物和药物中间体的合成中具有良好的应用前景。(S)-咪唑烷-2-硫酮具有原料易得、合成方法简便、结构稳
光动力治疗与光热治疗都是目前肿瘤治疗领域中具有广阔应用前景的微创治疗方法,是除传统治疗手段外癌症临床治疗方法的有力候补。两者都是基于光敏药物吸收光子能量产生能使癌细胞凋亡的效应实现肿瘤的消除或抑制。鉴于大量铋基半导体在此之前已经成功的应用于光催化研究,本论文设计了基于两种铋的硫属类半导体化合物的协同治疗体系,并将这两种化合物作癌症治疗中的增敏剂药物进行深入研究。初步了解这两种半导体化合物的形貌,结
植物由于自身生活方式特点,无法逃避不利的生境。为适应外在的生境,植物通过其细胞特有的内膜系统及膜泡运输机制完成细胞内外的物质与信息交流。在真核生物细胞中,蛋白质的
随着在线社交网络的快速发展,对网络中用户关系的研究越来越多,链路预测被应用到用户关系分析场景。链路预测是利用网络中已有信息对未知链接或未来链接的预测。由于社交网络
三相异步电动机具有坚固耐用、维护简单,在工业生产中得到广泛应用。三相异步电动机全压起动时起动电流大,对电网产生较大冲击,特别是电动机拖动重载负载起动时不仅起动电流
始于非制冷红外探测器技术的快速发展,嵌入式、物联网技术的强势崛起,红外热成像系统得到了广泛应用,随着其应用需求的逐渐积累增长,不断向着低成本、高帧率和高分辨率方向发
传统能源的过度使用已造成了严重的环境污染、能源危机和气候恶化等问题,因此世界各国都把新型可再生清洁能源的开发作为当前优先发展的重点领域。醇类燃料电池由于其污染低
贵金属纳米颗粒由于具有独特的电学、光学性质使其在国防科技、化工、催化、医学等领域都有着许多潜在的应用,从而被广泛研究。金属纳米颗粒的等离子效应可以对其周围场强有