论文部分内容阅读
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是在基因组水平上因单个核苷酸变异所引起的DNA序列的多态性。在单体型关联研究中通过利用少量的SNP位点代表单体型整体大部分信息,而这些位点被称为信息SNP位点或者标签SNP(即tag SNP或htSNP)。目前,已有较多的方法被用于信息SNP选择的相关研究中。但是,这些方法仍然存在不足,主要表现在这些方面:时间复杂度较高、信息SNP数目过多、单体型重构准确度偏低或者所选取的信息SNP在后续关联研究中效能低等。因此,在本文中,针对以上问题而提出一种基于遗传算法的信息SNP选择方法框架。基于单体型重构的信息SNP选择一般包含两个步骤:构造信息SNP子集以及单体型重构。针对SNP数据高维、低样本的特点,本文提出了一种基于遗传算法的信息SNP选择框架,分别从两个步骤上进行了改进,主要创新工作如下:本文首先根据SNP数据的特点并结合等位基因频率,采用二进制编码对SNP进行编码。在此编码的基础上,计算所有两两SNP对之间的连锁不平衡值,然后利用连锁不平衡值从所有SNP中剔除大量冗余的SNP,得到一个冗余度较小的候选子集,从而一定程度上解决了维度灾难问题。然而候选子集仍然可能存在成千上万个SNP,穷尽所有SNP的组合寻找一个最优解依然是不切实际的,因此,本文提出采用遗传算法寻找近优解,不仅有效地保证重构准确率并且大大降低了时间复杂度。同时,由于单体型中存在大量的非信息SNP,而如果采用传统的反复训练学习模型的方式进行预测非信息SNP,大大增加了时间复杂度,本文充分利用BP神经网络的多输出特点,每个输出节点对应一个非信息SNP,从而做到一次训练即可预测所有的非信息SNP,显著提高了算法的效率。最后,为了便于关联研究人员有效利用本文的方法,本文实现了一款可视化的信息SNP选择软件,该软件采用该改进算法,并利用该软件在真实数据集以及模拟数据集上进行了比较实验,从时间复杂度、信息SNP子集紧凑度以及重构准确率上评价本文方法。实验表明,本文的方法能成功地应用于信息SNP选择。