论文部分内容阅读
遗传学家的主要任务为找到那些与疾病相关的易感位点及其致病机制然后利用此类知识指导疾病预防、诊断及治疗等工作,以对人类的健康事业做出贡献。基因位点间存在的互关联作用已被视为人类诸多表型特征遗传机理的一个主要组成部分,对于多位点遗传变异模型的学习可以帮助我们更好的认识常见人类疾病的本质作用方式。 但是从海量数据中寻找出少量的关键变异位点已被证明为是一件非常困难的事情。如何构建出一个合适的带有良好评价准则的多位点关联模型来表示易感位点子集与疾病之间存在的关联关系及如何从庞大的多位点互关联模型空间中快速而准确的定位出易感的关联模型是摆在我们面前的两大挑战。在本文中,我们构建了一个决策模型来表示变异位点子集与疾病之间的关联关系,然后采用了三种高效率的评价准则对其关联关系进行评估、衡量。另外,我们也还提出了两种蚁群优化算法的变种用来启发式地搜索、学习多位点关联模型。本文的创新性主要体现在以下方面: l提出了一个广泛意义上的决策模型来解释构建分类模型对那些能够对具有不同表型特征的样本产生最大区分的易感变异位点子集进行统计学习的本质原理。然后我们采用了三种评价准则即条件熵、基尼系数及贝叶斯分值来测量所建模型识别变异位点子集的能力。基于虚拟数据集及高维的真实全基因组数据集,我们设计了实验以比较这三种评价准则的性能。实验结果表明条件熵与基尼系数比贝叶斯分值具有更高的计算效率但对正确易感多位点关联模型的检测效力却比贝叶斯分值稍差。当它们被用于检测一些弱关联模型时,条件熵与基尼系数在检测效力与计算效率上均表现出一定优势。在用来处理非平衡的样本数据集时,三种评价准则的效力都呈现出较大的下降,但样本集规模扩大以后,此种下降效应被削弱。另外在真实全基因组数据集上进行的实验表明贝叶斯分值与条件熵能够成功的检测出先前已被人验证存在易感性的变异位点。它表明了我们提出的带有合适评价准则的决策模型可以很好的被用于真实的全基因组数据集上进行易感、非同步起作用的变异位点子集的检测。 l、提出了两种新的基于蚁群优化算法的变种策略以随机的学习、寻找易感多位点关联模型。策略一在学习遗传变异模型时并不限定所学模型的阶数因此具有很高的灵活性。我们提出了一种有效的迭代停止规则以加快此策略的收敛速度并基于它研究了对此优化策略中某些关键参数的设定方法以在算法的收敛速度及检测准确率之间寻找平衡。策略二则被用作为一种过滤式方法即首先使用其选择出一些高度可疑的变异位点子集合然后再在其上进行穷尽的搜索以学习其中可能存在的高阶互关联作用模型。在虚拟与真实全基因组数据集上进行的实验均表明我们的方法可以在保证检测精度的前提下有效的提高整个多位点关联模型的计算效率。