全基因关联研究中的模型构建与优化算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tjh2088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传学家的主要任务为找到那些与疾病相关的易感位点及其致病机制然后利用此类知识指导疾病预防、诊断及治疗等工作,以对人类的健康事业做出贡献。基因位点间存在的互关联作用已被视为人类诸多表型特征遗传机理的一个主要组成部分,对于多位点遗传变异模型的学习可以帮助我们更好的认识常见人类疾病的本质作用方式。  但是从海量数据中寻找出少量的关键变异位点已被证明为是一件非常困难的事情。如何构建出一个合适的带有良好评价准则的多位点关联模型来表示易感位点子集与疾病之间存在的关联关系及如何从庞大的多位点互关联模型空间中快速而准确的定位出易感的关联模型是摆在我们面前的两大挑战。在本文中,我们构建了一个决策模型来表示变异位点子集与疾病之间的关联关系,然后采用了三种高效率的评价准则对其关联关系进行评估、衡量。另外,我们也还提出了两种蚁群优化算法的变种用来启发式地搜索、学习多位点关联模型。本文的创新性主要体现在以下方面:  l提出了一个广泛意义上的决策模型来解释构建分类模型对那些能够对具有不同表型特征的样本产生最大区分的易感变异位点子集进行统计学习的本质原理。然后我们采用了三种评价准则即条件熵、基尼系数及贝叶斯分值来测量所建模型识别变异位点子集的能力。基于虚拟数据集及高维的真实全基因组数据集,我们设计了实验以比较这三种评价准则的性能。实验结果表明条件熵与基尼系数比贝叶斯分值具有更高的计算效率但对正确易感多位点关联模型的检测效力却比贝叶斯分值稍差。当它们被用于检测一些弱关联模型时,条件熵与基尼系数在检测效力与计算效率上均表现出一定优势。在用来处理非平衡的样本数据集时,三种评价准则的效力都呈现出较大的下降,但样本集规模扩大以后,此种下降效应被削弱。另外在真实全基因组数据集上进行的实验表明贝叶斯分值与条件熵能够成功的检测出先前已被人验证存在易感性的变异位点。它表明了我们提出的带有合适评价准则的决策模型可以很好的被用于真实的全基因组数据集上进行易感、非同步起作用的变异位点子集的检测。  l、提出了两种新的基于蚁群优化算法的变种策略以随机的学习、寻找易感多位点关联模型。策略一在学习遗传变异模型时并不限定所学模型的阶数因此具有很高的灵活性。我们提出了一种有效的迭代停止规则以加快此策略的收敛速度并基于它研究了对此优化策略中某些关键参数的设定方法以在算法的收敛速度及检测准确率之间寻找平衡。策略二则被用作为一种过滤式方法即首先使用其选择出一些高度可疑的变异位点子集合然后再在其上进行穷尽的搜索以学习其中可能存在的高阶互关联作用模型。在虚拟与真实全基因组数据集上进行的实验均表明我们的方法可以在保证检测精度的前提下有效的提高整个多位点关联模型的计算效率。
其他文献
本文在总结和详细分析现有跟踪算法的优点和不足的同时,在充分了解数据挖掘中概念漂移和类不均衡问题的基础上,提出了基于概念漂移(Concept Drift)框架的目标跟踪算法,建立了适合
我国人口数量的不断增加和人民生活水平的不断提高已经给我国农副产品的供给带来了相当大的压力。巨大的市场竞争压力也使得我国的农业生产必须将传统的农业转变为高效、高产
碳纳米管导电性良好,具有极大的长径比,少量碳纳米管填充至聚合物中即可形成导电网络,同时保证了复合材料的柔韧性和压阻灵敏度,可作为柔性压力传感器,由于复合材料受基体材
随着计算机工业的发展,嵌入式PC成为一个新的发展方向,也成为近年来行业内的一个热点。本文提出了一种基于Intel公司专业嵌入式微处理器芯片386EX的嵌入式应用方法,构建了一个带
我国东部油气田开发已进入了高含水期,集输泵站的节能降耗优化运行已成为油气集输系统亟待解决的重要课题.本课题的研究主要包括以下内容:按照物料平衡实现站内提供能量最小
目前航空通信主要依赖于两大系统,飞机通信寻址与报告系统(ACARS)和航空电信网(ATN),后者是前者的替代系统。随着民航业的快速增长,出现了航班Internet接入上网和基于性能导
该文从探讨企业信息系统中使用XML的两种不同的思路出发,在企业原有系统中选择XML作为一种面向消息的中间件工具(Message-Oriented Middleware),封装模块处理的输入输出信息,
数字地理信息是地理信息系统的基础,数字地理信息的获取是地理信息系统建立发展的关键技术之一。在地图扫描图像上识别和提取数字地理信息因其效率、精度、自动化程度和可靠性
该文研究了基于多级假设检验的多尺度红外目标识别方法.主要用于解决典型红外电厂目标特征的稳定可靠识别问题,以适应战场环境下的需要.该文首先通过分析多幅典型的红外电厂
该文针对软测量技术的研究及应用,主要完成如下工作: 对建立软测量模型的各种方法进行了较为详细的总结和分析,并对它们各自的特点进行了阐述. 提出了基于模糊神经网络的软测