基于遗传算法的复合核偏最小二乘模型在组学数据疾病预测和分类中的应用

来源 :山西医科大学 | 被引量 : 3次 | 上传用户:zhangsen168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着生物技术的进步,我们可以很容易地获取大量的基因组数据。基于大量基因组数据的预测和分类为疾病的早期筛检提供了一种代价小且效率高的方法。然而,基因和某个性状之间的关系可能是非常复杂的,从基因到一个复杂性状的转化,不是多个独立基因的简单作用,而是涉及到很多基因之间复杂的交互作用,也就是说,这种转化可以被看做是一个非线性映射问题。这些复杂的关系可能是由多种效应产生的,比如,一个基因的自我调控或者基因之间的协作和竞争。由于这种复杂关系的存在,发展一个能够捕捉这种非线性关系的功能强大而且高效的统计模型就显的十分必要了。在我们的研究中,我们着眼于发展一个基于核偏最小二乘法的模型,该模型期望拥有更好的学习能力和泛化能力,并能够整合多个组学数据源,获得更好的预测或分类效果。方法:我们首先建立一个经典的核偏最小二乘模型,然后通过一个多个核函数的凸组合计算出一个新的复合核函数,最后我们用新的复合核函数代替之前经典核偏最小二乘模型中的核函数以生成改进的核偏最小二乘模型。在改进的核偏最小二乘模型中的所有参数均通过遗传算法进行优化。通过构建适合的复合核函数,我们的方法能够解决并改善单个基因组数据源以及多个基因组数据源的预测和分类问题。我们提出的基于遗传算法的复合核偏最小二乘模型的性能将通过相应的模拟研究和真实数据研究来展示。结果:大量的模拟研究和真实数据研究表明我们提出的基于遗传算法的复合核偏最小二乘模型在使用一个基因组数据源进行数量性状预测时,能够给出最大的21FQ和最小的RMSEP;当使用基于三个基因组数据源(即micro RNA,m RNA和拷贝数变异)的核偏最小二乘核融合模型对两种乳腺癌病人(三阴性和非三阴性)进行分类时,我们的核融合模型获得了最大约登指数、最小分类错误率和马修斯相关系数(MCC)。结论:我们提出了一个基于核偏最小二乘预测框架的复合核方法,该复合核具有好的学习能力和泛化能力;我们提出了一个基于核偏最小二乘分类框架的复合核方法,该复合核能够有效地融合多个基因组以及其它组学数据源,从而获得改进的性能;遗传算法能够很好地解决核参数和核权重的优化问题。
其他文献
信息社会对个人数据的广泛搜集与使用,给数据主体的权利带来威胁和损害,急需一种权利来加强数据主体的地位以及个人对数据的自主性.欧盟《通用数据保护条例》赋予数据主体一
水电工程建设中经常遇到压力隧洞(管道)的泄流能力计算。且是十分重要的设计组成部分。文章重点介绍其泄流量理论公式的由来,以及有关流量系数与水头损失的具体计算式。在《水工
通过对夏日哈木铜镍矿床1∶5万航磁异常等地球物理特征的分析,该矿床在航磁异常上表现为弱磁异常,地磁异常上表现为中强磁异常,基性、超基性杂岩体具中等强度磁性,镍黄铁矿化
通过对矿区实施1∶5000土壤地球化学测量,确定该区的指示元素为Au、Cu、Pb、Zn、As,选用传统的统计方法确定各元素的异常下限值分别为6×10-9、30×10-6、40×10-6、150×10-
《城市建筑》2013年7月刊主题为"西班牙建筑",本期邀请西线工作室的主持建筑师魏浩波担任客座主编。恰逢西班牙Baum工作室到访贵阳,由于西线工作室在中国西部独特且极具代表性