基于统计相关性与K-means的区分基因子集选择算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:bj4587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random,Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能.
其他文献
针对加密流量的在线普适识别问题,提出一种基于加权累积和检验的时延自适应加密流量盲识别算法.利用加密数据的随机性特点,对网络报文逐一实施累积和检验,根据报文长度将结果
移动设备计算能力和传感能力的发展,使其可以为用户提供多种基于情境信息的服务.移动设备的佩戴位置作为一种重要的情境信息,影响着其他用户活动的识别效果和移动应用的自适
目的探讨应用输尿管软镜联合钬激光治疗肾结石的临床疗效。方法回顾性分析2012年8月-2014年2月应用输尿管软镜联合钬激光碎石治疗的78例肾结石患者的临床资料,结石位于肾中上
大气中CO2的超标排放,已经引起人们的高度关注。森林碳汇是降低CO2浓度最有效、环保的方法。碳汇计量则是对森林碳汇能力的评价。然而目前大都采用宏观统计方法估计值作为碳
过程模型的相似性计算是业务过程管理中不可缺少的任务,广泛应用于组织合并、用户需求变更、模型仓库管理等多个场景.对基于主变迁序列的相似性度量方法 PTS进行研究,并提出
数学日记顺应新课改潮流,并能实现新课标的要求。通过数学日记教师可以走进学生的内心世界,了解学生的收获和困惑,感悟学生的情感变化,并以此作为设计和组织教学的依据。因此
采用固定化酶传感器和流动注射分析技术研制了全自动血糖-乳酸分析仪.通过转盘式样品盘和自动取样针实现了样品的自动采样.采用停流技术,增大酶传感器的响应电流,提高测定精
中国盆景源远流长,流派纷呈,近年来,在湖北乃至华中地区出现一种盆景造型风格,给人以“动”感,展现了“自然的神韵,活泼的节奏,飞扬的动势,写意的效果”的艺术风格,先后在许多地,市出现
由于位置感知移动电子设备的繁荣,位置服务(LBS)几乎在所有的社会和商业领域广泛流行.虽然LBS给个人和社会带来了巨大利益,但也给用户的隐私造成了严重威胁.因为用户享受LBS
目的对第二代H1受体阻滞剂的不良反应进行总结性分析,为今后临床安全用药提供参考依据。方法回顾性分析2005年-2014年某中心综合门诊部皮肤科门诊因变态反应使用第二代H1受体