游程检验与K-S检验在基因选择中的应用研究

被引量 : 0次 | 上传用户:shao402248950
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术可以一次性对大量DNA序列进行检测,从而获得基因表达谱数据。从包含成千上万基因的表达谱数据中挖掘出能够辨别肿瘤样本和正常样本的关键基因已成为21世纪医疗、生物信息学以及人工智能等领域的研究焦点之一。基因数据属于典型的高维小样本数据,常含有大量噪声和冗余基因,而真正导致肿瘤病发的关键基因所占比例非常小,从而给基因选择技术带来巨大挑战。一个具有显著区分能力的基因,其表达水平在不同类别中一定存在着显著差异,基于该思想,许多学者提出了一系列基于非参数统计和参数统计的Filter型基因选择方法,并取得了良好的效果。本文针对已有的基于统计检验的基因选择方法中存在的不足,提出了游程检验方法实现特征基因选择。然而,独立的非参数检验方法在选择具有区分能力的基因时,没有考虑到基因之间的冗余,因此,进一步提出K-S检验与mRMR相结合的基因选择算法。本文主要创新工作如下:(1)针对已有的秩和检验以及T检验等统计检验方法存在的不足,提出游程检验实现基因选择。3个经典基因数据集上的实验表明,与秩和检验、T检验相比,在给定显著性水平下,游程检验选择到的基因子集规模较小,且分类性能优于秩和检验与T检验,说明游程检验算法是一个有效的基因选择算法。(2)针对独立的非参数检验方法在选择具有区分能力的基因时,没有考虑到基因之间的冗余,提出一种基于K-S检验与最小冗余最大相关(Minimum Redundancy-Maximum Relevance,mRMR)原则的基因选择算法。算法分两步进行,先采用K-S检验选出具有一定区分能力的基因,然后对选择到的基因进行mRMR判断,选择与类别高度相关而其间相关性较小的基因构成基因子集。以SVM为分类器,以F1_measure、准确率和AUC值为评价指标对选择到的基因子集进行评估。将本文算法与K-S检验、mRMR,以及经典的RELIEF和FAST算法进行对比,分别在5个经典基因数据集上的10次重复实验的平均实验结果表明,本文算法的运行时间远低于mRMR,其F1_measure、准确率和AUC3种评价指标值优于其他比较算法。
其他文献
超级电容器因具备高比电容、高功率密度、绿色环保、循环寿命长等特点而受到全球科研工作者的广泛关注。其中,工作电极是超级电容器的重点组成部分,而电极性能的好坏则由电极
目的:探讨以氨氯地平为基础的联合治疗方案,对原发性高血压患者降压疗效的比较。方法收集51~72岁伴心血管病危险因素的原发性高血压患者55例。采用多中心随机开放对照盲终点评
随着时代的变迁,网络时代、知识时代、信息时代快速变化,竞争也更加剧烈,信息技术得到了更广泛的应用,企业发现传统的管理已不能保证企业的发展,ERP应运而生,更多的企业用ERP
盐作为一种资源或产品与人类文明嬗变形影相随,其地位与价值无可替代,中国历史文化的研究缺乏了对因盐资源的开发利用而产生的中国盐文化历史的研究是残缺不全的;目前,中国盐
伴随着微信的强势发展,微信即有的功能设置和用户的心理机制,造就了微信平台的强关系社交图谱,微信的社交属性首先在“重应用”的业界引起关注,进而向“重规律”和“重理论”
自学成才的杰出史学家何光岳先生,其成功之路被人们称为“何光岳现象”。剖析导引其成功的动力因素及心理素质等非智力因素,揭示他的成功奥秘,能给人以深刻的启示。
孟子与柏拉图是同时代思想家,他们的分工思想极为相似,二者都强调了分工的必要性,论述了分工的效益;都很重视商品交换,并对商品价值价格理论有所认识;都将社会成员按其职业分
新疆气象影视人创办的电视"天气预报"栏目,由蹒跚学步成长为一档公益性服务类栏目,是新疆气象面向公众服务的重要窗口。面对飞速发展的电视媒体技术,拥有气象专业优势的非媒
期刊
通过对电视天气预报节目的分析及针对本地区电视天气预报节目的现状作了一些指导服务性、生活服务性和新闻服务性的定位。进一步指出了一些实现节目服务的目标和方法,来促进
新一轮课堂教学改革在全国拉开帷幕,各个地区都在为改变新的课堂模式和学习方式进行了积极的探索。新一轮课程改革明确指出:“提倡转变学生的学习方式,培养学生主动参与、乐于