类重叠度与特征重叠区域的特征选择算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:chinadongfang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在的社会是高速发展的社会,日益发展的科技,伴随着越来越多的信息流通,大数据便是这个时代的产物。大数据的价值并不在“大”,而在于“有用”,数据中的价值含量、挖掘成本比数据的量更为重要。在此基础上,数据挖掘技术的发展日益受到社会的重视。在数据挖掘技术中,特征选择技术是一种主要的数据分析技术。在大数据分析中,如何从高维数据中筛选出区分能力强、具有重要研究价值的特征是关键的研究方向。特征选择技术已经广泛应用于很多应用领域,如入侵检测、生物医学、生态环境科学等方面。基于支持向量机的特征回归消减方法(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)是一种常用特征选择方法,它通过迭代删除的顺序对特征进行排序。本文首先研究在SVM-RFE迭代特征删除过程中选择最优特征子集的评价标准。为了更加准确的评价特征子集,在后向迭代特征选择过程中,采用准确率和样本的类重叠度综合评价特征子集的区分能力。一个具有较好区分能力的特征子集应该具有较高的准确率和较低的类重叠度。由此本文提出算法SVM-RFE-COA。此外在SVM-RFE的特征选择过程中,SVM基于当前的特征集和训练样本建模,训练样本的质量会影响特征权值的计算,如果当前特征空间下,样本的类重叠度很高,可能发生会过拟合,影响对特征的评价,故在SVM-RFE-COA的基础上提出算法M-SVM-RFE-COA,该算法在每次迭代删除特征的过程中,暂时屏蔽那些相对于原始特征空间类重叠度增加较大的训练样本,以选出更具区分能力的特征子集。在11个公共数据上的结果表明,SVM-RFE-COA结合准确率和样本的类重叠度作为评价指标比以准确率作为评价指标可以选出更具有区分能力的特征;并且M-SVM-RFE-COA在每次迭代选择的过程中,暂时屏蔽那些相对于原始特征空间类重叠度增加较大的样本,同样提升了SVM-RFE-COA的特征选择性能。ERGS是一种基于特征有效区间的特征选择算法,它计算特征在任意两类样本之间的重叠区域来评估特征的区分能力。一个特征的重叠区域越大,特征的区分能力越弱。但ERGS忽略了特征在任何两类样本上的重叠区域占其中任一类样本上有效区间的比例,这可能会影响对特征的评估。本文提出基于ERGS算法改进的MERGS算法,它计算特征在任何两类样本上的重叠区域占其中任一类样本的有效区间的比例来计算特征的基于有效区间重叠程度;并且对于每个特征,基于每个样本在该特征处的近邻中的异类样本数所占比例,计算在整体样本空间中该特征的基于近邻中异类样本所占比例的重叠程度。在8个公共数据上的结果表明,基于MERGS算法选出的特征分类性能要优于ERGS算法;并且将MERGS算法应用到一组肝病血清数据上,MERGS算法的性能也要优于ERGS算法。
其他文献
人脸三维模型编辑是人脸造型重要手段之一。设计者通常采用手工作业将已有人脸模型编辑成理想人脸形状。但是,这种编辑模式并不适用于面向普通用户。对于普通用户来说,最简单有
随着计算机网络的迅速发展,计算机网络已经渗透到了社会的各个方面。在人们的日常生活中,计算机网络也变得越来越重要。近年来,由于网络规模的不断扩大和复杂性的不断增加,如
在目前医学及生命科学研究中,基因芯片被广泛用来进行各种生物实验。其中寻找差异基因在芯片实验中是最基本的实验目的,它在基因诊断、药物筛选等方面有着重要作用。由于芯片
虚拟化技术是一种在工业界以及学术界快速成长的技术。虚拟化技术包括软件虚拟化以及硬件虚拟化技术。其给计算资源的共享与管理带来很多的便利之处。虚拟化技术作为”云计算
随着计算机科学的不断发展,计算机软件的应用范围日趋广泛,规模迅速扩大,复杂性不断增加,人们对其可靠性的要求也越来越高。软件可靠性模型研究作为软件可靠性估测的核心问题
随着互联网技术特别是以淘宝和亚马逊等为代表的电子商务的飞速发展,互联网中的数据呈现爆炸性增长,信息过载问题显得越来越严重。帮助我们从海量数据中筛选出有意义数据的信
本体是一种重要的知识表示形式,它是共享概念模型的明确的形式化规范说明,并在语义Web、知识工程、软件工程、生物医学信息学和社会化网络等领域中得到广泛应用。然而,本体创建
虚拟内窥镜是计算机技术在医学领域的典型应用,它利用医学影像作为原始的数据,结合虚拟现实技术、计算机图形学、图像处理、科学计算可视化来模拟传统光学内窥镜,是一种非侵
在需要知识共享的语义网中,本体是解决语义层次上的信息共享和重用的基础。本体编辑器作为对领域知识建模的必要工具,能帮助领域专家完成对本体的创建、解析、存储和重用等工
随着信息产业的急速发展,迎来了大数据的时代。网络中数据量的剧增给已经成熟的网络结构提出了巨大的挑战。云计算是依托成熟的虚拟化技术,从网格计算、分布式计算和协同计算