基于特征分类能力互补性的特征选择方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:abcz123789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程,是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一方面,很容易陷入“维度灾难”的困境;另一方面,可能并非所有维度的数据或概念都同样包含重要的预测信息。因而,特征选择算法作为数据的降维技术显得尤为重要。总体来讲,特征选择算法中的核心问题包括计算:(1)特征子集与预测类别的相关性;(2)特征间包含分类信息的冗余性;(3)平衡(1)和(2)二者的权重比例。  在考虑特征与类别相关程度的评估时,往往忽略了特征对区分不同类别贡献程度不均的问题,仅计算特征与整体类别的关系。本文针对该问题,提出了特征分类能力的向量化表示,并利用特征对于区分不同类别能力的差异,选择“互补”特征进入特征子集,从而优化特征选择过程,快速得到具有较优分类能力的特征子集。并通过与流行的特征选择算法进行对比实验,证明了本文提出的CFSCC算法能够在选择较少的特征数目的情况下,仍然具有更优的分类效果。  对于特征子集分类能力的度量,多数算法通过特征间冗余性的计算,考虑所选子集特征之间的相互影响;而在估算特征子集与类别的相关性时,隐含地假设了特征的独立性,忽略了特征组合对于相关性计算的影响。然而,将子集中单个特征与类别的相关度的平均值作为子集分类能力的度量,同时利用特征间相似度近似估计特征冗余量,并未充分考虑特征组合对于类别间相关性的影响以及相关性与冗余性的内在关系。事实上,特征组合本身可能对于分类能力具有很强的贡献力,起到提升分类效果的作用,也可能干扰分类决策。而冗余性的度量应该建立在提供分类信息的重合性的基础上,并非特征本身的相似度。由此,本文定义了特征互补量和冗余量的计算方法,在考虑特征间作用力的情况下,度量特征子集与类别的相关性,并结合特征冗余量,定义评价函数。同时依据提出的特征分类能力的向量化表征,通过加入结构互补性较强的特征完成搜索,以快速得到较优的特征子集。最后,通过对比实验证明了算法的有效性。
其他文献
随着计算机网络的发展,数字媒体的传播越来越方便快捷,然而由此引发的版权问题也日益尖锐,数字水印作为一种解决数字版权问题的有效手段,正越来越受重视。而随着新的需求逐渐展现
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据
统计分析软件包的研究与应用起于上世纪70年代,目前国际上知名的统计软件包有SPSS(Statistical Package for the Social Science)和SAS(Statistic AnalysisSystem)等。尽管国
随着互联网技术的普及和发展,开放性网络上的J2EE体系结构变得越来越流行,但同时开放性的网络导致企业级应用面临来自各方面的安全威胁。如何保护信息不被非法获取、盗用、篡
针对当前人工免疫系统的通用模型在计算效能方面仍然存在的一些问题,本文通过借鉴生命科学中协同进化的一些概念和行为方式,如生态环境、物种影响等,探讨了一种协同人工免疫
电力企业智能管理系统的搜索功能有着很大的局限性,用户在需要搜索定位资源时,通常是利用模块内提供的简单查询功能来实现,这些查询功能是利用SQL语句,对相应的数据库表进行
Internet与生俱来的复杂性、异构性、动态性以及庞大的规模都给网络模拟研究工作带来了巨大挑战。在网络模拟研究中,路由策略是一个关键的环节之一,路由策略的好坏直接关系到
随着计算机技术的飞速发展,人机交互方式正逐渐发生改变,强调“以人为本”、“自然和谐”的智能人机交互技术得到了广泛关注。智能人机交互要求计算机不仅要能听、看、说,还
在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决