不平衡数据的无监督特征选择方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:wangyaoxf520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值.
其他文献
目的 阐明社会经济及组织管理在湖南省桃源县血吸虫病可持续传播控制中的作用.方法 收集湖南省桃源县血吸虫病疫区社会经济、卫生血防组织管理、环境、血吸虫病疫情变化等资
根据《浙江省血吸虫病监测点监测方案》的要求,2008-2011年每年对嵊州市省级血吸虫病监测点的螺情、常住居民、流动人口和家畜病情等情况进行监测.结果4年累计发现钉螺面积3
目的掌握句容市丘陵山区钉螺孳生和分布规律,为制定灭螺规划提供科学依据。方法按水系调查丘陵山区历史有螺环境和现有螺环境,并应用GPS现场采集历史有螺环境和现有螺环境的
本文根据合同条款中对建筑工程中保险的要求,结合在建筑工程保险理赔工作中所遇到的一些情况,阐述了建筑工程保险与理赔的基本方法和一些注意事项.
目的 探索大山区血吸虫病流行区传播控制后影响血吸虫病流行的主要因素.方法 选择四川省芦山县大山区高山平坝型的清江村、高山丘陵型的五星村、高山峡谷型的火炬村开展农业
目的 了解2010-2011年南京市栖霞区南中村国家血吸虫病监测点疫情动态,为评价防治效果和制订防治策略提供科学依据.方法 按照《全国血吸虫病监测方案》要求,每年开展螺情、病
目的 了解云霄县土源性线虫感染现状及分布特点,为制定土源性寄生虫病防治策略提供参考依据.方法 采取分层整群随机抽样法选择调查对象,采用Kato-Katz法检查蛔虫、钩虫和鞭虫
Groundwater is a crucial resource on the Manukan Island as it is the only source of freshwater available on the island. The aquifer has deteriorated to a high d
统计学习理论作为机器学习一个分支,由于其优异的特性及应用前景受到越来越多的关注.支持向量机(SVM)衍生于统计学习理论,能够在最小化训练误差和模型复杂度之间找到最佳平衡
The Weather Research Forecast model (WRF) configured with high resolution and NCEP 1°×1° reanalysis data were used to simulate the development of a tropical