少数类数据识别方法及性能评价

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：hfs191

【摘要】

：

分类算法是当今机器学习领域中重要的研究方向之一,很多经典算法在实际问题中得到广泛的应用并取得了良好的效果。传统的分类算法假设数据分布均衡,并且以提高分类算法对数据

【作者】

：

李明方

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2011年期

【关键词】

：

分类不平衡数据集 BP算法 Bagging算法阈值评价标准

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类算法是当今机器学习领域中重要的研究方向之一,很多经典算法在实际问题中得到广泛的应用并取得了良好的效果。传统的分类算法假设数据分布均衡,并且以提高分类算法对数据集的整体分类正确率为主要目标。但现实中很多数据集中的不同类别包含的数据数量是高度倾斜、非平衡的,一个或几个类别中数据数量远远大于其他类别中数据数量,这样的数据集称为类别不平衡数据。其中数量上占优的一类或者几类称为多数类,其他称为少数类。传统分类算法分类不平衡数据时,以提高数据集的整体分类正确率为目标,由于少数类样例数量较少,因而预测倾向数量上占优的多数类,对少数类分类识别率不利;然而在很多实际问题中,提高少数类数据识别率往往比提高多数类数据识别率更有价值。然而在某些极端情况下,分类算法把少数类样例全部错分仍能保证较高的整体准确率。因此,如何提高分类算法对类别不平衡数据的分类性能,尤其提高分类算法对少数类的识别率,成为机器学习中研究热点之一。目前对不平衡数据分类问题的研究主要以下几个方面:首先是数据层面,即数据预处理算法,通常通过改变原有数据的分布,缩减其不平衡程度,达到平衡数据的目的,常用方法包括采样技术、特征提取技术等;其次是算法层面,即通过修改传统的分类算法,使之适应不平衡数据问题,从而在分类时倾向少数类,提高少数类数据识别率,常用技术如代价敏感学习,阈值方法等;最后是不平衡数据分类的性能评价标准,由于传统分类算法的性能评价标准通常会忽略算法分类少数类数据的识别率,所以如何选择满足不平衡数据分类的评价标准也是近年的研究热点之一,G-Mean、F-Measure等都是不平衡数据分类中常用标准。本文针对类别不平衡数据的分类问题,从数据层次以及算法层次两个方面展开研究,并在原有性能评价标准的基础上结合经典评价标准提出新的评价标准。主要创新成果有: (1)算法层面和数据层面相结合:将传统的Bagging算法和SMOTE算法相结合,使用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类别值和正确率对各个样例和基分类器的权重进行调整。通常情况下,大多数针对不平衡数据的算法只适用于二分类问题,本算法在此基础上进行改进,能够分类多类别不平衡数据。实验结果表明本文提出的算法在二类不平衡数据集和多类不平衡数据集上达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。(2)算法层面:在前人研究成果的基础上提出一种新的应用在人工神经网络中的阈值判定标准。并在理论上证明:该标准能够在不受样例类别比例的影响的情况下下使少数类及多数类分类精度同时取得最好。本标准以反向传播算法(BP算法)作为基分类器,结合遗传算法搜寻最佳阈值,实验结果表明:新标准所产生的阈值能够提高人工神经网络对少数类数据的分类准确率。另外,在此阈值判定标准的基础上初步提出一种新的评价标准。实验结果表明,此标准着重关注样例的错误率。(3)数据层面:针对SMOTE只能根据线性规则产生新样例的缺点,提出一种新的过采样方法。此新算法能够通过随机漫步的方式在少数类数据的基础上合成新的样例。经过理论证明,在某些假设条件成立的前提下,新算法所产生的合成样例的均值和方差同原始数据中的少数类数据的期望和方差相近。实验结果表明,从统计角度上讲,当在基分类器C4.5、Naive Bayes (NB)、k Nearest Neighbor (KNN)上使用多种过采样方法时,新算法明显优于其他采样方法。

其他文献

网络控制系统的二维调度策略及协同控制研究

网络控制系统是以网络为传输媒介,将空间不同位置的传感器、控制器、执行器等组成一个实时反馈的控制系统,能够实现带宽资源的共享,已较为广泛地应用在工业控制系统、电气自

学位

网络控制系统优先级调度变采样周期调度二维调度协同设计

多域环境下安全互操作技术的研究

多域系统是多个独立的安全系统协同工作构成的分布式系统,这种协同系统在政府、军事、商业和医疗等领域有广泛的应用。在多域环境中,每个安全系统(自治域)独立管理,通过自治

学位

访问控制多域协同工作安全互操作分离角色角色撤销

软集在不确定性理论中的相关扩展研究

Vagueness or uncertainty is a conception associated with the set. At present, there have been many painstaking mathematical tools to solve this problem, such as

学位

直觉模糊集粗糙集软集合模糊软集不确定性

基于能量优化的Ad Hoc网络路由技术研究

Ad Hoc网络的出现为最终实现任何人可以在任何时间、任何地点、与任何人、进行任何种类的信息交换提供了有效的解决方案[1],其在特殊环境下的作用也是有线网络和蜂窝移动网络

学位

Ad Hoc网络能量网络均衡度均衡流量路由路由度量路由建立

基于驱动层的计算机数据安全防护系统的设计与实现

随着计算机的广泛应用和网络技术的迅速发展，计算机数据在人们日常生活中越来越重要，其安全问题成为日益突出的问题。与此同时，数据安全技术也在快速发展，各种数据加密软件和网络

学位

RBAC模型过滤驱动虚拟磁盘WinSock2SPITDI HOOKNDIS HOOK

基于多头绒泡菌模型的优化蚁群算法及其在旅行商问题中的运用

NP-难问题是计算机科学研究中的主要研究问题之一。Garey提出了若一个问题被定义为NP-难问题,则无法用计算机进行精确求解的论断。该论断为研究人员奠定了计算难解的界限,避

学位

多头绒泡菌模型蚁群算法多目标旅行商问题旅游线路推荐

基于语义引力及密度分布的Web文本聚类算法的研究与实现

随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采

学位

数据引力相似度计算层次聚类网页解析

网格资源信任审计

计算机和网络技术的迅猛发展大大提升了以广域资源共享和协作为主要目标的网格计算在计算机科学中的重要地位。网格计算中资源的大规模共享和协作的实现是建立在网格安全基础

学位

网格QoS信任评价审计反馈

基于语义上下文建模的度量学习方法及应用

对大多数机器学习和计算机视觉的任务来说，选择一个合适距离度量都是至关重要的。因此，以自动设定与选取合适的距离度量为目标的度量学习(DistanceMetricLearning，DML)方法引起

学位

距离度量学习图像语义自动标注语义上下文建模Web图像搜索

XML数据库中全文检索系统的研究与实现

随着XML广泛应用,出现了大量的XML数据。为了更好的管理这些XML数据,人们设计了XML数据库。CoSQLRX系统是一个关系-XML双引擎数据库系统,可以同时处理关系-XML查询。本文着重

学位

XML数据库全文检索XQuery查询优化

少数类数据识别方法及性能评价

与本文相关的学术论文