少数类数据识别方法及性能评价

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:hfs191
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法是当今机器学习领域中重要的研究方向之一,很多经典算法在实际问题中得到广泛的应用并取得了良好的效果。传统的分类算法假设数据分布均衡,并且以提高分类算法对数据集的整体分类正确率为主要目标。但现实中很多数据集中的不同类别包含的数据数量是高度倾斜、非平衡的,一个或几个类别中数据数量远远大于其他类别中数据数量,这样的数据集称为类别不平衡数据。其中数量上占优的一类或者几类称为多数类,其他称为少数类。传统分类算法分类不平衡数据时,以提高数据集的整体分类正确率为目标,由于少数类样例数量较少,因而预测倾向数量上占优的多数类,对少数类分类识别率不利;然而在很多实际问题中,提高少数类数据识别率往往比提高多数类数据识别率更有价值。然而在某些极端情况下,分类算法把少数类样例全部错分仍能保证较高的整体准确率。因此,如何提高分类算法对类别不平衡数据的分类性能,尤其提高分类算法对少数类的识别率,成为机器学习中研究热点之一。目前对不平衡数据分类问题的研究主要以下几个方面:首先是数据层面,即数据预处理算法,通常通过改变原有数据的分布,缩减其不平衡程度,达到平衡数据的目的,常用方法包括采样技术、特征提取技术等;其次是算法层面,即通过修改传统的分类算法,使之适应不平衡数据问题,从而在分类时倾向少数类,提高少数类数据识别率,常用技术如代价敏感学习,阈值方法等;最后是不平衡数据分类的性能评价标准,由于传统分类算法的性能评价标准通常会忽略算法分类少数类数据的识别率,所以如何选择满足不平衡数据分类的评价标准也是近年的研究热点之一,G-Mean、F-Measure等都是不平衡数据分类中常用标准。本文针对类别不平衡数据的分类问题,从数据层次以及算法层次两个方面展开研究,并在原有性能评价标准的基础上结合经典评价标准提出新的评价标准。主要创新成果有: (1)算法层面和数据层面相结合:将传统的Bagging算法和SMOTE算法相结合,使用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类别值和正确率对各个样例和基分类器的权重进行调整。通常情况下,大多数针对不平衡数据的算法只适用于二分类问题,本算法在此基础上进行改进,能够分类多类别不平衡数据。实验结果表明本文提出的算法在二类不平衡数据集和多类不平衡数据集上达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。(2)算法层面:在前人研究成果的基础上提出一种新的应用在人工神经网络中的阈值判定标准。并在理论上证明:该标准能够在不受样例类别比例的影响的情况下下使少数类及多数类分类精度同时取得最好。本标准以反向传播算法(BP算法)作为基分类器,结合遗传算法搜寻最佳阈值,实验结果表明:新标准所产生的阈值能够提高人工神经网络对少数类数据的分类准确率。另外,在此阈值判定标准的基础上初步提出一种新的评价标准。实验结果表明,此标准着重关注样例的错误率。(3)数据层面:针对SMOTE只能根据线性规则产生新样例的缺点,提出一种新的过采样方法。此新算法能够通过随机漫步的方式在少数类数据的基础上合成新的样例。经过理论证明,在某些假设条件成立的前提下,新算法所产生的合成样例的均值和方差同原始数据中的少数类数据的期望和方差相近。实验结果表明,从统计角度上讲,当在基分类器C4.5、Naive Bayes (NB)、k Nearest Neighbor (KNN)上使用多种过采样方法时,新算法明显优于其他采样方法。
其他文献
网络控制系统是以网络为传输媒介,将空间不同位置的传感器、控制器、执行器等组成一个实时反馈的控制系统,能够实现带宽资源的共享,已较为广泛地应用在工业控制系统、电气自
多域系统是多个独立的安全系统协同工作构成的分布式系统,这种协同系统在政府、军事、商业和医疗等领域有广泛的应用。在多域环境中,每个安全系统(自治域)独立管理,通过自治
Vagueness or uncertainty is a conception associated with the set. At present, there have been many painstaking mathematical tools to solve this problem, such as
Ad Hoc网络的出现为最终实现任何人可以在任何时间、任何地点、与任何人、进行任何种类的信息交换提供了有效的解决方案[1],其在特殊环境下的作用也是有线网络和蜂窝移动网络
随着计算机的广泛应用和网络技术的迅速发展,计算机数据在人们日常生活中越来越重要,其安全问题成为日益突出的问题。与此同时,数据安全技术也在快速发展,各种数据加密软件和网络
NP-难问题是计算机科学研究中的主要研究问题之一。Garey提出了若一个问题被定义为NP-难问题,则无法用计算机进行精确求解的论断。该论断为研究人员奠定了计算难解的界限,避
随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采
计算机和网络技术的迅猛发展大大提升了以广域资源共享和协作为主要目标的网格计算在计算机科学中的重要地位。网格计算中资源的大规模共享和协作的实现是建立在网格安全基础
对大多数机器学习和计算机视觉的任务来说,选择一个合适距离度量都是至关重要的。因此,以自动设定与选取合适的距离度量为目标的度量学习(DistanceMetricLearning,DML)方法引起
随着XML广泛应用,出现了大量的XML数据。为了更好的管理这些XML数据,人们设计了XML数据库。CoSQLRX系统是一个关系-XML双引擎数据库系统,可以同时处理关系-XML查询。本文着重