非均衡数据分类算法若干应用研究

被引量 : 0次 | 上传用户:huangom444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类分布不均衡数据广泛存在于现实世界中。在某些领域,少数类样本被正确分类的重要程度往往高于多数类。然而,大多数经典分类算法都假设样本的先验概率分布均衡或错分类代价相等。在面对非均衡分布数据时,少数类样本的信息往往被多数类样本的信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本。因此,非均衡数据分类问题的研究受到越来越多的研究者关注。针对非均衡数据分类这一问题,本文从改变数据集各类样本分布、集成学习和改进分类算法入手,提出了几种新的分类算法,并将它们应用于UCI数据集和实际生产数据集中,仿真试验验证了文中所提算法是有效的。具体工作主要有以下几点:(1)提出了基于非均衡数据集(Imbalanced Data Sets,IDS)重采样集成学习模型,并将其应用于UCI数据集。首先采用重采样技术对非均衡数据集进行预处理,得到相对均衡的训练集。然后采用经典反向传播神经网络(BackPropagation Neural Network,BPNN)、经典k近邻(k-NearestNeighbour,kNN)和经典朴素贝叶斯(Na ve Bayes,NB)三种算法作为基分类器,并利用Bagging策略得到集成学习(Ensemble Learning,EL)模型。为了验证所提算法的有效性,分别采用F-measure和G-mean方法对分类器性能进行评估。为了使训练样本符合实际分布和降低信息冗余,采用基于分类边界过采样技术合成少数类样本(Synthetic Minority Over-sampling Technique,SMOTE),并采用随机有放回欠采样方法产生多数类样本集。为了降低重采样中少数类样本数与多数类样本数盲目选取对分类器性能的影响,提出了重采样规模参数确定模型。通过利用朴素贝叶斯算法对多组不同重采样规模下二类别分类模型性能进行仿真,得出二分类重采样规模是由最小类样本数和最大类样本数的比值确定。研究还发现,F-measure最大值与最小类样本数和属性数的比值之间的关系符合Logistic曲线,该算法的性能与少数类样本数和属性数的比值之间存在密切关系,当最小类样本数和属性数的比值小于3时,分类器性能较差。此外,实验结果表明,集成学习算法可以有效地提高分类器的性能。(2)以污水处理过程水质参数为研究对象,提出基于主成分分析(PrincipalComponent Analysis,PCA)和Bagging集成策略的污水处理状态监测智能诊断模型。首先利用因子分析与旋转对污水处理过程各单元工业参数进行了定量分析,得出污水处理过程多传感器融合系统中不同信息源之间的关系,揭示了能够表征污水处理过程水质变化的本质属性。当主成分对原始信息的解释率达到81.65%时,主成分个数从38个降低为10个,降低了噪声和信息冗余的影响。在PCA预处理的基础上,分别采用经典BPNN、kNN及朴素贝叶斯算法对污水处理各单元监测状态进行分类,大大缩短了实际状态监测诊断时间,达到自动快速预测污水处理监测状态的目的。针对非均衡数据少数类识别率较低这一问题,提出基于PCA预处理集成学习模型(PCA-Bagging)。其中基于PCA预处理集成学习B-PCA-CNB、B-PCA-CkNN和B-PCA-CBPNN算法的总识别率分别比经典NB、经典kNN和经典BPNN算法高9.27%、19.87%和5.30%,少数类C2识别正确率前者比后者分别高5.71%、48.57%和20.00%,少数类C3识别正确率前者比后者分别高10.00%、65.00%和20.00%。由此可知,基于PCA-Bagging优于经典BPNN、kNN和朴素贝叶斯模型。(3)以污水处理活性污泥微生物数据为研究对象,提出均衡支持向量反向传播(BSV-BP)神经网络活性污泥质量评估模型。首先利用专家知识和信息熵特征选择方法进行分析,确定八种微生物作为表征活性污泥质量的属性特征。然后结合专家经验和k均值聚类方法,将活性污泥质量等级确定四个类别。通过来自某污水处理厂两年数据分析,这四类样本是一个典型的类分布不均衡数据。为了降低各类样本分布的不均衡程度,采用支持向量机(Support Vector Machine,SVM)算法寻找原训练集的支持向量,产生相对均衡的新训练集,在此基础上利用BPNN算法进行分类。为了验证模型的有效性,文中采用ROC曲线下的面积(AUC)度量方法对分类器性能进行评估。由仿真结果可知,BSV-BP算法不仅有效去除了原始训练集中的冗余信息和噪声,而且降低了分类器的训练时间。BSV-BP算法AUC比经典BPNN算法的AUC值高6.9%。总识别率和各类识别率均较BPNN和SVM算法高。该算法的使用可有效提高活性污泥质量等级自动分类能力,便于及时发现污水处理突发状况,提高污泥回流量与剩余污泥排放量的精度,从而达到节能降耗的目的。(4)水质评估模型是进行水质规划、环境水污染控制和环境管理的有效工具。本文利用遗传算法(GeneticAlgorithms,GA)对SVM分类算法的径向基核函数参数和错分惩罚因子C进行组合优化,建立进化支持向量机模型。为了验证该模型的有效性,将该模型应用于松花江松原段、松花江哈尔滨段和黄河甘肃段的实际水质评估中。仿真模拟表明,所提出的进化支持向量机水质评估模型在分类精度和泛化能力上较经典SVM方法均有所提高,验证了该方法的有效性。
其他文献
<正> 北京是辽金元明清五朝国都所在,帝室宝藏荟萃于此。故宫保藏历代名窑瓷器量多质精,居世界第一。推其来源,或得之赵宋旧藏:或烧造于明清官窑厂、御器厂;或来自地方名窑贡
为科学管理森林资源,充分发挥其综合效益,利用1985年和2007年两期森林资源二类调查资料,对陕西省汉西林业局森林资源动态和林分的碳素特征进行了分析,结果如下:(1)1985~2007年22年间,
文章通过对北京市政交通一卡通(以下简称"一卡通")与香港八达通卡功能的对比分析,指出了北京市一卡通存在的问题,并依据市场营销组合理论(即4P理论)分析其优化策略,提出基于4
随着经济全球化和信息全球化的发展,跨境电子商务蓬勃发展,给企业带来了新的挑战和发展机遇。本文结合当前国内外的电子商务发展现状,分析了中国邮政进军跨境电子商务的优势
<正>关于陈抟与"太极图"的关系,我们认为北宋理学开山祖周敦颐虽然对"太极图"作过符合儒家价值理想的改造,但《宋史·朱震传》关于陈抟传"太极图"之说仍然不宜轻易否定。《宋
近年来,云计算(Cloud Computing)作为IT资源使用的一种新模式,具有计算能力强、按需提供服务、高可靠性、IT基础设施投入低等优点,所以越来越受到学术界、产业界、政府等各界的
浙江作为全国经济比较发达的省份,依据现有条件,各市区体育公共服务的发展能满足人民的需求吗?满足到什么程度?各市区之间体育公共服务资源配置如何?经济发达的地区就一定要比欠发
格日勒其木格·黑鹤是近年迅速崛起的蒙古族作家,他写动物小说和之前的沈石溪等人不同,不是以动物拟人,以动物间的关系喻指人与人之间的关系,而是将动物还原于自然界,把动物当动物
设计模式思想起源于建筑设计领域,其主旨是针对常见的设计问题提供已存在的有效解决方案,从而充分利用前人的经验和成果解决设计问题,避免无意义的重复劳动。该思想强调解决设计
在现代社会工业化和城市化进程中,随着我国经济的快速发展和人民生活水平的不断提高,基础设施对区域经济发展的溢出效应明显,社会需求日益增加,其建设速度和规模也在进一步加大。