论文部分内容阅读
类分布不均衡数据广泛存在于现实世界中。在某些领域,少数类样本被正确分类的重要程度往往高于多数类。然而,大多数经典分类算法都假设样本的先验概率分布均衡或错分类代价相等。在面对非均衡分布数据时,少数类样本的信息往往被多数类样本的信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本。因此,非均衡数据分类问题的研究受到越来越多的研究者关注。针对非均衡数据分类这一问题,本文从改变数据集各类样本分布、集成学习和改进分类算法入手,提出了几种新的分类算法,并将它们应用于UCI数据集和实际生产数据集中,仿真试验验证了文中所提算法是有效的。具体工作主要有以下几点:(1)提出了基于非均衡数据集(Imbalanced Data Sets,IDS)重采样集成学习模型,并将其应用于UCI数据集。首先采用重采样技术对非均衡数据集进行预处理,得到相对均衡的训练集。然后采用经典反向传播神经网络(BackPropagation Neural Network,BPNN)、经典k近邻(k-NearestNeighbour,kNN)和经典朴素贝叶斯(Na ve Bayes,NB)三种算法作为基分类器,并利用Bagging策略得到集成学习(Ensemble Learning,EL)模型。为了验证所提算法的有效性,分别采用F-measure和G-mean方法对分类器性能进行评估。为了使训练样本符合实际分布和降低信息冗余,采用基于分类边界过采样技术合成少数类样本(Synthetic Minority Over-sampling Technique,SMOTE),并采用随机有放回欠采样方法产生多数类样本集。为了降低重采样中少数类样本数与多数类样本数盲目选取对分类器性能的影响,提出了重采样规模参数确定模型。通过利用朴素贝叶斯算法对多组不同重采样规模下二类别分类模型性能进行仿真,得出二分类重采样规模是由最小类样本数和最大类样本数的比值确定。研究还发现,F-measure最大值与最小类样本数和属性数的比值之间的关系符合Logistic曲线,该算法的性能与少数类样本数和属性数的比值之间存在密切关系,当最小类样本数和属性数的比值小于3时,分类器性能较差。此外,实验结果表明,集成学习算法可以有效地提高分类器的性能。(2)以污水处理过程水质参数为研究对象,提出基于主成分分析(PrincipalComponent Analysis,PCA)和Bagging集成策略的污水处理状态监测智能诊断模型。首先利用因子分析与旋转对污水处理过程各单元工业参数进行了定量分析,得出污水处理过程多传感器融合系统中不同信息源之间的关系,揭示了能够表征污水处理过程水质变化的本质属性。当主成分对原始信息的解释率达到81.65%时,主成分个数从38个降低为10个,降低了噪声和信息冗余的影响。在PCA预处理的基础上,分别采用经典BPNN、kNN及朴素贝叶斯算法对污水处理各单元监测状态进行分类,大大缩短了实际状态监测诊断时间,达到自动快速预测污水处理监测状态的目的。针对非均衡数据少数类识别率较低这一问题,提出基于PCA预处理集成学习模型(PCA-Bagging)。其中基于PCA预处理集成学习B-PCA-CNB、B-PCA-CkNN和B-PCA-CBPNN算法的总识别率分别比经典NB、经典kNN和经典BPNN算法高9.27%、19.87%和5.30%,少数类C2识别正确率前者比后者分别高5.71%、48.57%和20.00%,少数类C3识别正确率前者比后者分别高10.00%、65.00%和20.00%。由此可知,基于PCA-Bagging优于经典BPNN、kNN和朴素贝叶斯模型。(3)以污水处理活性污泥微生物数据为研究对象,提出均衡支持向量反向传播(BSV-BP)神经网络活性污泥质量评估模型。首先利用专家知识和信息熵特征选择方法进行分析,确定八种微生物作为表征活性污泥质量的属性特征。然后结合专家经验和k均值聚类方法,将活性污泥质量等级确定四个类别。通过来自某污水处理厂两年数据分析,这四类样本是一个典型的类分布不均衡数据。为了降低各类样本分布的不均衡程度,采用支持向量机(Support Vector Machine,SVM)算法寻找原训练集的支持向量,产生相对均衡的新训练集,在此基础上利用BPNN算法进行分类。为了验证模型的有效性,文中采用ROC曲线下的面积(AUC)度量方法对分类器性能进行评估。由仿真结果可知,BSV-BP算法不仅有效去除了原始训练集中的冗余信息和噪声,而且降低了分类器的训练时间。BSV-BP算法AUC比经典BPNN算法的AUC值高6.9%。总识别率和各类识别率均较BPNN和SVM算法高。该算法的使用可有效提高活性污泥质量等级自动分类能力,便于及时发现污水处理突发状况,提高污泥回流量与剩余污泥排放量的精度,从而达到节能降耗的目的。(4)水质评估模型是进行水质规划、环境水污染控制和环境管理的有效工具。本文利用遗传算法(GeneticAlgorithms,GA)对SVM分类算法的径向基核函数参数和错分惩罚因子C进行组合优化,建立进化支持向量机模型。为了验证该模型的有效性,将该模型应用于松花江松原段、松花江哈尔滨段和黄河甘肃段的实际水质评估中。仿真模拟表明,所提出的进化支持向量机水质评估模型在分类精度和泛化能力上较经典SVM方法均有所提高,验证了该方法的有效性。