论文部分内容阅读
非平衡分类问题是当前数据挖掘和机器学习领域中一个重要的课题,目前该问题已经引起了越来越多的关注,对学术界和工业界来说都是一个相对较新的挑战。非平衡分类问题涉及在数据不足或者严重的类别分布偏差的情况下对数据进行分类。由于非平衡数据集固有的复杂特性,需要更多新的算法和工具,以实现将大量原始数据有效地转换为有用的信息和知识。极限学习机算法由于其优秀的性能和较快的计算效率,成为热门的分类方法。但不可否认的是,由于其简单的参数设置方法,它存在一些固有的缺陷。如何提高已有算法的分类性能,以及应对更多特定的非平衡分类的实际问题,是目前亟需解决的问题。本文在极限学习机算法的基础上,从算法层面研究非平衡分类问题。本文的主要研究工作如下:(1)针对极限学习机算法随机初始化参数导致的缺陷,提出了基于头脑风暴优化算法的改进加权极限学习机算法。该算法在加权极限学习机网络的基础之上,利用头脑风暴优化算法来优化其网络的隐含层参数,并用面向非平衡数据集的评价指标同时对多数类和少数类的分类情况进行评估,实验结果证明,该方法可以有效提高加权极限学习机对非平衡数据的分类精度,并且效果稳定。(2)针对极限学习机的网络结构,提出了一种变维度头脑风暴算法的自适应CCR-ELM算法。该算法不仅优化了隐含层参数以及折衷因子,同时对隐含层节点进行优化;由于隐含层参数的长度由隐含层节点数决定,优化过程中种群个体长度会发生变化,为此提出了一种变维度头脑风暴算法,利用它找到当前最优的CCR-ELM网络结构。实验证明所提算法性能稳定,且不受非平衡率影响。(3)针对已标记数据较少的非平衡分类问题,提出了一种迁移加权极限学习机算法。采用迁移学习策略以实现源域数据到目标域数据之间的知识迁移,并以少量未标记目标域数据为导向样本,构建新的分类器,实现对目标域中的非平衡数据进行分类。实验证明,所提算法与两个非平衡分类算法和两个迁移极限学习机算法相比,具有更好并且更稳定的分类性能,同时继承了极限学习机类算法的优点,具有较快的运算效率。将所提算法应用到煤矿皮带故障诊断问题中,验证了该算法在实际应用中的有效性。