论文部分内容阅读
分类问题在生活中普遍存在。在二分类问题上,有许多成熟的算法得到了广泛的应用。但是关于多分类问题,特别是当类别较多并且数据复杂时,大多数的机器学习算法不能达到令人满意的分类效果。因此多分类问题存在很大的研究空间。神经网络方法凭借着出色的非线性处理能力和自学习能力而被广泛地用来处理多分类问题。最常用的为BP神经网络多分类算法。但是在面对大量的复杂数据时,BP算法存在收敛效率低,易得局部最优解和过于依赖初始值参数等缺点,所以有研究者在神经网络中加入了随机的思想,提出了随机权神经网络。随机权神经网络凭借着其收敛速度快、不易陷入局部最优、训练过程简单易于实现等优点而被广泛地研究和应用。随机配置网络(SCN)是一种特殊的随机权神经网络,其网络结构是在特定的监督机制下,根据训练误差最小化逐步生成的。随机配置网络解决了人为经验选择隐藏层节点数目的问题,并且灵活性更强。本文将SCN应用在多分类问题上。为了更好地处理多分类问题,做了如下改进:(1)在SCN模型中加入了L2正则化项,提高SCN的泛化能力;(2)采用更适合处理分类数据的高斯径向基函数代替Sigmoid函数;(3)当分类数据中类不平衡时,将会影响模型分类效果。所以根据代价敏感学习方法(CSL)提出了加权SCN算法(WSCN)。在进一步研究中发现:当多分类问题中类别较多,并且某些类别之间差距较小时,神经网络算法会不可避免地出现误分类的情况。所以本文在使用WSCN算法对原始数据进行初次分类后,根据概率得分最高对应的两个类别,将数据划分为若干个二分类的数据子集;然后使用分类效果较好的随机森林算法对若干个数据子集进行再次分类。最后根据随机森林的分类结果判断样本属于WSCN算法初次分类的前两类中的哪一类。最后在UCI网站上选取10个真实的多分类数据集进行实验验证。首先验证了加权SCN算法(WSCN)的有效性;然后分析了误分类的存在性和使用其他算法再次分类的一个必要性;最后将WSCN-RF集成算法与BP神经网络多分类算法以及随机森林算法等进行比较,结果表明:本文提出的WSCN-RF算法在分类精度上优于其他多分类算法。