论文部分内容阅读
监督学习是对标记数据所包含信息进行学习,得出分类模型后对无标记数据进行分类,而无监督学习是直接对无标记数据信息进行学习。获取标记数据时需要耗费一定的人力和物力资源,则大量标记数据的获取通常比较困难,然而伴随着信息技术的飞速发展,收集大量未标记数据则相当容易。若只使用少量标记数据,有监督学习训练所得学习模型不具有良好的泛化能力,同时浪费了大量未标记数据所包含的信息;若只使用大量未标记数据,无监督学习则忽略了标记数据的价值,造成资源浪费。因此,如何有效地利用少量标记数据和大量未标记数据共同改善学习性能的半监督学习成为当前机器学习研究中的热点问题之一。半监督学习分为半监督聚类和半监督分类。半监督分类是从监督学习的角度出发,在标记训练样本不足时利用大量未标记样本信息辅助分类器的训练,进而提升算法的学习精度。极限学习机是近年来提出的一种新颖的机器学习算法,与传统神经网络模型不同,极限学习机只要求激活函数无穷阶可微,在输入权值和隐藏层偏置值随机设置的情况下,神经网络的所有参数就不必迭代调整,并且只通过一步计算即可解析求出网络的输出权值。算法结构简单计算速率快。算法优良的特性使其广泛应用于函数逼近、模式识别、数据分类等领域。但是,当极限学习机应用于分类问题时,由标记样本训练得出的极限学习机的分类模型分类正确率会随着标记样本的减少而降低。当获取有标记数据较为困难,而同时存在大量未标记数据时,利用极限学习机算法与半监督学习的优点,提出了基于极限学习机的半监督分类算法,本文所做工作如下:(1)提出结合模糊C均值与极限学习机的半监督分类算法。当数据集具有较少标记样本时,训练得出的极限学习机分类模型的分类正确率较低,这里使用模糊C均值与极限学习机算法利用大量未标记样本信息对标记样本进行扩充,从而实现半监督分类,当数据集标记样本较少时,该算法分类正确率明显优于传统无监督聚类算法FCM以及有监督极限学习机分类算法。(2)模糊C均值算法具有易陷入局部最优和初始化敏感的缺点。这里使用全局C均值算法对第三章算法进行改进,全局模糊C均值算法,通过动态增加聚类中心的方式,不依赖于任何的初始条件,结合全局C均值与极限学习机的半监督分类算法进一步提高了算法性能。(3)对进化极限学习机进行研究,使用差分进化算法优化极限学习机网络参数,提出基于差分进化极限学习机的半监督分类算法,优化极限学习机神经网络模型的同时提高了分类效果。