论文部分内容阅读
半监督学习(Semi-Supervised Learning)利用少量昂贵的标记样本和大量廉价的未标记样本构建并强化分类器,它是一种非常重要的机器学习方法。近年来,半监督学习逐渐成为机器学习的一个研究热点。在众多半监督学习方法中,协同训练(Collaborative Training)是一种取得较多研究成果的半监督学习范式。协同训练算法在训练样本的初始己标记样本集上,训练出至少两个分类器,然后,轮流地选定它们其中的一个为主分类器,其余的为辅助分类器,辅助分类器对未标记样本进行预测,并把它们预测置信度较高的样本标记提供给主分类器,主分类器在更新的有标记样本的基础上重新训练。协同训练算法由于能够综合利用同类样本的多个视图和多个分类器上的预测结果,通常能够获得较传统监督式算法更高的精度。然而,在多数协同训练算法中,尤其在算法初始阶段,由于有标记样本较少,在此基础上训练出的基础分类器初始分类精度通常比较低,对未标记样本进行预测时容易产生错误标记,为后续协同训练过程引入噪声数据,进而影响协同训练算法的精度。针对协同训练算法目前存在的问题,本文借助样本分布信息和主动学习中的样本选择策略,定义了样本标记不确定性、样本代表性等度量方法并把它们引入到协同训练算法中,进一步提高协同训练算法的效率和精度。论文主要工作包含如下2个方面:(1)提出了一种基于样本代表性的协同训练算法——EnCoTrain。为了减少协同训练算法噪声数据的引入,本文根据样本分布信息,定义了一种样本代表性度量,基于此度量提出一种具有噪声过滤功能的协同训练算法。具体来讲,在协同训练算法的每次迭代过程中,计算辅助分类器标记一致的未标记样本的样本代表性,将代表性最高的若干样本的标记提供给主分类器,在此基础上更新主分类器。为了验证本算法的性能,我们将EnCoTrain分别与标准协同训练算法Co-Training、 Tri-Training、Co-Forest等进行对比。在UCI数据集上的实验证明,该算法对多种协同训练算法的精度均有一定的提升作用。(2)进一步提出了一种基于样本信息量和代表性的增强协同训练算法Boost-CoTrain。本文借助主动学习中的样本选择方法,基于样本信息量和样本代表性,定义了一种能有效衡量未标记样本标记不确定性的度量函数,并将该度量函数用于传统协同训练算法。具体地,在协同训练的每次迭代过程中,将标记最不确定的若干未标记样本交由辅助分类器标注,并将标记后的样本用于主分类器的强化训练。在实验中,我们将Boost-CoTrain与标准协同训练算法Co-Training、只有样本信息量的Boost-CoTrain、只有样本代表性的Boost-CoTrain、无权值的Boost-CoTrain进行对比。实验结果表明,Boost-CoTrain算法有效提高了协同训练算法的性能。