论文部分内容阅读
传统的机器学习中,要获得一个良好的分类器需要足够的有标号数据。然而在很多现实任务中,如生物基因分析、Web数据挖掘等领域,随着数据收集和存储技术的发展,获得大量无标号的数据相当容易,而对数据进行标注却非常困难或者代价高昂。因此,如何在少量有标号数据上提高分类器的泛化能力,成为了当前机器学习领域倍受关注的重要问题之一半监督学习在有标号数据的基础上,结合无标号数据进行学习,可以有效地克服标注瓶颈问题,有着非常强的现实意义和广阔的发展前景。在半监督学习中,协同训练类算法对无标号数据的利用方式简单且易于控制,不需要额外的先验知识进行模型假设,便于结合现有的学习模型,是半监督学习中在实际应用取得广泛成功的一类算法。在另一方面,集成学习结合多个差异性的基分类器来提高系统的泛化能力,近年来出现了一些在集成学习中利用无标号数据的新算法。这些算法与协同训练类算法都是通过利用基分类器之间的差异来利用无标号数据,从而提高系统的泛化能力,我们把它们统称为基于差异的半监督学习算法。如何创造并有效利用基分类器之间的差异,以及如何控制伪标号数据中的噪声,是这类算法所面临的主要问题。本文主要基于协同训练算法,并结合集成学习,进行了一系列算法及相关理论方面的研究。主要研究内容与创新点可以归纳如下:第一,开展了在协同训练的框架下结合生成性方法和判别性方法的研究。通过这两类互补性很强的学习算法获得协同训练所需要的差异性,使协同训练算法不再依赖于现实中难以满足独立视角;本文还在协同训练算法中引入一种可回溯的机制,极大提高了对无标号数据利用的安全性。此外,本文采用一对线性权重参数来调节伪标号数据权重,避免了目标函数非凸而陷入局部最优解的问题,并定义了一个混合目标函数在迭代训练过程中动态估算权重参数的值。第二,在总结现有的协同训练类算法的基础上,本文提出一种更广泛意义上的多分类器、多差异来源的协同训练新框架Co-learning,并根据训练方式的不同提出两种具体的算法。此外,针对迭代训练过程中差异性减少的问题,本文提出一种通过操纵伪标号数据为基分类器创造差异的新方法。第三,研究了协同训练类算法和集成学习的结合,并根据集成方法的不同,提出两种针对性算法:SECL和PECL算法;提出一种结合置信度的投票边缘函数,用于伪标号数据的选择和最终分类。此外,本文还提出一种带权重的装袋算法,用于在迭代训练结束后生成分类器集合。第四,在理论方面,针对基于差异的半监督学习的特点,本文定义了一种分类噪音和分布噪音相混合的新噪声形式,HCAD噪声,并给出协同训练类算法在HCAD噪声下的概率近似正确(PAC)的理论分析;对于多分类器的结合,本文基于投票边缘函数,给出了在存在HCAD噪声的情况下,多分类器集成的泛化误差上界。