论文部分内容阅读
进入大数据时代,数据规模愈来愈大,相应的数据标记成本也随着数据量的增加而增加,利用大量未标记样本辅助标记样本的分类器训练的好处也随之凸显出来。半监督学习作为机器学习领域中利用未标记样本信息的方法之一,不像主动学习那样需要人为交互,越来越受到大量研究人员的关注。半监督学习主要从利用大量未标记样本辅助标记样本的训练考虑,结合了监督学习和无监督学习的手段,一般而言利用监督学习去挖掘标记样本中信息,而用无监督手段去提炼未标记样本包含的知识。而半监督学习通常依赖模型假设,模型假设贴近实际时,半监督方法的学习性能才能凸显出来,常用的有聚类假设和流形假设。基于这两种假设衍生了一些比较具有代表性的半监督学习方法,在分类应用场景中,基于图的半监督方法就是基于流形假设的,基于大间隔的半监督方法则是根据聚类假设。对此,以目前一些基于成熟理论发展的相关算法和最新研究的成果为基础,本文展开了如下的研究工作。(1)归纳了半监督学习方法的一般特点,从充分利用标记样本等监督信息知识和有效学习未标记样本知识这两个方面考虑来提高分类器性能,结合了流形框架的知识,提出了流形与成对约束联合正则化半监督分类方法。在流形正则化(Manifold Regularization,MR)框架的基础上引入了一项能够有效利用监督信息的约束项,该约束项能够让我们在原有基础上将数据标签转化成成对约束,从而可以进一步的利用到我们已知的监督信息;同时流形正则化框架中的流形正则化项能够保持样本间局部几何结构的特点保留了流形学习方法在利用未标记样本上的优势。(2)针对新提出来的修正聚类假设思想,即相似的个体应该具有相似的类隶属度而不是明确的类标签,在极大熵推理准则下,引入类似于信息熵的平方熵,并提出了基于类隶属度和平方熵的半监督分类方法。一方面,新方法继承了修正聚类假设对边界交叉数据模糊划分的能力,另一方面,极大熵准则的引入,也克服了原来修正聚类假设方法存在的概率偏差问题并保证了算法在优化过程中能够取得无偏概率估计的效果。