论文部分内容阅读
在很多真实应用中,收集大量数据相当容易,但为大量数据提供类别标记则比较困难。因此,如何利用大量的、廉价的未标记数据来辅助提高学习器泛化能力成为机器学习和数据挖掘中的一个备受关注的重要问题。半监督学习试图不需人工干预地利用未标记数据来辅助提高泛化能力,目前已形成一个热门研究领域。协同训练是一种著名的半监督学习风范,它使用两个学习器相互标记样本的方式来利用未标记数据进行学习。传统协同训练技术依赖于两个“充分冗余视图”,即两个属性集,每个属性集都足以训练出一个强学习器,且两个属性集给定类别标记时条件独立。然而,真实问题往往不具有两个这样的视图,使得传统协同训练技术在很多真实问题中难以发挥作用。为了使协同训练技术在只具有一个属性集的常规数据上也能发挥作用,本文对单视图协同训练方法进行了研究,主要取得了如下创新成果:
(1)提出了单视图三分类器协同训练方法tri-training。该方法通过使用三个分类器,实现了高效的标记置信度隐式估计,既不要求数据具有双视图,也不要求采用特殊的学习算法。
(2)提出了单视图协同训练集成学习方法Co-Forest,并将其用于计算机辅助乳腺病诊断。该方法有效地利用未标记数据构建半监督集成,具有强泛化能力;应用表明,该方法可以显著降低乳腺病诊断的假阴性率。
(3)提出了单视图协同训练回归学习方法COREG。该方法克服了直接进行回归标记置信度估计的困难,可以使用不同配置的回归器有效地利用未标记数据提高回归学习性能。
(4)提出了单视图协同训练排序学习方法SSRank,并将其用于互联网搜索。该方法有效结合了排序学习与传统文档检索技术的优点,可以有效地确定未标记示例在排序中的相对关系;应用表明,该方法可以显著提高搜索结果的准确性。
(5)提出了基于数据审计的单视图半监督学习方法SETRED。该方法针对易受噪声影响的协同训练的特例——自我训练,在学习过程中引入数据审计技术,有效地缓解了学习过程中的噪声积累问题。