论文部分内容阅读
半监督学习是一种应用驱动而产生的机器学习方法,已经成为人工智能和模式识别领域的研究热点之一。作为该领域的主要分支,半监督聚类将给定的少量监督信息引入最优聚类的搜索过程中,来改善算法性能;半监督分类试图挖掘无标记样本所隐含的有用信息来辅助分类器的训练。近年来,研究学者们不断提出了各种半监督聚类或分类方法,并将其应用于自然语言处理、图像处理和生物特征识别等实际领域中。 Tri-training算法作为协同训练机制的代表性算法,虽然能够利用分类器完成对无标记样本的标注,但是它需要给定足够多的有标记样本来保证初始得到的分类器具有较大的差异性,同时也无法处理监督信息中包含成对约束的情形。 因此,鉴于上述不足,本文以Tri-training算法为出发点,研究当给定不同形式的监督信息时,如何有效选取并标注无标记样本,来实现半监督聚类和半监督分类。 主要内容包括以下三个方面: (1)针对监督信息中既给定有标记样本又包含成对约束的情形,设计了一种基于Tri-training的半监督聚类算法。该算法首先结合Tri-training方法,选取某些无标记样本并提供类别标记,来增加原始有标记样本的数量;然后利用样本间的约束关系来优化扩充得到的有标记样本集,以改善其质量;最后根据优化后的有标记样本集来获取K-Means算法所需的类中心,同时在聚类的过程中,运用成对约束对每一次的划分结果进行调整。通过与K-Means、Seeded-K-Means和COP-K-Means算法的比较实验表明,提出的算法能够充分利用给定的监督信息,并得到较好的聚类结果。 (2)针对监督信息中只给定少量有标记样本的情形,提出了一种基于Tri-training和少量标记样本的主动半监督分类算法。该算法借鉴主动学习思想,从无标记样本集中选取最有可能被错误标记和最有可能代表类特征的样本,交由专家用户进行标注,来增加原始有标记样本的数量。对比实验表明,当给定的初始有标记样本数量很少,Tri-training算法无法取得满意的效果时,提出的算法能够获得具有较好分类能力的学习模型。 (3)针对监督信息中只给定成对约束的情形,给出了一种基于Tri-training和成对约束的主动半监督分类算法。该算法运用样本间的约束关系从中选择有价值的样本交由专家用户进行标注,来得到有标记样本集;同时在半监督分类的过程中,利用成对约束优化每次用于重新训练分类器的有标记样本集,以提高数据使用的安全性。实验结果表明,与Tri-training方法相比,提出的算法能够有效处理监督信息包含成对约束的半监督学习情形;同时,与未引入成对约束优化机制的方法相比,提出的算法不仅提高了预测精度,而且受参数变化影响较小,性能较稳定。 针对给定不同形式的监督信息,本文的研究成果为如何开展有效地半监督学习研究提供了参考,也进一步扩展了Tri-training算法在实际领域中的应用前景。