论文部分内容阅读
在传统机器学习算法中,一个样本仅对应单个类别标记。而现实世界中,一个对象往往同时具备多个语义信息。为了对这些多义性对象进行建模,多标记学习算法应运而生。在多标记学习范式下,每个对象以一个示例来描述其特征信息,并以一个与之对应的标记集合来描述其语义信息。集成学习作为一类重要的机器学习技术,可以有效提升学习算法的泛化性能。本文将集成学习技术用于求解多标记学习问题,主要做了如下两方面的工作:一方面,现实世界的很多应用都可以轻易地获取大量数据,而获取这些数据的真实标记却极为费时且昂贵,该问题在多标记学习中显得尤为突出。因此,通过对未标记数据的利用来提高学习系统的性能具有重要的研究价值。本文对传统的协同训练半监督学习方法进行扩展,提出了一种新的多标记半监督学习方法COINS(CO-training for INductive Semi-supervised multi-label learning)。相比于已有直推式多标记半监督学习方法,COINS可以实现归纳式学习建模且具有更好的泛化性能。另一方面,多标记学习中各类别标记往往具有其独特的性质,为每个标记构造反映其特性的类属属性是求解多标记学习问题的一类重要技术。LIFT算法通过聚类的方式获取每个标记的类属属性以提高系统性能,但忽视了多标记学习中尤为重要的标记相关性。本文通过聚类集成的方式将标记相关性引入类属属性的生成过程,提出了基于聚类集成的类属属性多标记学习算法LIFACE(multi-label learning with Label-speclfic Fea Tures viA Clustering Emsemble)。相比于LIFt算法,LIFTACE算法可以有效利用聚类集成机制获得更好的泛化性能。本文共分为五章。第一章主要介绍多标记学习的基本概念、研究现状,以及仍有待研究的问题;第二章给出多标记学习的问题定义,并针对有待研究的问题分析讨论了5种已有的多标记学习算法;第三章和第四章分别介绍两种基于集成学习的多标记学习算法,即基于协同训练的半监督多标记学习算法COINS以及基于聚类集成的类属属性多标记学习算法LIFTACE,并给出相应的实验结果;最后,第五章对全文做总结。