论文部分内容阅读
在数据挖掘应用领域(如Web页面分类),收集大量未标记的实例已相当容易,而标记这些实例却需要耗费大量的人力物力。因此在有标记实例较少时,如何利用大量的未标记实例来改善学习性能已成为一个研究热点,半监督学习是其中一种主流学习技术,而协同学习又是半监督学习中有代表的一类算法。协同学习成功的关键在于构建准确而又有差异的基分类器,经典的协同学习算法有Co-Training、Tri-Training、COTRADE等。其中大多数的算法采用自助采样来构建此分类器,而自助采样不能够充分利用全部已标记实例集的信息,加之已标记实例本就特别稀少,使得学习到的分类器很难具有强泛化能力,从而影响了分类器的性能。为了缓解上面提到的问题,本文提出了一种基于特征变换的协同学习方法,选取Tri-Training算法作为代表,将特征变换应用于Tri-Training中。与传统的Tri-Training不同,该方法使用特征变换把全部已标记训练实例集映射到新空间,得到有差异的训练集,从而避免了自助抽样带来的问题。这样做的另外一个原因是:基于特征变换的方法更容易构建准确而又有差异的基分类器。为了充分利用数据集的类分布信息,本文构建了一种新的基于Must-link和Cannot-link约束集合的特征变换TMC(Transformation based on Must-linkconstrains and Cannot-link constrains),并将其用于基于特征变换的Tri-Training方法中。在UCI数据集上的实验结果显示:在不同的未标记比率下,相比于传统的Co-Training和Tri-Training算法,采用基于特征变换的Tri-Training算法总是在绝大多数数据集上具有更高的准确率。另外,较之于算法Tri-LDA和Tri-CP,基于TMC的Tri-Training方法表现出更好的泛化性能。