论文部分内容阅读
传统的监督问题,往往需要大量的已标记样本进行训练。但是在很多应用领域,例如图像检索、文本分类和自然语言处理等,未标记样本往往可以很容易的获得。而要人工的标记这些未知样本,却需要大量的人力以及物力,因此如何有效地利用大量的未标记样本是值得研究的问题。PU(Positive and Unlabeled)问题与半监督(Semi-supervised)问题,就是这样的特殊问题。它们都包含少量的有标记样本以及大量的无标记样本。如何处理PU问题以及半监督问题,已经日益成为研究的热点之一,并且在理论以及应用方面有了很大的进展。本文针对于PU问题以及半监督问题,基于非平行支持向量机以及Universum数据集,提出了求解PU问题以及半监督问题的若干新模型,并给求了相应的求解算法。大量的UCI公开数据实验与文本分类数据的测试证明了我们算法的有效性。 针对于PU问题与半监督问题,本文主要提出以下三种算法: (1)提出了基于非平行支持向量机的PU问题求解模型。 非平行支持向量机(Nonparallel Support Vector Machine,NPSVM)相对于标准支持向量机已在很多方面证实了其优越性,因此在本文中我们将NPSVM应用到PU问题中。类似于Biased-SVM,NPSVM将所有的未标记点看作带有噪声的负类点。在此问题上,我们将NPSVM模型进行改进:对于第一个原始问题,所有的正类点都对正类的中心超平面起作用,对于第二个原始问题,只有一部分的负类点对负类的中心超平面起作用。通过参数调节,NPSVM可以很好的处理样本不均衡的问题。同时通过核函数的引入,很容易的得到模型的非线性形式。我们还给出了选取参数的参照公式。该模型继承了NPSVM的全部优点。 (2)提出了基于Universum数据集的PU问题求解模型。 提出了基于Universum数据集的Biased-SVM模型U-BSVM。首先把PU分类问题转化为一个非均衡的两分类问题,在Universum-SVM的思想下,引入Universum数据集,来挖掘未标记点中的潜在信息,以提高分类的准确率。通过Universum数据集的引入,可以很好地刻画出“真正”的正类点以及“真正”的负类点的决策超平面,尽量地挖掘出样本整体的分布信息。U-BSVM的决策超平面除了满足标准支持向量机中的间隔最大外,还穿过Universums数据集的中心。由于不同的Universum数据集会产生不同的效果,我们构建了不同的Universum数据集来比较不同的结果,并提出构建合适Universum数据集的方法。理论上Biased-SVM是U-BSVM一个特例,而实验结果也表明U-BSVM比Biased-SVM好。 (3)提出了基于Universum数据集的半监督问题求解模型。 半监督问题中,存在少量的正类点,负类点以及大量的未标记点。如果忽视大量的未标记点,将会降低算法的分类准确性。为了挖掘在半监督问题中潜在的一些先验信息,我们同样引入了Universum数据集,提出了基于Universum数据集的半监督问题求解模型U-SVM。U-SVM利用已经标记的的正类点,负类点以及基于所有点构造的Universum数据集,采用U-SVM进行训练。采用训练得到的模型,来标记可靠的正类点以及可靠的负类点,以生成新的训练集。通过迭代的方法来重复上述过程,直到满足某种迭代终止条件。此外,不同的Universum数据集会产生不同的效果,因此我们构建了4种不同Universum数据集来说明算法的有效性。最后采用人工数据集以及公开的数据集针对于不同的算法进行了数值实验的比较。实验结果显示,合理的Universum数据集可以提高算法的效率以及正确率,并且可以降低迭代的次数。