论文部分内容阅读
如何从有限的观测数据中学习是机器学习的一个经典难题。在传统的监督学习中,学习器需要对大量的有标记数据进行学习,从而建立模型来对无法观测的数据或未见数据进行预测。然而当有标记数据的数量较少时,利用它们所训练出的学习器往往很难有较好的泛化性能。在无监督学习中,由于没有标记数据,聚类算法的聚类方向具有不确定性。如何利用少量的标记数据和大量的未标记数据来获得较好的学习器,己经成为当前机器学习研究中最受关注的问题之一。半监督学习研究当有标记的数据较少时如何利用大量的未标记数据来改善学习器的性能,具有广泛的应用领域。本文在分析了各种半监督学习的研究现状及其目前仍存在的问题的基础上,主要对基于图的半监督学习理论、算法在聚类、分类和降维中的应用进行了研究,主要取得的研究成果如下:1.提出了一种基于图收缩的半监督聚类算法。首先将样本空间的整个数据集,表示为一个带权图;然后根据约束条件对图进行边收缩的修改,达到增强must-link约束的效果;在此基础上引入图拉普拉斯算子,将cannot-link约束作为一种软约束融入正则化框架。通过对图的修改,实际上就把样本空间投影到了一个子空间,在子空间上进行聚类分析。虽然该算法也使用了图拉普拉斯,但是是在经过边收缩了的图上使用的图拉普拉斯。实验证明,基于图收缩的半监督聚类算法具有较好的聚类精度和较快的聚类速度。2.提出了一种基于图的半监督学习与主动学习相结合的维数约减算法。该算法将图、半监督学习和基于支持向量机的主动学习相结合,来对高维数据进行降维处理。首先将高维度的观测数据集嵌入到一个带权图中,在图上使用特征映射方法得到高维数据的初始低维嵌入空间;然后在初始嵌入空间中对数据使用基于支持向量机的主动学习,来寻找标记模糊数据并予以标记;再使用基于图的半监督学习,在图嵌入的基础上引入一个吸引子参数使得标记相同的数据在投影子空间中靠得更近;重复上述过程直到满足结束条件。实验表明该算法对高维生物医学图像数据、基因表达数据具有较好的降维效果。3.提出了一种应用图像分割和半监督学习的图像标注算法。算法充分考虑到了图像的标注与图像局部区域之间的关系,先将图像分割为若干个局部区域,使用局部敏感的哈希表来构建图像局部区域的kNN(k Nearest Neighbours)图;然后基于图像局部区域的kNN图来构建原始图像的kNN图;再利用基于图的半监督标签传递算法来标注未标注的图像。实验证明该算法在获得较高标注精度的同时,也能获得更快的标注速度,并能应用于大型图像数据集。4.给出了一种通过图像局部区域来计算两个图像之间相似性的方法。设两幅图像分别为Im和In,经过图像分割,分别被分割为pm和pn个局部区域,Im被分割为{r1m,rpmm},In被分割为{r1n,...,rpnn}。显然,Im和In两图像之间的相似性,只与{r1m,rpmm}和{r1n,...,rpnn}相互间的k近邻相关,也就是在图像局部区域的kNN图中有边相连的局部区域对。因此在本文中给出了一种根据图像局部区域的kNN图来计算图像之间的相似性的方法。5.给出了一种寻找样本k近邻的方法。该方法通过哈希表和样本局部属性的kNN图来寻找样本的k近邻。实验表明该方法寻找k近邻的速度要高于线性扫描寻找k近邻。