论文部分内容阅读
半监督学习是近几年来机器学习的一大研究热点,相比于传统的无监督和监督学习,半监督学习同时利用有标记和无标记样本来提高学习效果。其中,半监督聚类是半监督学习的一个重要分支,在处理图像分类以及人脸识别等应用中可见其重要作用。
随着数据采集技术的发展,数据采集的种类越来越多,维数越来越高。现有的半监督聚类算法和传统的聚类算法一样,时间效率随着数据的维数增长呈指数增长。一个行之有效的方法是先通过对数据集进行降维,再用传统的算法进行聚类。但现有的半监督降维算法在利用未标记数据时,没有考虑数据点之间的距离关系,导致降维以后数据点之间的距离关系产生偏差,降维效果并不理想。同时,现有的半监督聚类算法通常使用单个质心来代表一个簇,只适合类球形的簇,难以适合非球形的簇。而且当数据集中出现离群点时,也会干扰数据集的聚类效果。因此,本文主要研究能保持数据点之间距离关系的高维数据的降维算法;研究非球形簇的聚类问题;研究消除离群点对聚类精度影响的半监督聚类算法。论文的主要贡献如下:
(1)通过对现有的半监督聚类和降维算法的分析,发现现有的半监督聚类算法存在只适合球形簇的聚类,聚类结果对离群数据敏感;数据在降维以后不能够保持数据集之间的距离远近关系等局限。
(2)提出基于代表点的方法解决非球形簇的聚类问题,即基于成对约束的半监督聚类算法SBIRCH。算法在BIRCH算法的基础上,通过选取多个点来代表一个簇,解决传统算法只用单个质心来表示一个簇,不适合非球形的几何形状簇的问题。同时在聚类算法结束前通过剔除单个点的簇来解决离群点对聚类的影响。实验结果表明,该算法可有效解决任意形状簇的聚类问题,减少离群点对聚类结果的影响,提高聚类精度。
(3)提出基于距离权值的方法解决高维数据降维后距离关系发生偏差的问题,即基于权值的局部保持半监督降维算法WSSDR。该算法不仅利用正、负约束信息,同时利用数据点之间的距离权值来保持数据点之间的距离关系,使得高维数据在降维以后仍保持远近关系不变,从而保持数据集所在的低维流形结构。通过实验表明,该算法能够有效解决降维后数据点之间因维数的缺少而产生的远近关系偏差,提高降维效果。
(4)提出一种基于半监督的高维聚类算法。该算法首先利用WSSDR算法对高维数据进行降维处理,然后再利用SBIRCH算法对降维后的数据进行聚类。实验结果表明,该算法在降维阶段能够有效的保持数据点之间的距离远近关系,同时解决任意形状簇的聚类问题,提高高维数据聚类精度。