论文部分内容阅读
基于标签数据的半监督聚类利用标签数据提供的信息对聚类过程进行指导,以提高聚类算法的性能。如果标签数据的数量很少,则其分布很有可能无法覆盖到数据集中所有的类,亦即数据集中可能存在某些类,这些类不包含任何的标签数据,现有的半监督聚类算法将强制性地将这些类中的数据划分到其它的类中。当涉及到多密度不平衡数据集时,如使用随机方法选取标签数据,且只有少量的数据点被选取为标签数据的情况下,上述问题将尤为突出。针对以上问题,本论文将对极少量标签数据下的半监督聚类进行研究,同时研究多密度不平衡数据集上的标签数据的主动选取策略,以所选的标签数据为基础构建半监督聚类算法,并将其应用于复杂网络社团结构的检测、分析之中。社团结构是复杂网络的最重要的特性之一,提取网络的社团结构具有非常重要的实际意义,因此社团检测已经成为统计物理、计算机科学、生物信息学等学科的一个重要的研究方向。本论文的主要研究成果如下:(1)提出了一种基于极少量标签数据的半监督K均值聚类算法。该方法利用标签数据计算同一个类中的数据之间的相似性阈值,如果无标签数据与已有类中心距离的最小值大于该阈值,则增加一个聚类中心,重复这一过程,直到数据集中所有的数据到已有中心的距离的最小值都不大于该阈值。由于数据的相似性阈值是根据有限的标签数据获得的,这样获得的聚类中心的数目要比数据集中实际类的数目多,因此K均值聚类结果中类数目要比实际类的数目多。本论文提出了一种称之为类间影响因子的概念来度量类之间的相似性,根据类之间的影响因子的值对聚类结果中相应的类进行合并,最终得到一个聚类精度较高的半监督K均值聚类算法。(2)提出了一种基于少量标签数据和标签传播的半监督聚类算法。该方法首先通过将标签数据的类别标签传递给其K个最近邻的方式扩展标签数据集;扩展过程结束后,如果剩余的无标签核心对象与已有类的距离大于指定的阈值,则增加一个新类,然后对该类进行扩充,扩充过程结束后再对新类进行检测,重复这一过程直到剩余的无标签数据中的核心对象与已有类之间的距离都小于指定的阈值。(3)针对多密度不平衡数据集提出了一种主动半监督聚类算法。该方法首先利用最小生成树聚类方法将数据集划分为不相交的子集,在每个子集上选取密度最大的一个数据点交由领域专家进行标注,使其成为标签数据;然后按照标签数据的类别标签再将最小生成树的聚类结果进行合并形成初始的聚类结果;最后在每个类内根据类内数据的密度对标签数据集进行扩展,扩展结束后再利用K最近邻规则处理剩余的无标签数据。(4)提出了一种基于标签传播的主动半监督社团检测算法。首先根据节点密度找出所有的核心节点,利用加权最短路径方法主动从网络的核心节点中进行节点选取,使选取的节点能够尽可能地分布到网络中所有的社团;然后将选取的节点作为标签节点,基于标签传播阈值(算法根据标签节点自己的特征自动获取该阈值)逐步将标签节点的社团标签传播到其邻居;最后使用修改的LPA(LabelPropagation Algorithm)算法对网络中剩余的无标签节点赋予一个社团标签。(5)提出了一种非对称相似性度量,基于该度量构建了一个快速主动半监督社团检测算法。提出的非对称相似性度量方法能够更好地度量网络中相邻节点之间的相似性。提出的主动半监督社团检测算法部分地将社团检测过程融入到了节点的主动选取过程中,大大降低了半监督社团检测算法的时间复杂度。