论文部分内容阅读
聚类问题是模式分析领域最为基础的研究问题,其任务是将具有近似特性或关系密切的数据划分到同一个聚簇中。通过聚类分析可以帮助我们理解数据内部隐藏的知识。传统的聚类算法主要针对同构数据进行研究分析,采用单一的特征集合或同种类型的关系集合描述数据集的特性。然而最近随着IT技术尤其是Internet技术突飞猛进的发展,大量的异构数据集广泛出现,这些异构数据集的特性需要由多种特征集合或多种关系集合进行描述。为了有效利用异构信息,挖掘异构数据内部的聚簇结构,学术界提出了异构数据聚类分析方法,并吸引了广大科研人员的兴趣。本文的研究工作与创新之处主要包括以下几方面的内容:1.为了探测高阶异构数据内部隐藏的层次聚簇模式,针对星型高阶异构数据,提出了一种高阶层次联合聚类算法(high-order hierarchical co-clustering algorithm,HHCC)。HHCC算法利用变量相关性度量指标Goodman-Kruskal?衡量中心类型数据对象和每种非中心类型数据对象的相关性,分别将相关性较强的中心类型数据对象和非中心类型数据对象划分到不同的聚簇中。利用Goodman-Kruskal?指标评估聚类质量,Goodman-Kruskal?指标越大,聚类质量越高。利用局部迭代搜索方法优化Goodman-Kruskal?指标,在优化Goodman-Kruskal?指标的同时能够自动调整每个聚簇分裂的子聚簇数目。HHCC算法使用top-down的分裂原则,将每个聚簇分裂成使得Goodman-Kruskal?指标达到最大的子聚类,最终获得高阶异构数据的树状层次聚类结果。2.目前多数高阶异构数据联合聚类算法集中于无监督学习,然而在实际问题中可以获得少量样本先验信息。大量研究表明,在聚类过程中有效引入少量部分先验知识将有利于提高聚类结果的精度。另外,为了发现高阶异构数据集中未知的重叠聚簇结构,本文提出了一种高阶异构数据半监督模糊联合聚类算法(high-order heterogeneous data semi-supervised fuzzy co-clustering algorithm,SS-HHFC)。为了准确、客观地描述聚簇交叠部分数据对象的聚类结果,SS-HHFC算法引入模糊概念,利用隶属度描述数据属于某聚簇的程度。由于高阶联合聚类的目标是将相关性较强的异构数据对象划分到同一个聚簇中,SS-HHFC算法利用聚集度评估异构数据聚簇之间的相关性,利用聚集度衡量聚类结果的质量。高阶联合聚类建模为聚集度的最大化问题,并将成对约束先验信息融入到代价函数中。为了求解优化问题,推导出隶属度迭代更新公式,设计SS-HHFC算法的计算过程,并从理论和实验两方面验证了SS-HHFC算法的收敛性。3.异构数据中往往包含噪声和离群点数据,为了减弱噪声对聚类效果的影响以及探测离群点数据,本文基于非负矩阵分解的提出一种加权异构数据联合聚类算法(weighted nonnegative matrix factorization for heterogeneous data coclustering algorithm,WNMF-HCC)。WNMF-HCC算法利用数据对象之间的关联关系,将异构数据嵌入到低维空间。根据数据对目标函数的贡献,对每个异构数据对象自动赋予不同的权重,对噪声和离群点数据赋予较低的权重。利用权重不仅可以减弱噪声对聚类效果的不利影响,而且可以判断离群点数据。并从理论和实验两方面验证了WNMF-HCC算法的收敛性。4.多视角数据中往往含有噪声数据,影响聚类效果。为了提高聚类算法对噪声的鲁棒性,本文提出了一种基于可能性C-means的鲁棒多视角聚类算法(robust multi-view clustering algorithm based on possibilistic C-means,PCM-RMVC)。由于PCM-RMVC算法不再受隶属度之和为1的限制,噪声对所有聚簇的隶属度均较低,减弱了噪声数据对聚类精度的不利影响,对噪声具有较强的鲁棒性。为了综合利用每种视角的特征空间信息,PCM-RMVC算法最小化每个视角中数据对象与聚簇原型之间距离的加权组合。推导隶属度与视角权重的迭代优化规则,设计出PCM-RMVC算法的计算过程,并从理论和实验两方面验证了PCM-RMVC算法的收敛性。最后,总结全文的主要研究工作,并提出本文工作的不足和下一步的研究内容。