论文部分内容阅读
传统的模糊聚类算法基本都是数据驱动的,最近试图将知识引入其中,从而形成知识和数据驱动的模糊聚类算法,对于该领域形成了新的突破。在该类算法中,一些知识提示与原数据融合,通过知识驱动的聚类算法得到划分矩阵,并最终获得带有知识提示或不包含知识提示的聚类结果。整个过程与人对未知对象进行分类时的思维模式极为相似,得到的结果更符合实际。不过这类算法尚存在对聚类中心初始化敏感,知识点需要人为获取和聚类数目需提前给定等问题。为此,本文将针对这些问题对知识引导的模糊聚类算法展开研究并做出改进,研究工作主要包括如下几个方面:(1)针对模糊聚类算法和可能性模糊聚类算法对聚类中心初始化敏感问题和知识驱动的聚类算法的知识提取问题,提出基于超球体密度的聚类中心初始化方法(Hypersphere Density-based Clustering Center Initialization,HDCCI)和密度知识点提取方法(Density Knowledge Points Extraction,DKPE)。HDCCI算法可以自动得到C个处于数据集结构中心的初始聚类中心,取其中密度最高的点作为视点成为知识驱动的可能性模糊聚类算法的原型之一,并在聚类过程中起指导作用。DKPE算法可获得若干个明显具有较高密度的数据点,提取的这几个高密度点可作为知识驱动的可能性模糊聚类算法的知识提示,驱动算法得到更准确的数据结构原型。(2)为增强模糊聚类算法的抗噪性,提出密度视点诱导的可能性模糊聚类算法(Density Viewpoint-induced Possibilistic Fuzzy C-Means,DVPFCM)。该算法将HDCCI方法得到的高密度点作为新的视点,将其融入到可能性聚类算法中。视点这一知识的融入,使DVPFCM算法可以更快地得到理想的聚类结果,且具有更强的鲁棒性。(3)提出高密度点驱动的自适应可能性C均值聚类算法(High-density Points-driven Adaptive Possibilistic C-Means,HPAPCM)可自动确定聚类数目。首先,根据DKPE算法提取的2C个高密度点可确定聚类数目C的初始值为其2倍,并且C2个高密度点包含在HPAPCM算法的目标函数中,引导聚类中心和隶属度矩阵的迭代更新。在迭代过程中,HPAPCM算法可自适应地淘汰被孤立的聚类中心,从而逐渐得到接近实际聚类数目的聚类中心数。在该算法中,高密度点并不直接作为聚类原型输出,而是真正起到指导作用,引导算法自动得到更合理的聚类原型。