论文部分内容阅读
随着信息技术的发展,数据流模型已成为诸多应用的常用模型,其固有特点也致使传统聚类算法在此模型上面临严峻挑战。其次,一系列数据流聚类算法虽相继被提出,但仍存在诸多不足,如现有基于划分的数据流聚类算法难以处理非线性和高维数据等。对此,本文侧重于基于划分的联机聚类算法研究,具体如下:(1)基于核模糊C-均值(KFCM),提出了一种针对大规模数据的联机核模糊C-均值聚类算法(OKFCM),同时考虑到核参数的选择困境,借鉴多核学习思想,通过组合不同参数的多个核,进一步衍生出了联机多核模糊C-均值聚类算法(OMKFCM)。由此,在有效缓和核参数选择难题的同时,核联机算法不仅继承了KFCM优越的聚类特性,在某种程度上还拥有了集成算法的优势。(2)基于模糊C-均值(FCM),提出了一种针对高维数据的联机局部自适应模糊C-均值聚类算法(OLAFCM)。OLAFCM通过为各类特征属性分别赋以相应的局部权重,使各个类分布在不同属性组合的张量子空间内,从而有效避免现有数据流聚类算法在高维空间中面临的“维数灾难”等难题。此外,考虑到输入参数对领域知识的依赖性难题,进一步发展出了基于凝聚的联机局部自适应模糊C-均值聚类算法(OLAFCM_CA)。在人工和真实数据集上的实验结果显示,所提出的新算法成功缓解了对初始化聚类类数的敏感性难题,且比现有基于全局降维的划分联机算法具有更好的聚类性能。