论文部分内容阅读
随着数据密集型时代的到来,如何有效地利用数据并释放其衍生价值变得愈发重要而现实。聚类作为一种重要的数据分析方法,人们可以通过它来挖掘数据潜在的结构,获得对数据更加细致的洞察结果,生成假设和发现规律等;也可以通过它产生天然的分类信息和实现对数据的压缩。因此,聚类问题的研究具有十分重要的意义。 本博士学位论文主要针对模糊聚类中的模糊C均值(FCM)算法,研究了如下三方面的问题:1)属性赋权的不确定性与加权模糊聚类;2)缺失值填补的不确定性与不完整数据的模糊聚类;3)数据与类原型的对偶关系及由此引出的完整数据FCM算法的扩展。并以上述问题中对不确定性因素的描述作为突破口,在信息粒的概念框架下,提出了多种聚类模型与算法,所完成的主要工作如下: (1)针对加权模糊聚类中属性赋权的不确定性,将属性权描述为区间信息粒,并视属性权为受区间约束的变量,建立了区间加权FCM聚类模型。在类原型、隶属度和属性权三者交替迭代格式的基础上,提出了人机结合式和遗传-梯度混杂式两种模型求解算法。实验结果表明,所提出的方法能在传统的常值加权聚类的基础上起到进一步优调的作用,同时属性权的区间约束有助于避免迭代计算陷入不适宜的局部极小解。 (2)针对不完整数据聚类中缺失值填补的不确定性,将缺失值描述为区间信息粒。在视缺失值为受区间约束的变量的情况下,分析了缺失值区间填补聚类与区间加权聚类在模型结构上的相似性,并以此为基础建立了两者的类比求解框架。重点研究了将缺失值的区间型填补视作常的区间数的情况,借助区间数据集的聚类模型,结合机器学习中的核方法,提出了不完整数据的区间核FCM聚类算法,可获得具有粒特征的区间型类原型,能有效提高对不完整数据划分的准确性。 (3)仍然针对不完整数据聚类中缺失值填补的不确定性,依据不完整数据近邻样本的属性值信息,采用非参数假设检验的方法,将服从高斯分布的缺失值描述为概率信息粒。在此基础上,通过最大似然准则将缺失值的概率信息粒引入到不完整数据的FCM聚类,提出了相应的聚类模型以及类原型、隶属度和缺失值三类变量交替迭代的模型求解算法,挖掘出了存在于缺失值与类原型间的可相互表示的对偶关系。实验结果展示了缺失值的概率信息粒对不完整数据聚类所起到的有效引导作用。 (4)为了将类似于不完整数据聚类中缺失值与类原型的对偶关系引入到完整数据的FCM聚类,首先引入了受原始数据邻域信息粒监督的重构数据的概念,提出了一种让重构数据作为变量并直接参与到聚类迭代的新的FCM聚类模型与算法。并通过引入重构偏移指标,采用近似分析与实验相结合的方法研究了算法中参数的作用规律。理论与实验研究表明,在合适的参数取值下,重构数据在原始数据的基础上会有向各自的类原型靠拢的趋势,更有助于对数据类结构的捕捉。此外,还采用所提出的算法实现了对盾构施工过程数据的聚类分析,从聚类结果中隶属度的可解释性和类原型的可代表性两方面展示了算法的优越性。