论文部分内容阅读
随着信息技术的迅猛发展,数据正成为当今社会的重要资源.一方面,传感器技术和存储技术的发展使得诸多领域中积累了大量数据;另一方面,计算能力的发展和数据的智能化处理技术为数据处理提供了技术支撑.聚类分析是获取数据价值的一种关键技术,主要针对普遍存在的无标记数据,也为诸多数据处理技术提供了有效的数据预处理方法.目前研究者已经提出了大量聚类模型和算法.然而,多数聚类算法仅适用于特定的情景、特定的假设,当前复杂的数据环境对单一聚类方法的有效性、鲁棒性、稳定性均带来了巨大的挑战.融合多个异质聚类结果的聚类集成技术是有效应对这一挑战的重要策略.此外,聚类集成灵活的流程还拓宽了数据聚类的应用范围.鉴于此,聚类集成受到研究者的广泛关注,并取得了一定的研究成果.由于缺乏监督信息,聚类集成的有效性尚没有系统的理论支撑,紧密关联其有效性的因素仍不清晰.这些限制了聚类集成算法的性能,阻碍了聚类集成研究的深入性.因此,开展聚类集成的有效性要素理论与方法研究具有重要的理论创新意义和实际应用价值.本文紧密结合聚类集成的一般流程,揭示了五个要素与聚类集成有效性的内在关系.其中,聚类集成有效性主要指聚类结果的准确性(Accuracy),五个因素分别为基聚类集因素(Base clustering set element)、类簇质量因素(Cluster quality element)、数据特性因素(Data characteristic element)、关系表示因素(Expression element)、融合策略因素(Fusion strategy element).提出引入这些因素提出聚类集成算法,分析其对聚类集成性能的影响,以期进一步提升聚类集成的泛化性能(Generalization).最后形成一个聚类集成有效性要素范式:A=f(B,C,D,E,F)→G.本文主要的研究内容和研究成果如下:一、面向符号型数据和混合型数据分别提出了一个基于空间结构的聚类算法.针对符号型数据和混合型数据空间结构不清晰的特点,提出了一个空间结构表示方法.实验分析表明,空间结构表示方法不仅可以有效保持数据在原始空间中的分布,还可进一步提供更加丰富的测度信息.在此基础上,提出了基于空间结构的符号数据聚类算法和基于空间结构的混合数据聚类算法.所提算法在数据的空间结构表示上,采用高效的数值型数据聚类算法获得最终聚类结果.实验分析表明,相比代表性方法,该类算法在时间消耗相当的前提下获得了聚类性能上的显著提升.二、揭示了基聚类选择过程中类簇质量因素与聚类集成有效性的关联.将基聚类选择过程中的评价对象精细化到类簇层面,提出了一个基于匹配度的类簇质量评价指标SME.理论研究表明,SME指标可同时有效缓解已有指标存在的内部一致性失效问题和外部一致性失效问题.实验分析表明,以SME为评价准则对类簇进行加权带来聚类集成性能上的明显提升.此外,提出了一个新的选择性聚类集成框架DSME,该框架结合选择性聚类集成中选择和融合阶段的不同需求,在选择阶段注重差异性,在融合阶段注重准确性.实验分析表明,与其他代表性选择性聚类集成方法相比,嵌入SME指标的DSME对聚类集成性能提升更加明显.三、揭示了基聚类融合过程中数据特性因素与聚类集成有效性的关联.将一个样本与其他样本关系确定程度的平均值定义为该样本的稳定性,从样本稳定性角度研究了数据特性因素与聚类集成有效性的关联.样本稳定性可用来反应一个样本对正确挖掘团簇结构的贡献度,为聚类集成中区别对待样本提供了度量准则.从理论上分析了样本稳定性定义的合理性,并在图像分割场景下可视化地展示了样本稳定性的合理性.在此基础上,提出了基于样本稳定性的聚类集成算法,该算法针对稳定样本集和不稳定样本集分别采用针对性策略.在人造数据上的实验可视化地展示了该算法的运行机制,在基准数据集上的实验分析验证了该算法的有效性和鲁棒性.四、揭示了基聚类融合过程中关系表示因素与聚类集成有效性的关联.首先指出了样本共现关系表示矩阵存在的稀疏性缺陷和低价值密度缺陷.为应对稀疏性缺陷,引入最短路径技术重构了关系表示矩阵.从理论上证明重构后关系表示矩阵可发现更合理的原型样本,并在二维人造数据上可视化地验证了这一结论.为应对低价值密度缺陷,提出了一个生长树模型.该模型引入最大间隔理论度量样本可正确划分的置信度,优先处理置信度高的样本.人造数据上的实验可视化地展示了生长树模型的运行机制,在基准数据集和图像数据集上的实验分析验证了该算法的有效性.五、揭示了基聚类融合过程中融合策略因素与聚类集成有效性的关联.提出了基于证据理论的融合策略.该策略在融合过程中考虑了数据的分布信息.从理论上证明了,当基聚类优于随机划分时,基于证据理论的融合策略可获得正确的集成结果.此外,从理论上证明了二类情况下,基于证据理论的融合策略优于投票策略.提出了基于证据理论的聚类集成算法.实验分析表明,在引入基于证据理论的融合策略后,聚类集成性能有了明显提升.以上研究成果为聚类集成有效性提供了较系统的理论支撑,为聚类集成理论研究提供了新思路,为聚类集成算法设计提供了指导性思想.本文研究既丰富了聚类分析的研究内容,也为复杂环境下的数据处理提供了技术支持.