论文部分内容阅读
随着大数据时代的到来,增长的海量数据中隐藏越来越多的信息,获取有用的信息和知识的变得更为重要和困难。聚类分析作为数据挖掘领域的重要技术之一,获得了广泛的关注与应用。然而单个聚类算法在面对特定的问题时,经常会出现各种不同的状况,聚类稳定性和准确性问题还需得到进一步研究。聚类集成方法的提出了对聚类分析方法中存在的一些问题进行了一定程度的探索。聚类集成利用集成学习技术,首先运行不同的算法或是在选用某种算法时选择不同的参数来获取多个聚类成员,通过一致性处理将其合并,得到的结果往往优于使用单一聚类算法获得的结果。本文系统地分析了聚类过程中涉及的知识,充分研究了聚类集成算法的原理和方法。目前已有许多国内外学者提出了不同的聚类集成方法,但是多数方法忽视了进行集成的聚类成员的质量,而当存在部分质量较差或者有噪声干扰的成员时则会影响最终的结果。针对所描述问题,本文提出了基于权重设计的聚类集成算法,试图采用加权的方式改进已有算法,获取更好的划分结果。主要内容包括:①在系统地学习了聚类集成方法,了解已有So A-WCE算法的方法步骤后,分析了该算法中存在的问题:算法中使用两次集成算法,通过建立初次集成结果与初始聚类成员之间的决策表系统,并依据其属性重要性度量对聚类成员进行加权,生成二次集成结果。但是若初始聚类成员存在结果较差的成员,所产生的初始聚类结果也会有所偏差,那么建立在这样较差的决策表系统所进行的二次集成,其结果势必会受到影响。本文就此问题提出了一种基于互信息加权的属性重要性聚类集成算法(MI-So A-WCE算法),并详细分析了进行权重设计的具体过程。该算法计算初始聚类成员各自的聚类综合质量,并实行质量筛选,再对筛选后的聚类成员进行差异度度量,在此基础上进行权重设计生成加权共协矩阵,然后进行后续的处理。②设计并实现了所提出的MI-So A-WCE算法,利用F-measure等评价指标对五组数据集使用CSPA算法和原有的So A-WCE算法以及改进的方法产生的不同结果进行分析对比,并通过人工增加噪声的方法测试算法的抗噪能力。通过实验可以看出,本文提出方法在分别处理原始数据和噪声数据时,其结果均优于CSPA算法和原有的So A-WCE算法,加权后能够使得该改进算法相比原有算法效果得到提高。