论文部分内容阅读
聚类分析是一种最为广泛应用的数据挖掘技术,其原理是先对数据对象进行聚类处理,然后对其结果进行分析,试图从中找到隐含的具有实用价值的信息。聚类就是将大量混为一团的数据对象以它们之间的距离大小为依据进行智能划分处理,得到若干个簇并实现“相似同簇,相异异簇”的目的。聚类集成就是将某一种或某几种算法作为基聚类器,并分别单独进行聚类来得到一组具有差异性的聚类结果,然后选取适当集成方案对所有基聚类结果进行合并,进而得到一个新的聚类结果。聚类自身属于无监督的学习方法,半监督聚类就是通过将少量的先验知识转化成半监督信息并将其用来引导聚类过程,进而得到更为精确的数据对象划分方案。半监督聚类集成是由聚类集成技术和半监督聚类技术进行强强联合所得,将半监督信息加入到聚类集成过程之中,试图得到更准确的聚类集成结果。 通常聚类方法按照数据对象的划分粒度可以分为硬聚类算法和软聚类算法,其中硬聚类算法的最终结果为一组簇标,也就表示一个数据对象只能被分一个簇中;软聚类算法的最终结果是一个隶属度矩阵,其表示了每一个数据对象可同时属于多个簇以及对应的隶属度值。目前已经有学者证明了在某些方面软聚类比硬聚类拥有更好的结果,但是常用的集成算法均是以硬聚类结果作为输入,那么软聚类结果则必须通过一个特定处理后才能作为其输入,而这将会导致部分有价值的信息流失。为了更好地解决此类问题,本文提出了一种使用软聚类结果的集成新方法——软投票聚类集成算法,该算法具有更好的灵活性和通用性。此外,实验表明软投票聚类集成算法能得到更好的聚类集成结果。 为了进一步提高软投票算法的性能,本文还尝试使用半监督信息来指导集成过程。在本文中,我们分别将半监督信息转化为成对约束形式和类标签形式,并设计了两个与之对应的半监督软投票聚类集成算法。实验结果表明,两种形式的半监督信息在集成的过程中均能得到充分利用,聚类集成结果的准确性在一定程度上都有所提高。