论文部分内容阅读
近年来,随着进入信息时代,各种数据海量积累起来,远远超出了人力的处理范围,数据迅速膨胀,导致经常出现“数据富有但是知识贫乏”的现象。在这种情况下,数据挖掘技术诞生了,并且日益起着重要的作用。聚类是数据挖掘技术的关键研究方向之一,能够发现数据内在的分布情况。根据相似性计算方法,数据对象被划分成若干个组(聚类簇),使得相同簇数据的相似性大,不同聚类簇数据的相似性小。作为当前新的的研究热点,聚类集成技术已被证明可以较大地提高传统聚类算法的性能。聚类集成技术通过某种集成方法(共识函数),将基聚类算法产生的聚类成员进行集成(融合),获取比单个聚类算法更好的结果。设计有效的共识函数是聚类集成技术最重要的研究热点。作为数据挖掘新技术,半监督聚类集成得到了研究人员的关注,半监督聚类集成结合半监督学习和聚类集成技术以提高学习性能。半监督聚类集成利用种子集或成对约束等先验知识,将其用于半监督学习过程,获得具有更好聚类质量的结果。本文首先研究了聚类集成技术。研究了共联矩阵产生方法,将投票法用于共联矩阵设计共识函数;还研究了基于标签统一投票法的共识函数;将它们用于聚类集成,研究了基于共联矩阵投票法的聚类集成算法和基于标签统一投票法的聚类集成算法。然后,对基于协同训练的半监督学习进行了详细地介绍,随之,研究了基于半监督学习的聚类集成模型SCE。并将协同训练算法tri-training算法作为共识函数,对多个基聚类划分结果进行半监督聚类集成,给出了一种基于协同训练的半监督聚类集成算法SCET。 SCET算法首先使用基聚类算法产生多个具有差异性的聚类成员,再利用少量的半监督信息,引入协同训练的方法进行集成产生半监督聚类集成结果。另外,为适应未提供半监督信息情形,改进tri-training算法,给出一种自适应协同训练算法utri-training算法,作为共识函数,给出自适应协同训练的半监督聚类集成算法UCET。最后,通过实验验证本文给出方法的准确性和时间性能。在实验部分,本文首先总结了几种聚类及聚类集成算法的评价标准,然后在UCI上的数据集及人工数据集上进行实验,最后将一些聚类及聚类集成算法作为对照算法和本文给出算法进行了比较。实验结果表明,与对照算法结果相比,本文给出的算法能够在获取更好的聚类质量和减少所需时间上有更好的表现。