半监督聚类集成研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xiaoxi0504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着进入信息时代,各种数据海量积累起来,远远超出了人力的处理范围,数据迅速膨胀,导致经常出现“数据富有但是知识贫乏”的现象。在这种情况下,数据挖掘技术诞生了,并且日益起着重要的作用。聚类是数据挖掘技术的关键研究方向之一,能够发现数据内在的分布情况。根据相似性计算方法,数据对象被划分成若干个组(聚类簇),使得相同簇数据的相似性大,不同聚类簇数据的相似性小。作为当前新的的研究热点,聚类集成技术已被证明可以较大地提高传统聚类算法的性能。聚类集成技术通过某种集成方法(共识函数),将基聚类算法产生的聚类成员进行集成(融合),获取比单个聚类算法更好的结果。设计有效的共识函数是聚类集成技术最重要的研究热点。作为数据挖掘新技术,半监督聚类集成得到了研究人员的关注,半监督聚类集成结合半监督学习和聚类集成技术以提高学习性能。半监督聚类集成利用种子集或成对约束等先验知识,将其用于半监督学习过程,获得具有更好聚类质量的结果。本文首先研究了聚类集成技术。研究了共联矩阵产生方法,将投票法用于共联矩阵设计共识函数;还研究了基于标签统一投票法的共识函数;将它们用于聚类集成,研究了基于共联矩阵投票法的聚类集成算法和基于标签统一投票法的聚类集成算法。然后,对基于协同训练的半监督学习进行了详细地介绍,随之,研究了基于半监督学习的聚类集成模型SCE。并将协同训练算法tri-training算法作为共识函数,对多个基聚类划分结果进行半监督聚类集成,给出了一种基于协同训练的半监督聚类集成算法SCET。 SCET算法首先使用基聚类算法产生多个具有差异性的聚类成员,再利用少量的半监督信息,引入协同训练的方法进行集成产生半监督聚类集成结果。另外,为适应未提供半监督信息情形,改进tri-training算法,给出一种自适应协同训练算法utri-training算法,作为共识函数,给出自适应协同训练的半监督聚类集成算法UCET。最后,通过实验验证本文给出方法的准确性和时间性能。在实验部分,本文首先总结了几种聚类及聚类集成算法的评价标准,然后在UCI上的数据集及人工数据集上进行实验,最后将一些聚类及聚类集成算法作为对照算法和本文给出算法进行了比较。实验结果表明,与对照算法结果相比,本文给出的算法能够在获取更好的聚类质量和减少所需时间上有更好的表现。
其他文献
近年来,复杂网络得到了越来越多的关注。复杂网络研究的最终目标是为日常生活设计出鲁棒性高的系统。但是日常生活中的系统经常会遭受一些无意的破坏甚至恶意的攻击。因此,研究
目前,无线传感器网络由于其低功耗、低成本、分布式和自组织等优点在各种应用环境中都得到了使用,但是由于需要大范围的布置在露天或者野外环境中,传感器节点很容易受到攻击者挟
随着计算机和网络技术的发展和普及,人们对于计算和存储的需求越来越大,TB级别数据以及PB级别的数据需求已经越来越普遍。因此,基于计算机网络技术的分布式存储系统成为研究热点
全自主智能机器人要求信息处理和控制决策完全由板载芯片处理完成,所以大部分由嵌入式系统设计完成的,而全自主智能机器人采用的嵌入式系统的处理速度以及存储能力相对于普通PC
众所周知,随着互联网用户数量的急剧增加,互联网的核心技术 IPv4的缺陷已经暴露明显,如IP地址匮乏,安全性不足等,这些缺陷将严重制约未来互联网应用和规模的发展,互联网急需
传统机器学习方法从训练数据中学习得到的数据模型能够在测试数据中取得良好效果的前提是:有充足的训练数据且训练数据与测试数据同分布。然而,这种强约束性的前提往往难以得到
The countries of the world also develop the documents using many kinds of scripts in differentlanguages. Most countries use standard fonts for recognizing the t
随着社会的发展,计算机技术越来越深入人们生活,使得人们对计算机应用软件的需要在提高,对于软件的质量的要求也逐渐增长。但是应用软件的开发效率却没有跟上这一步伐。这一方面
随着商业竞争的加剧,商业智能系统开始在各种商业领域中扮演越来越重要的角色。商业智能是基于数据仓库、ETL、OLAP、数据挖掘和前端数据展现等技术发展起来的技术,其实质是从
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们