基于软投票的半监督聚类集成研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xm121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种最为广泛应用的数据挖掘技术,其原理是先对数据对象进行聚类处理,然后对其结果进行分析,试图从中找到隐含的具有实用价值的信息。聚类就是将大量混为一团的数据对象以它们之间的距离大小为依据进行智能划分处理,得到若干个簇并实现“相似同簇,相异异簇”的目的。聚类集成就是将某一种或某几种算法作为基聚类器,并分别单独进行聚类来得到一组具有差异性的聚类结果,然后选取适当集成方案对所有基聚类结果进行合并,进而得到一个新的聚类结果。聚类自身属于无监督的学习方法,半监督聚类就是通过将少量的先验知识转化成半监督信息并将其用来引导聚类过程,进而得到更为精确的数据对象划分方案。半监督聚类集成是由聚类集成技术和半监督聚类技术进行强强联合所得,将半监督信息加入到聚类集成过程之中,试图得到更准确的聚类集成结果。  通常聚类方法按照数据对象的划分粒度可以分为硬聚类算法和软聚类算法,其中硬聚类算法的最终结果为一组簇标,也就表示一个数据对象只能被分一个簇中;软聚类算法的最终结果是一个隶属度矩阵,其表示了每一个数据对象可同时属于多个簇以及对应的隶属度值。目前已经有学者证明了在某些方面软聚类比硬聚类拥有更好的结果,但是常用的集成算法均是以硬聚类结果作为输入,那么软聚类结果则必须通过一个特定处理后才能作为其输入,而这将会导致部分有价值的信息流失。为了更好地解决此类问题,本文提出了一种使用软聚类结果的集成新方法——软投票聚类集成算法,该算法具有更好的灵活性和通用性。此外,实验表明软投票聚类集成算法能得到更好的聚类集成结果。  为了进一步提高软投票算法的性能,本文还尝试使用半监督信息来指导集成过程。在本文中,我们分别将半监督信息转化为成对约束形式和类标签形式,并设计了两个与之对应的半监督软投票聚类集成算法。实验结果表明,两种形式的半监督信息在集成的过程中均能得到充分利用,聚类集成结果的准确性在一定程度上都有所提高。
其他文献
随着图像在人们生活中应用越来越广泛,不同的图像传感器可以对同一场景获取不同的图像。红外图像与可见光图像是典型的多源传感器获取的图像,红外图像是一幅灰度图像,图像分
车标识别系统(VLR)是智能交通系统(ITS)的重要组成部分,在交通管理中充当着重要的角色。本文介绍了车牌定位技术和车标识别算法。车标识别是以车牌定位为先验知识,首先介绍车
在21世纪,IT行业中的云计算领域有了快速的发展,同样,在IT行业的影响下,DNA科技也取得了快速而有效的发展。因此,本文的主要目标是将云计算和DNA相结合实现一个完整的系统。  本
传感器网络节点硬件失效、监测环境恶劣、网络拥塞等客观问题,使得传感器网络数据的不完全性成为必然。不完全数据给数据融合、数据存储和数据挖掘等技术带来严峻考验,传统针
复述是自然语言表达中存在的一种普遍现象,即相同语义的不同表达方式。复述识别即判别两个给定语言表达式或者模板是否表达相同或相似的意思,其研究结果可广泛应用于自然语言
具备精确控制与传感能力的自治汽车的出现,给安全驾驶带来了新的希望。当前存在的人工智能技术已经能有效的解决自治汽车在开放道路中行驶问题。但面对情景复杂、拥堵较严重、
网络最大流问题是网络流理论的重要组成,是介于连续型和离散型问题的分界线上,可作为特殊的线性规划以及组合优化问题。其在现实的实践应用中,例如现实中的信息流、交通中的
近年来,随着电子商务的迅猛发展,形形色色的Web服务大量的涌现,服务提供商也不断将现存的Web服务整合起来形成新的、增值的服务,去不断的满足用户的需求。不过,用户在各种需
随着互联网的迅速普及与广泛应用,网络的安全问题也日益严重。近年来,作为维护网络安全的一项主要技术,入侵检测技术得到了广泛的关注。但是,现有的入侵检测系统还存在很多的问题
格问题在现在的公钥加密方案中扮演了相当重要的角色,格问题的计算难解性为许多创新性的公钥加密方案提供了理论依据。模形式算法作为新的随机算法解决欧几里得空间内的最短