基于约束选择的自适应正则化半监督聚类集成方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:BluePenguin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,机器学习相关技术已经在各个行业中实现了应用,数据的规模和复杂程度随着新时代互联网的急速发展而不断增长,对于数据的高效聚类分析成为一项重要的研究内容,在近年来引起了众多研究者的关注。然而,传统聚类方法在提高聚类性能方面还有诸多欠缺,比如,使用单一的聚类算法进行数据分析得到的结果泛化性能差且缺乏足够的说服力。由于集成学习可以把多个单一的策略整合成为一个综合的解决方案,聚类集成方法可以有效改善单一聚类算法的局限性。传统的聚类集成方法存在两方面问题:(1)在集成成员生成过程中,没有充分利用由专家给出的数据集的先验知识,表示为must-link和cannot-link约束。(2)忽略了冗余和噪声数据所带来的负面影响,所有的集成成员都被考虑到,包括那些没有积极作用的成员。除此之外,有标签数据的获取或是由专人为数据做标记,所需要的人力物力代价较大,而无标签数据相对容易获取。为了将少量的有标签数据充分利用,产生了基于半监督学习的聚类分析过程。基于聚类集成存在的问题,和半监督学习的有效性,半监督聚类集成方法被提出,同时结合半监督学习和集成学习手段进行聚类分析,可以显著提升聚类结果的准确性、稳定性和鲁棒性。针对上述局限性,本文提出了一种通过自适应地对聚类集成成员的权值进行正则化从而将多个半监督聚类结果组合在一起的方法,称为自适应正则化半监督聚类集成方法(Adaptive Regularized Semi-supervised Clustering Ensemble Method,ARSCE)。首先,ARSCE方法通过不放回地随机选择特征来生成一系列特征子空间,以避免出现两个相同的特征子空间的情况。接下来,本文在对上述得到的特征子空间执行特征转换时考虑到用成对约束来寻找新的对聚类友好的空间,利用聚类方法生成各种聚类解。最后,本文设计了一种新的融合策略,将多个聚类解整合为一个统一的聚类划分,并为每个聚类集合成员合理地分配权重。为了验证所提出方法的聚类性能,本文在多个真实世界数据集上进行了大量的实验,不仅与多种经典算法进行了对比,还详细分析了算法的参数敏感性。实验结果证明了本文方法ARSCE相对于同类其他方法的有效性和优越性。
其他文献
针对运营商创新业务订单系统与政府合同安全保护备案系统之间需要进行频繁的大量数据交换共享,时常出现大量数据并发报送造成服务器不能及时响应,带来数据不能实现高效的传输处理导致政府的监管没有办法更加正常、有效、安全地实施。但是优化的负载均衡体系可以解决海量数据同时发送造成服务器响应不及时的问题,并且能够将数据共享效率提高的同时降低数据交换共享时带来的危险,能够有效地保障数据共享的安全性。同时有利于政府稳
溃疡性结肠炎是在工业国家中常见的胃肠道疾病,其在病程期间反复发作,并且显著提升感染结肠癌的风险,常规有效的检查方法就是结肠镜检测,但是由于内窥镜图像数量巨大且含有气
在现代经济生活中,生产者或经营者同样或相似的一个违法行为很可能会致使大量消费者受损。基于高效解决因相同生活事实引起的大量诉讼的需要,德国于2018年在《民事诉讼法》中引入了保护消费者群体权益的新手段——示范确认诉讼程序。该诉讼是独立的确认之诉,拓展了团体可以提起的诉讼种类,可以在与消费者事务相关的法律领域中普遍适用。符合法定条件的合格机构可以作为原告请求法院确认消费者与经营者之间是否存在构成或不构
学位
全息显示技术作为三维显示的重要组成,因其能表现三维景物的全部立体信息而成为未来的发展方向,国内外对此展开了广泛的研究。区别于普通显示技术,全息显示通过在承载器件上
复数信号的相位恢复是仅由其傅里叶变换后的幅值还原其原始信号,特别是它们的相位信息,在诸多科学和工程领域有广泛应用,例如晶体学、天文学和光学成像。然而,相位恢复是一个典型的非适定数学问题,一维信号与其傅里叶变换幅度之间不存在唯一的映射关系;虽然大多数多维信号理论上存在唯一映射,但由于测量与计算上误差以及求解模型的非凸性,数值上仍不能得到较为精确的恢复结果。针对上述非唯一性问题,本论文力图从算法途径解
无线通信技术和个人移动设备的高速发展,对移动互联网业务产生了强有力的推动和促进作用,也造成了网络流量迅速增长。其中,视频流业务占据了网络流量相当大的一部分。丰富多彩的视频内容服务与先进的移动设备对各种码率视频流的支持,给用户提供了丰富的选择,同时也给视频流的传输和分发带来了极大的挑战。目前,一般采用基于云计算的DASH系统解决用户多样化的需求问题,但是该系统仍然存在一些问题:第一,基于云计算的系统
当前,得益于机器学习、人工智能等新兴技术的高速发展,海量的数据得以被产生,分析并加以应用,这有力地推动了社会经济的发展。图,作为一种数据结构,可以有效地表示蕴含复杂关
近年来,随着对等(Peer-to-Peer,P2P)网络在不同领域中的应用日益广泛,用户对互联网资源的需求量也迅速增大,但当前网络的传输能力是有限的,网络设备增设与升级的速度已经无法满足用户对网络带宽需求量的增长速度,因此在网络资源有限的前提下,如何为用户分配网络资源成为当前P2P网络研究的热点问题之一。本文借鉴微观经济学中的效用理论,从用户满意度的层面,针对P2P网络中多类型服务的资源分配问题建
篇章回指是英语语篇衔接的重要组成部分。国内的英语期刊论文水平参差不齐,其中不乏语篇断层。而针对国人英语写作语篇断层的探讨尚有不足。为此,本研究选取国内外已发表的高影响因子文科英语期刊论文,组成两组语料,从篇章回指的角度进行对比,分析两组语料中的篇章回指使用是否存在差异;如果存在差异,是什么原因导致了这些差异;针对该差异,是否有行之有效的解决方法。研究最终选取了法律、历史、文学和哲学四个学科的英语期
近年来,随着嵌入式传感器和短距离无线通信技术的兴起,智能交通服务已成为改善交通系统的有用范例。在这些智能服务中,向司机提供实时建议的出租车推荐系统是必不可少的部分