拓扑关系的距离度量与聚类算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:xuanka11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为机器学习领域的重要研究方向之一,吸引了很多学者的关注。在聚类分析中,距离度量是影响聚类算法精度的重要因素。在传统的聚类算法中,一般使用欧氏距离来度量样本之间的相似性然后根据相似性进行下一步簇的划分。虽然欧氏距离容易理解和实现,但是它假设输入空间是各向同性的。然而各向同性的假设与现实社会的很多实际应用是不吻合的,这样欧氏距离度量便不能真实反映输入样本之间的相似性关系,在实际应用中的表现也会受到很大限制。此外,欧氏距离在计算两个数据样本之间的相似性时,仅仅考虑两个样本之间的数据信息,而忽略了所有其他样本的信息,这就造成了数据信息的浪费。针对这些不足,本文提出了两种可以挖掘数据样本之间拓扑结构关系的新型距离度量。具体的新型距离度量为有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量。我们的新型距离度量不要求输入空间是各向同性的,也就是我们定义的两个样本之间的距离可以是不对等的。本文的主要工作和创新点如下:  第一,提出一种基于稀疏重构的有效距离度量。稀疏重构可以构建高效的数据表示模式,通过L1范数的约束,从多个样本中选择相似性高的样本用于重构目标样本。本文提出的基于稀疏重构的有效距离度量,在计算样本集中两个样本之间的距离时,首先利用稀疏重构的方法得到目标样本以及其他所有相关样本的相似性关系,然后通过有效距离定义计算得到样本之间的距离。有效距离不仅考虑两个样本之间的关系,同时考虑目标样本与样本集中其他样本之间的拓扑关系,具有全局性。基于有效距离度量,我们对经典的聚类算法,如: K均值聚类算法、K中心点聚类算法、模糊C均值聚类算法和谱聚类算法等进行了改进。最后在多个UCI数据集上,验证了改进后的算法的有效性。  第二,提出一种新的融合欧氏距离与Kendall Tau距离的谱聚类算法。首先,我们度量样本之间的直接欧氏距离关系以及Kendall Tau结构拓扑关系,然后我们使用非线性的迭代扩散融合方法融合基于欧氏距离的相似性矩阵与基于Kendall Tau距离的相似性矩阵,最后我们将得到的新的融合相似性矩阵应用到谱聚类算法中。我们在多个UCI数据集,验证了基于融合欧氏距离与Kendall Tau距离的谱聚类算法的有效性。  实验结果表明,我们提出的有效距离度量和融合欧氏距离与Kendall Tau距离的距离度量能够提高聚类算法的聚类精度。
其他文献
本论文首先对分布式网络系统身份认证现状及需求分析进行了基本介绍,然后引述了PKI、SOHT协议和SSL所能提供的安全服务,在基于PKI技术之上,利用HTTPS安全隧道技术设计并实现了统
近年来,随着Internet/Intranet技术的迅猛发展和基于HTTP协议的Web技术的广泛应用,传统的工作模式和生产方式得到了极大的改变。多层应用体系结构作为新一代Web计算模型,和传统
网格计算是一个正在兴起的全新的研究领域,目前,在这个领域内还存在着许多难题需要研究和解决。首先,网格环境将面临的一个重要问题就是安全问题。与传统网络环境相比,网格计算环
流体动画,尤其是自然现象中如翻腾的浓烟、湍流的溪水等的模拟,一直是计算机图形学研究的热点和难点。近年来,基于物理方法的流体模拟技术取得了很大的进展,在电影特效、电子游戏
随着移动计算技术的快速发展,移动应用给传统的数据库管理系统带来了很大的挑战。在传统的数据库管理系统中,除非被显示更新,否则数据是保持不变的。而移动对象的位置属性是
GSM网络是一个复杂的通信系统,GSM网络的优化工作一直是移动网络运营商的主要工作之一;其中信令负荷分担的优化又是GSM网络交换子系统优化的一项重要内容。随着移动智能业务和
网格计算作为一种提供高性能计算、管理和服务的新技术,已经得到了越来越多的关注。资源发现是高性能网格计算领域中的一个重要研究课题,它的主要任务是根据网格用户的资源请求
uClinux以其优异的性能、源代码开放等优点,成为目前许多嵌入式系统开发的首选操作系统。本课题旨在研究ARM平台上uClinux操作系统的移植与应用程序开发方法,完成网络VOD系统
数字视频的一个显著特点是原始数据量巨大,给传输和存储带来严重挑战。视频编码技术可以将视频数据压缩几十倍,甚至几百倍,有力地推动了视频通信的发展。视频编码器已成为现代网
目前,基于对等网络技术的系统正得到越来越广泛的应用。对等网络所占的网络流量已经超过了Web访问所带来的网络流量,而成为了互联网上最大的流量。而在各种不同类型的对等网