基于投影的聚类算法研究及应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:daocaoren666666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术飞速发展,在信息处理过程中,人们发现信息的数据量越来越大庞大。如何从大量的信息数据中获取人们所需要的知识?如:数据的分布,数据发展趋势等等,因而聚类作为一门数据分析工具也就应运而生,所谓聚类就是将物理或抽象对象的集合组成由类似的对象构成的多个类或簇的过程[1]。目的是使得属于同一类别的个体之间的差别尽可能的小而不同类别的个体之间的差别尽可能的大。目前聚类分析中大部分聚类算法都是针对低维数据的,而现实中涉及到信息处理数据大部分都是高维的,这就向传统的聚类算法提出了挑战。文献[2]中提到,用传统的聚类算法如K-Means和K-Medoid方法直接处理这些高维数据效果非常不理想,于是人们采用“特征提取”方法来降低数据集的维度,例如PCA算法,但这种降维方法很容易导致数据的信息丢失。最近的研究表明,在特定条件下高维数据的聚类都隐含在低维的子空间内,如何找出这些有效的低维子空间?Agrawal等人[3]提出了投影聚类方法。投影聚类是把数据集通过映射变换投影到低维子空间内,然后借助各种方法划分出该子空间内的聚类,能够有效的降低数据集的维度,同时减少数据处理的复杂度。现有的投影聚类算法有:CLIQUE[3],PROCLUS[4],ORCLUS[5]和EPCH[2]等。CLIQUE算法是首次涉及投影聚类与子空间问题,但是该算法要求子空间的延伸方向必须要与坐标轴平行,并且还需要用同一个极限值来划分不同投影维度的子空间,这显然是不合理的;而PROCLUS和ORCLUS算法则主要通过寻找中心点来得到投影聚类和它们相关的子空间。PROCLUS要求发现投影的子空间延伸方向必须与平行,但ORCLUS算法没此限制,可以是任意延伸方向的子空间。EPCH算法[2]也是用来解决同样的问题,但它与前几个算法相比不仅复杂性降低了,而且有效性和精确性有很大的改进。通过分析EPCH算法,结合投影聚类的思想,我们采用不同的方法来划分子空间,提出了两个改进算法,分别是:1)基于Parzen窗的投影聚类方法:该方法用投影聚类将高维数据投影到低维子空间,再用概率密度估计函数Parzen模拟子空间样本分布,通过合并密度区域得到聚类结果,实验证明其具有比EPCH更为精确的效果。2)基于Mean-Shift的投影聚类算法:该算法提出了一种用核函数将高维数据空间转化为低维空间,然后将低维子空间中数据划分到中心点代表的区域中,得到合并的聚类结果,实验证明其有效性。本文主要是介绍聚类分析的基本概念、各种聚类算法及本人提出的两个改进算法。
其他文献
框架,即Framework,目前还没有统一的定义。其中Ralph Johnson所给出的定义基本上为大多数研究人员所接受:框架是整个或部分应用系统的可重用设计,它表现为一组抽象组件及组件
未来的移动通信网络要能够为移动用户提供诸如语音、可视电话、高速互联网接入等多媒体业务,为了保证各类业务的服务质量,同时又最大限度地利用无线资源,支持尽可能多的用户,必须
随着网络技术、数据库技术在教育领域中的广泛应用,以及教育改革和教育信息化的日渐深入,教学资源数据量、内容和形式的极大丰富,教学资源从原始的纸质向电子化、数字化资源
人类社会已进入以网络为中心的信息时代,人们需要更快捷、更可靠、功能更丰富的网络服务。未来的应用将需要更高的吞吐率、更好的交互性、更高的安全性,这要求服务平台具有更强
IDE即集成开发环境(Integrated Development Environment)是进行软件开发必不可少的工具软件,一个方便、成熟、稳定、功能强大的IDE,可显著地提高开发效率。本文主要研究了如何
近年来,随着企业的信息化建设的发展,企业的信息管理系统也越来越复杂。在系统的开发过程中,软件系统的框架设计是非常重要的工作。传统的框架设计常常存在开发周期长,结构不
随着我国软件产业的发展,软件工程化进程的深化,软件质量越来越成为用户方与开发方矛盾的焦点。采取何种措施来保证软件质量,在维护用户利益的同时,促进软件企业的进步是一个现实
XML全称为可扩展无标记语言(eXtensible Markup Language)。它是一套定义语义标记的规则,这些标记将文档分成许多部分,并对这些部分加以标识。由于它允许开发与自己特定领域
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成
入侵检测技术是继“防火墙”、“数据加密”等传统安全保护措施后新一代的主动型安全保障技术,它对计算机和网络资源上的恶意使用或入侵行为进行识别和响应。随着信息化建设的