谱聚类算法研究和应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:javaauto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来所提出的谱聚类算法是一种较为流行的聚类分析方法。谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类,且能收敛于全局最优解的优点。谱聚类算法通过特征分解,利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。   本文主要围绕谱聚类算法若干关键技术问题的研究及其应用展开,主要内容包括以下几个方面:   1.详细介绍了聚类分析和谱聚类算法,描述了图的基本知识、矩阵表示、相似矩阵、度矩阵及拉普拉斯矩阵,并系统阐述了谱图理论、图划分准则以及谱聚类算法当前研究和应用,进而分析了谱聚类算法的若干关键技术问题,总结性地提出了几个有价值的研究方向。   2.针对谱聚类算法的如何自动确定类个数这一关键问题,本文提出了一种基于本征间隙与正交特征向量的自动谱聚类算法。它通过对分类数据建立规范化相似矩阵并进行谱分解,利用本征间隙自动确定数据的类个数;利用确定的类个数和谱分解的特征向量之间的夹角完成数据的分类。该算法的正确性在人造数据库上得到了验证,并在UCI数据库上与其它聚类算法进行了分类准确性比较实验,结果表明该算法具有很好的聚类效果。   3.针对谱聚类算法的另一关键问题:如何选取尺度参数。本文在充分考虑数据聚类一致性特征的基础上,提出了一种自动确定尺度参数的方法-加权近邻自适应尺度,代替了标准谱聚类算法中的全局统一尺度。它克服了传统谱聚类算法中,使用者必须花费大量的精力去选取尺度参数的问题,得到一种既简化尺度参数选取又有更佳聚类效果的算法。最后给出该算法实验结果和分析。   4.本文结合前面两章对如何自动确定类个数及如何选取尺度参数的分析研究,提出了利用加权近邻自适应尺度代替传统全局统一尺度参数、利用样本数据的本征间隙估计类个数、利用正交特征向量聚类的自整定谱聚类算法,并通过对“挑战性”数据集和UCI数据库验证了算法的有效性。随后,在研究人类肤色特征的基础上,将自整定谱聚类算法应用在人脸检测中,实验结果表明,具有较好的检测效果。
其他文献
无线传感器网络的迅速发展使得它在环境监测、民用、军事等领域都有广泛的应用,在这些应用场景中,部署在目标区域内的传感器节点周期性地将周围环境状态传送给汇聚节点,当目标区
河流相储层是我国已发现油田主要的储层类型,也是我国油气最富集的储油层。河流相储层的原油地质储量占我国已开发油田地质储量46.2%。因此应用随机游走方法对河流相储层进行
稀疏学习是一个横跨机器学习、统计估计、信号处理等多个领域的关键技术,其在模型选择、稀疏编码、压缩感知等重要问题中发挥着关键的作用。目前,稀疏学习以基于凸优化模型的方
多维分析是数据仓库及联机分析处理中最主要的数据处理技术。传统的多维分析是维值为确定的一种分析方法。在实际分析过程中,由于环境的复杂不确定,分析人员常常提出一些维值
多目标、多约束规划问题一直是最优化研究领域中的难题。由于在求解、优化过程中,必须同时考虑资源约束,使问题的复杂性大大增加。  此类问题在现实中具有较多的应用场景,例如
TTCN-3是一个灵活且功能强大的测试套描述语言,它适用于各种交互系统的说明。目前,TTCN-3已经被广泛地应用于协议测试(包括移动和互联网协议)、服务测试、基于平台的CORBA测
众所知周,流程图在日常工作生活中发挥了重要的作用,所以制作流程图的工具就显得特别重要。而目前已经产生的流程图制作软件大都工作在操作系统之上,这些软件使用起来很方便,
随着空气污染的日益加剧,空气质量监测已引起政府、学术界和工业界的关注。空气污染物中,PM2.5由于可严重影响人体身体健康尤为大家所关心。本文设计与实现了用于监测城市PM2.5
随着互联网和移动终端应用的发展,现如今越来越多的人喜欢在移动社交网络上分享各类活动和信息。同时定位技术的发展、基于位置的社交网络(LBSNs)使得人们更容易在移动应用中
随着全球信息化的飞速发展,具有松耦合性及高灵活性特点的面向服务架构(SOA)逐渐成为企业软件架构的趋势。作为信息系统中不可或缺的组成部分之一,报表系统一般针对某个企业