基于谱聚类的混合流形学习算法研究

来源 :西安建筑科技大学 | 被引量 : 2次 | 上传用户:anilit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息技术进步,各种形态的数据不断指数级爆炸增长。当我们面对这些海量的高维数据,需要能够按照我们预期的目的进行有效的处理以及利用。从大量的信息当中挖掘出有用的信息是模式识别以及计算机视觉等很多领域共同关注的研究难题。流形学习是一种极为有效的数据处理方式,从原始数据当中挖掘出我们可以利用的有效信息。本文研究了复杂分布数据的混合流形聚类,包括现实生活中的真实物体数据集,人造的数据集,以及人脸数据集等等。对于混合流形数据,由于分布的复杂性,特别是不同流形相互重叠的部分,传统的算法思想仅仅考虑了数据集中点与点之间的联系,并没有考虑到重叠区域数据点由于欧式距离较近,将会使得本来处于两个聚类的数据点会被划分到一个聚类当中,从而导致数据聚类错误率的增加。基于这种情况,我们除了考虑数据点本身的特性,还要考虑其他方面的因素。比如:数据点的几何切空间(衡量数据分布状态的一种方式)等。传统的K均值聚类,需要数据点必须为n维空间向量。使得计算速度慢,消耗很多内存。而谱聚类基于这一问题,对高维数据降维,使用一些特征向量来近似代表高维的原始数据。因此,谱聚类具有计算速度快,并且不容易受到噪声以及边界的影响,具有很强的鲁棒性。借鉴谱聚类算法的优点,对于相似矩阵的选取,在传统基于欧式距离的基础上,充分考虑了数据内含的其他几何信息,构造出更加适合与混合流形聚类的亲和矩阵。另外,从最初的近邻点的选取,到亲和矩阵的构造,再到拉普拉斯矩阵,从而求得低维嵌入数据。因此,基于谱聚类的算法最根本的就是近邻点的选取。考虑到是混合流形,尽管可能距离很近,要求近邻点应该尽可能地来自同一个流形。我们深入研究了除了距离还有局部几何信息的近邻点的选取方法。本论文还提出了迭代加权的子空间聚类。对于这种算法,核心就是迭代的加权算法框架,相比于原来的标准最小化框架,迭代最小框架聚类效果更好。通过在人造数据集以及真实的数据上测试其算法效率,相比于传统的算法效率更高。另外,我们不单单对这些算法进行理论的研究,还将这些算法广泛应用到实际应用当中,比如:人脸识别,图像分割、文本聚类等等。另外一个方面,文章针对当前基于谱聚类的一些算法进行了分析比较研究,但基本都存在一些共同的问题还没有得到很好的解决。比如:如何选取合适的拉普拉斯矩阵,怎样依靠计算机程序对流形聚类数据类数目实现自动选取,以及如何充分利用特征向量问题等等。这些问题还需要我们进一步的研究探索。
其他文献
早期的软件开发主要仅依靠事件及其动作的驱动来设计,使得编制出来的软件在数据处理、程序功能与显示代码等各部分逻辑不很清晰,系统的耦合度也过高,不利于开发和维护。MVC模式
CamShift跟踪算法是国际机器视觉领域最近几年才发展起来的新颖算法,它以随机颜色概率模型为基础,以跟踪目标的颜色分布为特征,在视频的相邻帧之间通过直方图匹配来进行视频目标
汉字数目庞大、结构复杂,手写汉字的形状千差万别、风格各异,这使得手写汉字识别成为当前一个研究难点。目前,脱机手写汉字识别还处于发展阶段,现有的OCR(Optical character
随着国内网络游戏产业的蓬勃发展和政府机构对网络游戏行业的大力扶持,国内市场对网络游戏的需求越来越多样化。目前流行的网络游戏,多数类型角色扮演类。该类游戏起源较早,
无线自组网是由一组带有无线收发装置的节点组成的通信网络,且不依赖于任何网络基础设施。网络中的节点可以相互交换信息,当节点不在彼此通信范围时,可以通过中间节点中继来实现
本文以提高绘图机数据传输率为目的,通过裁剪普通Linux操作系统,最终获得绘图机需要的嵌入式Linux操作系统。本文首先介绍了嵌入式操作系统和嵌入式Linux,然后详细介绍了目前
在情感表达中,人脸表情的变化是最为直观也是最为基础的一环。因而,也成为情感计算的重要一环。本文所论述的人脸表情识别研究就是基于这样原因,以人脸的不同表情为研究主体,
我国物流业目前急需解决的问题,是如何实现物流园区内各个相对独立的业务系统的无缝整合,避免重复建设,消除“信息孤岛”,发挥物流园区产业集约化经营优势。论文依托哈尔滨公
随着Internet网络的高速发展,信息爆炸时代也随之到来。由于Internet的开放性、动态性、异构性使得用户很难快速、准确的从WWW上获取所需的信息,因此如何有效的从网络上获取
Web服务作为分布在Internet的Web对象,是基于网络的、分布式的模块化组件,能够允许不同平台和不同实现技术的应用之间相互操作为客户提供服务。通常单个Web服务不能满足人们