非参数核密度聚类与特征提取算法研究

来源 :中国科学院研究生院(自动化研究所) | 被引量 : 10次 | 上传用户:BBP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析的目标是不依赖或者利用少量先验知识将给定的有限数据集合划分成一组反映数据自然结构的子集合,属于数据处理的基本问题之一。随着计算技术的不断发展,聚类分析方法已经成为机器学习,人工智能,模式识别以及数据挖掘等领域的研究热点,同时也是难点问题之一。特征提取是对原始数据特征进行变换产生一些有用的或者新的特征,以降低聚类或者分类学习问题的难度。本文主要研究基于非参数核密度估计的数据聚类和特征提取算法。我们首先简要回顾了聚类分析与特征提取的问题描述和研究现状。随后我们系统介绍了本文重点研究的均值漂移(Mean-Shift)聚类算法,以及若干密切相关的基础理论,包括共轭函数理论,随机梯度学习理论和Renyi熵理论。本文研究的主要贡献包括两个方面:1. Mean-Shift聚类算法新的理论解释和算法扩展。本文对Mean-Shift算法的数学本质和方法扩展进行深入分析和研究,相关贡献包括:1证明当核函数为凸时,Mean-Shift等价于对核密度函数的半二次优化,从而很好地解释了其优越的数值性能。2在半二次优化分析的框架内,推导出Mean-Shift的二次界优化本质,并在此基础上提出了一种核密度数据集覆盖方法。该集合覆盖方法通过构造一组超椭球对数据集进行稀疏覆盖,具有实现简单,运行高效的优点。该集合覆盖过程可以迭代运行直到收敛,从而得到一个称为Agglo-MS的非参数核密度凝聚聚类算法,可以显著加快Mean-Shift聚类的过程。作为Agglo-MS的算法扩展,进一步开发出一种增量非参数核密度聚类算法(IAgglo-MS)和一种约束非参数核密度聚类算法(CAgglo-MS)。3将传统的离线Mean-Shift算法扩展为一个基于可变学习率的随机梯度上升算法,并分析了其渐进收敛性质。该随机梯度Mena-Shift算法可以应用于大规模数据库或者实时数据流中的密度模式搜索。在人工和实际采集的数据库上大量的对比实验结果验证了本文提出的各种Mean-Shift改进算法的特点和优越性。2.基于信息理论学习的鲁棒特征提取方法。本文提出了一种称为Renyi熵判别分析(REDA)的鲁棒特征提取算法框架。我们将特征提取的目标函数定义为目标特征的Renyi熵以及目标特征与标号之间的Renyi交叉熵的加和形式,并利用非参数核密度方法对Renyi二次熵/交叉熵进行估计。形式上看,算法框架具备流形正则化和鲁棒M-估计两方面的优点。利用半二次优化技术,所提出的目标函数以迭代的方式进行优化,并且理论上保证收敛。同时,一些常用的特征提取算法,如局部保留投影(LPP),谱回归判别分析(SRDA)和Laplacian正则化最小二乘回归(LapRLS)可以看作是REDA框架下的特例。在实际数据集上充分的对比实验结果表明了我们的方法对随机数据噪声和标记噪声都具有良好的鲁棒性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
围绕贵广铁路路基附属设施施工项目,分析路基接触网支柱基础的施工技术及施工工艺,并从原材料入场、测量放样、钻孔施工、桩身浇筑、安装基座模板、模板拆除等方面,总结了高
以某立交匝道弯钢箱梁桥为研究对象,建立ANSYS的空间有限元实体模型,结合英国的BS5400及公路—I级荷载标准,对小曲率半径的弯钢箱梁桥进行了计算分析与设计探讨。总结得出此
笔者自1992年参加推拿临床工作以来,在对传统手法熟练应用的基础上,加以改进,产生一类独创手法,一并介绍给大家,仅供参考。1 前臂 掖法1.1动作要领医者呈半马步位,身体微前倾。肘关
目的:通过对脓毒血症患儿进行危险预测,实施护理干预,以减少其患儿危险因素的发生。方法:对我院2007年9月~2008年9月入住我院新生儿科的60例脓毒血症新生儿进行危险因素分析,实施护
随着"互联网+"战略的实施,互联网技术与旅游业的结合,为智慧旅游的发展提供了可能,满足了新时代的需求。通过运用理论联系实际、定性与定量相结合的方法,深入分析河北省生态
转换层是目前建筑工程中常用的垂直转换结构形式,其上、下平面的使用功能、结构类型不同,主要通过转换层实现结构转换。就超高层建筑目前的发展情况来看,其上下部的使用功能
一直以来,土地问题都是人们关注的焦点,关于土地问题国家也出台了不少政策。鼓励农村宅基地流转,避免土地荒芜,无人耕种,资源严重浪费。应合理采用农村土地宅基地使用流转模