论文部分内容阅读
聚类分析的目标是不依赖或者利用少量先验知识将给定的有限数据集合划分成一组反映数据自然结构的子集合,属于数据处理的基本问题之一。随着计算技术的不断发展,聚类分析方法已经成为机器学习,人工智能,模式识别以及数据挖掘等领域的研究热点,同时也是难点问题之一。特征提取是对原始数据特征进行变换产生一些有用的或者新的特征,以降低聚类或者分类学习问题的难度。本文主要研究基于非参数核密度估计的数据聚类和特征提取算法。我们首先简要回顾了聚类分析与特征提取的问题描述和研究现状。随后我们系统介绍了本文重点研究的均值漂移(Mean-Shift)聚类算法,以及若干密切相关的基础理论,包括共轭函数理论,随机梯度学习理论和Renyi熵理论。本文研究的主要贡献包括两个方面:1. Mean-Shift聚类算法新的理论解释和算法扩展。本文对Mean-Shift算法的数学本质和方法扩展进行深入分析和研究,相关贡献包括:1证明当核函数为凸时,Mean-Shift等价于对核密度函数的半二次优化,从而很好地解释了其优越的数值性能。2在半二次优化分析的框架内,推导出Mean-Shift的二次界优化本质,并在此基础上提出了一种核密度数据集覆盖方法。该集合覆盖方法通过构造一组超椭球对数据集进行稀疏覆盖,具有实现简单,运行高效的优点。该集合覆盖过程可以迭代运行直到收敛,从而得到一个称为Agglo-MS的非参数核密度凝聚聚类算法,可以显著加快Mean-Shift聚类的过程。作为Agglo-MS的算法扩展,进一步开发出一种增量非参数核密度聚类算法(IAgglo-MS)和一种约束非参数核密度聚类算法(CAgglo-MS)。3将传统的离线Mean-Shift算法扩展为一个基于可变学习率的随机梯度上升算法,并分析了其渐进收敛性质。该随机梯度Mena-Shift算法可以应用于大规模数据库或者实时数据流中的密度模式搜索。在人工和实际采集的数据库上大量的对比实验结果验证了本文提出的各种Mean-Shift改进算法的特点和优越性。2.基于信息理论学习的鲁棒特征提取方法。本文提出了一种称为Renyi熵判别分析(REDA)的鲁棒特征提取算法框架。我们将特征提取的目标函数定义为目标特征的Renyi熵以及目标特征与标号之间的Renyi交叉熵的加和形式,并利用非参数核密度方法对Renyi二次熵/交叉熵进行估计。形式上看,算法框架具备流形正则化和鲁棒M-估计两方面的优点。利用半二次优化技术,所提出的目标函数以迭代的方式进行优化,并且理论上保证收敛。同时,一些常用的特征提取算法,如局部保留投影(LPP),谱回归判别分析(SRDA)和Laplacian正则化最小二乘回归(LapRLS)可以看作是REDA框架下的特例。在实际数据集上充分的对比实验结果表明了我们的方法对随机数据噪声和标记噪声都具有良好的鲁棒性。