论文部分内容阅读
结合国家863计划项目、国防973项目和教育部博士点基金项目,研究了有限样本下基于机器学习的高维多光谱数据分类问题。高维多光谱数据分类中,由于训练样本非常有限、数据维数很高,以经验风险最小化为归纳原则的传统模式识别方法通常难以取得很好的结果。以统计学习理论(Statistic Learning Theory—SLT)、支持向量机(Support Vector Machine—SVM)和人工神经网络(Artificial Neural Networks—ANN)为基础,本文开展了以下几个方面的研究工作: ● 深入分析了高维多光谱数据的特点和传统模式分类方法在高维多光谱数据分类中面临的困难。把统计学习理论和支持向量机用于高维多光谱数据分类,有效地克服了Hughes现象,获得了比传统方法更好的分类精度。深入研究了在高维多光谱数据分类中,SVM的性能与核函数类型、核函数参数、支持向量(Support Vector—SV)、训练样本数目、数据维数等之间的关系。 ● 根据SVM的分类判决面仅由支持向量决定的特点,提出了基于边界样本选择的快速SVM学习算法(BSS-SVM)。在SVM学习之前,首先剔除训练样本集中距离判决边界远的样本,选取靠近判决边界的样本构成有效训练样本集,然后用SVM对有效样本集进行学习,这样大大降低了训练样本集的规模,提高了SVM的学习速度。为了提高边界样本选取的速度,提出了基于模糊聚类(FCM)的快速边界样本选取策略。 ● SVM是针对两类分类问题设计的学习机器,不能直接用来解决多类分类问题,然而高维多光谱数据分类问题是典型的多类分类问题。本文提出了基于纠错编码的SVM多类分类算法(ECC-SVM),并分析了ECC-SVM的推广能力与编码长度、码间汉明距离、编码顺序以及分类间隙等之间的关系,给出了这种关系的数学描述。把目前广泛使用的1-v-R SVM多类分类算法作为ECC-SVM的一个特例,给出了1-v-R SVM推广性的数学描述。推广性的理论分析结果将指导人们更合理地使用这个算法来获取更好的分类精度。 .双并联前向神经网络(Double Parallel Feedfo。rd Neural Networks一 DPFNN)已成功应用于多光谱数据分类,对其推广性的研究具有十分 重要的意义。本文对DPFN’N的推广性进行了深入的理论分析,发现 了影响DPFNN推广性的主要因素,并得到了从本质上提高其推广能 力的方法。理论分析结果表明,输出层权值控制着DPFNN的椎广能 力。在这个结果的基础上,提出了基于输出层权值正则化的强推广性 DPFNN学习算法,通过控制输出层权值提高了DPFNN的推广能力。 该算法可以推广应用于其它多层前向神经网络的训练中。 t 根据高维核空间的性质,提出了基于Bhattach叩a距离准则的核空间 特征提取算法(BgyE)。该算法采用核函数把样本非线性映射到高维 核空间,在核空间中寻找一组最优的特征向量,把样本线性映射到低 维特征空间,使类别之间的Bhattach删a距离最大,从而使特征空间 中样本的BayCs分类误差上界最小。采用核函数技术,把特征提取问 题转化为一个 QP优化问题。QP优化问题在数学上具有全局收敛性, 而且有快速算法支持,所以BKFE特征提取算法的速度和提取的特征 质量都得到了保证。此算法具有三个优点:*)提取的特征向量更有 利于分类;o)对于给定的模式分类问题,算法可以预测出在不损失 分类精度情况下所必需的最少特征向量的数目,并能够提取出分类有 效特征;O)对于多类分类问题,算法给出了与原始空间有相同分类 精度需要的特征向量数目的上界。 以上理论分析结果和算法己应用于国家863-308提供的64波段多光谱数据和美国 AVIRIS 220波段多光谱数据的实际分类中,取得了令人满意的结果。本文的研究结果为有限样本下高维多光谱数据分类提供了新的理论和方法。