论文部分内容阅读
小样本学习是模式识别领域中十分重要的研究主题,而马田系统作为一种多元系统模式识别技术,在大样本数据或不平衡数据的分类问题中应用广泛,但对高维小样本数据的研究却较少。本文针对协方差矩阵的逆矩阵和特征选择的不稳定性问题,通过改进马田系统中度量尺度的构建与特征变量的筛选两个步骤,构建优化马田系统,用于高维小样本数据的降维和分类。
首先,针对协方差矩阵的逆矩阵不稳定性问题,构建了基于正则化技术和平滑技术的改进马氏距离。首先使用平滑技术改善样本协方差矩阵小特征值的估计,同时利用正则化技术减小被高估的大特征值的影响;随后使用由正则化技术和平滑技术优化后的协方差矩阵构建改进马氏距离,并将其作为优化马田系统的度量尺度;最后利用选自UCI数据集中的8个数据集验证了改进马氏距离的稳健性和有效性。
然后,针对特征选择不稳定性问题,建立了基于最大相关最小冗余算法和田口试验设计的两阶段特征选择方法。首先使用最大相关最小冗余算法去除噪声和冗余变量,选择与类标签相关度更好的特征子集;然后利用田口试验设计对所得特征子集进行约简,选出对分类精度有重大贡献的特征组合。最后,从稳定性和分类性能两个角度验证了两阶段特征选择方法的有效性。
最后,将上述优化马田系统应用于小样本条件下的电子邮件过滤问题中。结合改进马氏距离和两阶段特征选择方法,构建了优化马田系统,并将其用于电子邮件的分类。与经典马田系统以及其它三种分类算法进行比较,结果表明,优化马田系统有更好的分类降维效果,能提高电子邮件的分类效率。
首先,针对协方差矩阵的逆矩阵不稳定性问题,构建了基于正则化技术和平滑技术的改进马氏距离。首先使用平滑技术改善样本协方差矩阵小特征值的估计,同时利用正则化技术减小被高估的大特征值的影响;随后使用由正则化技术和平滑技术优化后的协方差矩阵构建改进马氏距离,并将其作为优化马田系统的度量尺度;最后利用选自UCI数据集中的8个数据集验证了改进马氏距离的稳健性和有效性。
然后,针对特征选择不稳定性问题,建立了基于最大相关最小冗余算法和田口试验设计的两阶段特征选择方法。首先使用最大相关最小冗余算法去除噪声和冗余变量,选择与类标签相关度更好的特征子集;然后利用田口试验设计对所得特征子集进行约简,选出对分类精度有重大贡献的特征组合。最后,从稳定性和分类性能两个角度验证了两阶段特征选择方法的有效性。
最后,将上述优化马田系统应用于小样本条件下的电子邮件过滤问题中。结合改进马氏距离和两阶段特征选择方法,构建了优化马田系统,并将其用于电子邮件的分类。与经典马田系统以及其它三种分类算法进行比较,结果表明,优化马田系统有更好的分类降维效果,能提高电子邮件的分类效率。