论文部分内容阅读
模式分类是数据分析和处理中的核心问题,而对于高维数据进行分类时经常会遇到“维数灾难”。为了克服此困难,一种常用方法是先用主成分分析方法将特征空间降到低维的主成分子空间,即将任一样本投影到主成分子空间上,并采用概率模型(如高斯混合模型)对降维后的数据进行建模并得到各类样本的概率分布(条件概率分布)。最后对测试样本做同样的投影,计算其属于各类的概率密度,并根据贝叶斯决策规则进行分类。 由于主成分分析方法仅在主成分子空间中保留原数据的方差(或分布)信息,这种统一的PCA分类算法忽略了残差子空间(补子空间)的有关信息,在一定程度上限制了分类正确率的提高。为了克服此不足,Moghaddam&Pentland于1997年提出了基于高斯混合模型的联合子空间方法。它对每类数据进行PCA降维,并用投影数据在主成分子空间上服从的混合高斯分布密度与数据残差在残差子空间上所服从的球形高斯密度之乘积近似该类的概率密度函数。这样显著提高了实际分类的正确率。近年来,这种联合子空间方法越来越受到人们的重视,在参数估计和分类准则等方面得到了发展,并且在一些真实数据上取得了很好的分类效果。 在上述研究的基础上,本文将联合子空间方法规范化,提出了其成立的两个基本假设,另外从理论上证明了残差子空间上高斯密度函数的参数“代表特征根”的启发式取值正是该参数的极大似然估计。然后,本文在同一框架下,比较了逐分量联合子空间算法与一种EM算法的贝叶斯正则化方法,并阐述了两者的内在联系与前者的优势。本文进一步在新的混合模型、子空间分解等方面做了一些探索,提出了基于t混合模型、核主成分分析的联合子空间算法。通过分析模拟和真实数据上的实验结果,我们发现几种联合子空间算法几乎都取得了比统一的PCA分类算法更高的分类正确率,并有了更广的应用领域。本文还比较了它们之间的优劣关系并尝试给出理论解释。