论文部分内容阅读
机器学习的目的是为了解决规模比较庞大,系统比较复杂的问题,因此如何挖掘及处理在大量数据中隐藏的潜在相关信息,从纷繁复杂的表象中提取出事物的本质特征愈显重要,并越来越受到众多研究者的重视。长期以来,特征提取的焦点主要集中在怎样可以用较少的数据精炼地表示事物之间的区别,这样特征提取问题从某种程度上来说就归结为降低特征的维数问题。从分类器的运行性能角度出发,往往根据所选取的不同特征以及不同数量而对分类结果产生不同程度的差异为标准来构造分类器。由此可见,特征提取在分类过程中起着重要作用。所有的特征提取算法的主要目的都是为了降低计算的复杂性并且通过剔除弱相关或者冗余特征分量来改进分类器的设计和效果。
本文介绍主成分分析和独立成分分析两种常用的特征提取方法,并针对手写数字字符识别中由于书写习惯和风格的不同,造成字符模式不稳定的问题,对重建模型的误差分析进行字符识别;最后通过对美国国家邮政局USPS字库中全部数字字符完整的识别实验,证实了算法稳健性和准确性。