论文部分内容阅读
本文利用近红外光谱仪采集获得近红外光谱数据,并用模式识别方法进行近红外光谱的分类研究,最终实现苹果不同品种的分类以及猪肉储藏时间的判定。由于近红外光谱本身的复杂性,例如光谱的信息重叠问题,论文在建模过程中重点关注了光谱的特征提取问题,研究首先讨论了经典线性特征提取模型,接着针对经典线性模型的缺陷尝试引入了集成学习方案,建立了基于Adaboost.M1的特征提取模型,通过非线性手段重新提取光谱特征。最后,文章研究了基于偏最小二乘算法的特征提取与分类算法。具体内容如下: (1)研究了经典算法对于近红外光谱数据的特征提取能力,文中主要讨论了三种经典的线性特征降维方法包括主成分分析(Principal Component Analysis,PCA),fisher判别分析(Linear Discriminant Analysis,LDA),局部保举投影(Locality Preserving Projection,LPP),以及此基础上所提出的部分改进方法。其次实验对比了各个算法在苹果近红外光谱的特征提取与分类结果。实验结果表明,基于主成分分析的模型准确率最低,只有73.97%,而基于监督算法的模型均取得很好的分类准确率,达到90%以上,其中基于监督模式的局部保举投影(Supervised Locality Preserving Projection,SLPP)取得最好的分类准确率94.4%。 (2)研究了集成学习框架在近红外光谱特征提取中的应用。在集成学习理论中,可以通过集成的方式将多个弱分类器构造为一个强分类器,从而获得高精度的预测能力。本文在第4章提出了一类结合Adaboost.M1算法与经典特征提取算法的联合特征提取算法。算法利用自举采样原理在训练样本中获得随机性样本自举子集,并通过特征提取算法提取样本子集的特征空间,接着结合最近邻分类器在特征空间中获得若干弱分类器,最后通过加权联合的方式提升为强分类器。实验表明Adaboost可大大提高单个线性特征提取算法的鉴别信息提取能力,最终构造的分类器具有优异的预测精度,集成算法模型在猪肉近红外光谱建模测试中达到了100%的分类正确率。 (3)研究基于偏最小二乘的特征提取与分类模型(Partial Least Squares-DiscriminantAnalysis,PLS-DA)及其改进方案。PLSDA将光谱数据与类别信息进行线性回归,从而利用PLS实现数据的定性判别分析。然而PLSDA通常利用全光谱区域进行建立模型,这就导致在建模过程容易受到光谱中的噪声信息以及其他一些冗余信息的干扰,这些无关信息在预处理中很难全部消除,最终影响了预测模型精度。针对此问题,本文提出了一种基于联合区间偏最小二乘的模式分类算法(Si-PLSDA)。该算法首先利用Si-PLS进行光谱特征区域筛选,其次再利用筛选出来的光谱区域建立数据的定性预测模型。实验表明建立在最优光谱区间的模型结果要优于全光谱模型,在此基础的建立的预测模型对三种苹果的识别率达到92.2%,超过了基于全光谱区域建立的PLS预测模型(PLS-DA)的识别结果85.6%。