论文部分内容阅读
对所测样本的光谱信息建立化学计量学模型是光谱分析方法中重要的一步,模型的好坏直接决定了预测结果的准确度。本文主要研究的是化学计量学模型中的变量选择模型以及定性分析模型。在光谱分析方法中采用的变量选择模型大都基于偏最小二乘(partial least squares,PLS)模型,如基于PLS模型回归系数的变量选择算法(PLS with regression coefficient,PLS-BETA)、无信息变量消除算法(PLS with uninformative variable elimination,PLS-UVE)、变量重要性投影算法(PLS with variable importance in projection,PLS-VIP)。这些变量选择算法都需要优化模型的潜在变量(latent variables,LV)以及变量重要性指标的阈值。学者们通常根据模型的偏差指标来确定LV的取值,阈值的取值则是根据自身经验主观选取的,该方法增大了校正模型过拟合的风险且并不客观。本文提出利用排序差异和算法(sum of ranking differences,SRD)结合表征模型偏差或模型方差的多个模型评价指标来自动且客观的确定LV及阈值的取值,并以VIP及UVE算法为变量选择算法的代表,以公共的玉米近红外(near infrared reflectance,NIR)光谱数据为实验数据做了相关研究。研究结果表明该方法所选变量较传统VIP(UVE)所选变量的可解释性及所选变量对应的预测精度均有了提升。并进一步研究了SRD输入矩阵中的部分劣质模型是否会对SRD算法最终所选的变量选择算法模型造成影响。同时本文提出利用SRD算法结合分类模型对光谱数据进行定性分析,相较于单一的分类模型,该方法不需要选取分类模型的参数取值。并以偏最小二乘判别分析算法(partial least squares-discriminant analysis,PLS-DA)为分类模型的代表,以泥蚶的激光诱导击穿光谱(Laser-induced breakdown spectroscopy,LIBS)数据为实验数据做了相关研究,研究结果表明该方法的分类效果优于单独使用PLS-DA模型的分类效果。主要内容如下:1.介绍了光谱分析方法的应用、光谱分析方法中化学计量学模型的一些调参方法,以及近红外光谱及激光诱导击穿光谱的作用机理。同时介绍了线性模型、变量选择方法,并重点介绍了本研究中用到的排序差异和算法(sum of ranking differences,SRD)以及表征模型偏差方向或模型方差方向的一些模型评价指标。2.提出利用SRD算法来选取变量选择算法的参数取值,并以VIP(UVE)算法作为变量选择算法的代表做了相关研究。以公共的玉米近红外光谱数据为实验数据,利用表征模型不同方向的多个模型评价指标结合SRD算法从VIP(UVE)算法所有参数取值对应的模型中自动且客观的选取出一个最佳的模型,该模型对应的参数取值即为VIP(UVE)模型参数的最终取值,并将该方法命名为:PLS-VIP-SRD(PLS-UVE-SRD)。同时按传统的方法确立了VIP(UVE)模型的参数取值,其取值对应的模型即为传统的PLS-VIP(PLS-UVE)算法确立的模型。比较了PLS-VIP-SRD(PLS-UVE-SRD)与PLS-VIP(PLS-UVE)各自所选变量的可解释性以及所选变量的预测精度。3.基于内容2研究了SRD输入矩阵中的部分劣质模型是否会对SRD算法选取VIP(UVE)的参数取值造成影响。先根据一些指标从VIP(UVE)算法所有参数取值对应的模型中初筛掉部分劣质模型,再利用表征模型不同方向的多个模型评价指标结合SRD算法从VIP(UVE)算法对应的剩余模型中自动且客观地选取出一个最佳的模型。该模型对应的参数取值即为SRD输入矩阵中不含部分劣质模型的PLS-VIP-SRD(PLS-UVE-SRD)模型参数的最终取值。4.提出利用SRD算法结合分类模型来对光谱数据做定性分析。该方法将分类模型所有可能参数取值对应的模型作为SRD输入矩阵的行,样本的不同类别作为SRD输入矩阵的列,从而避免了单独使用分类模型所需的调参过程。并以偏最小二乘判别分析(PLS-DA)做为分类模型的代表,以泥蚶的LIBS数据做为实验数据做了相关研究,并将该方法所实现的分类效果与单独使用PLS-DA所实现的分类效果做了对比分析。