论文部分内容阅读
近红外光谱(NIR)是一种无损分析技术,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱吸收峰重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。在近红外光谱分析中,变量筛选和稳健建模一直是多元校正分析中的重要内容,以解决模型的随机性和过拟合现象。与传统方法相比,统计分析是基于大量数据的处理,通过统计得到的规律更具有全局代表性和真实可靠性。因此,本论文利用统计学与多模型集成建模等方法,开展了新波长筛选方法和稳健多模型算法的研究,为提高模型的稳健性和准确性提供了新的思路,进一步表明了变量筛选的重要意义。具体研究内容如下:
1.针对变量冗余问题,利用随机检验(Randomization test)思想,建立了新型波长筛选方法,可挑选出代表样品性质特征的波长,提高模型预测精度。通过随机过程建立大量随机PLS模型,然后考察每一个波长对应的随机PLS模型与其PLS模型回归系数的关系,来评价其对模型的重要性。研究表明,该方法可以有效的选择有信息变量,且与MC-UVE波长筛选方法具有相当的优势,为变量筛选工作提供了新的思路。
2.为了研究变量筛选的必要性及相关性波长对变量筛选结果的影响,采用相关系数法对波长间的相关性及其对模型的影响进行了考察,同时对波长筛选和波段筛选方法进行了比较。通过对谷物和烟草的近红外光谱的定量分析,结果表明波长间存在强相关性。另外,变量筛选可以有效提高模型质量,当模型中包含较多强相关波长时,模型预测效果更好。因此,光谱中强相关波长连续分布时,波段筛选的结果更好;强相关波长不连续时,则波长筛选的结果较具有优势。
3.针对单一PLS模型容易受到奇异样本干扰的问题,依据概率取样和多模型思想,建立了基于概率取样的稳健多模型方法(RE-PLS),并应用于谷物和烟草的近红外光谱建模分析中。该方法的优势在于能有效识别奇异样本,从而提高子模型的质量。研究表明,RE-PLS方法与传统的稳健建模方法(EPLS)相比,所建立的模型更加稳健、可靠,预测结果明显提高。
4.为了充分利用所有波长信息,使模型预测精度提高,提出了根据波长稳定性进行波长分组及赋权策略,建立了新型加权多模型方法。该方法利用波长对模型的重要性,进行波长分组以及调节子模型权重,从而可以使所有波长的信息得到有效利用。通过对两组数据进行考察,结果表明,这种加权多模型比传统的PLS模型具有更好的预测能力,丰富了多模型建模策略。