基于统计学的近红外光谱变量筛选与稳健建模方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yantianwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近红外光谱(NIR)是一种无损分析技术,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱吸收峰重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。在近红外光谱分析中,变量筛选和稳健建模一直是多元校正分析中的重要内容,以解决模型的随机性和过拟合现象。与传统方法相比,统计分析是基于大量数据的处理,通过统计得到的规律更具有全局代表性和真实可靠性。因此,本论文利用统计学与多模型集成建模等方法,开展了新波长筛选方法和稳健多模型算法的研究,为提高模型的稳健性和准确性提供了新的思路,进一步表明了变量筛选的重要意义。具体研究内容如下:   1.针对变量冗余问题,利用随机检验(Randomization test)思想,建立了新型波长筛选方法,可挑选出代表样品性质特征的波长,提高模型预测精度。通过随机过程建立大量随机PLS模型,然后考察每一个波长对应的随机PLS模型与其PLS模型回归系数的关系,来评价其对模型的重要性。研究表明,该方法可以有效的选择有信息变量,且与MC-UVE波长筛选方法具有相当的优势,为变量筛选工作提供了新的思路。   2.为了研究变量筛选的必要性及相关性波长对变量筛选结果的影响,采用相关系数法对波长间的相关性及其对模型的影响进行了考察,同时对波长筛选和波段筛选方法进行了比较。通过对谷物和烟草的近红外光谱的定量分析,结果表明波长间存在强相关性。另外,变量筛选可以有效提高模型质量,当模型中包含较多强相关波长时,模型预测效果更好。因此,光谱中强相关波长连续分布时,波段筛选的结果更好;强相关波长不连续时,则波长筛选的结果较具有优势。   3.针对单一PLS模型容易受到奇异样本干扰的问题,依据概率取样和多模型思想,建立了基于概率取样的稳健多模型方法(RE-PLS),并应用于谷物和烟草的近红外光谱建模分析中。该方法的优势在于能有效识别奇异样本,从而提高子模型的质量。研究表明,RE-PLS方法与传统的稳健建模方法(EPLS)相比,所建立的模型更加稳健、可靠,预测结果明显提高。   4.为了充分利用所有波长信息,使模型预测精度提高,提出了根据波长稳定性进行波长分组及赋权策略,建立了新型加权多模型方法。该方法利用波长对模型的重要性,进行波长分组以及调节子模型权重,从而可以使所有波长的信息得到有效利用。通过对两组数据进行考察,结果表明,这种加权多模型比传统的PLS模型具有更好的预测能力,丰富了多模型建模策略。
其他文献
经历了20世纪80年代的快速崛起和90年代前期的辉煌,涉农传播1一度跌入低潮。进入21世纪,在新一轮的“三农”政策刺激下,涉农传播呈现明显的复苏态势。然而近年来,随着网民尤
细胞是生命活动的基本结构单位,一切生命现象,包括新陈代谢、呼吸作用、光合作用、信息传递、跨膜运输等生命活动都与细胞的整体状态息息相关,一切疾病的发病机制也要以细胞病变
DNA在液固界面上的吸附与运动行为因在材料、医学等领域具有良好的应用前景受到了人们的广泛关注。目前对于DNA在基底上吸附行为的研究较为成熟,然而对于DNA在基底上解吸附行为的研究还处于初级阶段,新的DNA解吸附方法仍需进一步探索。本文首次通过络合剂EDTA和无机盐NaCl实现了DNA分子在云母表面的解吸附,并借助于原子力显微镜(AFM)直观地观察了DNA在云母表面的吸附与解吸附情况。本论文的主要研
Salen型金属配合物由于其结构简单、原料易得,在催化研究、生物化学、分子识别研究等领域受到广大科研工作者的广泛关注。此外,Salen型配合物所具有的发光性、光致变色性、吸
学位