论文部分内容阅读
摘要:本文介绍了一种改进的偏最小二乘回归算法——局部加权偏最小二乘回归(LWPLSR)算法,阐明了其提出的原因和具有的优势等。在光谱数据集上进行了分析并与传统的PLSR进行了比较,证明了LWPLSR的有效性。
关键词:偏最小二乘回归;局部加权;光谱数据集
1 引言
近红外光谱是近年来发展较快的一种有效分析方法,其最大特点是方便、快速、成本较低、可同时检测多种成分,是一种能够满足检测的独立分析技术[1]. 随着各种高维数据分析算法和化学计量学的发展,近红外光谱的用途逐渐广泛了起来[2]。偏最小二乘法是一种新型的多元统计数据分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法实现了,在一个算法下,可以同时实现回归建模、数据结构简化以及两组变量之间的相关性分析。偏最小二乘法可以处理全光谱信息,包括这些信息中包含了过多的冗余信息[3]。局部模型是指x轴上的一个局部区域,在这个区域上定义了两个带参数的局部模型预测函数以及权重。
2 局部加权偏最小二乘算法
局部加权偏最小二乘(LWPLS)是一种广泛应用于自适应软测量开发的建模算法。在LWPLS中,通过计算数据之间的距离对历史样本进行相似性度量和权值分配,对处理过程时变的突变问题非常有效[4]。局部加权偏最小二乘是一种以即时建模思想为基础的方法,将传统的PLS算法融入局部加权的理念进行改进,在建立每一个局部模型时,考虑了训练数据与测试数据之间的距离,计算出它们之间的距离并将其作为各数据点的权重,如果距离新来数据越短就被赋予的权重越大,通过加权的样本建立局部PLS模型。因此,相比PLS建模而言,LWPLS能够更好地描述化工过程中的非线性特征[5]。
LWPLS的算法步骤如下:
首先设置隐变量的初值为1,并输入最多隐变量个数A的值
Step2:根据计算出它与数据库中各样本之间的相似度。其中,是的标准差,是位置参数,一般取0.1~1.5之间。将由计算得到的表示成相似矩阵的形式为:
Step3:对输入输出矩阵及新来的数据点进行中心化和加权处理,计算出及。
其中,为全1的列向量,
Step4:推断出局部线性模型
X的得分向量:ta=Xaωa.X的负荷向量:.模型回归系数向量:
新来数据点的得分:
如果,则下一步;不然的话,使再到step4进行循环。这里,是的最大特征值所对应的特征向量。
Step5:计算新来测试样本的输出估计值:
3 实例分析
此数据集为玉米数据集,共包含80个样本,在3台近红外光谱仪(m5, mp5, mp6)上测量。每个样品由四种成分组成:水分、油脂、蛋白质和淀粉。波长范围1100- 2400nm,间隔2nm(700通道)。m5spec中测量的光谱作为主光谱,mp6spec中测量的光谱作为次级光谱。数据集根据Kennard-Stone (KS)算法分为64个样本的校准集和16个样本的测试集。其中,’m5’, ‘mp5’, ‘mp6’这三个数据表代表了不同仪器测得的波普长度,可作为自变量。’water’, ‘pro’, ‘oil’, ‘starch’为不同属性的测值,可作为因变量。 其中共有样本80例,每个光谱测量样本共有700个属性,因变量只有一个属性。
本文在数据集中随即划分占总数量50%的样本为训练集,其余的样本作为测试集。然后使用不同算法进行训练和测试。经过训练,使用sklearn的PLSR在玉米光谱数据集上测试的RMSE:为0.3963.
使用LWPLSR在玉米光谱数据集上测试的RMSE为0.375,由此可见改进的PLSR算法——LWPLSR算法比传统的算法更有优势一些
结论
本文主要对LWPLSR进行了介绍和进行实例分析,证明了其在光谱数据集上有分析一定的有效性,比传统的PLSR效果更好一些。
参考文献
[1] CHEN H, LIN Z, TAN C. Automatic cancer discrimination based on near-infrared spectrum and class-modeling technique[J]. Vibrational Spectroscopy, 2020, 106(C). DOI:10.1016/j.vibspec.2019.102991.
[2] 田翔, 刘思辰, 王海岗, 等. 近红外漫反射光谱法快速检测谷子蛋白质和淀粉含量[J]. 食品科学, 2017, 38(16):140-144. DOI: 10. 7506/ spkx1002-6630-201716022.
[3] 张莹, 王耀南. 基于局部加权偏最小二乘法的冷凝器污垢预测[J]. 仪器仪表学报, 2010, 031(002):299-304.
[4] Yuan X , Zhou J , Wang Y . A spatial-temporal LWPLS for adaptive soft sensor modeling and its application for an industrial hydrocracking process[J]. Chemometrics and Intelligent Laboratory Systems, 2020, 197:103921.
[5] 薛明晨, 熊偉丽, 徐保国. 基于局部加权偏最小二乘的在线多模型建模[J]. 计算机应用研究, 2015, 032(010):2981-2984,2995.
关键词:偏最小二乘回归;局部加权;光谱数据集
1 引言
近红外光谱是近年来发展较快的一种有效分析方法,其最大特点是方便、快速、成本较低、可同时检测多种成分,是一种能够满足检测的独立分析技术[1]. 随着各种高维数据分析算法和化学计量学的发展,近红外光谱的用途逐渐广泛了起来[2]。偏最小二乘法是一种新型的多元统计数据分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法实现了,在一个算法下,可以同时实现回归建模、数据结构简化以及两组变量之间的相关性分析。偏最小二乘法可以处理全光谱信息,包括这些信息中包含了过多的冗余信息[3]。局部模型是指x轴上的一个局部区域,在这个区域上定义了两个带参数的局部模型预测函数以及权重。
2 局部加权偏最小二乘算法
局部加权偏最小二乘(LWPLS)是一种广泛应用于自适应软测量开发的建模算法。在LWPLS中,通过计算数据之间的距离对历史样本进行相似性度量和权值分配,对处理过程时变的突变问题非常有效[4]。局部加权偏最小二乘是一种以即时建模思想为基础的方法,将传统的PLS算法融入局部加权的理念进行改进,在建立每一个局部模型时,考虑了训练数据与测试数据之间的距离,计算出它们之间的距离并将其作为各数据点的权重,如果距离新来数据越短就被赋予的权重越大,通过加权的样本建立局部PLS模型。因此,相比PLS建模而言,LWPLS能够更好地描述化工过程中的非线性特征[5]。
LWPLS的算法步骤如下:
首先设置隐变量的初值为1,并输入最多隐变量个数A的值
Step2:根据计算出它与数据库中各样本之间的相似度。其中,是的标准差,是位置参数,一般取0.1~1.5之间。将由计算得到的表示成相似矩阵的形式为:
Step3:对输入输出矩阵及新来的数据点进行中心化和加权处理,计算出及。
其中,为全1的列向量,
Step4:推断出局部线性模型
X的得分向量:ta=Xaωa.X的负荷向量:.模型回归系数向量:
新来数据点的得分:
如果,则下一步;不然的话,使再到step4进行循环。这里,是的最大特征值所对应的特征向量。
Step5:计算新来测试样本的输出估计值:
3 实例分析
此数据集为玉米数据集,共包含80个样本,在3台近红外光谱仪(m5, mp5, mp6)上测量。每个样品由四种成分组成:水分、油脂、蛋白质和淀粉。波长范围1100- 2400nm,间隔2nm(700通道)。m5spec中测量的光谱作为主光谱,mp6spec中测量的光谱作为次级光谱。数据集根据Kennard-Stone (KS)算法分为64个样本的校准集和16个样本的测试集。其中,’m5’, ‘mp5’, ‘mp6’这三个数据表代表了不同仪器测得的波普长度,可作为自变量。’water’, ‘pro’, ‘oil’, ‘starch’为不同属性的测值,可作为因变量。 其中共有样本80例,每个光谱测量样本共有700个属性,因变量只有一个属性。
本文在数据集中随即划分占总数量50%的样本为训练集,其余的样本作为测试集。然后使用不同算法进行训练和测试。经过训练,使用sklearn的PLSR在玉米光谱数据集上测试的RMSE:为0.3963.
使用LWPLSR在玉米光谱数据集上测试的RMSE为0.375,由此可见改进的PLSR算法——LWPLSR算法比传统的算法更有优势一些
结论
本文主要对LWPLSR进行了介绍和进行实例分析,证明了其在光谱数据集上有分析一定的有效性,比传统的PLSR效果更好一些。
参考文献
[1] CHEN H, LIN Z, TAN C. Automatic cancer discrimination based on near-infrared spectrum and class-modeling technique[J]. Vibrational Spectroscopy, 2020, 106(C). DOI:10.1016/j.vibspec.2019.102991.
[2] 田翔, 刘思辰, 王海岗, 等. 近红外漫反射光谱法快速检测谷子蛋白质和淀粉含量[J]. 食品科学, 2017, 38(16):140-144. DOI: 10. 7506/ spkx1002-6630-201716022.
[3] 张莹, 王耀南. 基于局部加权偏最小二乘法的冷凝器污垢预测[J]. 仪器仪表学报, 2010, 031(002):299-304.
[4] Yuan X , Zhou J , Wang Y . A spatial-temporal LWPLS for adaptive soft sensor modeling and its application for an industrial hydrocracking process[J]. Chemometrics and Intelligent Laboratory Systems, 2020, 197:103921.
[5] 薛明晨, 熊偉丽, 徐保国. 基于局部加权偏最小二乘的在线多模型建模[J]. 计算机应用研究, 2015, 032(010):2981-2984,2995.