论文部分内容阅读
摘要 近红外光谱分析技术因其可以快速准确地检测烟草中化学成分含量而在烟草领域具有广泛应用前景。概述了近红外光谱分析技术基本原理,综述了近红外光谱分析技术在烟草领域的主要应用对象,探讨了近红外光谱分析技术针对烟草分析的主要建模方法,展望了近红外光谱分析技术在烟草领域的未来发展方向。
关键词 近红外光谱;烟草;研究进展
中图分类号S572文献标识码A文章编号0517-6611(2014)29-10318-04
作者简介李豪豪(1987- ),男,河南洛阳人,硕士,从事烟草化学和工艺的研究。*通讯作者。
近红外光(NIR)是介于可见光(VIS)和中红外光(MIR)之间的电磁波,美国材料与试验协会(ASTM)将波长范围为780~2 526 nm(12 820~3 959 cm-1)的电磁波定义为近红外光谱区,通常又将NIR分为2个区域:780~1 100 nm波长范围的近红外短波和1 100~2 526 nm波长范围的近红外长波。近红外区的光谱吸收带是由有机物质中能量较高的化学键(主要是C-H、O-H、N-H、S-H、C=O)在中红外光谱区基频吸收的倍频、合频和差频吸收带叠加而成。当物质被近红外光照射后,分子振动从基态向高能级跃迁,吸收能量使得光谱产生改变,进而得到物质的官能团结构与数量信息,因此近红外光谱非常适用于分析天然产物中与有机基团有直接或间接关系的成分[1]。
近红外光谱分析技术(NIRS)是近红外光谱仪、化学计量学软件和应用模型3部分的有机结合体。它具有分析过程简单、无需样品前处理、无损检测、测试过程无污染、多组分同时检测、分析结果准确、投资低、操作简便、专业要求低等诸多优点,基于此,近红外光谱分析技术作为近年来发展最快的光谱分析技术,广泛应用于农业、医药、石油、化工、烟草、食品、纺织等众多领域[2-5]。
烟草作为复杂的天然植物,化学成分众多,其常规化学成分总糖、还原糖、总氮、总植物碱、钾、氯这6项指标是评价烟叶质量的最基本化学成分指标,在卷烟制品的配方设计与质量监控方面起着非常重要的作用。这些含有大量C-H、O-H、N-H等基团的指标与近红外光谱的吸收带存在直接或间接的关系,适合采用近红外分析技术进行检测。研究人员在此方面进行了深入研究,已形成应用于实践的定性或定量模型。基于近红外光谱分析技术的各种优点,研究人员将其广泛应用于烟草行业的众多领域,取得了诸多研究成果,推动行业取得了更好的效益[6-7]。为进一步挖掘近红外分析技术的潜力,开发新的检测领域及指标,笔者综述了近红外光谱分析技术在烟草领域的应用检测对象、主要建模方法方面的研究进展。
1 NIRS在烟草领域的应用检测对象
近年来,利用NIRS对烟草进行检测已逐步发展成为一门独立的分析技术,其在烟草领域的应用对象也在不断增加。早在1977年,McClure等就采用光谱二阶导数回归分析法建立了NIRS检测烟叶中还原糖含量的模型,其模型相关系数为0.968,预测标准偏差为1.36[8]。Hanam等采用多种人工神经网络算法对烟叶中烟碱含量进行了预测[9],Hoyrm等的研究表明,即使低分辨率的近红外仪也可较好地同时测量烟叶中多种化学成分[10]。国内利用NIRS对烟叶质量检测也进行了大量研究。张建平等采用主成分回归法及内部交叉证实法建立并优化了光谱与化学成分间的关系模型,测定了烟叶中烟碱、总糖、还原糖、总氮及氯的含量,结果表明烟碱和总糖的测定结果与流动注射分析仪的测试结果比较吻合,相对误差在3.5%以内[11];邓亮等使用偏最小二乘法(PLS)为建模方法,选择4 030~9 000 cm-1谱段,采用一阶导数和SG平滑滤波法进行光谱预处理,建立了烟叶中烟碱、总氮、总糖的近红外预测模型,结果表明近红外检测法与烟草行标检测法(YC/T161)测得值之间不存在显著性差异(P<0.05),近红外光谱分析可准确测量烟叶中烟碱、总氮、总糖的含量[12]。
香味是烟草品质的重要内容,研究人员利用NIRS对烟草香味成分含量进行了诸多检测研究。邱军等建立了烟草中石油醚提取物内的芳香油、树脂、色素、醛、蜡、脂肪酸等成分的近红外光谱模型,结果表明,预测值平均相对误差为4.98%,预测均方差为0.303[13]。吴玉萍等分别对烟草中苹果酸、柠檬酸、石油醚提取物和总多酚进行了NIRS检测,结果表明,各组分预测值与实测值之间的平均偏差:苹果酸为9.0%,柠檬酸为4.0%,石油醚提取物为12.4%,总多酚为10%[14-15]。付秋娟等[16]、蒋锦锋等[17]利用NIRS建立了烟叶中总挥发碱、总挥发酸的数学模型,经未知样品检测,其预测值和实测值间平均相对偏差均小于5%,表明NIRS技术可用于烟草香味成分的检测。
随着研究深入,NIRS也广泛应用于卷烟产品的检测。CO、焦油、烟碱作为卷烟产品的主要指标,采用经典方法不仅无法对其含量进行预测,在测量的过程中也会产生污染。赵雪岑等分别使用二阶导数法和偏最小二乘法(PLS)建立了30个品牌样品的CO、焦油、烟碱校正模型,准确预测了卷烟产品的三大烟气指标,同时还利用NIRS对卷烟产品的价格档次进行了预测分类[18]。付秋娟等分别用烟丝(111个)和烟末(204个)样品建立了原烟卷烟主流烟气中焦油和烟碱的近红外模型,研究表明,2种样品状态均能建立其近红外速测模型,且烟气烟碱的校正模型较好[19]。张鼎方等应用近红外光纤漫反射技术扫描烟用接装纸,对不同厂家烟用接装纸进行模式识别,并建立评价模型,可准确评判烟用接装纸内在质量稳定性[20]。王坚等[21]、陶鹰等[22]利用NIRS建立了红云红河烟草(集团)有限责任公司云烟(软珍品)、云烟(紫)、云烟(红)、红河(V8)、云烟(软珍品)和红山茶(软)6个牌号样品的糖料相似度匹配模型,结果表明,对模型样品预测的相似度匹配值(SMV)均在95以上。任志强等采用主成分分析法分析了卷烟产品A、B1、B2的物理指标和主流烟气指标,确定其主成分特征分量,根据特征矩阵建立了卷烟产品主成分得分图,从而对不同的卷烟样品进行聚类分析;并利用主成分载荷图,分别对卷烟产品物理指标和主流烟气指标的重要性和相关性进行分析[23]。袁大林等利用近红外光谱分析技术结合光谱预处理、逐步变量筛选法及判别分析法等化学计量学方法,建立了3个不同品牌烟丝的判别模型,该模型的训练与交互检验平均正确率分别为98.4%和95.2%[24]。张灵帅等以A牌和假冒A牌卷烟为试验材料,采用近红外光谱法结合主成分分析-马氏距离判别分析方法建立了鉴别模型[25]。从120个样品中随机抽取100个用于建立4个主成分变量的定性判别模型,模型的相关系数达到了0.95,对20个未知样品的预测结果准确率为100%。 研究人员利用近红外光谱分析技术在烟叶产地判定、等级划分、病虫害鉴定、鲜烟根茎叶成分分析以及物理指标测定等领域开展了大量研究。王毅等应用光谱特征投影及相关分析方法以烤烟品种K326为样,对多个产区的17类烟叶进行近红外光谱分析,结果表明,将样品随机按2∶1划分为分析集与验证集后,其分析集与验证集的一维、二维投影均值的相关系数都达到0.99以上,具有较好的一致性[26-27]。邱凯贤等基于近红外光谱分析技术结合支持向量机(SVM)模式识别原理,对180个烟叶样品的近红外光谱一阶求导后通过MATLAB分析软件建立烟叶产地的近红外预测模型,并应用该模型对78个烟叶样品进行实际产地预测,结果表明,该预测模型训练样本的正确识别率为100.00%,测试样本正确识别率为91.03%[28]。段焰青等以云南8个不同产地的880个烟叶样品为基础,利用TQ analyst分析软件的定性分析方法建立烟叶产地的近红外预测模型,该模型对云南烟叶产地的鉴别正确率为90%[29]。束茹欣等利用主成分分析(PCA)法和支持向量机算法(SVM)对6个产烟省份的烟叶建立了近红外产地识别模型,结果表明,NIRPCASVM模型对6省烟叶样品识别的预报正确率高达97%[30]。
宋相中等采用近红外光谱结合最小二乘双胞胎支持向量机(LSTSVM)算法建立了烟叶等级分类模型,对预测集样品的平均识别率为95.56%[31]。唐果等采用近红外光谱结合最小二乘判别分析(PLSDA)算法建立了烟叶等级分类模型,结果表明训练集和预测集的预测正确率分别为100.0%(150/150)和96.7%(58/60)[32]。于春霞等应用基于SIMCA算法的相似性分析数学模型,对不同部位烟叶的近红外光谱进行了相似性分析[33],结果表明,基于近红外光谱的烟叶部位相似性分析结果与实际烟叶部位之间的相似性程度是相符的。谢娟等以NIR光谱和总糖、还原糖、烟碱、总氮、钾、氯检测数据为基础,采用基于马氏距离的判别法对1 129个国产烤烟烟叶样品的产地和部位进行了模式识别,结果表明,对烟叶产地的识别准确率分别为88.0%~94.5%和62%~78%,对不同产地烟叶部位的识别准确率分别为71%~75%与63%~67%,对同一产地烟叶部位的识别准确率分别为82%~87%与80%~93%,对上、下部烟叶模式识别的识别准确率分别为92%~98%与89%~98%[3-4]。
何余勇等采用摩擦接种方法对烟苗接种TMV病毒诱发病毒病,利用近红外光谱对健株和病株内在化学成分(还原糖、钾、氯、总氮、总糖和总烟碱)进行了定性和定量分析[35]。结果表明,接种TMV10 d后,健株与病株在化学成分上差异较大,特别是在有机物含量上,各调查时期的处理均高于对照。尹旭等利用近红外分析技术结合偏最小二乘法建立片烟水分检测模型,经过试验对比发现:以标准方法检测值为基准,利用近红外技术检测烟片含水率与实验室普遍使用的快速烘箱相比,绝对偏差不大于0.2%的概率提高了1.55%,不大于0.3%的概率提高了1.82%,比快速烘箱更准[36]。王冬等利用偏最小二乘法对220个烟叶样品进行近红外光谱检测,建立钙元素和镁元素的校正优化模型,用F检验和T检验说明近红外模型的预测值和化学值之间没有明显差异[37]。付秋娟等利用近红外光谱仪(NIR)结合偏最小二乘法,用漫反射方法测定了青烟叶中K、Ca、Mg和质体色素(叶绿素和类胡萝卜素)等多种化学成分,试验证明,NIR可以用于测试青烟叶中这几种化学成分的含量[38-39]。李佛琳等对烤烟品种中烟101进行了叶片近红外反射率测定、组织结构解剖观察以及两者关系分析,研究发现,随施氮量增加、叶位上升、成熟度降低,叶片厚度、栅栏组织厚度、海绵组织厚度、组织比、比叶重均呈上升趋势,鲜烟叶近红外(800 nm)反射增加;叶片厚度、栅栏组织厚度、海绵组织厚度、组织比与近红外反射率之间均呈显著正相关关系[40]。张云龙等应用声光可调滤光器近红外光谱仪建立再造烟叶厚度检测方法模型,能准确预测再造烟叶厚度指标[41]。
2NIRS在烟草领域的主要建模方法
近红外光谱吸收峰强度较弱,多组分信号重叠,并且背景干扰严重,如何借助化学计量学方法从复杂的光谱中提取待测组分的定量信息,消除背景和噪声等无关信息的干扰,建立光谱与待测组分属性值的关系模型,以实现定性定量分析一直是研究的重要内容。
张敏等利用随机模型的参数统计和连续小波变换(CWT)等方法,根据光谱变量对模型的影响,定义了“强影响变量(IV)”,建立了可有效识别IVs的方法;利用样本交叉验证残差的分布及光谱变量组合对模型的影响,提出了一种同时剔除奇异样本和无信息变量的方法;提出了小波展开的偏最小二乘方法(WUPLS),可充分利用光谱中的定量信息,应用于近红外光谱的定量分析。研究结果表明,该方法可在识别奇异样本的同时,有效消除无信息变量,并有效地提取和利用了近红外光谱中的定量信息,提高模型的预测能力[40]。
吴荣晖等基于滤波器的构建技术,提出了一种近红外光谱数据压缩的自适应小波算法,该方法将小波的基本数学原理和半无限线性规划理论结合,从信号本身的特点出发,构建和优化能满足解压缩和定量要求的滤波器,可避免人为因素所带来的主观误差;基于离散小波变换(DWT)和最小二乘支持向量回归(LSSVR)方法,建立了近红外光谱测定烟叶中无机水溶性氯离子含量的一种新型回归校正模型,首先采用DWT对近红外光谱进行数据压缩和背景扣除,再用LSSVR建立氯离子的校正模型。结果表明,所建立的方法可有效实现数据压缩和背景扣除,能准确预测出烟叶中无机水溶性氯离子含量[41]。
贺英等将半监督学习、迁移学习方法引入近红外光谱分析建模方法体系,主要围绕近红外高维光谱数据处理、光谱定性分析和定量分析建模、光谱分析模型传递4个关键技术内容展开了深入研究。提出一种半监督核邻域保护嵌入算法(SSKNPE),通过充分利用部分有标记样本的先验分类信息约束特征映射,使数据从高维映射到低维后仍能保持数据的全局结构和局部结构,经试验验证,SSKNPE算法的降维质量优于LLE等传统流形学习算法,能更好地改善卷烟品牌识别近红外光谱分析模型的分类性能;引入转导推理和半监督学习思想,提出一种基于近邻传播聚类的半监督支持向量机算法(APS4VM),近邻传播聚类和混沌优化相结合,快速搜索多个间隔最大平面的低密度区域,确定安全分类的支持决策面,结果表明半监督支持向量机解决了标记样本不足时的卷烟近红外光谱定性分析建模困难的问题;提出一种基于量子粒子群优化的半监督支持向量回归算法(QPSOLSS3VR),解决了标记样本不足时的卷烟近红外光谱定量分析建模困难的问题;应用迁移学习思想,提出一种新的近红外光谱模型传递算法,即基于相似匹配和迁移学习的模型传递算法(SMTrBoostEns),在目标仪器采集较少标准样本光谱的情况下,仍能有效提升目标仪器回归预测精度[42]。
关键词 近红外光谱;烟草;研究进展
中图分类号S572文献标识码A文章编号0517-6611(2014)29-10318-04
作者简介李豪豪(1987- ),男,河南洛阳人,硕士,从事烟草化学和工艺的研究。*通讯作者。
近红外光(NIR)是介于可见光(VIS)和中红外光(MIR)之间的电磁波,美国材料与试验协会(ASTM)将波长范围为780~2 526 nm(12 820~3 959 cm-1)的电磁波定义为近红外光谱区,通常又将NIR分为2个区域:780~1 100 nm波长范围的近红外短波和1 100~2 526 nm波长范围的近红外长波。近红外区的光谱吸收带是由有机物质中能量较高的化学键(主要是C-H、O-H、N-H、S-H、C=O)在中红外光谱区基频吸收的倍频、合频和差频吸收带叠加而成。当物质被近红外光照射后,分子振动从基态向高能级跃迁,吸收能量使得光谱产生改变,进而得到物质的官能团结构与数量信息,因此近红外光谱非常适用于分析天然产物中与有机基团有直接或间接关系的成分[1]。
近红外光谱分析技术(NIRS)是近红外光谱仪、化学计量学软件和应用模型3部分的有机结合体。它具有分析过程简单、无需样品前处理、无损检测、测试过程无污染、多组分同时检测、分析结果准确、投资低、操作简便、专业要求低等诸多优点,基于此,近红外光谱分析技术作为近年来发展最快的光谱分析技术,广泛应用于农业、医药、石油、化工、烟草、食品、纺织等众多领域[2-5]。
烟草作为复杂的天然植物,化学成分众多,其常规化学成分总糖、还原糖、总氮、总植物碱、钾、氯这6项指标是评价烟叶质量的最基本化学成分指标,在卷烟制品的配方设计与质量监控方面起着非常重要的作用。这些含有大量C-H、O-H、N-H等基团的指标与近红外光谱的吸收带存在直接或间接的关系,适合采用近红外分析技术进行检测。研究人员在此方面进行了深入研究,已形成应用于实践的定性或定量模型。基于近红外光谱分析技术的各种优点,研究人员将其广泛应用于烟草行业的众多领域,取得了诸多研究成果,推动行业取得了更好的效益[6-7]。为进一步挖掘近红外分析技术的潜力,开发新的检测领域及指标,笔者综述了近红外光谱分析技术在烟草领域的应用检测对象、主要建模方法方面的研究进展。
1 NIRS在烟草领域的应用检测对象
近年来,利用NIRS对烟草进行检测已逐步发展成为一门独立的分析技术,其在烟草领域的应用对象也在不断增加。早在1977年,McClure等就采用光谱二阶导数回归分析法建立了NIRS检测烟叶中还原糖含量的模型,其模型相关系数为0.968,预测标准偏差为1.36[8]。Hanam等采用多种人工神经网络算法对烟叶中烟碱含量进行了预测[9],Hoyrm等的研究表明,即使低分辨率的近红外仪也可较好地同时测量烟叶中多种化学成分[10]。国内利用NIRS对烟叶质量检测也进行了大量研究。张建平等采用主成分回归法及内部交叉证实法建立并优化了光谱与化学成分间的关系模型,测定了烟叶中烟碱、总糖、还原糖、总氮及氯的含量,结果表明烟碱和总糖的测定结果与流动注射分析仪的测试结果比较吻合,相对误差在3.5%以内[11];邓亮等使用偏最小二乘法(PLS)为建模方法,选择4 030~9 000 cm-1谱段,采用一阶导数和SG平滑滤波法进行光谱预处理,建立了烟叶中烟碱、总氮、总糖的近红外预测模型,结果表明近红外检测法与烟草行标检测法(YC/T161)测得值之间不存在显著性差异(P<0.05),近红外光谱分析可准确测量烟叶中烟碱、总氮、总糖的含量[12]。
香味是烟草品质的重要内容,研究人员利用NIRS对烟草香味成分含量进行了诸多检测研究。邱军等建立了烟草中石油醚提取物内的芳香油、树脂、色素、醛、蜡、脂肪酸等成分的近红外光谱模型,结果表明,预测值平均相对误差为4.98%,预测均方差为0.303[13]。吴玉萍等分别对烟草中苹果酸、柠檬酸、石油醚提取物和总多酚进行了NIRS检测,结果表明,各组分预测值与实测值之间的平均偏差:苹果酸为9.0%,柠檬酸为4.0%,石油醚提取物为12.4%,总多酚为10%[14-15]。付秋娟等[16]、蒋锦锋等[17]利用NIRS建立了烟叶中总挥发碱、总挥发酸的数学模型,经未知样品检测,其预测值和实测值间平均相对偏差均小于5%,表明NIRS技术可用于烟草香味成分的检测。
随着研究深入,NIRS也广泛应用于卷烟产品的检测。CO、焦油、烟碱作为卷烟产品的主要指标,采用经典方法不仅无法对其含量进行预测,在测量的过程中也会产生污染。赵雪岑等分别使用二阶导数法和偏最小二乘法(PLS)建立了30个品牌样品的CO、焦油、烟碱校正模型,准确预测了卷烟产品的三大烟气指标,同时还利用NIRS对卷烟产品的价格档次进行了预测分类[18]。付秋娟等分别用烟丝(111个)和烟末(204个)样品建立了原烟卷烟主流烟气中焦油和烟碱的近红外模型,研究表明,2种样品状态均能建立其近红外速测模型,且烟气烟碱的校正模型较好[19]。张鼎方等应用近红外光纤漫反射技术扫描烟用接装纸,对不同厂家烟用接装纸进行模式识别,并建立评价模型,可准确评判烟用接装纸内在质量稳定性[20]。王坚等[21]、陶鹰等[22]利用NIRS建立了红云红河烟草(集团)有限责任公司云烟(软珍品)、云烟(紫)、云烟(红)、红河(V8)、云烟(软珍品)和红山茶(软)6个牌号样品的糖料相似度匹配模型,结果表明,对模型样品预测的相似度匹配值(SMV)均在95以上。任志强等采用主成分分析法分析了卷烟产品A、B1、B2的物理指标和主流烟气指标,确定其主成分特征分量,根据特征矩阵建立了卷烟产品主成分得分图,从而对不同的卷烟样品进行聚类分析;并利用主成分载荷图,分别对卷烟产品物理指标和主流烟气指标的重要性和相关性进行分析[23]。袁大林等利用近红外光谱分析技术结合光谱预处理、逐步变量筛选法及判别分析法等化学计量学方法,建立了3个不同品牌烟丝的判别模型,该模型的训练与交互检验平均正确率分别为98.4%和95.2%[24]。张灵帅等以A牌和假冒A牌卷烟为试验材料,采用近红外光谱法结合主成分分析-马氏距离判别分析方法建立了鉴别模型[25]。从120个样品中随机抽取100个用于建立4个主成分变量的定性判别模型,模型的相关系数达到了0.95,对20个未知样品的预测结果准确率为100%。 研究人员利用近红外光谱分析技术在烟叶产地判定、等级划分、病虫害鉴定、鲜烟根茎叶成分分析以及物理指标测定等领域开展了大量研究。王毅等应用光谱特征投影及相关分析方法以烤烟品种K326为样,对多个产区的17类烟叶进行近红外光谱分析,结果表明,将样品随机按2∶1划分为分析集与验证集后,其分析集与验证集的一维、二维投影均值的相关系数都达到0.99以上,具有较好的一致性[26-27]。邱凯贤等基于近红外光谱分析技术结合支持向量机(SVM)模式识别原理,对180个烟叶样品的近红外光谱一阶求导后通过MATLAB分析软件建立烟叶产地的近红外预测模型,并应用该模型对78个烟叶样品进行实际产地预测,结果表明,该预测模型训练样本的正确识别率为100.00%,测试样本正确识别率为91.03%[28]。段焰青等以云南8个不同产地的880个烟叶样品为基础,利用TQ analyst分析软件的定性分析方法建立烟叶产地的近红外预测模型,该模型对云南烟叶产地的鉴别正确率为90%[29]。束茹欣等利用主成分分析(PCA)法和支持向量机算法(SVM)对6个产烟省份的烟叶建立了近红外产地识别模型,结果表明,NIRPCASVM模型对6省烟叶样品识别的预报正确率高达97%[30]。
宋相中等采用近红外光谱结合最小二乘双胞胎支持向量机(LSTSVM)算法建立了烟叶等级分类模型,对预测集样品的平均识别率为95.56%[31]。唐果等采用近红外光谱结合最小二乘判别分析(PLSDA)算法建立了烟叶等级分类模型,结果表明训练集和预测集的预测正确率分别为100.0%(150/150)和96.7%(58/60)[32]。于春霞等应用基于SIMCA算法的相似性分析数学模型,对不同部位烟叶的近红外光谱进行了相似性分析[33],结果表明,基于近红外光谱的烟叶部位相似性分析结果与实际烟叶部位之间的相似性程度是相符的。谢娟等以NIR光谱和总糖、还原糖、烟碱、总氮、钾、氯检测数据为基础,采用基于马氏距离的判别法对1 129个国产烤烟烟叶样品的产地和部位进行了模式识别,结果表明,对烟叶产地的识别准确率分别为88.0%~94.5%和62%~78%,对不同产地烟叶部位的识别准确率分别为71%~75%与63%~67%,对同一产地烟叶部位的识别准确率分别为82%~87%与80%~93%,对上、下部烟叶模式识别的识别准确率分别为92%~98%与89%~98%[3-4]。
何余勇等采用摩擦接种方法对烟苗接种TMV病毒诱发病毒病,利用近红外光谱对健株和病株内在化学成分(还原糖、钾、氯、总氮、总糖和总烟碱)进行了定性和定量分析[35]。结果表明,接种TMV10 d后,健株与病株在化学成分上差异较大,特别是在有机物含量上,各调查时期的处理均高于对照。尹旭等利用近红外分析技术结合偏最小二乘法建立片烟水分检测模型,经过试验对比发现:以标准方法检测值为基准,利用近红外技术检测烟片含水率与实验室普遍使用的快速烘箱相比,绝对偏差不大于0.2%的概率提高了1.55%,不大于0.3%的概率提高了1.82%,比快速烘箱更准[36]。王冬等利用偏最小二乘法对220个烟叶样品进行近红外光谱检测,建立钙元素和镁元素的校正优化模型,用F检验和T检验说明近红外模型的预测值和化学值之间没有明显差异[37]。付秋娟等利用近红外光谱仪(NIR)结合偏最小二乘法,用漫反射方法测定了青烟叶中K、Ca、Mg和质体色素(叶绿素和类胡萝卜素)等多种化学成分,试验证明,NIR可以用于测试青烟叶中这几种化学成分的含量[38-39]。李佛琳等对烤烟品种中烟101进行了叶片近红外反射率测定、组织结构解剖观察以及两者关系分析,研究发现,随施氮量增加、叶位上升、成熟度降低,叶片厚度、栅栏组织厚度、海绵组织厚度、组织比、比叶重均呈上升趋势,鲜烟叶近红外(800 nm)反射增加;叶片厚度、栅栏组织厚度、海绵组织厚度、组织比与近红外反射率之间均呈显著正相关关系[40]。张云龙等应用声光可调滤光器近红外光谱仪建立再造烟叶厚度检测方法模型,能准确预测再造烟叶厚度指标[41]。
2NIRS在烟草领域的主要建模方法
近红外光谱吸收峰强度较弱,多组分信号重叠,并且背景干扰严重,如何借助化学计量学方法从复杂的光谱中提取待测组分的定量信息,消除背景和噪声等无关信息的干扰,建立光谱与待测组分属性值的关系模型,以实现定性定量分析一直是研究的重要内容。
张敏等利用随机模型的参数统计和连续小波变换(CWT)等方法,根据光谱变量对模型的影响,定义了“强影响变量(IV)”,建立了可有效识别IVs的方法;利用样本交叉验证残差的分布及光谱变量组合对模型的影响,提出了一种同时剔除奇异样本和无信息变量的方法;提出了小波展开的偏最小二乘方法(WUPLS),可充分利用光谱中的定量信息,应用于近红外光谱的定量分析。研究结果表明,该方法可在识别奇异样本的同时,有效消除无信息变量,并有效地提取和利用了近红外光谱中的定量信息,提高模型的预测能力[40]。
吴荣晖等基于滤波器的构建技术,提出了一种近红外光谱数据压缩的自适应小波算法,该方法将小波的基本数学原理和半无限线性规划理论结合,从信号本身的特点出发,构建和优化能满足解压缩和定量要求的滤波器,可避免人为因素所带来的主观误差;基于离散小波变换(DWT)和最小二乘支持向量回归(LSSVR)方法,建立了近红外光谱测定烟叶中无机水溶性氯离子含量的一种新型回归校正模型,首先采用DWT对近红外光谱进行数据压缩和背景扣除,再用LSSVR建立氯离子的校正模型。结果表明,所建立的方法可有效实现数据压缩和背景扣除,能准确预测出烟叶中无机水溶性氯离子含量[41]。
贺英等将半监督学习、迁移学习方法引入近红外光谱分析建模方法体系,主要围绕近红外高维光谱数据处理、光谱定性分析和定量分析建模、光谱分析模型传递4个关键技术内容展开了深入研究。提出一种半监督核邻域保护嵌入算法(SSKNPE),通过充分利用部分有标记样本的先验分类信息约束特征映射,使数据从高维映射到低维后仍能保持数据的全局结构和局部结构,经试验验证,SSKNPE算法的降维质量优于LLE等传统流形学习算法,能更好地改善卷烟品牌识别近红外光谱分析模型的分类性能;引入转导推理和半监督学习思想,提出一种基于近邻传播聚类的半监督支持向量机算法(APS4VM),近邻传播聚类和混沌优化相结合,快速搜索多个间隔最大平面的低密度区域,确定安全分类的支持决策面,结果表明半监督支持向量机解决了标记样本不足时的卷烟近红外光谱定性分析建模困难的问题;提出一种基于量子粒子群优化的半监督支持向量回归算法(QPSOLSS3VR),解决了标记样本不足时的卷烟近红外光谱定量分析建模困难的问题;应用迁移学习思想,提出一种新的近红外光谱模型传递算法,即基于相似匹配和迁移学习的模型传递算法(SMTrBoostEns),在目标仪器采集较少标准样本光谱的情况下,仍能有效提升目标仪器回归预测精度[42]。