论文部分内容阅读
近红外光谱(Near infrared spectroscopy,NIR)分析技术作为一种快速、准确、便捷且非破坏性的分析技术,在农产品品质检测和产地鉴别方面得到了广泛应用,被认为是有望替代传统的化学分析的无损检测方法。目前,基于近红外光谱分析的柑橘产地鉴别及品质检测技术还较为耗时费力且不够精确,其完整性、系统性和操作性还与实际应用有很大差距,如何建立一套能对柑橘进行快速的产地鉴别以及品质检测的有效技术体系,对于柑橘产业在我国的健康发展有着重要的作用。本文针对上述问题,结合“国家星火计划项目课题——柑橘产业信息服务系统”的需要,开展了柑橘产地鉴别以及果实内部品质检测技术的研究,基于机器学习的光谱分析方法建立了多种快速无损的柑橘产地鉴别和内部品质检测模型,在采集的6个省份16个不同地区的柑橘近红外光谱样本上进行了验证分析,实验结果表明所提出的模型有效地提高了柑橘产地鉴别和内部品质检测的时效性和准确性。论文的主要成果如下: (1)建立了包括光谱数据预处理、特征抽取、特征选择和识别模型与性能测试的通用产地鉴别系统框架。在验证实验中,采用了Savitzky-Golay(SG)卷积平滑法并结合一阶和二阶导数法对数据进行了预处理,利用信息熵的特征选择算法对主成分分析(PCA)抽取后的特征进行了最优选择。模型建立方面,本文研究了决策树、最近邻、朴素贝叶斯和线性判别分析方法,对16个不同产地的柑橘进行了产地鉴别模型的研究。实验结果表明,SG平滑算法能增加大多数分类器的识别结果,同时特征选择算法也对分类结果有积极作用。在测试的分类器中,线性判别分类器(LDA)模型性能最为稳定且达到最佳的识别准确度为92.8%。 (2)建立了基于支持向量机(SVM)和遗传算法(GA)的产地鉴别模型(GA-SVM)。首先针对不同的SVM核函数的产地模型进行了研究,结果显示,采用径向基(RBF)的SVM得到了最高的识别率。其次,论文针对SVM的相关参数进行了详细的分析和讨论,并利用网格搜索法获取了最佳的参数设置,最终得到了SVM模型最佳的产地鉴别正确率为93.52%。为了进一步提升SVM的识别性能,论文利用遗传算法获取了最优的特征组合,并针对GA模型参数的设置进行了讨论,如种群大小、交叉率、突变率等进行了最优适应度研究。实验结果表明GA-SVM能有效地提高产地鉴别模型的精度。 (3)提出了基于L1范数线性回归(L1-LRC)的产地鉴别算法。该方法利用L1正则化的学习方法进行最小误差重构分类,从而将特征选择和分类器学习过程进行有机的融合,并能够更有效地反应光谱信息中的结构特征。实验结果表明,基于L1-LRC的NIR分析方法仅利用少量的样本就能够达到较高的识别精度,且获得了明显优于其他对比模型的结果,从而为快速高效的NIR产地分析提供了一个新的思路。 (4)提出了基于最小角度回归(LAR)模型的柑橘内部品质分析方法,并对柑橘的常用的质量参数包括TSS、TA和VC进行了分析。与现有的非线性LS-SVM和线性的PLS模型进行对比表明,在预测准确度上,LS-SVM模型达到了最优的预测性能,而LAR模型明显优于常用的线性的PLS模型;在计算复杂度上,LAR和PLS模型明显优于LS-SVM模型;在模型的可解释方面,LAR模型要优于PLS模型。另外LAR模型虽然在预测精度上稍逊于LS-SVM,但在模型的实现和计算复杂度以及可解释方面都具有明显的优势,因此提出的LAR模型更能有效地应用于基于NIR光谱的果品品质分析中。