论文部分内容阅读
吉林省地理标志大米闻名全国,不法商贩利用地标大米的商业和营养价值不断做文章,从中获取暴利,使得大米掺假事件层出不穷。近几年,大米安全备受社会关注,尤其在地理标志大米掺假方面更为突出。本文主要探讨地理标志大米中是否被掺入普通大米,并利用机器学习方法进行鉴别的可行性,可为地理标志大米的品质保护体系提供有效依据。本研究以吉林省松原市前郭县地理标志大米与向其中掺入不同比例(2%、4%、6%、8%、10%、12%、14%、16%、18%、20%、25%、30%)的江苏省苏州市金庭镇普通大米的掺假大米为主要研究对象,采用近红外光谱技术和矿物元素指纹技术的数据融合方法,结合SVM模型、KNN模型以及基于Adaboost算法改进的Adaboost-SVM模型Adaboost-KNN模型四种机器学习方法,建立大米掺假的快速鉴别模型。通过主成分分析对Savitzky-Golay卷积平滑预处理下的近红外光谱数据进行主成分特征提取,得到三个主成分的光谱数据;通过随机森林算法中基于基尼指数重要排名机制对13种矿物元素进行重要性排名,产生13个多元素子集的矿物元素数据。最后利用两种数据的中级融合数据作为地标大米和掺假大米的鉴别数据,建立并优化模型,且采用4次4折交叉验证和混淆矩阵对该研究所建立的模型进行评估比较。主要结论如下:(1)基于SVM模型和Adaboost-SVM模型的掺假鉴别模型,优化前,整体可见Adaboost-SVM模型准确率高于SVM模型,优化后两种模型的泛化能力和准确率均高于优化前,优化前后两种模型均可有效的鉴别地标大米与掺入不同比例掺假大米。当掺假比例为6%和30%时,两种模型的准确率均为100%。(2)基于KNN模型和Adaboost-KNN模型的掺假鉴别模型,优化前,整体可见Adaboost-KNN模型准确率高于KNN模型,优化后两种模型的泛化能力和准确率均高于优化前,优化前后两种模型均可有效的鉴别地标大米与掺入不同比例掺假大米。当鉴别比例为6%和30%时鉴别效果最佳,两种模型准确率均为100%。(3)SVM模型、Adaboost-SVM模型、KNN模型、Adaboost-KNN模型四种模型在鉴别比例为6%和30%时,准确率一致,均为100%。四种模型的最低鉴别检出限均为2%,准确率分别为100%,97.75%,97%,100%。(4)在鉴别地标大米与掺假比例为2%掺假大米研究中进行模型比较,从模型的精度与泛化能力方面比较,从高到低排列,依次为Adaboost-KNN模型和SVM模型、Adaboost-SVM模型、KNN模型;从模型构建代价考虑,从高到低排列为Adaboost-SVM模型、Adaboost-KNN模型、SVM模型和KNN模型。(5)应用数据融合技术结合SVM模型、KNN模型、Adaboost-SVM模型、Adaboost-KNN模型四种机器学习方法,在地标食品掺假鉴别方面具有可行性。