论文部分内容阅读
摘要:为实现油桃品种的快速且无损鉴别,对油桃高光谱图像中的光谱和图像信息进行分析。在光谱信息提取中,采用偏最小二乘回归(partial least squares regression,简称PLSR)从全波段光谱数据提取9个特征波长。在图像信息获取中,采用主成分分析(principal component analysis,简称PCA)获得主成分图像,并提取主成分图像的Gabor纹理特征。分别建立基于特征波长光谱特征、主成分图像纹理特征和光谱纹理特征融合的最小二乘支持向量机(least squares support vector machine,简称LS-SVM)和极限学习机(extreme learning machine,简称ELM)油桃品种判别模型。结果表明,基于融合特征的LS-SVM和ELM模型识别率分别为94.7%、92.1%,较单独采用光谱信息和纹理信息的识别率都高,说明采用光谱信息和Gabor纹理信息融合的方法可以实现油桃品种判别,为农产品无损检测提供参考价值。
关键词:油桃品种识别;光谱信息;Gabor纹理信息;主成分分析;最小二乘支持向量机;极限学习机
油桃具有极高的营养价值,它含有人体所必需的多种氨基酸,而且油桃可以补气养血、提高免疫力、具有较高的药用价值[1]。因此,开展油桃品种识别对于提高其品质和市场竞争力具有重要的作用。随着果蔬科技的发展,油桃品种的培育也有了很大的进步,相继出现了曙光、华光等产品。产品分级在水果的标准化和商品化过程中具有重要意义,传统的人工分级方法存在检测效率低、精度低等问题,而高光谱成像技术能够将光谱和图像信息相结合,实现无损、快速、精准检测,近年来,该技术已广泛应用于水果检测[2]。
目前,国内外已有一些学者对油桃内外部品质进行无损检测。谷静思采用多种降维方法从介电频谱和近红外光谱的全谱中提取特征变量,建立多种油桃品质和品种的预测模型,综合系统地比较了介电频谱和近红外光谱在油桃品质检测方面的优劣,但其仅利用了油桃的光谱信息实现了油桃品质检测[3]。喻晓强等分别应用光谱图像技术对油桃糖度和硬度进行无损检测,为计算机图像在水果内部品质的无损检测方面提供了技术依据[4-5]。本研究以不同品种油桃为研究对象,运用高光谱成像系统采集中油4号、中油5号和中油9号等3种类型的油桃近红外高光谱图像信息。从光谱和图像等2个方面对不同油桃类别样本进行快速、无损检测。为油桃等水果类农产品的无损检测在线识别研究提供基础。
1 材料与方法
1.1 近红外光谱图像获取
试验油桃材料采购于山西省运城市万安村果园,采摘的样本形状相近、成熟度统一、大小均匀,油桃品种为中油4号、中油5号、中油9号等3种类型。试验中所用的高光谱图像采集系统主要由CMOS相机、光谱仪、面阵探测器电控位移台、计算机和暗箱等组成(图1)。光谱范围为874~1 734 nm,光谱分辨率为2.8 nm,光谱采样间隔为0.59 nm,光源为150 W石英卤素灯。通过高光谱成像系统采集3种共153幅高光谱样本图像,其中47幅中油4号、50幅中油5号、56幅中油9号。样本大小为320 349,每幅图有256个波段。获取的3种类型油桃近红外样本图像如图2所示。由图2可知,近红外光谱图像无彩色信息,该图为由多个波段合成的伪彩色图。图3为本研究识别方法流程。
1.2 高光谱图像校正
在高光谱图像采集过程中,由于光源强度分布不均匀会影响采集的高光谱图像质量,因此须对每幅图像进行黑白校正[6]。在采集图像时,先做白板(99%以上的反射率)校正获得全白的标定图像IW,再在完全避光条件下暗校正(0的反射率)获得全黑的标定图像ID,按照式(1)对原始绝对图像进行标定,得到相对图像R,此时的相对图像灰度值分布在0~1之间。
2 光谱特征提取
在光谱数据的提取过程中,采用手动选取方式在原始图像上选取不规则多边形区域作为感兴趣区域(region of interest,简称ROI)。本试验中使用ENVI 4.7软件实现感兴趣区域的提取,求得区域内所有光谱曲线的平均值作为该样本的光谱特征值。由于获得的光谱数据包含由试验环境引起的噪声[7],须对其进行光谱预处理。本研究采用多元散射校正、变量标准化和导数法多种光谱预处理方法实现油桃光谱数据的预处理。本研究采用Matlab7.5实现光谱数据的处理以及判别模型的建立。
2.1 光谱预处理
由图4可知,中油4号、中油5号、中油9号3类油桃样本均具有明显的波峰和波谷便于建立分类判别模型。但在874~1 069、1 640~1 734 nm 范围内可以看出,3类油桃的光谱信息有明显的重叠现象,采用全波段建立分类模型不能够达到分类精度的要求,因此须对全波段光谱信息进行降维处理,实现特征波长的选取。
2.2 特征波长选取
高光谱数据具有波段多、数据量大、冗余性强等特点,全波段建模会产生Hughes现象,建立的模型性能差、效率低[8]。而降维可以用较少的数据维数代替原始高维信息,在降低数据量的基础上最大程度表示原始信息。
偏最小二乘回归(partial least squares regression,简称PLSR)基于PLS算法原理,通过选取回归系数的局部极值实现特征波段的选择[9-10]。因此,本研究采用偏最小二乘回归方法获取特征波段。在寻找回归系数的局部极值中,设定两峰值之间的最小间隔数(mpd)是获得特征波长的关键。本研究中光谱数据的回归系数多峰值現象较明显,曲线不够平滑,图5-a为最小间隔条件为3的局部极值。由图5-a可知,获取的特征波长有27个,容易陷入局部极小值。为了过滤掉单周期内的干扰极值,通过多次试验,最终设置最小间隔条件为6,获取9个特征波长。图5-b为获取的局部极值点,它们分别为918、1 096、1 119、1 160、1 190、1 382、1 531、1 588、1 649 nm。
关键词:油桃品种识别;光谱信息;Gabor纹理信息;主成分分析;最小二乘支持向量机;极限学习机
油桃具有极高的营养价值,它含有人体所必需的多种氨基酸,而且油桃可以补气养血、提高免疫力、具有较高的药用价值[1]。因此,开展油桃品种识别对于提高其品质和市场竞争力具有重要的作用。随着果蔬科技的发展,油桃品种的培育也有了很大的进步,相继出现了曙光、华光等产品。产品分级在水果的标准化和商品化过程中具有重要意义,传统的人工分级方法存在检测效率低、精度低等问题,而高光谱成像技术能够将光谱和图像信息相结合,实现无损、快速、精准检测,近年来,该技术已广泛应用于水果检测[2]。
目前,国内外已有一些学者对油桃内外部品质进行无损检测。谷静思采用多种降维方法从介电频谱和近红外光谱的全谱中提取特征变量,建立多种油桃品质和品种的预测模型,综合系统地比较了介电频谱和近红外光谱在油桃品质检测方面的优劣,但其仅利用了油桃的光谱信息实现了油桃品质检测[3]。喻晓强等分别应用光谱图像技术对油桃糖度和硬度进行无损检测,为计算机图像在水果内部品质的无损检测方面提供了技术依据[4-5]。本研究以不同品种油桃为研究对象,运用高光谱成像系统采集中油4号、中油5号和中油9号等3种类型的油桃近红外高光谱图像信息。从光谱和图像等2个方面对不同油桃类别样本进行快速、无损检测。为油桃等水果类农产品的无损检测在线识别研究提供基础。
1 材料与方法
1.1 近红外光谱图像获取
试验油桃材料采购于山西省运城市万安村果园,采摘的样本形状相近、成熟度统一、大小均匀,油桃品种为中油4号、中油5号、中油9号等3种类型。试验中所用的高光谱图像采集系统主要由CMOS相机、光谱仪、面阵探测器电控位移台、计算机和暗箱等组成(图1)。光谱范围为874~1 734 nm,光谱分辨率为2.8 nm,光谱采样间隔为0.59 nm,光源为150 W石英卤素灯。通过高光谱成像系统采集3种共153幅高光谱样本图像,其中47幅中油4号、50幅中油5号、56幅中油9号。样本大小为320 349,每幅图有256个波段。获取的3种类型油桃近红外样本图像如图2所示。由图2可知,近红外光谱图像无彩色信息,该图为由多个波段合成的伪彩色图。图3为本研究识别方法流程。
1.2 高光谱图像校正
在高光谱图像采集过程中,由于光源强度分布不均匀会影响采集的高光谱图像质量,因此须对每幅图像进行黑白校正[6]。在采集图像时,先做白板(99%以上的反射率)校正获得全白的标定图像IW,再在完全避光条件下暗校正(0的反射率)获得全黑的标定图像ID,按照式(1)对原始绝对图像进行标定,得到相对图像R,此时的相对图像灰度值分布在0~1之间。
2 光谱特征提取
在光谱数据的提取过程中,采用手动选取方式在原始图像上选取不规则多边形区域作为感兴趣区域(region of interest,简称ROI)。本试验中使用ENVI 4.7软件实现感兴趣区域的提取,求得区域内所有光谱曲线的平均值作为该样本的光谱特征值。由于获得的光谱数据包含由试验环境引起的噪声[7],须对其进行光谱预处理。本研究采用多元散射校正、变量标准化和导数法多种光谱预处理方法实现油桃光谱数据的预处理。本研究采用Matlab7.5实现光谱数据的处理以及判别模型的建立。
2.1 光谱预处理
由图4可知,中油4号、中油5号、中油9号3类油桃样本均具有明显的波峰和波谷便于建立分类判别模型。但在874~1 069、1 640~1 734 nm 范围内可以看出,3类油桃的光谱信息有明显的重叠现象,采用全波段建立分类模型不能够达到分类精度的要求,因此须对全波段光谱信息进行降维处理,实现特征波长的选取。
2.2 特征波长选取
高光谱数据具有波段多、数据量大、冗余性强等特点,全波段建模会产生Hughes现象,建立的模型性能差、效率低[8]。而降维可以用较少的数据维数代替原始高维信息,在降低数据量的基础上最大程度表示原始信息。
偏最小二乘回归(partial least squares regression,简称PLSR)基于PLS算法原理,通过选取回归系数的局部极值实现特征波段的选择[9-10]。因此,本研究采用偏最小二乘回归方法获取特征波段。在寻找回归系数的局部极值中,设定两峰值之间的最小间隔数(mpd)是获得特征波长的关键。本研究中光谱数据的回归系数多峰值現象较明显,曲线不够平滑,图5-a为最小间隔条件为3的局部极值。由图5-a可知,获取的特征波长有27个,容易陷入局部极小值。为了过滤掉单周期内的干扰极值,通过多次试验,最终设置最小间隔条件为6,获取9个特征波长。图5-b为获取的局部极值点,它们分别为918、1 096、1 119、1 160、1 190、1 382、1 531、1 588、1 649 nm。