论文部分内容阅读
近年来,随着人工智能技术的发展,深度学习受到越来越多专业学者的关注。自动编码器是一种典型的深度学习算法,堆叠自动编码器通过将多个自动编码器堆叠级联而成,以其优秀的特征提取能力被广泛应用于高维数据的降维处理中,尤其是非线性数据的处理,效果良好。但是在堆叠自动编码器数据降维中,无法评估提取的信息是否包含噪声。低秩矩阵恢复算法通过矩阵分解获取数据的低秩成分,从而实现了数据降噪。本文结合堆叠自动编码器的降维优势和低秩矩阵恢复算法的降噪优势,提出一种自动编码器的改进算法—低秩自动编码器算法,通过提取数据的深度鲁棒特征,提升自动编码器的算法性能。
我国是大米的生产大国和消费大国,蛋白质含量是大米营养价值的重要指标,高光谱图像技术可以实现大米蛋白质含量的无损检测,但高光谱图像数据量大,且各波段间的信息具有较强的相关性,传统的线性降维手段在非线性数据降维上无法满足要求,同时高光谱图像夹杂的噪声也制约着最终分析的效果。本文以大米为研究对象,应用低秩自动编码器学习大米样本高光谱图像的深度鲁棒特征,并采用支持向量机回归构建大米样本蛋白质含量分析模型,实现了快速、精确、无损的大米蛋白质含量检测,验证了低秩自动编码器的高效性。具体研究内容和结论如下:
(1)研究了自动编码器的原理并进行了算法改进。自动编码器具有优秀的特征提取能力,堆叠自动编码器通过将多个自动编码器进行堆叠级联而成,大幅提升了算法性能。应用低秩矩阵恢复算法于数据降噪的研究日趋成熟。本文结合堆叠自动编码器和低秩矩阵恢复算法,提出低秩自动编码器算法,在堆叠自动编码器训练网络的每一层隐含层训练前加入了低秩分解层,提取每一层神经元数据低秩或近似低秩的结构,该结构去除了大量噪声,然后进行相应隐含层数据的训练,设置合适的编码网络层数及各层神经元个数等参数,采用逐层贪婪训练法训练网络,最终提取最后一层隐含层的神经元信息,即训练数据的深度鲁棒特征。
(2)获取了大米样本高光谱图像的光谱信息和图像信息。采集420个大米样本的高光谱图像(400-1000nm),获取感兴趣区域内平均光谱值作为样本的光谱信息,同时,分离感兴趣区域内各波段图像,每个样本得到478幅单波段图像,作为样本的图像信息。
(3)从光谱信息、图像信息及光谱-图像融合信息三个角度出发,采用主成分分析、堆叠自动编码器和低秩自动编码器三种算法分别进行了特征提取,并结合支持向量机回归构建预测模型,以各模型效果为准,评估三种算法的特征提取性能。
第一,基于光谱信息的光谱特征构建预测模型。在特征提取前,对原始高光谱采用SG预处理,从而减少了采集过程中各种噪声的影响,然后基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果显示,基于低秩自动编码器提取的深度鲁棒光谱特征建立的模型预测效果最佳,R2C为0.9926,RMSEC为0.0437,R2P为0.9394,RMSEP为0.1232。
第二,基于图像信息的图像特征构建预测模型。首先对获取的图像统一尺寸并转换为28像素×28像素的灰度图,进一步对灰度图作扁平化处理,变换为784维的列向量,然后基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果同样显示,基于低秩自动编码器提取的深度鲁棒图像特征建立的模型预测效果最佳,R2C为0.9569,RMSEC为0.0860,R2P为0.8769,RMSEP为0.3394。
第三,基于光谱-图像融合信息的融合特征构建预测模型。将478维的光谱信息和784维的图像信息进行有机融合,形成1262维的光谱-图像融合信息,基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果显示,基于低秩自动编码器提取的深度鲁棒融合特征建立的模型预测效果同样最佳,R2C为0.9931,RMSEC为0.04,R2P为0.9619,RMSEP为0.0854。
纵观三种模型,相较于主成分分析法和堆叠自动编码器,基于低秩自动编码器提取特征建模的性能最好,验证了低秩自动编码器的高效性。同时,基于光谱-图像融合信息的深度鲁棒融合特征建模的效果是三个模型中最佳的,说明基于高光谱图像光谱信息和图像信息的融合信息进行特征提取,建立分析模型,能够实现更高效率的大米蛋白质含量快速、精确、无损检测。
我国是大米的生产大国和消费大国,蛋白质含量是大米营养价值的重要指标,高光谱图像技术可以实现大米蛋白质含量的无损检测,但高光谱图像数据量大,且各波段间的信息具有较强的相关性,传统的线性降维手段在非线性数据降维上无法满足要求,同时高光谱图像夹杂的噪声也制约着最终分析的效果。本文以大米为研究对象,应用低秩自动编码器学习大米样本高光谱图像的深度鲁棒特征,并采用支持向量机回归构建大米样本蛋白质含量分析模型,实现了快速、精确、无损的大米蛋白质含量检测,验证了低秩自动编码器的高效性。具体研究内容和结论如下:
(1)研究了自动编码器的原理并进行了算法改进。自动编码器具有优秀的特征提取能力,堆叠自动编码器通过将多个自动编码器进行堆叠级联而成,大幅提升了算法性能。应用低秩矩阵恢复算法于数据降噪的研究日趋成熟。本文结合堆叠自动编码器和低秩矩阵恢复算法,提出低秩自动编码器算法,在堆叠自动编码器训练网络的每一层隐含层训练前加入了低秩分解层,提取每一层神经元数据低秩或近似低秩的结构,该结构去除了大量噪声,然后进行相应隐含层数据的训练,设置合适的编码网络层数及各层神经元个数等参数,采用逐层贪婪训练法训练网络,最终提取最后一层隐含层的神经元信息,即训练数据的深度鲁棒特征。
(2)获取了大米样本高光谱图像的光谱信息和图像信息。采集420个大米样本的高光谱图像(400-1000nm),获取感兴趣区域内平均光谱值作为样本的光谱信息,同时,分离感兴趣区域内各波段图像,每个样本得到478幅单波段图像,作为样本的图像信息。
(3)从光谱信息、图像信息及光谱-图像融合信息三个角度出发,采用主成分分析、堆叠自动编码器和低秩自动编码器三种算法分别进行了特征提取,并结合支持向量机回归构建预测模型,以各模型效果为准,评估三种算法的特征提取性能。
第一,基于光谱信息的光谱特征构建预测模型。在特征提取前,对原始高光谱采用SG预处理,从而减少了采集过程中各种噪声的影响,然后基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果显示,基于低秩自动编码器提取的深度鲁棒光谱特征建立的模型预测效果最佳,R2C为0.9926,RMSEC为0.0437,R2P为0.9394,RMSEP为0.1232。
第二,基于图像信息的图像特征构建预测模型。首先对获取的图像统一尺寸并转换为28像素×28像素的灰度图,进一步对灰度图作扁平化处理,变换为784维的列向量,然后基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果同样显示,基于低秩自动编码器提取的深度鲁棒图像特征建立的模型预测效果最佳,R2C为0.9569,RMSEC为0.0860,R2P为0.8769,RMSEP为0.3394。
第三,基于光谱-图像融合信息的融合特征构建预测模型。将478维的光谱信息和784维的图像信息进行有机融合,形成1262维的光谱-图像融合信息,基于三种特征提取方法提取的特征,构建大米蛋白质含量预测模型。结果显示,基于低秩自动编码器提取的深度鲁棒融合特征建立的模型预测效果同样最佳,R2C为0.9931,RMSEC为0.04,R2P为0.9619,RMSEP为0.0854。
纵观三种模型,相较于主成分分析法和堆叠自动编码器,基于低秩自动编码器提取特征建模的性能最好,验证了低秩自动编码器的高效性。同时,基于光谱-图像融合信息的深度鲁棒融合特征建模的效果是三个模型中最佳的,说明基于高光谱图像光谱信息和图像信息的融合信息进行特征提取,建立分析模型,能够实现更高效率的大米蛋白质含量快速、精确、无损检测。