论文部分内容阅读
为推动生态文明建设、缓解土地压力、实现耕地资源的保护与持续利用,摸清耕地资源变动情况、实现耕地质量的监测显得尤为重要。而包含各种土壤理化指标的土壤属性作为影响农作物生长的重要限制因素,可有效直观的反映出耕地土壤的质量水平。因此,为满足精准农业的需求,实现土壤属性的快速检测显得十分重要。传统的基于理化分析的土壤属性检测方法显然无法较好的满足这一需求,该方法的测定结果虽然较为准确,但存在耗时、耗力等问题。光谱技术的日趋成熟则为土壤相关属性的检测提供了新的思路,目前已经应用在了包括农业在内的多个研究领域,这种基于光谱数据的参数反演问题已经成为土壤属性检测的研究热点。近年来,光谱数据的多元化发展为土壤属性的监测提供了更多的可能性,大量研究尝试利用不同平台与分辨率的光谱数据建立土壤相关属性的经验模型并取得了较好的反演效果,无论是在高光谱还是多光谱下均已形成了被广泛认可的主流建模方法并日趋完善。本文基于前人的研究成果,总结了当前的主流建模流程,并以此为基础尝试从样本划分、光谱预处理、变量筛选、建模方法四个方面探究实测高光谱数据与多光谱影像数据这两种不同光谱数据源下的合理建模流程,实现土壤属性建模流程的改进与优化。其中高光谱数据下的研究对象以土壤质地为例,而多光谱数据下以土壤有机质含量为例。得到的主要研究内容与结论如下:(1)以实测高光谱数据为数据源,土壤质地为研究对象。利用Kennard-Stone(K-S)方法划分样本,对原始光谱曲线进行去噪平滑后,对比分析了线性模型与非线性模型在原始反射率和三种单一及耦合的光谱预处理方法下的估测效果,实现了预处理方法与建模方法优选。在此基础上,尝试了多种波段筛选方法,在实现波段筛选方法优选后进一步引入了新的耦合波段筛选方法并对相应模型进行了精度评估。研究结果表明,不同的光谱预处理方法与建模方法会对模型估测结果产生较大影响,在全谱段建模方式下,利用去趋势变换(Detrend transformation,DT)加一阶微分(First order differential reflectance,FDR)这种耦合的预处理方法结合偏最小二乘回归(Partial least squares regression,PLSR)线性模型可以取得更好的估测效果,其R2达到了 0.7左右,已经具备较好的估测精度,可在一定程度上满足研究区的土壤质地速测工作。不同波段筛选方法也会对建立的估测模型产生较大的影响,本次研究结果表明将竞争性自适应重加权算法(Competitive adaptive reweighted sampling,CARS)与全子集筛选法(Best subset selection,BSS)相结合可以在实现波段降维的同时有效提升估测模型的精度,模型R2可升至0.88,模型精度具有明显的提高。(2)基于样本划分、光谱预处理、变量筛选三个方面实现了高光谱质地模型优选后,尝试基于单个PLSR模型利用bagging方法构建集成回归模型,并探讨了模型参数的选取问题。结果表明,相较于单个预测模型,集成模型具备一定的学习优势,且利用bagging集成模型对训练集的解释能力和袋外数据(Out ofBag,OOB)误差估计可较好的解决模型的参数选取问题,在实现集成模型简化的同时有效提升了模型的泛化能力,其R2相较于单个PLSR模型具有一定的提升。(3)将多光谱影像作为光谱数据源,以土壤有机质含量作为研究对象。利用浓度梯度法划分样本,尝试利用光谱预处理方法与辅助变量增强模型的解释能力,并结合改进连续投影算法(Successive projections algorithm,SPA)与基于随机森林(Random forest,RF)袋外数据的变量筛选方法进行逐步变量筛选,以实现建模变量集的简化,在实现了模型优化后进行了基于单变量的变量重要性分析。结果表明,基于波段组合的预处理方法可有效提升光谱对土壤有机质含量的解释能力,而当引入相关辅助变量集后模型估测效果可进一步提升。从变量筛选方法上可以看出,基于变量集利用改进SPA方法与基于随机森林的变量筛选方法均可以在提升变量集稳健性与简洁性的同时较好的分析变量集的重要性,降低变量筛选过程的计算量,两者在S-T-ST-SA变量集下建立的估测模型效果均优于全变量。而基于随机森林的变量重要性分析结果可以发现,从单变量的角度来看,辅助变量的重要性要高于光谱变量,这也从侧面表明将光谱数据与相关的辅助变量相结合是一种增加解释变量的合理方法。(4)在确定了合适的样本划分方法、有效的光谱预处理方法、辅助变量以及变量筛选方法后,尝试基于stacking集成思想建立基于随机森林的集成模型,并与随机森林模型进行了预测精度对比。在此基础上,利用最优模型进行了全区范围内的有机质含量估测。结果表明,利用交叉验证结合次级训练来建立基于同质学习器的集成模型是可行的,该方法下建立的模型R2相较于单一的随机森林模型具有一定的提升,可有效加强模型对现有数据的学习能力,具备更好的稳健性。图[35]表[16]参[88]