论文部分内容阅读
森林在维持生物圈平衡、实现资源可持续发展等方面扮演着重要角色。森林生物量表征了森林生命活动,反映了植被生长状况,尤其体现了森林获取能量的能力和固碳能力。森林生物量的估测是研究、监测和治理生态环境的重要一环,也是目前众多学者探索的热点问题之一。SAR技术因其全天候全天时、穿透性强等独特的优势,为植被相关问题的研究提供了新的手段,并被越来越多地应用于生物量反演相关研究。针对SAR图像参数与森林生物量之间的非线性关系难以实现较优拟合的问题,利用SAR后向散射系数的同时,引入SAR图像的纹理特征,采用机器学习的回归建模方法反演森林生物量。首先分析了SAR基础,提取了实验区SAR后向散射系数与纹理特征;然后探讨了机器学习方法和集成学习方案反演森林生物量的相关问题。本文主要结论如下:(1)SAR图像纹理特征中的均值(Mean)和方差(Variance)对森林生物量反演表现出了比较积极的意义,其重要性评分相对较高。将随机森林(Random Forest,RF)与递归特征消除算法(Recursive Feature Elimination,RFE)结合,对后向散射系数与纹理特征等共计12个预测变量进行特征选择,确定了最优预测变量组合为:Mean、DB、Variance与LIA,对森林生物量回归的重要性评分依次为100、90、53与39。(2)机器学习方法的表现优于多元线性回归;Mean与Variance提高了森林生物量反演精度。利用四变量(最优预测变量组合)建立了实验区森林生物量反演的如下回归模型:RF(R~2=7581)>SVM(R~2=7339)>ANN(R~2=0.6807)>MLR(R~2=0.6790),其中RF最优;为进一步对比分析机器学习方法和纹理特征的优势,继续以二变量(DB与LIA)和单变量(仅DB)建立上述四种回归模型。整体表现上机器学习方法优于多元线性回归;引入纹理特征中的Mean与Variance后,森林生物量反演精度较二变量和单变量R~2分别提升0.0604与0.0651。(3)差异性较大的、本身性能表现较好的基学习器组合而成的集成学习方案提高了森林生物量反演精度。对常见机器学习方法RF、SVM、ANN、KNN与CART进行相关性计算和组合方式的差异性度量之后,确定了六种集成学习方案,采用堆叠(Stacking)的集成策略,利用最优预测变量组合建立了反演森林生物量的如下方案:C8(R~2=0.7898)>C1(R~2=0.7791)>C12(R~2=0.7607)>C14(R~2=0.7528)>C2(R~2=0.7417)>C6(R~2=0.7067),其中由RF、SVM与ANN组合而成的C8方案最优,并且与单模型中最优的RF模型相比,回归精度仍然有所提升(R~2提高0.0317)。