论文部分内容阅读
遥感图像分类是遥感技术在很多领域应用的基础,分类过程的智能化程度在很大程度上影响着整个遥感数据智能化处理的程度。随着近年来遥感技术的迅速发展,遥感数据量越来越大,数据维数越来越高,传统的监督分类算法所需要的标记样本数也越来越多。但获得标记样本往往需要较大的成本和代价,并且需要大量人为的参与,这将势必成为遥感信息智能化提取过程中的性能瓶颈。此外,人为标记的样本也并不一定都是很准确的,这也可能对分类的精度产生一定的影响。
本文以减少遥感图像分类过程中标记样本的数量为研究目的,通过引入机器学习领域中利用未标记样本的半监督学习技术,在遥感图像分类过程中利用大量的未标记样本来改善只使用了少量标记样本的分类性能。论文选取湖北省公安县荆江分洪区为试验区,对ALOS卫星AVNIR-2传感器10米空间分辨率多光谱遥感影像进行了基于Co-Forest协同训练算法的半监督分类研究。主要的研究内容和结论包括:
(1)在分析了半监督学习和协同训练风范原理的基础上,针对遥感数据的特性,研究了半监督学习及协同训练风范在遥感图像分类中应用的可行性。研究结果表明半监督学习技术无论在理论上还是实践上,都具有在遥感图像分类中的应用的可行性。特别是以Co-Forest算法为代表的协同训练风范比较适合在不具备充分冗余视图、数据量庞大而分类器泛化能力特别低的遥感图像分类中的应用。
(2)对研究区内的土地利用/覆被在影像上的表征进行了研究,通过该研究及实地调查数据,在研究区共选取了五大类384个样本作为标记样本和未标记样本来源,另选取了558个检验样本用于算法分类精度的评价。
(3)对Co-Forest算法进行了分析,设计了该算法在遥感图像分类中应用的试验流程,基于机器学习软件Weka,用Java语言二次开发实现了试验的各个环节。对Co-Forest算法在遥感图像分类应用中的两个参数阈值θ和集成分类器个数N的取值进行了研究,研究结果建议θ取0.7或0.75:N取12或20,N的数值不要过大。
(4)研究了Co-Forest算法及与其比较的C4.5决策树和朴素贝叶斯(NB)算法受训练样本数量的影响,以及各算法的稳定性,并通过人为的引入随机生成的误标记来试验各算法的抗噪声能力。研究结果表明,当训练样本数目较少时(100个以内),Co-Forest算法充分发挥了其作为半监督学习技术利用未标记样本的优势,此时的性能明显好于同样训练样本下的C4.5和NB算法。此外,在不同训练样本的差异影响下,Co-Forest算法与NB算法和C4.5算法相比最稳定,但Co-Forest算法抗噪声能力较差。
综上所述,本文提出的将基于Co-Forest算法的协同训练半监督学习技术应用于遥感图像分类领域是可行的,该算法可以大量减少对标记样本数量的需求。在只有少量训练样本的情况下,可以通过Co-Forest算法来提高分类精度。同时该算法较稳定,受不同训练样本差异影响较少,但算法不宜用于训练样本含有噪声的遥感图像分类应用中。