论文部分内容阅读
[摘 要]运用数据挖掘的决策树方法为未利用土地适宜性评价建立模型,以福建省福州市闽侯县作为一个试验区,本文首先运用主成分分析法,消除各因素之间的相关性,得出8个相互独立的指标(影响因子)作为测试属性,共提取了67个样本,再运用C45算法构建未利用土地适宜性评价决策树并进行了分析,表明所得规则符合实际并且易于理解。然后运用生产的规则对试验区未利用土地进行评价,并与应用实地调查所得的结果作对比分析。结果表明:基于决策树技术的未利用土地适宜性评价方法不仅不依赖于经验知识,而且通过此模型得到的评价结果具有较高准确率,能够满足评价的要求。
[关键词]数据挖掘;决策树;未利用土地适宜性评价
[中图分类号]TP393 [文献标识码]A [文章编号]1005-6432(2013)10-0052-03
决策树分类方法是数据挖掘中经常使用的数据分类方法之一,它一般采用以实例为基础的归纳学习算法,在确定了训练集,之后学习完全依赖数据本身,生成类似于流程图的树状结构来表示数据挖掘所得的结果。而未利用土地适宜性评价是在综合考虑土地的自然、社会经济等条件下的一种针对土地用途适宜性的评价,也可以看成是对影响土地某种用途适宜性的因子量化后的混合空间数据的分类问题,其分类的结果便是土地某种用途适宜性等级划分的结果。传统的评价方法与之相比,大多依赖于知识、经验,无法对知识的不完备性做出适当的调整,不完备、不准确的知识会给结果带来较大偏差,并且不具有自学习能力,且难以处理定性描述的变量。传统的方法如模糊综合评判法、极限条件法、灰色关联度分析法、经验指数和法等。本文尝试把数据挖掘中的常用的决策树分类法应用于未利用土地适宜性评价中,在克服传统评价方法过于依赖经验知识和无法处理不完备信息的基础上,进而为未利用土地适宜性评价的研究提供另一种思路和方法。
1 主成分分析法概述
11主成分分析
主成分分析也称为主量分析(Karhunnen-loeve变换),它是一种研究如何将多指标的问题转化为只有较少的综合指标的统计分析方法,它能将问题从高维空间降到低维空间去处理,不仅简化了变量系统的数字统计特征,而且还能够提供更多重要的系统信息。从数学方法的角度来看,这种方法被称之为降维,即把多指标转化为关联度比较小的少数几个综合指标。
选用主成分分析法,其核心是通过分析、选择p个主成分,并且以每个主成分zi的方差贡献率ai作为权数,构造出综合评价函数:
12 主成分分析法选择评价因子
影响未利用土地适宜性的因素较多,如果将全部因子都予以考虑,一方面资料很难收集,另一方面其中有些因素对未利用土地的适宜性没有很直接的影响或影响程度不显著,因此本文先用主成分分析的方法选取了质地、有机质含量等8个关联性比较弱的因素作为评价因子。评价因子指标的分级反映了其对主要农作物类型的生物学适应性,主要根据参评因子对农作物的适宜性程度来确定。在确定评价因子后,结合福建省福州市闽侯县的实际情况, 然后采用特尔斐法来分析确定各评价因子的分级指标。
2 决策树应用原理与方法
21 基本原理
决策树是以IF-THEN规则形式对所用数据进行自动分类。在决策树的内部节点比较属性值,并根据不同的属性值来判断确定自该节点向下的分支,最后从决策树的叶节点得到结论。所以从树的根节点到叶节点的一条路径对应着一条生成的提取规则,相应的整棵决策树对应着一组表达式规则。
决策树的构造过程分为构造树和树剪枝两个阶段:
(1)构造树阶段。这一阶段最关键的操作就是在树的根节点上选取最适合的测试属性,选取的标准包括基尼指数、信息增益、信息增益比以及基于距离的划分等。然后按照所有可能取值的相应属性建立向下的分枝,接着依次划分训练样本,直到每一个节点上的所有样本都被划分为同一个类或者某一节点中样本数量低于给定的值时为止。
(2)树的剪枝阶段。决策树构造过程中可能许多分枝所反映的是数据训练中的噪声或者孤立点。因此,生成决策树的过程中需要按某种规则来将相近或相似的分枝进行合并之后剪除,从而得到一棵能够反映数据集特性的决策树。树的剪枝方法主要可分为后剪枝、先剪枝或者两者相结合的方法。树的剪枝方法的剪枝标准主要包括期望错误率最小原则和最小描述长度原则(MDL)等。
22 算法的比较
当前,最常用的决策树方法法是Quinlan提出的ID3算法和C45算法。C45算法是对ID3算法的改进,改进后不仅可以处理离散型的属性值,还可以处理连续型的属性值。此外C45算法选择测试属性的标准是信息增益比,克服了之前ID3选用信息增益作为测试属性的标准的弊端,比如偏向于取值较多的属性等。常用的决策树算法还有PUBLIC、CART、SPRINT、CAL5和QUEST等。具体的算法可参考文献[3][4]等。
23 应用思路
运用决策树方法研究未利用土地适宜性评价的思路如图1所示。
(1)数据的预处理。根据未利用土地适宜性评价的目的,选取并构建用于决策树的训练集。
(2)决策树的构建,提取评价规则。未利用土地适宜性的影响因素既有离散型的,如土壤的质地,又有连续型的,如耕层的厚度等,本文研究采用C45算法来构建未利用土地适宜性评价决策树模型,再从经过剪枝后的决策树模型提取出评价规则,最后以IF…THEN…形式的结构组织。
(3)规则的应用。根据所提取的规则,建立关于未利用土地适宜性评价因素的空间数据库,以规则匹配的方式对未利用土地适宜性评价空间数据库中的数据集进行推理运算,得到评价的结果。
3 实例应用分析
福建省福州市闽侯县2011年的土地利用现状变更调查结果表明,全县参与评价了的未利用土地面积大约为1132596公顷。本文下述的未利用土地面积均指参与评价了的未利用土地面积,不包括沼泽地、盐碱地、裸岩石砾地以及其他未利用地。 31 数据的预处理
本实例采用1∶50000的土地利用现状图,评价单元是土地利用现状图中的地块单元,其原因;一是由于土地利用现状中的地块单元相对于其他来说其单元内各种条件和标准比较一致,另外也方便评价结果的应用。在整个试验区域中,依据样本级别分布均匀和空间分布均匀两大原则,总共选取了67个地块作为决策树训练的样本集。
32 决策树的构建
本文应用决策树中常用的C45算法构建未利用土地适宜性评价决策树模型,应用程序中各相关因子及其属性取值定义:其中,continuous表示的是对应因子属性的取值为连续型,如有机质取值必须是连续的。其余的都表示离散型的因子及其属性的取值范围,如以“轻壤,中壤,重壤,轻粘,砂壤,中粘,砂土”之一来描述其中某一土地单元的土壤质地。
33 结果与分析
依据从决策树中提取出来的规则,对用于未利用土地适宜性评价的空间数据库以规则匹配的方式实施推理和运算,得到评价结果。其中各类别(林地、耕地、园地、其他)面积分别为:192442亩,440197亩,415608亩,286727亩。而对这一样区进行实地调查验证的各类别面积分别为:201402亩,450832亩,402514亩,278226亩。图2为应用决策树方法所得结果和实地调查结果所做的一个对比,若以后者为基准,各级偏差分别为45%,26%,29%,31%。另外对具体地块的用地类别进行了对比分析,其吻合率达到了923%。
4 结 论
决策树分类方法只需要预先给定训练集,之后完全依赖数据学习得到决策树模型,并用定量规则的方式来表达所获取的知识,应用于未利用土地适宜性评价即只需选取合适的未利用土地适宜性评价的样本,包括每个样本评价单元的属性值以及未利用土地适宜性评价的类别。本文通过质地、灌溉条件、有机质、坡度、土层厚度、≥10℃积温、PH、海拔等属性,用决策树方法确定未利用土地适宜性评价类别,并验证了其可行性,该方法不仅可有效地避免主观判断和弥补缺陷的经验知识,且可以随着土地资源数据的变更,快速更新未利用土地适宜性评价的数据集,为土地的适宜性评价提供了一种新的思路和方法。当然它的应用也有一定的局限性,比如当它用于某一土地评价单元,其“有效土层厚度”小于8cm时,即使地形坡度等其他条件再好,也不适宜作为耕地,而应用决策树方法很难处理这类问题,而采用传统的“极限条件法”却能很快处理。因此,在实际工作中,我们要结合多种方法,对不同的数据分析对象采用不同的分析方法,从而得到更为科学、合理、适用的结果。
参考文献:
[1]周斌,王繁基于决策树模型的土壤性质空间推断[J].土壤通报,2004,35(4).
[2]张海玲,过仲阳,等决策树方法在环境物理量场与暴雨之间关系研究中的应用[J].地理信息科学,2005,7(4):39-41
[3]焦利民人工神经网络和模糊逻辑在未利用土地适宜性评价中的应用研究[D].武汉:武汉大学,2002
[4]韩慧,毛锋,等数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004(12).
[5]邢世和,黄吉,黄河GIS支持下的区域耕地质量评价[J].福建农林大学学报(自然科学版), 2002, 31(3):378-382
[关键词]数据挖掘;决策树;未利用土地适宜性评价
[中图分类号]TP393 [文献标识码]A [文章编号]1005-6432(2013)10-0052-03
决策树分类方法是数据挖掘中经常使用的数据分类方法之一,它一般采用以实例为基础的归纳学习算法,在确定了训练集,之后学习完全依赖数据本身,生成类似于流程图的树状结构来表示数据挖掘所得的结果。而未利用土地适宜性评价是在综合考虑土地的自然、社会经济等条件下的一种针对土地用途适宜性的评价,也可以看成是对影响土地某种用途适宜性的因子量化后的混合空间数据的分类问题,其分类的结果便是土地某种用途适宜性等级划分的结果。传统的评价方法与之相比,大多依赖于知识、经验,无法对知识的不完备性做出适当的调整,不完备、不准确的知识会给结果带来较大偏差,并且不具有自学习能力,且难以处理定性描述的变量。传统的方法如模糊综合评判法、极限条件法、灰色关联度分析法、经验指数和法等。本文尝试把数据挖掘中的常用的决策树分类法应用于未利用土地适宜性评价中,在克服传统评价方法过于依赖经验知识和无法处理不完备信息的基础上,进而为未利用土地适宜性评价的研究提供另一种思路和方法。
1 主成分分析法概述
11主成分分析
主成分分析也称为主量分析(Karhunnen-loeve变换),它是一种研究如何将多指标的问题转化为只有较少的综合指标的统计分析方法,它能将问题从高维空间降到低维空间去处理,不仅简化了变量系统的数字统计特征,而且还能够提供更多重要的系统信息。从数学方法的角度来看,这种方法被称之为降维,即把多指标转化为关联度比较小的少数几个综合指标。
选用主成分分析法,其核心是通过分析、选择p个主成分,并且以每个主成分zi的方差贡献率ai作为权数,构造出综合评价函数:
12 主成分分析法选择评价因子
影响未利用土地适宜性的因素较多,如果将全部因子都予以考虑,一方面资料很难收集,另一方面其中有些因素对未利用土地的适宜性没有很直接的影响或影响程度不显著,因此本文先用主成分分析的方法选取了质地、有机质含量等8个关联性比较弱的因素作为评价因子。评价因子指标的分级反映了其对主要农作物类型的生物学适应性,主要根据参评因子对农作物的适宜性程度来确定。在确定评价因子后,结合福建省福州市闽侯县的实际情况, 然后采用特尔斐法来分析确定各评价因子的分级指标。
2 决策树应用原理与方法
21 基本原理
决策树是以IF-THEN规则形式对所用数据进行自动分类。在决策树的内部节点比较属性值,并根据不同的属性值来判断确定自该节点向下的分支,最后从决策树的叶节点得到结论。所以从树的根节点到叶节点的一条路径对应着一条生成的提取规则,相应的整棵决策树对应着一组表达式规则。
决策树的构造过程分为构造树和树剪枝两个阶段:
(1)构造树阶段。这一阶段最关键的操作就是在树的根节点上选取最适合的测试属性,选取的标准包括基尼指数、信息增益、信息增益比以及基于距离的划分等。然后按照所有可能取值的相应属性建立向下的分枝,接着依次划分训练样本,直到每一个节点上的所有样本都被划分为同一个类或者某一节点中样本数量低于给定的值时为止。
(2)树的剪枝阶段。决策树构造过程中可能许多分枝所反映的是数据训练中的噪声或者孤立点。因此,生成决策树的过程中需要按某种规则来将相近或相似的分枝进行合并之后剪除,从而得到一棵能够反映数据集特性的决策树。树的剪枝方法主要可分为后剪枝、先剪枝或者两者相结合的方法。树的剪枝方法的剪枝标准主要包括期望错误率最小原则和最小描述长度原则(MDL)等。
22 算法的比较
当前,最常用的决策树方法法是Quinlan提出的ID3算法和C45算法。C45算法是对ID3算法的改进,改进后不仅可以处理离散型的属性值,还可以处理连续型的属性值。此外C45算法选择测试属性的标准是信息增益比,克服了之前ID3选用信息增益作为测试属性的标准的弊端,比如偏向于取值较多的属性等。常用的决策树算法还有PUBLIC、CART、SPRINT、CAL5和QUEST等。具体的算法可参考文献[3][4]等。
23 应用思路
运用决策树方法研究未利用土地适宜性评价的思路如图1所示。
(1)数据的预处理。根据未利用土地适宜性评价的目的,选取并构建用于决策树的训练集。
(2)决策树的构建,提取评价规则。未利用土地适宜性的影响因素既有离散型的,如土壤的质地,又有连续型的,如耕层的厚度等,本文研究采用C45算法来构建未利用土地适宜性评价决策树模型,再从经过剪枝后的决策树模型提取出评价规则,最后以IF…THEN…形式的结构组织。
(3)规则的应用。根据所提取的规则,建立关于未利用土地适宜性评价因素的空间数据库,以规则匹配的方式对未利用土地适宜性评价空间数据库中的数据集进行推理运算,得到评价的结果。
3 实例应用分析
福建省福州市闽侯县2011年的土地利用现状变更调查结果表明,全县参与评价了的未利用土地面积大约为1132596公顷。本文下述的未利用土地面积均指参与评价了的未利用土地面积,不包括沼泽地、盐碱地、裸岩石砾地以及其他未利用地。 31 数据的预处理
本实例采用1∶50000的土地利用现状图,评价单元是土地利用现状图中的地块单元,其原因;一是由于土地利用现状中的地块单元相对于其他来说其单元内各种条件和标准比较一致,另外也方便评价结果的应用。在整个试验区域中,依据样本级别分布均匀和空间分布均匀两大原则,总共选取了67个地块作为决策树训练的样本集。
32 决策树的构建
本文应用决策树中常用的C45算法构建未利用土地适宜性评价决策树模型,应用程序中各相关因子及其属性取值定义:其中,continuous表示的是对应因子属性的取值为连续型,如有机质取值必须是连续的。其余的都表示离散型的因子及其属性的取值范围,如以“轻壤,中壤,重壤,轻粘,砂壤,中粘,砂土”之一来描述其中某一土地单元的土壤质地。
33 结果与分析
依据从决策树中提取出来的规则,对用于未利用土地适宜性评价的空间数据库以规则匹配的方式实施推理和运算,得到评价结果。其中各类别(林地、耕地、园地、其他)面积分别为:192442亩,440197亩,415608亩,286727亩。而对这一样区进行实地调查验证的各类别面积分别为:201402亩,450832亩,402514亩,278226亩。图2为应用决策树方法所得结果和实地调查结果所做的一个对比,若以后者为基准,各级偏差分别为45%,26%,29%,31%。另外对具体地块的用地类别进行了对比分析,其吻合率达到了923%。
4 结 论
决策树分类方法只需要预先给定训练集,之后完全依赖数据学习得到决策树模型,并用定量规则的方式来表达所获取的知识,应用于未利用土地适宜性评价即只需选取合适的未利用土地适宜性评价的样本,包括每个样本评价单元的属性值以及未利用土地适宜性评价的类别。本文通过质地、灌溉条件、有机质、坡度、土层厚度、≥10℃积温、PH、海拔等属性,用决策树方法确定未利用土地适宜性评价类别,并验证了其可行性,该方法不仅可有效地避免主观判断和弥补缺陷的经验知识,且可以随着土地资源数据的变更,快速更新未利用土地适宜性评价的数据集,为土地的适宜性评价提供了一种新的思路和方法。当然它的应用也有一定的局限性,比如当它用于某一土地评价单元,其“有效土层厚度”小于8cm时,即使地形坡度等其他条件再好,也不适宜作为耕地,而应用决策树方法很难处理这类问题,而采用传统的“极限条件法”却能很快处理。因此,在实际工作中,我们要结合多种方法,对不同的数据分析对象采用不同的分析方法,从而得到更为科学、合理、适用的结果。
参考文献:
[1]周斌,王繁基于决策树模型的土壤性质空间推断[J].土壤通报,2004,35(4).
[2]张海玲,过仲阳,等决策树方法在环境物理量场与暴雨之间关系研究中的应用[J].地理信息科学,2005,7(4):39-41
[3]焦利民人工神经网络和模糊逻辑在未利用土地适宜性评价中的应用研究[D].武汉:武汉大学,2002
[4]韩慧,毛锋,等数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004(12).
[5]邢世和,黄吉,黄河GIS支持下的区域耕地质量评价[J].福建农林大学学报(自然科学版), 2002, 31(3):378-382