论文部分内容阅读
[摘要]空间数据挖掘技术(Spatial Data Mining)是建立在空间数据库的基础上,通过使用各种机器学习技术,从海量空间数据中挖掘出未知的有用的规律和知识,从而提供支持决策的依据。在现在已建立的GIS空间数据库中,大量的可分析、分类的知识,如空间位置分布规律、空间关联规则、形态特征区分规则等都隐藏在空间数据中需要被挖掘才能被发现。因此,空间数据挖掘技术就显得尤为重要。因而对于空间数据挖掘技术,特别是基于Web挖掘部分的技术进行研究。
[关键词]空间数据挖掘 地理信息系统 数据挖掘 知识发现
中图分类号:TP319∶P208 文献标识码:A 文章编号:1671-7597(2008)1120036-01
一、知识发现与数据挖掘技术概述
我们把从庞大的数据库集或者数据库中提炼有用信息的科学成为数据挖掘。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。这些学科都致力于数据分析的某个方面,因此它们有很多共性。数据挖掘就是建立在它们之上对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据[1]。不过并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
二、空间数据挖掘技术由来
空间数据的采集、存储和处理等现代技术设备的迅速发展,使得空间数据的复杂性和数据急剧膨胀,远远超出了人们的破译能力。空间数据库是空间数据以其相关非空间数据的集合,是经验和教训的积累,无异于是一个巨大的宝藏。当空间数据库中的数据积累到一定程度的时,必然会反映出某些为人所感兴趣的规律。这些知识型规律隐含在数据深层,一般难以根据常规的空间技术方法获得,需要利用新的理论技术发现并为人所用[2]。
三、Web空间数据挖掘的技术和发展
空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。
(一)空间分析方法
利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。
(二)统计分析方法
统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
(三)归纳学习方法
归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。
(四)聚类与分类方法
聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。
(五)探测性的数据分析方法
李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。
(六)神经网络方法
即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。
(七)决策树方法
即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。
(八)基于云理论的方法。
云理论是一种分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来,处理空间对象中融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。
四、结语
空间数据挖掘是GIS科学的一个新兴领域,尽管目前只是取得了一定的初步理论研究成果,但是仍然有大量的理论与方法需要去深入研究,特别是在利用已有的理论知识来开发空间数据挖掘的产品方面需要更多的研究人员投入到其中去。
参考文献:
[1]David Hand, Heikki Mannila, Padhraic Smyth: Principles of Data Mining, 机械工业出版社.2003.
[2]李德仁、王树良、李德毅,空间数据挖掘理论与应用.科学出版社.2006.
[关键词]空间数据挖掘 地理信息系统 数据挖掘 知识发现
中图分类号:TP319∶P208 文献标识码:A 文章编号:1671-7597(2008)1120036-01
一、知识发现与数据挖掘技术概述
我们把从庞大的数据库集或者数据库中提炼有用信息的科学成为数据挖掘。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。这些学科都致力于数据分析的某个方面,因此它们有很多共性。数据挖掘就是建立在它们之上对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据[1]。不过并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
二、空间数据挖掘技术由来
空间数据的采集、存储和处理等现代技术设备的迅速发展,使得空间数据的复杂性和数据急剧膨胀,远远超出了人们的破译能力。空间数据库是空间数据以其相关非空间数据的集合,是经验和教训的积累,无异于是一个巨大的宝藏。当空间数据库中的数据积累到一定程度的时,必然会反映出某些为人所感兴趣的规律。这些知识型规律隐含在数据深层,一般难以根据常规的空间技术方法获得,需要利用新的理论技术发现并为人所用[2]。
三、Web空间数据挖掘的技术和发展
空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。
(一)空间分析方法
利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。
(二)统计分析方法
统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
(三)归纳学习方法
归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。
(四)聚类与分类方法
聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。
(五)探测性的数据分析方法
李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。
(六)神经网络方法
即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。
(七)决策树方法
即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。
(八)基于云理论的方法。
云理论是一种分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来,处理空间对象中融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。
四、结语
空间数据挖掘是GIS科学的一个新兴领域,尽管目前只是取得了一定的初步理论研究成果,但是仍然有大量的理论与方法需要去深入研究,特别是在利用已有的理论知识来开发空间数据挖掘的产品方面需要更多的研究人员投入到其中去。
参考文献:
[1]David Hand, Heikki Mannila, Padhraic Smyth: Principles of Data Mining, 机械工业出版社.2003.
[2]李德仁、王树良、李德毅,空间数据挖掘理论与应用.科学出版社.2006.