论文部分内容阅读
数据是通过物理观察得来的人类用以描述客观事物的抽象符号,数据的表达形式包括图像、图形、数字、文字等。空间数据则是在一般数据的基础上附带地理空间分布特征属性,成为对地球表层自然现象和事物的直接记录。
以计算机和网络的发明为标志,上世纪五十年代人类社会开始迈入信息时代。这个时代的基本特征是:数据和信息海量扩增,人们获取知识的途径越来越倾向于依赖对数据的分析和信息的综合,而不再是早先单纯的经验总结。事实上大部分数据都与地理空间位置密切相关,针对数据的空间属性进行深度分析有助于更好的理解现实世界。
表观上,数据本身往往表现得杂乱无章,如何使数据内部隐含的规律以人类易于理解的方式的表示出来?这正是探索性数据分析(Exploratory Data Analysis,EDA)所要研究的课题。因此,一般认为探索性数据分析就是一类引入多样化的手段、方法、技术来分析原始数据的方法体系,当中最常用的是统计学方法。探索性空间数据分析的目的包括:揭示数据中隐含的规则、提取关键变量、检测数据异常、提出简化模型并决定深入分析的理想因子序列。
面向空间数据的探索性数据分析方法亟待完善。当前主要的问题在于:因为空间数据表达的多元性,很难找到一种通用的平台对空间数据进行兼容且有效的处理。虽然一些商业统计软件如SAS和S-PLUS等扩展了空间数据分析模块,但是对于数据来源和格式一般有特别要求,与地理信息系统(Geographical Information System,GIS)兼容性较差;而地理信息系统实现了一部分针对空间数据的统计分析功能,但不够完善,也比较低效,与探索性数据分析的目的要求相去甚远。
针对上述背景和探索性空间数据分析领域存在的不足,本文探讨了以下三个层面的内容:
1)综合分析该领域的现状和研究进展,概括目前的发展趋势和未来导向;
2)在GNU/Linux平台上,建立GIS软件GRASS与数据分析环境R的耦合集成,即以GRASS为空间数据预处理环境,而R则负责实现探索性数据分析,二者通过一个接口界面传递数据和参数;
3)应用GRASS和R集成环境研究实例数据,解读分析得出的信息,挖掘信息所透露的模式;并进一步总结集成环境应用于空间数据分析的优势和存在的不足。