论文部分内容阅读
信息化的不断发展为国土部门积累了大体量的、具有丰富价值的空间数据。近年来,推动国土大数据建设,实现国土与测绘、地质环境等部门的资源数据共享一直是国家政策热点和国土部门的工作重心。实现数据规范统一是数据共享的前提,而国土数据种类多、结构复杂、标准不一、多源多时相的数据特征给共享及统一应用造成了巨大阻碍。数据质量研究领域中的数据清洗技术能够解决这一问题。而传统数据清洗方法一方面大多采用硬编码方式设计,灵活的低;另一方面大多基于单机计算架构,难以支撑大体量数据的清洗需求。数据清洗中应用最广泛的Drools规则引擎存在计算效率低下和规则与后台编码耦合度太高的问题,并且缺乏借助大数据技术手段对数据空间几何部分进行清洗的清洗方法。本文分析了国土空间大数据现状特征及国土大数据应用对于数据清洗的需求,提出了一种规则引擎驱动下的国土空间大数据清洗方法。方法基于ArcSDE数据结构及SDELOB压缩方式的分析结果,编码实现了一种利用MapReduce并行大数据计算框架的国土空间大数据集成转换算法,实现关系型空间数据库中数据向国土空间大数据池的高效集成转换。基于集成转换后的数据,通过定义国土空间大数据清洗规则编码形式来保证清洗过程定义同软件编码的松耦合性。构建包含规则定义、规则编排、规则校核、规则解析与规则执行等模块的规则引擎来实现清洗规则的动态扩展、灵活配置组合,保证规则的高复用性,借助MapReduce计算框架实现国土空间大数据清洗的高性能和高精度,解决国土空间大数据清洗问题。经过实验测试,验证了该方法应用到国土真实数据环境下的可行性,且算法在保证数据精度的基础上大幅度提高了空间数据集成转换、清洗的效率。