论文部分内容阅读
随着互联网技术的不断成熟和普及,互联网地理信息服务取得了飞速的发展,基于互联网电子地图的地理标注得到了广泛的应用,由于具有庞大的用户群,互联网地理标注具有数据量庞大,更新频繁的特点。面对海量的标注数据,人们通过其本身来获取信息、处理信息,但在大量数据的背后同样隐藏着潜在的知识和规律需要人们去发现、去挖掘,而人们所迫切需要掌握的则恰恰是这些知识和规律而非数据本身。空间聚类技术就是为了应对对空间数据的挖掘而产生的一种工具。随着3S技术的不断发展和成熟,大量具有复杂属性的空间数据被不断收集,互联网地理标注就是其中之一。通过运用空间聚类技术对大量的空间数据进行分析是一种极为有效的手段来发现海量数据背后所包含的知识和信息,对海量地理标注进行空间聚类能够有效发现空间对象的空间分布、聚集特征、空间发展趋势以及空间关联等,对社会经济等决策有着重要意义。本文针对互联网地理标注的高度异构性,设计了统一的管理及存储模型,同时顾及海量数据的高并发访问及快速存储与查询的需求,采用了非传统关系型的可扩展文档型数据库MongoDB来存储海量标注数据,同时通过对传统空间聚类方法处理海量数据能力的分析,采用了一种基于多级聚类单元的海量数据快速聚类方法,实现了将海量数据映射到多及聚类单元中,以聚类单元为运算单位进行聚类计算,从而极大的减少运算量,提高运算效率。