海量矢量数据的分布式存储及时空查询

来源 :武汉大学 | 被引量 : 1次 | 上传用户:cnmeim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着立体对地观测网、移动互联网、泛在物联网等技术的快速发展,海量时空数据(如车辆轨迹、个人轨迹、社交媒体数据,签到数据等)爆发式增长。这类数据具有流式动态、时空多维、规模海量、价值稀疏等特征。传统地理信息平台已无法克服时空大数据带来的严峻挑战,进而转向分布式文件系统和分布式数据库存储管理。基于分布式文件系统的时空大数据管理方式能够高效支持离线批处理任务,但无法支持低延迟时空查询;以HBase为代表的分布式数据库支持键值对条件过滤查询,但对多维时空查询支持能力不足。现有基于HBase的时空大数据存储研究对多维度时空查询进行了扩展,提高了多维度查询的性能,但仍然存在以下问题:1)部分研究方案仅支持点数据对象的存储及查询,不支持更为复杂的线、面矢量数据;2)部分研究方案虽同时支持对点、线、面矢量数据的存储与查询,但时空范围查询、k-NN查询效率仍有进一步提高和优化的空间。针对上述问题,本文在分布式数据库HBase的基础上,利用NoSQL数据库的优势,提出一套完整的存储组织、时空索引、查询检索的系统。该系统首先为矢量对象数据集分别构建了元数据表、编码表、数据表。其中元数据主要记录数据集的元信息,如包含数据的编码方案,矢量类型,空间参考等信息;编码表用于时空范围查询、k-NN查询;数据表用于支持时空矢量对象的属性查询。系统借助时空立方体理论,提出了基于空间填充曲线降维的时空串接编码索引,并基于该时空索引设计实现了时空范围查询算法,且本文设计提出了一种顾及数据分布的k-NN查询算法,其能够根据数据的分布控制网格的大小进行扩充搜索,从而提高查询效率。以纽约出租车数据为实验数据,本文进行了一系列对比实验:在关于空间划分最大递归次数的实验中,经试验验证当最大递归次数为6~10时查询性能最佳;在不同串接编码的性能对比实验中,TS编码在各个查询场景下整体占优;以k-NN查询的对比实验中,随着k的不断增加,k-NN查询所消耗的时间在数据密集区域k-NN查询时间更为稳定,没有明显的线性增长,而在数据稀疏区域k-NN查询时间呈明显的线性增长。且经实验验证,该方案系统能够在大数据场景下存储海量的时空矢量数据对象,且同时支持低延迟的时空范围查询、k-NN查询。
其他文献
<正>美国学者理查德.C.博克斯(Richard·C·Box)认为,21世纪将是一个以公民治理为中心和主导的时代。在当今中国公共治理语境下,对于公民社会、公共治理这样的舶来品,如何使
会议
新媒体发展使信息制造和消费的确定性消减。高校大学生的媒介素养水平参差不齐,提升大学生的媒介素养已成为信息传播者与传媒教育者的使命。本文通过对大学生群体媒介素养的
目的:描述青岛市居民饮酒行为和超重、肥胖的流行特征;分析饮酒行为与肥胖的测量指标间的关系;探讨不同饮酒量、饮酒频率、饮酒种类等饮酒行为与一般性肥胖和中心性肥胖之间的关系;采用随访数据分析饮酒行为与一般性肥胖和中心性肥胖的关联。方法:采用中国慢性病前瞻性研究(CKB)青岛项目点35,507名调查对象的基线调查数据和第二次重复调查1,643名调查对象的数据,在调整性别、年龄、教育水平、体力活动、吸烟状
透明质酸(HA)又名玻尿酸,是由N-乙酰氨基葡萄糖与D-葡萄糖醛酸为双糖单位聚合而成的糖胺聚糖,其双糖单位中的N-乙酰氨基葡萄糖与D-葡萄糖醛酸以β-1,3糖苷键相连,双糖单位之
荧光成像是普遍用于生物医学基础研究中进行显微观察的一种技术,并且目前荧光学成像的研究对象已由通常的细胞和组织拓展到活体动物层次。荧光成像技术的进一步发展有赖于高
加工中心上模具钻孔采用无人值守加工可提高生产效率。在对无人值守条件下模具钻孔精度问题及其影响因素进行分析的基础上,提出相应的改进措施,包括优化钻头结构和切削方法等
<正>科学家经研究发现,用塑料容器盛装饮用水对人体健康不利。为确定用塑料容器盛装饮用水是否会对人体造成不良影响,专家们对将近1 500名志愿者的身体健康状况进行了跟踪研
高校学生社区是育人的重要场所,应以主体性为理论研究视角,创新学生社区管理理念,探索学生社区“三自”治理模式创新。基于学生主体性培养目标、社区建设平台和“三自”治理模式
2008年12月18日,胡锦涛同志在纪念党的十一届三中全会召开30周年大会上发表重要讲话,高度评价了党的十一届三中全会的重要地位和伟大意义,全面总结了30年来我国改革开放和社
“首次不罚”制度得以合理存在的界域主要是制度实施的必要性与目的设定方面,其实质是将法律赋予执法主体的自由裁量权主动降低为零,但制度本身设计存在很大的不确定性,降低