【摘 要】
:
随着移动互联网和物联网技术的广泛应用,空间位置信息数据量迅速增长。而大规模的数据使得传统的空间数据索引和查询方法面临着新的挑战。例如,由于数据量的增长使得传统的内
论文部分内容阅读
随着移动互联网和物联网技术的广泛应用,空间位置信息数据量迅速增长。而大规模的数据使得传统的空间数据索引和查询方法面临着新的挑战。例如,由于数据量的增长使得传统的内存式索引结构的磁盘访问次数大大增加。因此,有效的空间数据查询问题需要新的可扩展的分布式索引结构。而目前常用的少数几种分布式索引为基于R-tree的分布式索引和基于Voronoi图的分布式索引,这些索引结构仍存在一些不足。首先,由于R-tree的层次型结构不易分散化,使得该索引结构的可扩展性不高;基于Voronoi图的索引结构只适合处理静态的数据集和查询点,当有数据点动态加入时索引结构需要重建。由于缺乏有效的分布式索引结构,大数据下的空间kNN查询处理也变得非常困难。在这种背景和需求之下,Google提出了一种高效的分布式计算模型MapReduce,并因简单、易扩展、高容错等特性使其迅速在业界内得到广泛的应用。基于MapReduce模型,本文将网格空间划分和倒排索引相结合,首次提出了一种新的分布式倒排网格索引结构。该索引结构扁平化、松耦合的特点,使其更加适合索引大规模空间数据和进行分布式化处理。同时,我们在MapReduce框架下实现了分布式倒排网格索引结构并详细描述了Map和Reduce的过程。基于该索引结构,本文对传统的kNN查询算法进行了改进,提出了一种新的可并行的查询算法——ParallelCircleTrip算法。另外,我们做了大量的实验验证倒排网格索引和改进的kNN查询算法的高效性和可扩展性。实验结果表明分布式倒排网格索引方法在建索引的效率方面明显高于已有的分布式R-tree索引和Voronoi图索引,且效率是其他两种索引方法的1到2倍。基于ParallelCircleTrip算法的分布式并行k近邻查询处理的性能也达到接近于线性扩展。
其他文献
Deep Web深度网络资源,又称作不可见网或隐藏网(译为Invisible Web or Hidden Web),它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够
信息技术的持续快速发展带来了对数据存储及作用在数据集上计算的空前要求,科研机构、政府以及企业都面临着海量数据存储成本高、数据管理困难、计算复杂度高、容错率低等难
入侵检测系统(Intrusion Detection Systems, IDS)被定义为对恶意行为进行分析和处理的系统,保护对象是计算机和网络的资源。在入侵检测系统中,模式匹配算法属于核心技术之一
人机交互(Human-Computer Interaction,HCI)作为计算机研究分支之一,越来越受到人们的重视。尤其是随着移动计算设备的增加以及计算机性能的提升,传统的人机交互方式显得的越来越
随着用电信息采集系统的普及,电网公司和电力终端用户之间的交互将迅猛发展,电力公司会每隔一定时间采集用户的用电信息,用户可以实时获取或报告自己现在或将来一段时间内的用电
近些年,随着智能移动设备大规模的推广以及移动无线网络技术的快速发展,数据流量激增所带来的移动频谱匮乏、基站通信压力过大的问题日益凸显。传统的蜂窝网络系统已经逐渐无法
差分进化算法(Differential Evolution Algorithm,DE)是一种基于种群个体差异、主要解决连续性优化问题的启发式随机搜索算法。自1995年R.Storn和K.Price为求解Chebyshev多项
随着网络主机和应用数目的增长,如何在大规模网络中识别异常流量越来越具有挑战性。目前,国内外已有许多成熟的基于主机的异常流量分析方法,重点以分析网络中的特定节点为主
在实际的语音通信系统中,语音信号不可避免地要受到噪声信号的干扰。噪声的存在严重的导致了语音质量的降低,并影响人们对语音信息的辨识能力。为了改善语音信息质量,从含噪语音
目前在工业生产中应用的弧焊机器人主要是示教再现型的机器人。这种机器人在工作中根据人工示教在线编程获取焊接路径,要求作业条件稳定,对环境因素的应变能力较差,当更换焊