大规模轨迹数据的分布式管理与分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:skyforce2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的普及和定位技术的不断发展,越来越多的轨迹数据在连续不断地产生。这些轨迹数据蕴含着丰富的信息,能够用于许多城市应用,例如:违章停车检测、车流分析预测、空气质量分析以及可达区域分析等。为充分利用这些轨迹数据,我们首先需要对这些轨迹数据进行有效的管理。然而,由于轨迹数据量通常非常大、更新频率很高、内在结构复杂、查询模式独特,要高效管理轨迹数据非常困难。传统的关系型数据库,例如My SQL Spatial、Post GIS、Oracle Spatial等,为支持时空数据(包括轨迹数据)的管理做了一些优化,然而它们通常会面临着扩展性不足的问题,即当轨迹数据量大于1T时,系统通常难以应对。一些分布式大数据系统例如Spark、Hadoop、HBase等能够存储和处理超大规模的数据,然而这些系统没有内建的时空索引,因此无法高效地支持时空轨迹的查询和分析。一些研究工作基于分布式大数据组件构建了轨迹数据管理系统,但是大部分的这些系统只提供非常有限的轨迹分析函数,无法满足复杂的上层应用;此外,对于轨迹存储它们没有专门做一些优化,因此可能存在效率问题;更进一步,这些系统使用门槛较高,业务开发人员通常需要查阅很多用户手册,编写大量代码。为便捷、高效地管理海量轨迹数据,构建海量轨迹数据与上层应用的桥梁,本文基于开源的时空索引组件Geo Mesa,构建了一个完备的基于NoSQL的分布式轨迹数据管理和分析系统,称为Traj Mesa。Traj Mesa具有扩展性好、效率高、支持多种轨迹查询、允许轨迹更新、使用便捷等特点。主要研究内容和创新点总结如下:(1)设计并实现了多种分布式轨迹预处理操作,包括轨迹噪声过滤、轨迹驻留点检测、轨迹分段、轨迹地图匹配。这些预处理操作不仅在很多应用场景都非常重要,而且对本文后续的轨迹存储索引的设计也很必要。通过分布式的实现,Traj Mesa能够更快地实现更大规模的轨迹预处理操作。(2)设计了一种新的基于NoSQL的轨迹底层存储机制。传统的方法将每个GPS点存储为一条记录,难以对轨迹数据进行压缩,也无法表示整条轨迹的信息,导致无法高效支持许多轨迹查询。本文将一条轨迹的所有GPS点存储在一起,更加有利于轨迹压缩,减少磁盘空间占用的同时,加快查询存储效率。将轨迹的所有GPS点存储在一起,每条记录就包含了轨迹的所有信息,更加方便多种轨迹查询。实验表明,新的存储方式相对于传统的存储方式,存储空间大小减少了80%,索引时间减少了88%,查询效率提高了1?2个数量级。(3)为支持不同的轨迹查询,设计了多种查询优化算法。针对NoSQL不适合存储时间段的问题,设计了一种新的时间段索引方法XZT,可以在毫秒级别支持上TB数据量级的ID时间范围查询。针对轨迹MBR无法精确表示轨迹位置,以及现有XZ2索引不精确的问题,提出了一种轨迹签名方法和XZ2+索引,让轨迹空间范围查询性能提高4%?20%左右。针对相似轨迹查询,提出了MBR剪枝、起止点下界剪枝、签名下界剪枝策略,在本文的实验环境中,Traj Mesa相似轨迹查询比Dita轨迹管理系统快2?3个数量级。针对k邻近查询,提出了区域剪枝、MBR下界剪枝、签名下界剪枝策略,在本文的实验中,Traj Mesa相较于Dita和DFT方法在小数据量情况下,k邻近查询效率提高了50%,在大数据量的情况下,k邻近查询效率提高了1?2个数量级。此外,Traj Mesa比Dita和DFT的扩展性更强,能够轻松处理大规模(大于1T)的轨迹数据,而Dita和DFT在本文的环境中,当数据量大于70GB时,抛出内存异常错误。提出了一种基于后缀树索引的路径时间范围查询方案,相较于倒排索引方法,本文提出的方法树高度为3时有近30%的效率提升。(4)设计并实现了一套完整的轨迹SQL引擎。为了让Traj Mesa更好地支持上层应用,提高系统的易用性,Traj Mesa定义了多种SQL语句类型,对于每种类型,实现了解析器、优化器和执行器。在Traj Mesa中,所有的功能都可以通过一句简单的SQL语句实现,这减少了Traj Mesa的使用门槛。正因为Traj Mesa的高效性、可扩展性和易用性,许多基于Traj Mesa的应用均已在实际生产环境中部署。(5)实现了一个基于Traj Mesa的轨迹分析应用案例。该案例首次使用轨迹拼接技术找到城市中任何一个地点一段时间内能够到达的区域。通过良好的索引设计,能够在毫秒级别快速响应可达区域范围查询请求。相较于静态路网扩张的方法,本文提出的方法能够实时捕捉当前的交通状况信息。相较于车速评估算法,本文提出的方法覆盖度更高。
其他文献
本文研究了多agent离散事件系统的集中式和分布式监督控制。系统中的agent根据其状态转移结构被分为多组,每一组里的agent具有相似或相同的状态转移结构。这样的系统在工业生产中有着广泛的应用。系统中的agent(例如工厂中的机器、制造单元中的机器人以及物流系统中的AGV)执行着相同的任务,并且agent的数量可能随着时间发生变化。针对以上系统,本文共研究了四方面的内容。首先,本文利用每组里的a
随着信息技术的蓬勃发展,人工智能技术正成为推动新一轮军事革命的核心驱动力,在国防领域发挥越来越重要的作用。将人工智能技术与雷达自动目标识别(RATR)技术相融合,增强对来袭目标的探测和预警能力,对提高战场态势的感知具有重要意义。此外,雷达高分辨距离像(HRRP)反映了目标散射中心沿雷达视线的分布情况,包含了目标大量的结构信息,并且具有易获取、易存储、易处理等优点,受到了雷达自动目标识别领域的持续关
微机电系统以微电子技术和现代信息技术为基础,融合微加工和精密机械加工等多种加工技术而构造的微型系统。MEMS麦克风是将音频信号转换为电信号的微型传感器。相比于传统麦克风,它具有耐高温、频响平坦和体积小、功耗低的优点。MEMS器件建模涉及多个学科,复杂的机械机构和多物理场耦合导致精确仿真需要耗费大量计算资源。因此,提高模型的仿真效率是MEMS麦克风建模研究的热点。MEMS麦克风传统模型包括集总参数模
大数据背景下,机器学习在许多领域大放异彩,作为其重要分支,人工神经网络主要被应用于监督学习,但现实中数据的标签很难得到,于是衍生出了利用部分无标签样本的半监督学习。随着数字设备和网络技术的发展,数据呈现爆炸式增长,导致很多数据必须在通信网络中分散存储,传统的集中式学习方法需要将这些数据传输之后集中处理,但一些场景中数据由于本身特殊性或者受到通信网络的限制而无法被传输,从而导致集中式学习方法无法使用
随着物联网应用的涌现,位置信息需求急剧增加,且其在应用实现过程中起着至关重要的作用。智能医疗、智能家居和对象跟踪等应用程序都需要准确的室内位置信息。而随着无线技术的不断发展和无线设备的广泛部署,Wi Fi、5G/4G、FM、电视等无线信号几乎覆盖了我们生活的每一个角落。当目标处于不同位置时,不可避免地会对周围的无线信号产生不同的影响,因此,通过分析受影响的无线信号来估计目标位置是可行的。这种无需目
最近几十年,多智能体系统的协同控制在生物、工业、经济等不同领域有着广泛的应用。因此,作为协同问题的典型问题之一,一致性受到了大量的关注。所谓一致性,是指所有智能体通过与邻居共享信息达到一个相同的状态。一般地,处理多智能体系统的一致性问题时,常采用连续时间通信的方式,即智能体之间持续不断地传递信息。显然,这种方式是不现实的。由于传统的模拟控制器被数字控制器取代,智能体离散地广播信息,所以采样机制被引
复杂网络是一门涵盖计算数学、物理、计算机、生物等领域的交叉学科。复杂网络理论及方法能帮助人类分析大规模系统的组成结构、分析网络成员的运行动态并掌握功能结构的分布规律,在近年来的研究中得到了广泛的关注。结构各异的系统承担着不同的任务,也面临着复杂多变的应用环境,自然灾害或人为破坏等各种外界因素难免对于系统的正常运转造成干扰。在这一背景下,实际应用中需要的是性能鲁棒的网络,这样的网络在遭受一定的攻击或
自1929年英国生物学家弗莱明发现青霉素至今,人类已不断研发出多种抗生素。目前也已开展了各种抗生素在临床上得应用,越来越多的感染患者得到治愈,同时也伴随着越来越多的病原菌对各类抗生素产生了强大的耐药性。这其中以耐甲氧西林金黄色葡萄球菌(Methicillin-resistant Staphylococcus aureus,MRSA)为代表的多重耐药菌严重影响人类及其它生物健康。发现并研究新型药物以
移动互联网的迅猛发展使得人们生活中的图像数量激增,如何更好的管理和利用这些图像成为一个重要问题。由于图像特征提取作为图像处理任务中的一个关键步骤能够从冗余的图像信息中提取作为判别与分析标准的主要特性,因此从图像中提取特征以挖掘并利用图像数据蕴含的重要信息是解决这个问题的有效方法。此外,为了解决其存储和计算负担,人们更愿意将大量图像存储到远程云服务器。然而,在享受便利的同时,将包含大量敏感信息的图像
图像作为一种包含大量信息的多媒体数据,在人们生活和工作中扮演着越来越重要的角色。图像分割是图像识别和计算机视觉至关重要的预处理步骤,也是实现图像理解的一种有效途径,作为图像处理的重要环节受到了越来越多的关注。图像分割在计算机视觉、人脸识别、产品检测、工业自动化、智能交通、文字识别、外星探测、航空与航天技术、遥感卫星图像处理、生物与医学工程、体育和农业等领域得到了广泛的应用。在很多工程应用中,由于实