论文部分内容阅读
移动对象轨迹数据记录移动对象时空变化信息。随着定位技术、无线通信技术以及移动互联网的快速发展和应用普及,使得轨迹数据的获取越来越方便,也己产生了大量移动轨迹数据。移动轨迹数据蕴含了丰富的信息,通过移动轨迹数据,我们不仅可以分析轨迹本身的特性,如移动速度、移动方向等,而且还可以分析对象的特性(如经常去什么地方、在什么地方停留等)以及区域的情况(如路况、热点位置等),因此,有很大的应用前景,在交通、公安、旅游、物流、气象等部门已有很多应用。移动轨迹数据具有数据量大、数据类型多、数据增长速度快等特点,是重要的数据资源,随着大数据时代的到来,迫切需要利用新的技术对移动轨迹数据挖掘的理论和技术进行进一步研究,更好地为社会、经济发展服务。论文利用上海市强生出租车公司约13700辆出租车1个月(2015年4月)的移动轨迹数据,结合上海市路网等其它数据开展研究。研究内容包括以下三个方面:(1)基于云计算的轨迹数据分析平台设计与开发论文设计和开发了基于云计算的轨迹数据分析平台。平台利用Hadoop HDFS、 Spark作为分布式计算框架,利用分布式计算系统提供的二次开发接口开发了针对分布式计算的应用软件,包括探索性分析、轨迹语义增强、出租车运营分析、居民出行分析、交通状况分析等方面功能。测试表明,分布式计算的性能明显高于单机计算,且随着数据量增加计算速度提高更加明显。以提取出租车上下客信息为例,在有1-1亿个轨迹点的情况下,分布式计算(6个节点)的计算时间为6分钟,单机计算的时间为12.4小时,计算速度提高了124倍。(2)轨迹数据处理与分析的方法研究重点对轨迹数据的停留分析、轨迹数据与路网的地图匹配等目前还不成熟的方法进行研究。论文提出了基于点序列的地图匹配方法,每次同时对一个序列中的点进行地图匹配,根据距离阈值选择每个点的候选匹配路段,根据路网的连通关系得到拓扑连通的所有组合路段,根据最短路径确定最终的组合路段,从整体上保证了轨迹点与路网的匹配精度。针对轨迹数据的特点,论文提出了基于线性双速度的停留检测方法,即按照时间顺序查找前后相邻点,根据即时速度阈值确定是否为邻域点,以总体平均速度阈值和最短时间间隔阂值确定邻域是否为停留,即时速度阈值大于平均速度阈值,该方法能够避免由于偶然存在的速度偏高点导致一些停留不能检测到或被分割成多个停留情况,很好地提取出租车移动轨迹中的停留。(3)出租车轨迹数据的应用研究重点对出租车运营情况、居民出行情况、区域的交通状态等进行分析。利用2015年4月份一个月的出租车轨迹数据分析了出租车运营特征,包括出租车的日均运营时间、日均运营里程、日均载客次数、日均载客时间、日均载客里程、载客时间和载客里程的分布、空驶时间比例和空驶里程比例等。利用4月20日至26日一周(周一至周日)的载客轨迹数据,分析了居民出行特征,包括居民出行的时间特征、空间特征、方向特征以及上下车地点的关联特征。利用2015年4月份典型工作日和周日的出租车轨迹数据,对上海市外环线以内主干道、二级路和三级路的行程速度进行了时空分析,包括时间上的变化、不同等级道路的差异以及空间上的特征。