论文部分内容阅读
随着信息技术的迅速发展,GPS以及带有定位功能的移动终端应用到各个领域中,此外,移动互联网的迅速崛起进一步推动了基于位置服务的发展,使得大量的时空轨迹数据不断产生。对海量的时空轨迹数据进行模式挖掘对于理解移动对象的运动模式具有重要意义。每天产生的海量轨迹数据对于时空轨迹挖掘的效率问题是一个很大的挑战。云计算提供了一种新的并行计算模型,为挖掘海量数据提供了一种高效的解决办法。本文利用MapReduce分布式并行编程框架实现海量时空轨迹数据挖掘,研究云计算环境下时空轨迹频繁模式挖掘算法,取得的主要成果如下:1.提出了基于停留点的兴趣区域发现方法。在时空轨迹数据中有些坐标点有着重要的意义,例如用户到某商业中心购物,那么时空轨迹中位于商业中心内的采样点就有了具体的含义,如何通过时空轨迹中的坐标点发现感兴趣的区域(如商业中心)对于理解用户行为具有重要的意义。本文提出了基于时空轨迹中的停留点发现更有意义的兴趣区域从而挖掘出更有意义的频繁模式。首先将地理空间划分为一个个网格空间,然后计算每个网格单元中轨迹停留点的个数,对于大于一定阈值的网格则认为是兴趣网格,然后对兴趣网格进行合并从而发现兴趣区域。2.提出了基于网格划分的子轨迹频繁模式并行挖掘方法。随着定位技术的广泛使用,每天产生海量的时空轨迹数据,单机环境下很难快速有效地挖掘出其中的频繁模式,利用并行环境提高时空轨迹挖掘效率是一种有效地解决办法。本文利用轨迹数据的空间特性,首先通过网格对地理空间进行划分,则轨迹落到不同的网格单元中,然后并行地处理每个网格中的轨迹数据,同时为了避免网格划分过程中,同一个模式中的轨迹落入到相邻网格中的情况,每个处理节点同时处理相邻网格中的轨迹,最后挖掘出轨迹中频繁模式。3.提出了基于后缀树的轨迹频繁模式并行挖掘方法。时空轨迹数据是移动对象在时间维上的空间位置序列,频繁的位置序列体现了移动对象的出行习惯。提出通过后缀树并行挖掘时空轨迹中的频繁位置序列。首先根据地理空间中的兴趣区域以及轨迹中的停留点将时空轨迹转换成带有时间标签的兴趣区域序列,然后根据兴趣区域序列构建后缀树并挖掘频繁模式,为了提高了算法的效率,利用MapRedcue编程模型并行地构建后缀树并挖掘频繁模式。