论文部分内容阅读
随着位置定位技术的快速发展,人们日常生活中积累了大量的轨迹数据。用户历史移动轨迹中蕴含着大量的信息,轨迹数据挖掘技术已经引起了很多专家学者的重视,成为当前的研究热点之一。对用户的历史轨迹进行挖掘,不仅可以发现用户日常活动的模式,还可以发现一些更高层次的信息。周期活动模式是用户生活中最容易出现的活动模式,通过对用户周期活动模式的挖掘可以进一步了解用户的活动习惯及相关爱好。本文主要研究如何通过用户的历史轨迹数据来发现用户的周期活动模式。针对周期活动挖掘中面临的时空数据采样频率不确定、数据稀疏、时空数据噪声等问题,本文提出一种基于概率统计模型的方法来挖掘用户的周期活动模式。由于周期活动本身具有复杂性、多周期交叉性及周期长度不确定等特点,本文周期活动模式的挖掘方法分为三个步骤。第一个步骤,对用户的历史轨迹进行预处理,得到用户的停留点序列;第二个步骤,对得到的停留点集合进行聚类分析,并使用兴趣度计算公式对聚类结果进行兴趣度计算,得到用户的重要兴趣点;第三个步骤,针对每个兴趣点,对用户的历史轨迹进行重构,将用户的轨迹序列转化成二进制序列,然后使用基于概率统计的周期长度探测方法探测每个兴趣点对应的周期长度,最后将同周期长度的兴趣点进行层次聚类,挖掘出用户的周期活动模式。本文给出的周期活动模式挖掘的方法和传统的周期活动发现算法相比有两个优势:一个是可以自动探测周期的长度,不需要根据用户的经验进行参数预设置。另一个是本文使用的是基于概率统计的周期长度检测算法,该算法可以较好的处理数据稀疏的问题,并且对用户原始数据的采样频率不敏感。本文通过在模拟数据集和微软亚洲研究院的Geolife项目的真实数据集上进行实验。结果表明,该算法能够有效的发现用户的周期活动模式,并对稀疏数据集及数据噪声有较高的鲁棒性。