论文部分内容阅读
信息通讯技术的快速发展产生了海量的时空轨迹数据。时空轨迹数据包含了移动对象丰富的时空信息,体现了人类的时空移动模式和运动规律,可以用于了解人类的出行行为。轨迹数据的重要应用之一是位置预测,这对于城市交通的管理规划和基于位置的服务有重大意义。位置预测可以分为两个问题,第一个是位置提取,它从原始的时空轨迹中提取有意义的位置。第二个问题是位置预测,它使用位置提取的结果预测下一个位置。对于第二个问题,根据使用的GPS轨迹是否来自同一个人,可以分为基于个体轨迹的个性化位置预测方法和基于群体轨迹的一般化位置预测方法。个性化方法使用单个用户的历史轨迹数据来训练预测模型,而一般化方法使用了群体中多个人的轨迹进行训练。个性化方法需要大量的个体轨迹来训练模型,然而实际应用中,某些用户历史轨迹数据比较稀疏,导致个性化方法对这部分人的预测性能很差。基于此,一般化方法通常使用群体中多个用户的轨迹数据来训练位置预测模型,主要用到经纬度,语义行为,以及位置特征等信息。然而,用户不同的个体属性和居住属性也会影响位置选择,例如职业角色,年龄阶段,以及空间住宅等。据调研所知,已知的研究工作缺少对这部分属性的相似性挖掘。因此,论文提出了一种基于变阶马尔科夫模型的位置预测模型,该模型包括了基于个体轨迹的个性化预测方法和基于群体轨迹的一般化预测方法,使用不同的轨迹分组策略对群体轨迹进行分组,筛选出更相似的群体轨迹,利用群体出行模式提高了个性化方法的位置预测性能。首先,模型对原始轨迹点提取停留位置,以构建停留位置链路。其次,该模型使用空间聚类方法构建聚类链路。第三,基于Fano不等式和聚类链路评估个人位置的可预测性。第四,应用传统N阶马尔科夫模型(NM),部分匹配预测模型(PPM)和概率后缀树(PST)的变阶马尔科夫模型,分别基于用户的个体轨迹和不同的群体轨迹对聚类链路进行预测。最后,本文使用来自中国深圳市9289名志愿者的3,624,583个GPS轨迹点对该模型进行评估。实验结果表明:当使用个体轨迹时,PPM个体模型优于NM个体模型。当使用所有群体轨迹时,PPM群体模型表现不如PPM个体模型。当将所有个体划分为不同的职业角色群体和年龄阶段群体时,PPM角色模型和PPM年龄模型的预测精度都比PPM群体模型和PPM个体模型更高,这表明角色方法和年龄方法不仅考虑了某个属性范围内不同个体的相似性,而且包含了更多的个体运动规律。PPM年龄模型的预测性能优于PPM角色模型,则表明年龄属性的出行相似性高于角色属性。当将所有个体划分为不同的交通小区群体和出行时间群体时,PPM小区模型和PPM时间模型的预测精度同样比PPM群体模型和PPM个体模型更高,这表明小区方法和时间方法不仅包含了更多的个体移动模式,而且分别考虑了相同的交通小区内和相同出行时间里不同个体的相似性。训练数据量的敏感性测试结果则表明了PPM模型需要更高比例的训练数据量才能达到最佳预测效果。