论文部分内容阅读
随着高铁、飞机等交通技术的成熟发展,跨城的旅行需求日益增加。针对以城市为旅行目的地的旅行者的时空行为模式进行研究,可以为城市间旅行交通路线规划、旅行产品优化等提供参考依据。本文基于用户真实的时空基站数据及旅行目的地城市的地标数据对城市旅行者的时空行为进行研究,提取城市旅行者的时空行为特征,使用改进的K-prototype算法进行模式聚类,分析不同模式下城市旅行者的时空行为偏好。针对未知模式的旅行者使用KNN算法进行模式识别,提前预测城市旅行者的时空行为。
首先本文基于规则的定义对城市旅行者进行识别与特征提取。通过城市旅行者与城市常住者的时空行为差异,给出城市旅行者定义并进行城市旅行者的识别,从海量的轨迹数据筛选出城市旅行者的样本数据。针对无旅行语义的手机位置数据及旅行目的地的地标数据,结合时间阈值判定法及网络切分法对旅行者的旅行停留点进行判定,获取旅行序列数据。然后提取其旅行轨迹序列、旅行方式、旅行时间、旅行距离四个维度的旅行时空特征,构建城市旅行者时空特征数据集。
其次基于改进的K-prototype进行模式聚类。在聚类过程中,将上文提取的城市旅行者时空行为特征集,作为聚类输入的参数。使用欧几里得距离计算数值特征的距离,使用海明威距离计算分类特征的距离,使用Smith-Waterman算法计算旅行序列特征的距离,将不同类型的距离加权求和作为样本之间的距离。最后输出城市旅行者的聚类结果并使用轮廓系数作为聚类效果的评价指标。
然后提出一种基于旅行者部分信息对其全量时空行为进行识别的方法。在对城市旅行者的时空行为识别过程中,将聚类结果作为样本数据的标签,提取每个模式的N个关键用户的部分特征数据作为训练数据,同时提取新用户的特征集合作为测试数据,使用KNN算法进行新用户时空行为的识别。
最后以上海市的地标数据及城市旅行者的样本数据应用聚类方法,得出城市旅行者的8种不同模式,发现不同客源地的城市旅行者在旅行时间分配、旅行距离考量、旅行路线规划、住宿点选取等的偏好。使用关键用户到达旅行目的地第一天的特征数据进行城市旅行者的时空行为预测,证明了该方法的有效性。
首先本文基于规则的定义对城市旅行者进行识别与特征提取。通过城市旅行者与城市常住者的时空行为差异,给出城市旅行者定义并进行城市旅行者的识别,从海量的轨迹数据筛选出城市旅行者的样本数据。针对无旅行语义的手机位置数据及旅行目的地的地标数据,结合时间阈值判定法及网络切分法对旅行者的旅行停留点进行判定,获取旅行序列数据。然后提取其旅行轨迹序列、旅行方式、旅行时间、旅行距离四个维度的旅行时空特征,构建城市旅行者时空特征数据集。
其次基于改进的K-prototype进行模式聚类。在聚类过程中,将上文提取的城市旅行者时空行为特征集,作为聚类输入的参数。使用欧几里得距离计算数值特征的距离,使用海明威距离计算分类特征的距离,使用Smith-Waterman算法计算旅行序列特征的距离,将不同类型的距离加权求和作为样本之间的距离。最后输出城市旅行者的聚类结果并使用轮廓系数作为聚类效果的评价指标。
然后提出一种基于旅行者部分信息对其全量时空行为进行识别的方法。在对城市旅行者的时空行为识别过程中,将聚类结果作为样本数据的标签,提取每个模式的N个关键用户的部分特征数据作为训练数据,同时提取新用户的特征集合作为测试数据,使用KNN算法进行新用户时空行为的识别。
最后以上海市的地标数据及城市旅行者的样本数据应用聚类方法,得出城市旅行者的8种不同模式,发现不同客源地的城市旅行者在旅行时间分配、旅行距离考量、旅行路线规划、住宿点选取等的偏好。使用关键用户到达旅行目的地第一天的特征数据进行城市旅行者的时空行为预测,证明了该方法的有效性。