论文部分内容阅读
随着移动互联网的快速发展,人们越来越多地通过移动设备上网来获取各类生活服务,这些设备记录了大量的带有时间标签的用户定位数据。由于用户的出行通常由其日常活动或兴趣所驱动,留在家里或在工作场所可以被确定为用户的日常活动,除此之外,所访问的其他地点主要受其兴趣影响,如果用户对某一地理位置的访问频次较多,则表明其对该位置的兴趣度也较高,所以通过对这些数据的挖掘可以发现用户的行为习惯和兴趣偏好。本文通过对国内外现有相关研究成果的系统梳理与分析,提出了基于移动定位数据的用户群体划分模型,将具有相似兴趣偏好的用户进行分群归类,从而可以根据群体划分的结果为用户提供基于位置的个性化服务,如位置推荐、朋友推荐、信息推送等。首先,通过对移动设备在用户上网时记录的移动定位数据进行的统计性分析,总结出移动定位数据的四个特征。其次,根据数据的时空异质性、空间聚集效应、稀疏性等特点提出了用户的“兴趣区域”(ROI)的概念,并利用基于密度的空间聚类算法对ROI进行提取。然后,利用高德地图API提取出落入每一个ROI内的所有的“兴趣点”(POI)的类别,并根据数据的语义信息不详的特性,利用TF-IDF的思想为用户的ROI构建特征向量,以此来表示其语义信息。最后,将用户对不同ROI的访问频次作为兴趣度的权重,为每个用户构建“兴趣向量”,并将余弦相似度作为用户之间相似性的度量,利用层次聚类算法将用户划分为具有层次结构的群体。基于真实的移动定位数据开展实验,利用凝聚层次聚类与K-Means对用户进行聚类分析,并将两种聚类结果进行对比。实验结果表明,两种聚类算法得到的聚类结果虽然存在一定的偏差,但是总体来看是一致的,同一用户同时被两种聚类算法划分到同一群体的概率达到85%以上,这也进一步验证了本文所提出的用户群体划分模型的可行性及有效性。