论文部分内容阅读
近年来,随着移动互联网应用的迅猛发展,如何对智能手机、掌上电脑、IPAD等移动设备产生的丰富数据进行挖掘,已成为数据挖掘领域的一个研究热点。移动数据挖掘在各种基于位置的服务中有着广泛应用,如早期预警系统、交通流量规划、城市计算、移动营销、社交网络等。在这些应用中,通常需要根据用户的移动历史记录进行移动用户建模,获取其行为模式,如用户的历史访问地点、偏好信息以及情境信息等,其中地点信息是理解用户行为模式的最基本要素。本文深入研究了移动用户轨迹和行为模式挖掘方法。为此,本文基于一个统一的框架,提出了地点位置的坐标提取、用户停留点检测和用户频繁行为模式挖掘方法。在该框架中,首次提出同时利用GSM网络时空数据和用户提供的语义信息进行用户行为建模,因此在多种基于位置的服务中有着广泛应用前景。论文的主要工作和创新点如下:1.提出一种基于空间聚类的移动数据预处理方法。该方法包括空间坐标提取,空间离群点检查以及缺失值填充三个部分。首先,通过Google API和MIT的开源数据集,获取移动数据的空间坐标;然后,提出基于语义和空间进行聚类的算法,解决GSM网络结构变迁(从2G转向3G)造成的数据异常和数据丢失问题。最后,在真实数据集上对该聚类算法进行了验证,结果表明提出的新方法有较好的效果和较高的效率。2.提出利用移动用户移动轨迹的连续性进行用户停留点检测的方法。首先利用GSM网络的基本特性和用户提供的语义信息解决基站震荡的问题;其次根据用户移动过程中轨迹中基站范围彼此重叠的特性和用户停留的时间信息,提出了一种基于地理栅格的聚类方法进行用户停留点检测。在真实数据集上的实验结果表明,与用户标注的地点信息作为基准,该方法具有81.70%的准确率。3.提出一种基于频繁模式挖掘的移动用户行为模式挖掘的模型。用户趋势分析和行为模式挖掘是很多基于位置服务的核心。为此,本文提出了结合用户所处的时空信息,利用频繁模式挖掘中的前缀扫描算法进行移动用户行为模式挖掘。并进一步利用挖掘到的行为模式进行用户相似性度量。在真实数据集上的实验结果表明,该算法在多项指标上的效果优于基准算法。