论文部分内容阅读
随着移动互联网的兴起,移动设备成为用户使用互联网服务的新途径。通过挖掘移动设备上的情境数据对用户建模是一种新颖的理解用户需求的方案,从而能为互联网服务方提供个性化、情境感知化的服务奠定基础。这里的情境数据指移动设备上的众多传感器探测到的环境和用户行为信息。本文的研究主题是面向移动用户数据的情境识别与挖掘,主要成果如下:1.提出了使用非监督学习模型对用户情境建模的技术方案:对于用户情境建模问题,由于难以获取情境标识,因而监督学习模型难以适用。鉴于此,本文使用非监督学习模型通过情境数据自身性质挖掘用户的情境。本文提出的方案包括两个步骤。在数据预处理步骤中,对用户情境数据日志提取情境会话,由于情境会话间没有明显的分界标识,本文使用了一种最小熵算法来切分情境数据日志;在数据建模步骤中,本文使用了聚类和概率主题模型来挖掘用户情境。通过聚类模型挖掘用户情境的方式为,首先将情境会话映射到情境特征-值组合空间上,然后对情境会话使用K-means算法聚类,最后从聚类结果提取用户情境。通过概率主题模型挖掘用户情境的方式为,首先对其进行扩展从而适应情境数据的结构化特性,然后将情境会话表示成概率主题模型中的变量,最后通过Gibbs采样算法求解模型从而学习用户情境。在真实用户情境数据集上的实验分析表明了该技术方案的有效性。2.提出了通过基站标识数据挖掘用户关键地点的技术方案:关键地点是用户最重要的情境。以往的研究工作主要集中于通过GPS数据挖掘关键地点,然而由于常时间开启GPS传感器会比较耗电,从而影响设备续航时间。鉴于此,本文提出通过基站标识数据挖掘用户关键地点。根据基站的地理位置信息,以及利用基站覆盖范围彼此重叠的特性,本文提出了一个两阶段的关键地点挖掘算法。在在线阶段,检测用户的停留状态,并计算停留区域以及更新停留区域中的地理格栅的热度值;在离线阶段,通过一个递归方法挖掘出用户关键地点。为验证该技术方案的实际应用性,本文还开发了一个演示系统。最后,实验结果表明该方案在用户关键地点的查全率和查准率均高于基准方法。3.监督式情境识别方案的难点在于难以获得大量高质量的情境标识数据。本文提出了结合时间管理软件实现用户情境识别的技术方案。时间管理用户经常面临记录反复发生的情境状态的情况,很多用户厌烦这种重复操作因而放弃了时间管理。本文提出了一种半监督学习方案,通过结合用户时间管理应用中的情境状态记录数据,使用HMM模型来实现用户情境识别,并提出了DP-MUC模型来自动化确定用户情境数目和加速HMM模型的训练时间。最后,同基准算法相比,在真实用户的情境状态记录数据上的实验结果表明该方法具有较好的效果和较高的效率。