论文部分内容阅读
随着各类传感器和移动互联网的迅速发展,人们的日常生活无时无刻不被感知着。GPS在智能手机中的广泛应用,使得用户很方便地获取当前位置和进行地图导航等应用。近年来兴起的基于位置的社交网络,也使得用户共享所处位置和当前活动变得很容易,提高了人们的移动性。在人们享受这些基于位置的服务的同时,大量的轨迹数据被记录了下来。这些轨迹数据中,不仅包含了时间信息和地点信息,往往还包含了用户当前所进行的活动,我们将这种数据称为活动轨迹。一方面,从数据挖掘的角度,分析活动轨迹有助于获取用户的行为习惯,进而提供诸如生活建议和地点推荐等等个性化服务,改善人们的生活质量。但另一方面,从隐私保护的角度,活动轨迹中可能包含着用户的敏感信息,不恰当的公开和传播可能导致隐私泄露,造成不良的个人和社会影响。而这两个问题的基础,或者说联系这两个问题的桥梁,则是对人的行为的理解与建模。本文的研究将围绕这三个方面展开,具体包括以下几点:活动轨迹上的用户行为建模。人类移动数据的理解与建模在很多领域发挥着重大作用。活动轨迹与传统的移动数据相比,除了时间和地点信息外,通常还包含了丰富的活动信息,以及用户个人的属性信息。这些信息有助于更好地理解用户的行为。首先我们介绍了两个简单的基于马尔科夫链的行为模型。然后我们提出一个基于主题模型的用户行为模型,该模型充分地挖掘了用户数据,不仅考虑了用户行为背后的隐状态和隐状态之间的转移,还考虑了不同用户行为的共性,以及用户属性信息对行为的影响。接着我们讨论了模型的实现细节与评估。最后对这两种行为模型进行了对比分析。本研究也是后续地点预测和隐私保护等研究的基础。活动轨迹上的位置预测。位置预测问题是数据挖掘领域的一个典型问题。现有的位置预测算法大多没有将时间和丰富的活动信息考虑进来。本文提出了一个活动轨迹上的时间和活动信息辅助下的位置预测算法。该算法主要包含两个步骤,第一步是在已提出的用户行为模型的基础之上,推测用户下一次出现的时间和活动信息。第二步是根据用户历史地点序列和上一步中推测得到的时间和活动信息,通过一个概率混合模型来综合各个因素对用户下一次出现地点的影响。最后通过边缘化用户下一次出现地点的联合分布来得到预测结果。实验结果表明,无论是对时间和活动信息的推测还是对位置的预测,我们提出的算法的准确率都高于基准算法。这说明,时间和活动信息能帮助提高位置预测性能。通过对预测准确率的影响因素的分析我们还发现,用户活动轨迹长度和去过的地点个数对预测准确率并没有明显的影响,而用户日常活动是否规律在一定程度上会对位置预测的准确性产生影响。另外,对混合模型中分模型的权重的分析表明,对大多数用户来说上一次的地点和下一次出现的时间是对下一次出现地点影响最大的两个因素。活动轨迹数据的隐私保护。数据隐私是时下学术界的一个研究热点。本文研究活动轨迹数据发布中的用户隐私保护问题,目标是在保护用户隐私的同时尽可能地保证发布数据的质量。首先我们从用户模型、攻击者模型、隐私要求和数据质量四个方面明确地定义了问题。接着我们基于前文中提出的两个用户行为模型提出了两个数据发布算法。我们讨论了算法实现细节,并证明了两个算法满足隐私要求且在一定程度上能使数据质量最优。最后,我们在校园一卡通数据集上通过与若干基准算法的比较测试了两个算法的性能,包括隐私破坏率、数据质量和运行时间等。实验结果表明,我们提出的两个数据发布算法都能够很好地保护用户隐私。另外,我们还提出了进一步提高数据质量和降低算法运行时间的方法。