论文部分内容阅读
随着信息技术的不断发展,特别是大数据技术的发展使得对海量用户数据的处理成为可能,从数据中泄露用户隐私的问题现如今也非常严重。在校园生活中学生和教师也会产生各种各样的数据,如去食堂吃饭刷卡、去图书馆借阅书籍、连接网络通上网等。使用这些数据可以产生许多个性化的服务,为他们的校园生活带来更多的便利,但是这些数据的公开不可避免地也存在隐私泄露的问题。本文在现有匿名化方法的基础上,提出基于集合划分的方法对用户数据进行匿名化保护,并在校园数据上进行实验,在攻击者能力很强的时候,也可以有效地保护校园用户的隐私。本文的主要工作有:·对用户具有稳定习惯的行为进行匿名化。通过使用一阶马尔科夫链对用户的行为习惯进行建模,将用户可能出现的行为划分为不相交的几个子集,在行为集合较大时使用语义树按照类别划分行为。使用用户的真实行为所在的集合作为匿名化的结果。最后在校园刷卡数据上进行实验,并与MaskIt系统中的模拟检查方法做对比。·对用户动态轨迹进行匿名化。将集合划分的方法与轨迹匿名化中的虚假地点方法结合起来,对于需要向服务器发送地点信息的应用,通过发送多个地点来保护隐私。动态指的是用户可以到达的地点集合并不是固定不变的,使用用户的历史轨迹数据,以及地点的流行程度来预测用户可能到达的地点。提出启发式的算法对于可以到达的地点集合进行划分,并向服务器发送包含真实地点的地点集合。最后在校园无线网接入数据上进行实验,实验表明该算法划分的效果并不差。·对攻击者去匿名化能力的研究。对于由许多用户构成的数据集,其中数据集中可以识别出用户的敏感信息已经被删除,而攻击者仍然可以通过其他的附加信息从数据集中识别出用户,并得到用户的所有信息。在本文所使用的刷卡数据和无线网接入数据上,通过实验计算攻击者需要了解多少用户的记录才可以从数据集中唯一匹配出用户。然后在对个人数据进行匿名化后的数据上进行实验,观察使用本文匿名化方法对于攻击者的影响。