论文部分内容阅读
在计算机网络飞速发展的今天,社交网站之于人们日常工作、娱乐不可或缺。Facebook、Twitter、微博等社交网站被广泛使用,其与日俱增的用户数量和访问量使得社交网络数据愈发庞杂,数据发布的隐私保护问题愈发重要。将社交网络数据以个体为顶点、朋友关系为边建模为图结构,图数据在发布后存在被携带有不同背景知识的恶意对手所攻击产生的隐私泄露问题,被泄露的隐私包括被攻击目标的所在顶点或边、顶点的敏感属性或边的权重信息等。如何建立隐私攻击模型并设计有针对性的方案解决可能存在的隐私泄露问题、保护数据发布中的隐私信息是现今社交网络数据发布隐私保护领域致力研究的重点。针对多个社交网络中以顶点组合度为背景知识进行攻击造成顶点身份再识别的隐私泄露问题,本文定义启发式多社交网络攻击模型——组合度攻击模型,该攻击模型提出多个社交网络数据集中被攻击目标的顶点度值可组合作为攻击者的背景知识,攻击者根据组合度从不同社交网络数据集中获得被攻击目标构成的候选集,匹配集合间顶点的非敏感属性信息对被攻击目标所属顶点再识别。为了解决此隐私攻击,本文提出组合度(d_x,d_y)-k匿名算法,该算法通过组合度聚类、单顶点聚类等操作,最大化保证原始数据可用性的同时将组图数据度值同化,使得对组图中任意组合度发起隐私攻击时得到不小于k个候选目标,达到保护被攻击目标顶点的目的。采用两组人工数据集对算法进行评估,实验结果表明该隐私保护算法有效的阻止了组合度攻击且较好的保护了图数据的可用性。针对真实社交网络数据中顶点再识别攻击引发的敏感标签泄露问题,本文定义基于组图的组合度-邻域标签匹配攻击模型,在启发式组合度攻击模型基础上将目标的组合度与邻域标签作为攻击者的背景知识得到的候选顶点集中,敏感标签匹配结果单一会暴露被攻击目标的敏感信息。为了解决此隐私攻击,本文提出组图敏感标签泛化L多样性算法,该算法通过设计组图敏感标签泛化树降低敏感标签被识别的概率,通过泛化敏感标签L多样性算法使得攻击者根据背景知识获得的候选集中顶点的敏感标签数量、匹配得到的敏感标签数量均不小于L,达到保护被攻击目标敏感信息的目的。采用不同配比的三组数据进行算法评估,结果表明该隐私保护算法有效的阻止了组合度-领域标签匹配构成的敏感标签隐私攻击且较好的维护图数据的可用性。