论文部分内容阅读
在一些开放性较强的用户平台如社交网络、微博平台等,用户数据往往是公开的,任何注册用户甚至匿名用户都可以直接查看这些数据,如果不采取一定的措施来防止潜在的隐私泄露,将会造成敏感数据的泄露,从而危害到数据的发布者甚至整个平台。在已有的隐私攻击方法中,防止推理攻击而造成的间接性隐私泄露一直是隐私保护领域的研究重点,但是已有的技术又存在两大问题:第一,只能检测出K-匿名中K=1的隐私泄露情况,隐私保护的控制粒度过小,且需要耗费较大的系统资源来维护整个查询历史及其结果,无法同时保证检测代价的最小化和查询响应的低延迟;第二,由于泛化问题是N-P难问题,对存在隐私泄露的数据表进行全局泛化,已有的基于K-匿名的算法泛化代价过大。对于推理攻击的隐私保护问题,本文主要从两方面去研究:一是对用户查询结果进行检测,判断其是否可以与历史记录链接从而导致隐私泄露;二是根据检测结果对造成隐私安全问题的查询结果进行局部泛化。针对用户查询结果进行检测这方面,本文提出了一种海量查询下基于K-匿名的隐私泄露检测算法(K-Q)。K-Q算法通过设定的K值对当前查询结果和历史查询结果的分析和推导,来判断当前查询是否存在隐私泄露的可能,保证较高的隐私泄露检测率。面对推理检测需要的所有历史查询结果的数据规模较大这一问题,它结合K-匿名模型在历史查询结果的存储规模上进行了优化。K-Q算法使用图状结构KGraph来维护历史查询结点之间的关系,能够及时对当前查询的输出和所有相关历史查询输出进行联合计算,提高了检测速率和降低了查询响应的延迟,同时保证了隐私保护级别的可控性。实验表明,K-Q算法计算效率明显优于已有的直接基于相关元组合并优化的推理检测算法(T-D),且可以自适应于查询规模的增长。针对K-Q算法检测出的导致隐私泄露的查询结果,本文提出了一种新的泛化算法(G-Q)。它摒弃了K-匿名的全局泛化思想,只对当前查询输出中能够与已有的发布数据进行联合分析导致隐私泄露的属性进行局部泛化。G-Q算法依据K-Q算法中设定的K值来判断需要泛化的属性,只有属性集合在查询输出中出现的次数小于K才需要进行泛化处理,从而大大降低了查询数据的信息损失度,也保证了数据的可用性。经过G-Q算法泛化的查询结果在系统设定的K值内达到了隐私保护的作用。最后通过实验验证,G-Q算法能有效地保证查询输出的精确度。