论文部分内容阅读
信息技术的深入和普及使得数据的采集、存储、发布以及分析变得快捷方便。数据挖掘技术能从各类发布数据中获得有价值的信息,但同时也会造成个人信息的泄露,因此差分隐私发布技术的关键是在于保证个人隐私信息不被泄露的同时提高发布数据的可用性。差分隐私作为当前有效的隐私保护机制之一,通过向敏感数据加入噪声对查询输出结果进行随机化从而达到隐私保护的目的。差分隐私可以保证不管攻击者拥有多大的背景知识仍然无法推断出某条特定的数据记录的信息,但同时数据的统计分析结果仍然保留。目前,差分隐私已经应用于许多领域,例如直方图发布,数据挖掘,机器学习等。差分隐私通过添加噪音来保护隐私,其中隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,因此如何合理的分配隐私预算是差分隐私算法面临的一大挑战。论文以此为出发点,从实现差分隐私直方图发布的两种不同场景提出了两种新的直方图发布算法。由于交互式直方图发布算法通过数据分析者和数据拥有者之间的交互完成数据发布,每次交互都会消耗一部分的隐私预算,所以查询的数量是有限的。论文对现有的一些交互式发布算法进行了研究和分析,发现这些算法都是通过优化查询的方式来提高查询次数以及发布数据可用性,而忽略了隐私预算的分配问题。论文针对这一缺陷,提出了一种利用泊松分布概率密度函数进行隐私预算分配的交互式直方图发布算法IPPB,该算法的创新主要体现两点,首先实现了隐私预算的无穷次分配,使得查询次数不受限制,其次通过优化隐私预算分配权重,保证了前k次查询的数据可用性。现有的非交互式直方图发布算法表明先分组后加噪是提高发布直方图数据可用性的有效手段,该过程涉两次加噪过程,一次用于保护分组结构,一次用于保护直方图数据,如何分配隐私预算来平衡这两次加噪过程引入的误差,是非交互式直方图发布算法面临的挑战。针对这一问题,论文提出了一种自适应的隐私预算分配策略的直方图发布算法APB,通过分析分组前后引入的噪音误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系,基于优化模型和贪心分组的思想,提出了一种自适应的隐私预算分配策略,可以更好地均衡噪音误差和重构误差,提高发布数据的可用性。最后,通过在三个数据集上的实验,验证了论文提出的两个算法相比于现有的算法来说都提高了发布数据可用性。