论文部分内容阅读
随着数字化的快速发展,世界各地每天都产生着大量的信息,其中的信息有很大一部分包含着敏感信息,如医院的患病信息等。这些信息具有极大的科研价值,例如可以通过各个地方医院的患病信息推断出流行病的走势等,但是直接发布这些信息会泄露隐私。所以如何有效的利用这些资源的同时保护用户的隐私是一项艰难的工作。差分隐私是一种具有强大隐私保护功能的机制,差分隐私通过向数据注入随机噪音的方式来保证隐私,通过使用差分隐私的保护机制会使得攻击者很难推断一个单独的数据记录是否存在于数据库当中。目前差分隐私已经应用到了许多领域,如直方图发布,批量查询,top-k数据挖掘,线性回归,分类器等领域。由于差分隐私通过添加噪音的方式来对隐私进行保护,使得数据的有效性受到了影响,所以现在算法的优化目标就是在保证原有的隐私保护之上尽量使得误差得到减少,从而提高数据的可用性。直方图发布技术由于其在数据统计领域被广泛的应用,所以成为现在差分隐私的研究热点,对于直方图优化技术来说目前最主要的优化方式是通过对原有的直方图进行合并,然后再针对合并之后的数据进行添加拉普拉斯随机噪音,然而由于之前的算法设计的不够完善导致其算法的敏感度过高,使得降噪的效果始终并不是很好。本文针对现有的直方图发布技术进行了深入的研究,并对各个直方图发布算法进行了分析,针对现在算法所存在一些缺陷,挖掘出该缺陷的主要原因,并提出了改进的算法。鉴于现有的直方图发布算法主要分为数据划分算法与数据加噪算法两部分,本文主要针对数据划分算法进行优化。对于数据划分算法,不同于之前的算法将整体的数据一次性划分的思路,本文将划分算法分为两步,第一步是将整体的数据划分成两个子部分,第二步是将第一步得到的两个子部分进一步进行划分,如此划分的优点在于可以有效的降低划分算法的敏感度,从而提高划分的质量,最终使得结果得到优化。本文充分的实验证明本文提出的算法相对于现有的优化算法来说进一步降低了误差。