论文部分内容阅读
数据持有者经常需要将数据库对外发布以供研究或其它用途,而发布的数据中往往会包含有大量个体的隐私信息。在正常情况下这些发布的数据会被合理使用,但是与此同时这些数据也可以被恶意攻击者获取。为了防止攻击者从发布的数据中提取出个体的隐私信息,数据持有者需要在发布数据之前对数据进行匿名和模糊化处理。连接攻击是攻击者获取个体隐私数据的一种常用手段。随着如今信息规模的扩大和大数据技术的发展,攻击者对数据的获取能力和分析能力在不断提高。在一般情况下,对于数据持有者发布的单个匿名数据表,攻击者很难分析出某个个体的隐私信息。但是当攻击者将从多个渠道获取的匿名数据表、个体的背景信息和自身数据库连接在一起时就很有可能推测出个体的隐私信息。上述的攻击方式即连接攻击,这是隐私保护领域中一个比较棘手的问题。对于连接攻击,Sweeney首次提出用于保护隐私数据安全的κ-匿名算法,在这之后很多学者在κ-匿名算法的的框架下进行了改进,然而现有的算法并没有达到最佳的匿名效果。一个高效的匿名算法应当能够很好地解决一个基本矛盾,即准确性与安全性之前的权衡问题。对于不同匿名程度的数据表,当数据准确性性提高时,数据的安全性就会降低,反之亦然。本论文以此为出发点提出了一种新的匿名算法称为(d,q)-计划分算法,其中包括以下研究成果:(1)本论文首先基于古典概型理论对基本矛盾进行量化并建立了一个新的数量标准。这一数量标准衡量了一个个体发生隐私泄露的可能性大小,同时衡量了全局安全性与全局准确性的程度。(2)基于新的数量标准,本论文推导出一个最优划分理论。这一理论使得我们可以在最小程度上损失全局安全性的情况下最大程度地获取全局准确性,从而达到准确性与安全性之间的最优权衡。(3)在最优划分理论的前提下,本论文设定(d,q)参数标准,通过控制d和q的取值,我们可以根据需求控制安全性与准确性之间的权衡。(4)本论文引入了多维空间和空间划分的概念,并在此基础上提出可重合区间划分方法。这一方法有助于保证数据保护的准确性和安全性之间的最优平衡,并使得多维空间划分可以适应最优划分理论。