论文部分内容阅读
数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘与知识发现在各式各样的数据应用领域中都扮演着非常重要的角色。数据挖掘的目的在于从大量的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是将数据库中的数据直接地展现给用户,而在各种数据应用中,如果数据发布者不采取适当的数据保护措施,将可能造成敏感数据的泄漏,从而给数据所有者带来危害。例如从医院的病历数据中挖掘关联规则,以进行疾病的预防与控制。医院的病历数据就包含了特定的个人患有某种疾病的隐私信息。所以,如何在数据的发布和使用中保护个人隐私成为了一个越来越严峻的话题。数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对含有隐私信息的数据进行匿名化已经吸引了大量的研究工作,得到了研究者广泛的关注。具体地说,实施数据隐私保护主要是考虑以下两个方面:(1)如何保证数据应用过程中不泄露隐私;(2)如何更有利于数据的应用。因此,如何在保护隐私的同时获得良好的数据可用性,这是学术界和工业界都亟需解决的一个问题。有鉴于此,本文的主要工作集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有:(1)K-匿名模型是隐私保护中最重要的模型之一。其中概化是很多算法中最普遍使用的一种匿名技术。目前,基于概化的K-匿名算法遵守一个共同规则来完成一张表的匿名化处理:把表划分成很多的分组(QI-groups),且这些QI-groups的大小至少是K。然而,我们发现经过可以在不降低隐私保护力度的前提下,基于概化处理后的数据,如果能够降低QI-groups的大小,那么信息损失可以得到极大地改善。根据这个观察,我们提出了基于连接的K-匿名隐私保护模型,该模型中QI-group大小都比K小。同时,提出了一种简单的启发式算法来实现这个模型,其正确性通过理论证明。大量的真实数据实验表明,我们的算法比目前为止最好的算法的信息损失要降低很多。(2)分析了Margnial Publication技术的特征,揭示了Marginal Publication解决方案的缺陷,通过引入m-invariance概念并且给出了存在满足m-invaraince划分的充要条件,可以在线性时间内判定是否存在满足要求的划分,从而比较好地提出解决该问题的算法,在数据可用性及其效率上都体现出良好的性能。(3)在探讨了已有的匿名技术基础之上,提出了置换匿名(Permutation Anonymization)技术,它的特点是综合了概化(Generalization)和Anatomy二种著名匿名技术的优缺点,优化了数据的可用性。通过对置换匿名技术的分析表明,它是Anatomy技术的一种推广,能够提供比Anatomy更加好的隐私保护力度,能够抵抗存在攻击(Presence Attack),应用范围也更加地广泛。(4)加密技术作为分布式环境下隐私保护最重要的手段之一。本文重点研究了几类序列密码的加密稳定性问题。这些序列包括著名的Legendre序列、Hall序列和广义割圆序列。给出了Legendre序列在GF(p)上线性复杂度的一般表示,这个结果是对丁存生著名的论文"On the linear complexity of Legendre sequences"[1]的一般性推广;给出了广义割圆序列的p+1/2-错线性复杂度,结论表明这类序列可以被一个次数不超过p+q极小多项式逼近,这比其线性复杂度L(L∈[pq/2,pq])要低很多;另外,我们还研究了Hall序列在GF(p)上线性复杂度。