论文部分内容阅读
近年来,随着互联网和信息技术的飞速发展,人们可以更容易地从数据中提取未知的、隐含的和具有潜在价值的信息,这就引发了在数据发布过程中的敏感隐私泄露问题。在数据发布过程中,敏感隐私保护越来越受到重视。匿名化隐私保护技术已成为数据库和信息安全领域的研究热点,引起了工业界和学术界的广泛关注。其中匿名化隐私保护技术中的K-匿名技术研究最热门,也是数据发布过程中经常采用的技术。本文主要从匿名化隐私保护技术的匿名模型和匿名化算法这两个角度进行研究。针对敏感属性的多样性和算法的执行效率,给出了两种改进算法。通过实验验证了本文算法的可用性和有效性。本文所完成的主要研究工作及成果如下:1.分析了当前敏感隐私保护的现状和常用的隐私保护技术,对基本的K-匿名模型进行研究。针对该模型划分后等价类中的敏感属性值可能存在相似性从而导致发布后的匿名数据表可能会遭受同质性攻击,造成隐私泄露的问题。在基本K-匿名模型的基础上,添加一个敏感隐私保护度参数来设置敏感属性的敏感度,使划分后的等价类中的敏感属性保持多样性。2.在确认模型的前提下,为确保划分后等价类中敏感属性的多样性,引入一个敏感隐私保护度参数来设置敏感属性的敏感度。在局域泛化算法KACA的基础上给出了第一个改进算法——基于敏感隐私保护度的K-匿名改进算法(即S-KACA算法),该算法通过引入敏感隐私保护度,改善划分后等价类中的敏感属性的多样性,阻止隐私泄露。3.改进的S-KACA算法对划分后敏感属性相似的等价类再做归并处理,加大数据泛化量和距离计算量,导致算法效率降低,不适用大规模的数据集。由此给出了第二个改进算法——基于敏感隐私保护度的KACA优化算法(即Kprototypes-S-KACA算法),该算法首先通过聚类算法预处理数据集,然后再对数据集进行匿名化处理,有效降低数据泛化量和距离计算量,提高算法效率。4.从算法运行时间、信息损失量、隐私泄露风险、算法可扩展性四个方面进行实验对比分析来说明改进算法的可用性,有效性,优越性。并将改进算法应用于电子商务系统中实现用户敏感隐私数据保护功能。