论文部分内容阅读
随着信息技术的发展,信息越来越多的被存储在计算机上,服务器中。这些信息中包含了很多企业的客户信息,属于企业的商业机密。一些基于互联网的企业,存储了大量普通消费者的隐私信息,这些信息的泄露会给企业的发展产生致命的打击。还有更多的企业包括各行各业的传统企业,也都利用信息系统存储大量企业客户的信息,这些信息是企业不断发展的核心资源,信息的泄露会直接影响到企业客户的流失,使企业失去了发展的根基。此外包括医院,政府等公共机构,也存储着大量的隐私数据,信息的泄露会引起社会不满,民众担忧。凡此种种,都说明了对于隐私信息的保护是一个非常严峻的问题。随着企业对于隐私保护的重视,有关隐私保护技术的研究也越来越深入。本文旨在研究基于隐私保护的数据匿名化方法,主要包括泛化/隐匿技术和微聚集技术。首先分析了泛化/隐匿技术的不足以及微聚集技术的特点,然后比较了基于微聚集技术的各类算法,选取性能较好的MDAV算法作为基算法。但是MDAV算法还有许多需要改进的地方,尤其是针对分类型大数据集的时候,算法效率较低、数据安全性和数据可用性不可兼得的矛盾等问题依然存在。本文基于这些问题提出了相应的改进方法。针对MDAV算法应用到大数据集时算法效率较低的问题,提出的改进策略是添加预处理步骤的思想。在预处理环节引入高效快速的聚类模型,对大数据集进行初始聚类,再对各个子类用MDAV算法形成最终的匿名等价类。通过对大数据集的分割从而大幅度降低算法的执行时间,提升效率。针对MDAV算法存在数据安全性和数据可用性不可兼得的矛盾,提出了适当的改进。考虑到预处理环节添加的初始聚类步骤,使得算法的可用性得到了提升。本文试图在基本不降低数据可用性的情况下,对特定敏感属性值添加进行频率约束,从而增强敏感数据的安全性。基于上述改进,提出了(m,,k)-MDAV算法。算法验证采用了隐私保护领域通用的Adult标准数据集,将(m,,k)-MDAV算法与MDAV算法、(,k)-MDAV进行比较。从算法效率,信息损失,泄密风险等多个维度对实验结果进行分析。实验验证了改进后的新算法大幅度提升了算法效率,适当提升了匿名后数据集的可用性,同时在基本不影响整体数据集安全性的基础上,提升了敏感属性的安全性,证实了新算法改进的有效性。