论文部分内容阅读
随着信息时代的飞速发展,网上信息量的增加,隐私保护研究引起人们的广泛关注,数据挖掘和数据分析的应用也越来越广泛。政府、企业、个人根据需要在互联网上发布自己的数据,在这些数据中包含了许多方面的信息,有些还涉及到一些个人的敏感信息。网络人肉搜索事件的发生,使得大家的隐私保护观念逐渐增强,都不想自己的隐私信息被肆意泄露。无论对个体、各行各业甚至整个社会来说,数据发布中的隐私保护研究都相当有意义。有时候需要提取一些信息分析当前的趋势或者某些特定人群的特征,在保证个人信息未泄露的前提下,又保证数据分析工作的有效开展,是隐私保护研究的内容之一。目前的隐私保护策略大都是基于一次数据发布的研究,由于数据的更新速度迅猛,需要不断的对数据库信息进行更新操作,因此需要更多的考虑数据变化后再发布过程中的隐私保护问题。如果不能很好的解决这个问题,将会影响其他相关技术的发展。保护数据发布中的个人或企业敏感信息的隐私安全有着重要的理论价值和实际应用价值,近几年来动态数据发布的隐私保护是许多人研究的热点。首先了解隐私保护的概述,通过分析基于一次发布的隐私保护策略,了解数据发布过程中隐私信息可能受到的外界攻击,针对威胁,隐私保护策略是如何去避免隐私泄露的。经过分析经典的规则掌握隐私保护的要点,从理论上熟悉隐私保护思路。所做的工作是基于动态数据发布的隐私保护的研究,主要从隐私保护策略和匿名化方法两方面进行研究。研究一种隐私保护策略,使其保证一个数据集在不断的添加、删除和修改数据时,数据匿名重发布后敏感数据的安全性。同时考虑当前匿名化发展趋势,尽可能寻找办法减少匿名化过程中的信息损失。如果把已有的隐私保护方法直接应用到数据的重发布过程中将会造成较大的隐私数据的泄漏,需要结合重发布的特点。主要以经典的m-invariance隐私保护策略为例,进行分析研究,以m-invariance的局限性和不足为突破点,提出一种支持数据修改的隐私保护策略-m-inclusion和基于聚类的匿名化方法。在匿名化过程中,通过采用了聚类思想,减少了信息的损失度,保证了隐私信息的安全性和实用性。并通过实验将m-invariance和m-inclusion进行比较,m-inclusion在信息损失度和添加伪记录数两方面都有所突破。并且为了衡量m-inclusion策略的运行效率,对真实数据集多次发布,记录相应的匿名化执行时间,证明该策略的实用性。同时在隐私安全性方面上也做了一定的分析,总的来说,m-inclusion更满足动态数据发布的要求。