论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,产生了“数据丰富而信息贫乏”现象。为了解决这一问题,人们提出了数据挖掘技术。经过十几年的发展,数据挖掘成为数据库研究、开发和应用最活跃的分支之一并在各领域都取得了可喜的成果。但与此同时,数据挖掘也面临着许多问题和挑战。其中,隐私与信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户数据特别是敏感信息的泄漏,越来越多的人们对此表示担忧,甚至拒绝提供真实的数据。如何在不暴露用户隐私的前提下进行数据挖掘,一直是人们感兴趣的课题。问题的解决对实现安全、公平的数据挖掘有着重要的意义。
为了解决这一矛盾,人们开始关注与研究数据挖掘中的隐私保护问题,到目前为止已取得了一定成果,并提出了许多新的算法和思路,当然也伴随着不少的争论。虽然已过了十多年,但仍属于正在兴起的研究领域。
本课题正是面向这一领域,重点研究了集中式数据的隐私保护数据挖掘问题,主要集中于隐私保护数据挖掘算法的研究。
首先,在传统噪音算法的基础上,提出了独立噪音思想,并设计出独立噪音算法。该算法通过向原数据叠加噪音来保护原始数据不被泄漏,噪音大小依据元组在数据分布中的位置独立选择;所使用的噪音对数据分布不造成严重影响,使得后期挖掘工作可以在干扰后的数据上直接进行。实验证明,该算法可以在隐私保护程度与算法精度上都取得较好的结果。
接着,将概率转移算法成功的应用于文本挖掘,并设计出分割变换算法。该算法先通过词条切分从原文本中分割出文本的特征词,再仿照概率转移算法对特征词进行变换,从而保护原文本。在挖掘工作中可以通过重建特征词的原始计数来完成对文本的关联规则挖掘。其中主要解决了在大量特征词条件下的转移概率确定和计数重建问题。实验证明,该算法可以在保护隐私与挖掘正确结果之间能够取得较好的平衡。
最后,针对实际应用的特点,设计并实现了的隐私保护数据挖掘系统。因为实际应用中通常要根据需求设计专用的数据挖掘算法与隐私保护算法,所以系统除了包含一些典型算法外,也支持从外部添加新的算法。