论文部分内容阅读
随着大数据时代的到来,Internet时时刻刻都在释放出海量数据。信息的日积月累,无论是围绕着企业的商业决策,还是个人的生活消费习惯等信息,都变成了以各种各样形式存储的数据。大数据的背后隐藏着大量政治和经济利益的同时,也到处涉及到各种隐私。随着人们隐私保护意识的提高与k-匿名隐私保护模型的日趋完善,该模型已经逐渐成为了个人和机构发布数据前的可信赖隐私保护手段。k-匿名数据属于一种特殊的不确定数据,它的元组中准标识符属性对应的泛化值取每个可能值的概率是相等的,并且每条元组至少和k-1条其它元组在准标识符属性上的值是相同的。K-匿名数据是通过泛化树对精确数据进行泛化处理来实现k-匿名化的,具有均匀分布的特性,这一特性不利于精确查询,并且,已存在的数据挖掘算法也无法有效的应用于k-匿名数据的挖掘。因此,如何挖掘k-匿名数据以及增加其可用性是一个亟待解决的问题。关联规则挖掘是数据挖掘领域最基本的分析方法,其可从大量数据中发现项集或属性间有价值的关联关系。目前已经有很多学者针对不确定数据做了专门的研究,也提出了许多优良的不确定数据挖掘算法。但是,这些算法几乎都是基于元组在还原成可能的确定元组时概率不等的前提下挖掘的,而k-匿名数据的均匀分布特性使得这些已存在的算法在应用时要么效率低下,要么挖掘得到的结果价值很低。为了解决该问题,结合聚类和树的优点,我们提出了针对k-匿名数据的关联规则挖掘算法。它包括了扩展分层聚类算法、k-频繁树构造算法和关联规则生成算法,分别用于对k-匿名数据进行预处理、挖掘频繁项集和生成强关联规则。数据的查询可以从另一方面有效提高数据的可用性。K-匿名数据的特殊性使得挖掘得到的关联规则体左边依旧为泛化值,现有的查询算法无法对其进行变粒度查询,以得到非原始泛化值的对应关联规则及其置信度。抓住k-匿名数据均匀分布的特点,我们结合R*树的空间查询优势,把粒度转换方法应用到查询中去,提出了变粒度关联规则查询算法——基于新提出的4点粒度转换特性,实现了对关联规则挖掘的结果查询对用户透明化,可有效满足不同用户的不同请求。我们在实验中将上述新提出的算法与传统的确定及不确定数据挖掘算法进行对比,针对k-匿名数据的处理与挖掘,在时间复杂度和挖掘效果上有相当大的改善,有效地提高了挖掘的稳定性和效率。实验结果也表明,文中提出的算法可以有效的处理k-匿名数据集的关联规则挖掘,以及实现关联规则的查询对用户透明化。