K-匿名数据集的挖掘算法研究

来源 :东华大学 | 被引量 : 6次 | 上传用户:qoqwryi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,Internet时时刻刻都在释放出海量数据。信息的日积月累,无论是围绕着企业的商业决策,还是个人的生活消费习惯等信息,都变成了以各种各样形式存储的数据。大数据的背后隐藏着大量政治和经济利益的同时,也到处涉及到各种隐私。随着人们隐私保护意识的提高与k-匿名隐私保护模型的日趋完善,该模型已经逐渐成为了个人和机构发布数据前的可信赖隐私保护手段。k-匿名数据属于一种特殊的不确定数据,它的元组中准标识符属性对应的泛化值取每个可能值的概率是相等的,并且每条元组至少和k-1条其它元组在准标识符属性上的值是相同的。K-匿名数据是通过泛化树对精确数据进行泛化处理来实现k-匿名化的,具有均匀分布的特性,这一特性不利于精确查询,并且,已存在的数据挖掘算法也无法有效的应用于k-匿名数据的挖掘。因此,如何挖掘k-匿名数据以及增加其可用性是一个亟待解决的问题。关联规则挖掘是数据挖掘领域最基本的分析方法,其可从大量数据中发现项集或属性间有价值的关联关系。目前已经有很多学者针对不确定数据做了专门的研究,也提出了许多优良的不确定数据挖掘算法。但是,这些算法几乎都是基于元组在还原成可能的确定元组时概率不等的前提下挖掘的,而k-匿名数据的均匀分布特性使得这些已存在的算法在应用时要么效率低下,要么挖掘得到的结果价值很低。为了解决该问题,结合聚类和树的优点,我们提出了针对k-匿名数据的关联规则挖掘算法。它包括了扩展分层聚类算法、k-频繁树构造算法和关联规则生成算法,分别用于对k-匿名数据进行预处理、挖掘频繁项集和生成强关联规则。数据的查询可以从另一方面有效提高数据的可用性。K-匿名数据的特殊性使得挖掘得到的关联规则体左边依旧为泛化值,现有的查询算法无法对其进行变粒度查询,以得到非原始泛化值的对应关联规则及其置信度。抓住k-匿名数据均匀分布的特点,我们结合R*树的空间查询优势,把粒度转换方法应用到查询中去,提出了变粒度关联规则查询算法——基于新提出的4点粒度转换特性,实现了对关联规则挖掘的结果查询对用户透明化,可有效满足不同用户的不同请求。我们在实验中将上述新提出的算法与传统的确定及不确定数据挖掘算法进行对比,针对k-匿名数据的处理与挖掘,在时间复杂度和挖掘效果上有相当大的改善,有效地提高了挖掘的稳定性和效率。实验结果也表明,文中提出的算法可以有效的处理k-匿名数据集的关联规则挖掘,以及实现关联规则的查询对用户透明化。
其他文献
图像融合技术是20世纪70年代后期被提出并发展起来的一门新技术,在军事和民用领域都有着广泛的应用。基于变换域的图像融合算法是目前研究的热点,在众多多尺度分析工具中,非下采
能源是人类社会和经济发展的重要物质基础,是提高人们生活水平的先决条件,而如今世界能源结构中处于主导地位的化石能源越发紧缺,能源危机已经成为一个无法回避的严重问题。与此同时,大量化石燃料的开采使用,也已经造成严重的环境问题。为了应对上述问题,世界各国纷纷采取提高能源效率和改善能源结构的措施,以实现可持续发展。其中,太阳能光伏发电以其独有优势,越来越受到世界各国的瞩目。本文以光伏发电系统作为研究对象,
随着网络技术的快速发展和计算机模拟人类思维的能力不断提高,各种信息大量涌现,人工管理信息已经远远不能满足日益增长的社会需求,如何使用计算机在看似凌乱的数据中快速找出潜
自二十世纪以来,计算机技术作为高新科技行业的代表,被应用到人类社会生产生活的各个环节,在许许多多重要的领域发挥着不可替代的关键作用。进入二十一世纪以来,计算机技术更
随着社会的发展,信息技术有了跨越式的进步,新型智能移动终端设备的存储能力和计算能力都有了很大的提高。在这样的大背景下,传统的键盘输入屏幕输出的单调人机交互方式越来
近年来起重机吊装在现代建筑工程中日渐普遍,起重机的路径规划问题一直备受关注,RRT随机采样算法成为理论研究中最为广泛的一种路径规划算法。然而,由于RRT算法在节点采样时
车载自组织网络中分布式网络应用的发展迫切需求高效路由策略的支持,尤其是单点到单点的单播和单点到多点的广播。而车辆节点的高速移动和受限于街道的分布特征导致全网拓扑
随着无线通讯技术的发展和随车装载设备功能和性能的不断提升,自治车联云(Autonomous Vehicular Cloud, AVC)的概念应运而生。车联云的建立是传统车联网(Vehicular Ad-hoc Ne
膜计算是一种分布式、并行计算模型,又被称为P系统。膜计算旨在从生命细胞的结构和功能以及组织、器官和高级生物组织中细胞群的协作中抽象出计算模型,具有分布式、极大并行性
近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当