针对K-匿名数据的top-k查询问题研究

来源 :东华大学 | 被引量 : 2次 | 上传用户:duoduo5211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的飞速发展,今天,信息在社会生活中扮演着越来越重要的角色。各行各业都需要从海量的数据中搜索对自身有用的信息来以满足发展。但这样有很大的可能导致个体隐私的泄露,随之而来的是对各种隐私信息(如日常习惯、敏感信息、不良历史、信誉程度、以往病史等)保护的研究,以减少信息泄露的风险。在多数的隐私保护模型中最有代表性的是K-匿名隐私保护模型,K-匿名模型经过长时间的研究,已经形成了较完善的理论体系。K-匿名数据则越来越多地出现在网络上。在传统数据库中,数据的确定性和精确性均是确定,而K-匿名数据却是不确定的,这就使得数据在存储、查询、挖掘以及管理方面遇到了各种问题,这些匿名的数据不能被企业很好的应用并发挥最大的功效。因此,提高数据的可用性是K-匿名模型亟待解决的问题,而查询是数据应用的一个主要操作。首先,根据Certainty(确定性问题)的定义即(?)I∈rep(T)(S(?)I),其中S是给定的元组集,T是给定的某一k-匿名表,从计算理论的角度,通过多项式时间归约的方法,证明该问题是CoNP-完全的。再结合已有的查询问题的复杂性为k-匿名隐私保护模型中不确定性数据查询方法的研究奠定了理论基础。其次,通过研究已有的不确定数据Top-k查询算法,再结合K-匿名数据来源的独特性和其表现形式的不同,探索了一种基于有向图的K-匿名数据的Top-k查询处理方法,用以提高K-匿名数据的可用性,满足更多不同的应用需求。(1)运用有向图建立高效的索引结构,并在此基础上提出了新的查询算法DiGU-Topk (U-Topk based on direct graph),该算法主要常用于一些需要排序的查询中;(2)采用优先队列对此算法进行优化,提出了DiGOPTU-Topk(U-Topk based on direct graph with optimize queue)算法,使得算法能够更快的收敛到目标顶点;(3)根据剪枝规则对有向图进行修剪,提出了DiGPU-Topk(U-Topk based on direct graph after pruning)算法,该算法使得每次都维护了最少的顶点即元组集。最后,对DiGU-Topk、DiGOPTU-Topk和DiGPU-Topk进行了相关的实验,通过实验结果证明了这三种查询方法的可用性,并对不同的数据量上查询效率和不同k值时的算法效率进行了对比,实验结果表明,随着数据量和k值的增长,算法的耗时呈线性增长。
其他文献
随着Internet在各个领域的应用越来越普及,应用种类及数量的迅速增长,人们急切需要一种可以在Internet上实现服务或应用的跨平台、独立及松耦合化的中介技术。此时,Web服务技术
随着各种先进技术在智能电网中的广泛应用,以及IEC61970标准为智能电网信息一体化建设提供了一系列的标准和规范。其化解了供电企业异构系统间信息共享的矛盾,解决了供电企业智能电网信息交互过程中的诸多实际困难,也方便了第三方应用程序并入电网平台。传统基于C/S(客户端/服务器)架构方式GIS(Geographic Information System)应用,在随着电网规模的不断扩大,它所固有的一些不
目前光网络正向全光、业务多样化的方向发展。同时,业务量的攀升、全球能源危机的出现,为通信网中能源的有效利用提出了挑战。全光网络中没有电再生设备,不能规避非理想设备和器
多核/众核网络化计算、低能耗绿色计算、高可信计算等计算模式的出现,对嵌入式实时系统带来了新的研究需求与挑战。随着嵌入式系统应用领域的不断深化和芯片集成度的日益提高
近年来,国内移动互联网强势发展,智能手机迅速普及,人类已经进入了移动互联网时代,利用移动终端接入互联网进行信息交互,演变成为信息时代的一种新的生活方式。2014年中国互联网络
近年来,嵌入式计算、无线通信网络和分布式信息处理等技术快速发展,各种新技术得到广泛应用;而现实的应用需求也为人们不断设计出新的技术规范提供了动力。ZigBee作为无线通信
几何造型是CAD系统的核心.参数曲线曲面一直以来都是描述几何形状的主要工具,其中,参数化和曲面拼接是CAD中曲线曲面造型的基础问题.作为本文的部分内容,我们研究了Bezier曲
现代通信技术的高速发展以及移动智能终端的普及,使得人们对电信业务质量的要求越来越高,电信运营商可以通过提升业务质量来赢得用户资源,业务的用户体验是制定高效提升业务
视频图像序列中的目标跟踪是计算机视觉领域中的核心研究课题之一,最近几十年来受到了学者们的广泛关注。目标跟踪技术为更高层的视频理解和场景解释提供底层对象和分析依据,
随着语义网技术的不断成熟,网络资源环境向智能化、语义化和结构化方向发展。当前的网络资源环境中的信息多数是以人能够理解的形式呈现的,缺乏被计算机理解和处理的基本形式,阻