隐私保护数据挖掘算法的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:zhubaoqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘在商业决策、科学探索以及医学研究等诸多领域得到了广泛应用。然而,数据挖掘技术在给我们带来巨大利益的同时,也会不可避免的产生隐私泄露问题。尤其随着人们对隐私权关注度的不断提高,数据挖掘在实现过程中遇到了层层阻碍。隐私保护数据挖掘技术正是在此背景下产生的,它能够在保证敏感数据以及敏感规则安全的前提下,挖掘出比较准确的结果,有效的解决了数据挖掘与隐私保护之间的矛盾。本文首先总结归纳现阶段隐私保护数据挖掘算法的研究现状,然后针对目前应用最广泛的关联规则隐私保护数据挖掘进行了相关研究:首先分析了数据集中分布的挖掘算法MASK (Mining Associations with Secrecy Konstraints),该算法通过数据干扰和分布重构实现了隐私保护的关联规则挖掘,但是基于扭曲数据库重构项集原始支持度呈现指数复杂度,严重影响了算法的运行效率。针对这一不足,基于集合原理提出了一种改进的优化算法,消除了指数复杂度。最后通过实验证明了改进算法与原MASK算法相比具有更好的性能。分布式数据挖掘是一个动态的过程。具体来说有两个方面:⑴一些新的机构的加入;(2)原有数据库随着时间的推移,将会增加大量新的记录,同时部分原有记录可能已经被更新,甚至已经被删除。这样原有的关联规则便会过时,已经不能准确反映当前数据库所隐含的一些规则或模式,因此需要进行更新。实现更新最基本的方法是重新挖掘关联规则,但是这种做法代价高昂。针对分布式环境下关联规则的增量更新问题,提出了一个新的算法PPIUDAR,该算法通过利用原有的关联规则,高效的实现了关联规则的增量更新。由于算法中应用了相关的安全多方计算技术,充分保证了各个站点的隐私。最后,通过实验分析,证明该算法切实可行。
其他文献
Web数据库根据用户提交的请求,将其内容以HTML页面的形式动态呈现出来,这些信息称之为Deep Web资源。而HTML语言的特点是在Web上发布的,内容多样,形式各异,使得Web上的数据处
智能制造系统是是当今研究的热点之一,相比传统制造系统可以通过利用智能制造技术、多代理技术(agent)以及无线通信蓝牙技术等多种技术来解决全局优化问题、面向生产任务的动态配置优化、实时响应问题、快速适应环境变化等问题。车间调度问题来源于不同的领域,如柔性制造系统,生产计划,计算机技术,后勤及通信等,这些问题的共同特性是没有一个有效的算法能在多项式时间内求出其最优解。作为处于制造系统的底层位置的车间
二氧化硫排放是造成我国大气环境污染及酸雨不断加剧的主要原因,燃煤机组所排放的烟气已成为二氧化硫排放的重要来源。有效控制燃煤机组二氧化硫的排放量是我国大气环境污染
致病基因是很多疾病发生的根本原因。寻找致病基因,或称鉴定致病基因是生物医学研究的一个基本问题,对于基因诊断、基因治疗和基因药物设计有着重要的现实意义。在寻找致病基因
随着Internet的普及和通信技术的发展,用户希望能随时随地的接入Internet。IETF(Internet Engineering Task Force)所提出的移动IP(Mobile IP,MIP)协议支持用户在移动过程中
人脸识别是指利用计算机分析人脸图像,进而从中提取出有效的识别信息,用来辨认身份的一门技术[1]。人脸识别技术的研究已经成为人工智能与模式识别领域的热点。人脸识别技术主
对网络入侵过程的自动重构无论对可信软件在不可靠/不安全环境中的演化、保护还是对恶意环境的分析与检测都具有重要用途。由于入侵过程日趋复杂,自动重构与其入侵机制相一致
由于线性结构较为简单,因此基于线性回归函数的线性模型和线性混合效应模型是常用的基本模型.通常要解决的问题是未知回归系数和未知随机变量的概率结构的估计,其中以未知回归
目前对细胞的识别与分析已成为医学临床学诊断的重要手段,同样,在动物医学中,对牛乳体细胞的诊断与分析是判断奶牛是否感染乳腺炎的主要途径,然而最关键的一个步骤就是对牛乳
学位