隐私保护数据挖掘技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lifang877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,产生了“数据丰富而信息贫乏”现象。为了解决这一问题,人们提出了数据挖掘技术。经过十几年的发展,数据挖掘成为数据库研究、开发和应用最活跃的分支之一并在各领域都取得了可喜的成果。但与此同时,数据挖掘也面临着许多问题和挑战。其中,隐私与信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户数据特别是敏感信息的泄漏,越来越多的人们对此表示担忧,甚至拒绝提供真实的数据。如何在不暴露用户隐私的前提下进行数据挖掘,一直是人们感兴趣的课题。问题的解决对实现安全、公平的数据挖掘有着重要的意义。 为了解决这一矛盾,人们开始关注与研究数据挖掘中的隐私保护问题,到目前为止已取得了一定成果,并提出了许多新的算法和思路,当然也伴随着不少的争论。虽然已过了十多年,但仍属于正在兴起的研究领域。 本课题正是面向这一领域,重点研究了集中式数据的隐私保护数据挖掘问题,主要集中于隐私保护数据挖掘算法的研究。 首先,在传统噪音算法的基础上,提出了独立噪音思想,并设计出独立噪音算法。该算法通过向原数据叠加噪音来保护原始数据不被泄漏,噪音大小依据元组在数据分布中的位置独立选择;所使用的噪音对数据分布不造成严重影响,使得后期挖掘工作可以在干扰后的数据上直接进行。实验证明,该算法可以在隐私保护程度与算法精度上都取得较好的结果。 接着,将概率转移算法成功的应用于文本挖掘,并设计出分割变换算法。该算法先通过词条切分从原文本中分割出文本的特征词,再仿照概率转移算法对特征词进行变换,从而保护原文本。在挖掘工作中可以通过重建特征词的原始计数来完成对文本的关联规则挖掘。其中主要解决了在大量特征词条件下的转移概率确定和计数重建问题。实验证明,该算法可以在保护隐私与挖掘正确结果之间能够取得较好的平衡。 最后,针对实际应用的特点,设计并实现了的隐私保护数据挖掘系统。因为实际应用中通常要根据需求设计专用的数据挖掘算法与隐私保护算法,所以系统除了包含一些典型算法外,也支持从外部添加新的算法。
其他文献
学位
频频发生的反倾销案件使得中国服装产品出口受到重创,当务之急,作为全球最大的纺织品出口和遭受反倾销调查最严重的国家,中国应迅速建立针对出口服装商品的反倾销预警机制。  
随着互联网应用的普及,对网络通信进行分析和监控确保企业和国家的网络信息安全已经成为一个非常重要的课题。当前的协议解析研究工作多是在协议已知的前提下进行的。协议未知
当前,P2P流媒体直播软件已经大规模商业应用,而P2P点播软件在技术上也逐步走上成熟。虽然不同网络运营商对于P2P软件的蓬勃发展采取了截然不同的态度,但P2P软件所代表的个体
在过去的一个世纪中,通信网络的发展主要取决于技术的更新。自上世纪末开始,业务驱动网络发展的趋势已经明朗,业务提供已经成为下一代网络(NGN)的关键技术之一,快速高效地生成和
本研究针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了
在网络信息时代中,信息量庞大,且信息模式多样。XML作为兼具可扩展性及灵活性的通用数据传输格式,越来越多地被人们用来表示异构数据,以克服多数据源的不一致性,从而达到信息
随着多媒体技术和计算机网络的迅速发展,越来越多的数字信息产品通过网络广泛传播。在给人们带来便利的同时,由此而引发的非法拷贝和恶意篡改等侵权行为也引起了人们的关注。
通常认为,中间节点所进行的数据处理对数据传输过程本身并不会带来任何好处:然而,2000年,Ahlswede等人在IEEE信息论会刊上发表了题为《NetworkInformationFlow》的论文,彻底推翻了
在实时控制系统中,软件是控制反馈环的重要部分。该类软件中增加了严格的时间要求,同时低级的实时技术须与高级的程序设计、网络通信、仿真和控制相结合。作为控制大型复杂不确