隐私保持数据挖掘与知识发现研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:dlfb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和知识发现是从大规模数据集中发现潜在的,有价值的知识。随着计算机软硬件以及数据采集技术的发展,数据集的来源趋于更加多元化。数据集形式从数据文件发展到现今的各种数据库,数据流等。在进行数据挖掘的同时,有关保护源数据持有人隐私和数据库中的敏感知识的研究成为当前数据挖掘领域的重要紧迫性研究课题。本文在分析隐私保持数据挖掘方法研究现状的基础上,引入同态加密机制,提出数据干扰后重构技术,理论分析结合试验,针对传统的大规模数据库和新型的数据流应用领域,包括关联规则挖掘、序列模式发现、协同过滤推荐、数据流知识发现,提出相应安全、高效的隐私保持数据挖掘算法。在大规模数据库中进行关联规则和序列模式发现是传统数据挖掘研究领域重要的两个研究课题。相关的隐私保持技术研究是当前的一个研究热点。现有隐私保持协议存在安全协议不够严谨、协议实现复杂等缺点。本文就此展开了相关研究。在引入同态加密机制后,重新对整个数据发现算法进行了设计,得到隐私保持关联规则发现算法,隐私保持序列模式算法,并且把算法从两方向多方扩展。隐私保持技术研究是进行安全数据挖掘活动的技术基础。除了将同态加密理论运用于隐私保持数据挖掘,对于源数据进行干扰,以保持数据隐私,也是一个有实际意义的重要方法。数据干扰是对原始数据进行修改,删减,以隐藏真实数据,保护数据安全。本文提出了仅添加干扰,不改变原始数据值的干扰方法,在分析了干扰对支持度的影响概率后,重构干扰前频繁序列模式支持度,有效地保护了原始数据隐私。最后利用试验确定干扰的具体参数,取得了很好的效果。@@@协同过滤技术是近几年数据挖掘研究领域出现的智能数据处理方法,是电子商务等领域的核心技术。协同推荐系统收集具有共同信息需求的人们对给定领域的项目的评价,通过处理这些信息,为不同用户提供对用户未知项目的评价预测。本文提出基于代理的协同推荐技术,充分考虑了最大限度的利用系统收集的知识,利用C-Means聚类得到合成的代理代替传统算法中的邻居,为用户提供推荐,显著地提高了协同推荐的预测精度。在此基础上,利用安全多方计算,提出了隐私保持协同过滤协议,从而使得协同过滤过程保护了用户的隐私。数据流是一种近年出现的数据应用形式。不同于传统建模中数据持久性的特点,数据流是瞬时的,广泛存在于电信、金融等领域。数据流数据挖掘的相关研究目前主要集中于分类,频繁模式发现。本文首次独立提出了对数据流进行序列模式挖掘算法,提出LSP-tree结构来概要归纳在线数据流,进而采用位图算法,时间倾斜窗口技术挖掘该概要结构的序列模式。在此基础上,结合我们提出的安全多方计算协议,利用同态加密,提出了在数据流上进行隐私保持序列模式发现算法,以保持客户秘密发现知识。本文的创新之处有如下几点:(1)引入同态加密技术,结合现有的数据库知识发现技术,提出了基于同态加密性质的隐私保持数据挖掘方法。进而,在两方的基础上提出了进行多方参与的隐私保持数据库挖掘技术,包括关联规则挖掘,序列模式发现。(2)提出了新的隐私保护机制。在添加干扰之后,重构干扰前的序列模式支持度估计,扰乱原有数据情况,进而保持了序列数据库的元数据隐私。(3)提出了新的推荐技术用于协同过滤。利用C-Means聚类产生推荐代理,消除了部分传统算法中采用邻居推荐技术的评分不完整带来的不利影响,进而结合隐私保持聚类算法,提出了隐私协同过滤算法,解决了协同推荐中用户隐私保护的问题。(4)提出了数据流中序列模式挖掘问题。利用快速位图算法,倾斜窗口技术,提出了基于内存的在线概要结构LSP-tree,进行数据流的序列模式挖掘。在此基础上,首次提出在保持客户秘密的前提下,秘密发现数据流中的序列模式信息。
其他文献
科学计算可视化技术在有限元数值计算的应用中起着十分重要的作用,它不仅可以帮助工程技术人员通过直观的视觉工具快速而有效地从繁杂的计算数据中提取出有意义的特征和结果,
目的:探讨支原体肺炎患儿的肺外常见临床表现。方法:选择支原体肺炎患儿100例,入院后给予对症支持处理,严密观察患儿临床表现,同时监测患儿血尿常规、肝肾功能、血清电解质、心
摘要:从大学生“高分低能”的现象,引发对大学教育的思考。大学的课程教学存在“授课内容单一”“授课方法單调”“课程教学气氛单调”三单问题,针对“三单问题”提出“五线谱”教学方法。“五线谱”教学法不是指音乐教育,而是借用音乐“五线谱”提出我们的一种教学方式。  关键词:高分低能;课程问题;教学方法  中图分类号:G642.4 文献标志码:A 文章编号:1674-9324(2017)19-0182-02
从大量数据中抽取出有价值的信息和运行规律的数据挖掘技术在数据库技术发展了30余年的今天,无论是对商业经营还是工企决策,都有极其重要的经济价值和理论意义,但此新兴领域还有
这是关于香港九龙大角咀猪模样小朋友麦兜的成长故事.麦兜单纯乐观、资质平平,却有很多梦想.麦太是单亲妈妈,把所有梦想寄托在儿子身上.希望、失望、再希望、再失望……却总
运动行人检测与跟踪是城市交通环境下的智能车安全行驶辅助导航技术中的一项关键技术,对推动智能车辆技术的发展及保障城市道路交通安全具有重要作用。本文针对城市交通环境下
人脸识别技术是计算机模式识别领域非常活跃的研究课题。本文对人脸图象的特征抽取与分类器设计方法进行研究,主要内容如下: (1)提出了一种统计不相关最优鉴别矢量集的新算
近十几年来,在我国各大城市有许多急性脑出血患者,以及因中国交通事业的发达,许多因外伤而受严重创伤的颅脑外伤患者,他们发病急,病情严重,且呼吸道分泌物多,故保持呼吸通畅
科学家们已经研究出一种诊断饮食失调症的新方法——分析头发。