隐私保护的数据挖掘并行算法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:suzhouxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
飞速发展的物联网产业和广泛应用的云计算技术为数据挖掘提供了“原料”和“车间”。数据挖掘能够从大规模数据集中提炼出隐藏其中的、前所未有的、有潜在价值的知识。数据挖掘与实体经济的融合创新能够带来巨大的商业价值。数据挖掘算法的设计与优化成为知识发现领域关注的研究热点。大数据时代下个人信息的数字化和集中化加剧了隐私泄露风险。攻击者能轻易地从互联网获取海量的背景知识,并结合数据挖掘的结果以较高的概率推算出敏感信息。实施大数据环境下的隐私保护是一个极大的挑战。传统的在单节点上运行的数据挖掘算法已无法适应大规模数据集的处理。如何更快速、高效地处理大规模数据集,在分布式系统下运行数据挖掘算法是当前的研究热点。因此,本文研究的差分隐私保护的数据挖掘并行算法在大数据时代的隐私保护和高效处理大数据集方面具有重要的理论意义和应用价值。本文的主要工作包括:首先,基于经典K-Medoids算法提出了一种差分隐私保护的K-Medoids(DPK-Medoids)并行算法。该算法的主要贡献有:(1)针对攻击者会根据背景知识和数据挖掘结果来推测中心点的值,导致敏感信息泄露的问题。运用给中心点添加Laplace噪声的方式来改进经典K-Medoids算法。并通过严格的理论分析证明了算法的安全性,极大地提高了算法的隐私保护水平。(2)针对经典算法时间复杂度高,在处理大规模数据集时效率低的问题。基于Hadoop平台的MapReduce模型提出了算法的并行化优化策略,详细设计了Map函数,Combine函数和Reduce函数。其次,基于经典DBSCAN算法提出了一种差分隐私保护的DBSCAN(DP-DBSCAN)并行算法。该算法的主要贡献有:(1)针对基于密度的点群分析算法容易让攻击者根据距离推测其核心点具体信息的问题,运用在核心点添加Laplace噪声的方式来改进经典DBSCAN算法,并验证了算法的安全性且输出结果符合差分隐私保护。(2)因为提出的算法需要重复计算添加噪声的核心点到其ε-邻域中各点的距离。针对算法在处理大规模数据集时会产生较大延时的问题,基于Hadoop平台的MapReduce模型提出了算法的并行化优化策略,将算法分为若干个子任务同步进行。最后,通过实验验证了算法的准确性和高效性。改善了大数据时代下的经典数据挖掘算法的隐私保护水平和运行效率。
其他文献
随着人们生活现代化水平不断提高,电力的供需矛盾日益加剧,为珍惜并节约每一度电,声光双控开关的设计达到了节约电能的要求。通过声光双控开关的设计,使学生熟练应用电工电子技术
殷仲文、谢混为玄言诗的终结者,一来玄谈是其本身不足之处,二来南朝人评价其诗为“清浅”、“华绮”、“清华”、“风流媚趣”,但殷、谢二公的诗作又确有玄风,因此,他俩是在玄言诗
目前国内外研究仅限于探讨流域初始水权的定义及分配的基本原则,但缺乏可操作的量化模式.本文在分析初始水权优先性的基础上,认为在优先配置生活用水、生态用水前提下,生产用
<正> 以往我国生产的光缆,其结构大都为层绞式、骨架式和单元式,其品种有单芯、双芯、四芯、六芯、三十六芯等。油膏填充式光缆是不久前才研制成功的新品种。下面介绍该程式
为奶牛创造适宜的环境。适宜的环境可以充分发挥牛的生产潜力。奶牛的生产力20%取决于品种,40%-50%取决于饲料.20%-30%取决于环境。不适宜的环境温度可以使家畜的生产力下降10%-30%。
随科技进步与社会发展,公司规模不断扩大,制约企业发展的瓶颈从生产资料、资本转为人力资源,本案例描述A公司建设任职资格体系的构架、思路、与过程,澄清A公司任职资格模型构
随着高职英语教学的不断深化,高职英语教学的"职场化"已经成为了新一轮高职英语教学改革的必然趋势。如何进一步推进高职英语教学的"职场化",是高职英语教师不可推卸的重要职责。
详述了“春玉米 +花生 (毛豆 )—秋玉米 +大白菜”高产栽培技术措施 ,总结了该种植模式在生产中的经验 ,认为该种植模式操作简单 ,充分利用空间 ,合理调节矛盾 ,经济效益高
目的:探讨护理干预在肝硬化门脉高压并发上消化道出血患者中的应用效果。方法:对98例肝硬化门脉高压并发上消化道出血患者运用护理程序进行护理干预。结果:98例患者中康复出院83
介孔材料由于具有比表面积和孔体积较大、孔径均一、纳米尺寸可调、二氧化硅无生理毒性、热稳定性较好等一系列特点而引起了人们广泛的兴趣和关注.控制介孔二氧化硅的形貌和