基于Flink平台的大数据隐私保护技术

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zywlaoying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的大数据时代,个人隐私数据的丢失尤为严重,这给个人和社会产生了非常恶劣的影响。因此,研究在大数据环境下如何保护数据安全已经成为最重要的问题之一。只有处理好信息安全的瓶颈,信息技术才能讯速、广泛地发展。本文旨在研究如何快速将敏感数据从成千上万的数据中区分出来,并对敏感的私有数据进行加密以实现保护的目的。目前,对于大数据加密算法领域,普遍存在着较短的密钥长度、加密速度慢等缺点。本文在研究原有的数据加密算法和大数据技术的基础上,创新性地提出了一种基于超混沌和圆锥曲线的混合加密算法,算法在安全性上有所提高,并将混合加密算法在新一代大数据计算引擎Flink平台上进行并行计算,提高了加密速度。本文的具体工作内容如下:(1)本文设计了一种基于Flink平台的并行关联规则挖掘算法。由于现有数据量巨大,鉴于Apriori算法应用在传统单机串行处理的方式时会导致其挖掘速度会下降,和现有基于Hadoop平台和Spark平台的并行Apriori算法分别存在有大量I/O读写和中间结果等待造成迭代延迟等缺陷,而导致算法挖掘速度下降。提出采用Flink平台来解决这一问题,采用完全基于内存的流式处理的架构,新的迭代只需要获取部分中间结果就能开始计算,避免了迭代延迟,提高了算法的挖掘速率。实验表明,基于Flink平台的并行Apriori算法对大数据挖掘处理具有良好的适应性,并且在算法迭代次数和迭代产生的频繁项集较多情况下,可以有效地提高挖掘速度。(2)在研究超混沌系统和圆锥曲线分组加密的基础上,设计了基于超混沌和圆锥曲线的混合加密算法,首先,使用两个超混沌系统生成一个无关联性的超混沌序列。然后,使用无相关性的超混沌序列与明文之间执行异或运算以完成首次加密。再将首次加密后的密文作为圆锥曲线加密的明文执行第二次加密,以完成对首次加密的密文执行二次加密的目的。最后,建立了一个实验并进行了安全性分析,结果表明,该加密算法拥有密钥空间大、灵敏度高、密文统计特性好的优点。在破解方面,加密两次的明文不能用密文来分析,因此无法选择特殊的明文或密文来破解。此外,算法使用非线性运算,能够有效抵抗明文攻击。因此,该算法具有较高的安全性,能有效地保障隐私数据的安全性。(3)设计了一种基于Flink平台的隐私数据混合加密算法。由于Flink在并行计算中具有速度快、简单、通用性强、运行模式多等长处;通过对基于超混沌和圆锥曲线的混合加密算法进行Flink平台的并行算法理论分析。实验结果表明,在数据集大小相同时,随着计算节点数量的增加,加密时间逐渐缩短。在加速比方面,随着计算节点数量的增加,加速比逐渐增大,从而实现提高加密速度目的。
其他文献
学位
学位
依托第五代移动通信网络的应用部署和物联网的快速发展,大量低功耗设备的应用越发广泛,从而使无线携能通信技术越来越受到关注。无线携能通信技术可以利用同一个频段,同时对能量接收机和信息接收机进行能量和信息传输,在保证通信质量的同时解决低功耗设备的能源问题。但是,由于使用的无线频段越来越高,无线信号会因距离或者障碍物等因素限制信号的覆盖范围。另外,在物联网应用中,系统中的信息接收机往往较密集,严重的信号干
移动机器人作为当前科技领域的集大成者,集成了电子信息、计算机科学等多个学科的高精尖技术,其软件系统由感知系统、决策与规划系统、控制系统等多个模块组成,关键技术的重点难点之一就是决策与规划。本文首先介绍了一种结合端到端路径规划技术的自主建图方法,并对其中采用的端到端路径规划算法进行了改进,最后通过仿真实验验证其可行性。针对项目要求的清洁机器人,本文提出一种基于回溯法的双向完全遍历路径规划方法,对工作
现有制造车间的大型设备复杂度高,越来越依赖监控系统对其进行实时性管理。而伴随着车间智能终端设备的迅速增加,目前依靠云计算的设备监控系统所需传输的数据量越来越大,车间需要紧急响应的告警信息容易出现延迟,导致设备不能正常运行,严重会造成设备停机等问题,进而影响车间生产线的生产效率。因此,加入边缘计算模型的云边协同数据处理方式逐渐得到重视。当前基于云计算的智能车间设备监控通常把监控数据全部传输到云端进行
超分辨技术是计算机视觉等领域的重要与热门研究方向,在医疗成像等众多领域有广泛的应用。基于深度学习的超分辨重建技术在近几年中发展迅速,神经网络模型对高分辨图像的重构性能越来越强,充分体现了使用深度学习解决超分辨任务的优势。但基于深度学习的超分辨重建技术在提升系统性能时很多是依靠堆叠大量神经网络和设计各种复杂的网络来实现的。同时训练后得到的部署模型存在推理时间长、参数量多等问题。这导致了设计的许多神经
深度预测和相机姿态估计一直以来是计算机视觉领域重要的研究方向之一,是指计算机通过二维图像估计出场景的深度信息和相机姿态信息,广泛应用于自动驾驶、服务型机器人和无人机等人工智能领域。传统基于几何的深度预测方法和相机姿态估计方法虽然在一定程度上能得到场景的深度信息和相机的姿态信息,但是存在计算过程复杂、场景适应性差等问题。目前,基于深度学习的深度预测和相机姿态估计方法一般以卷积神经网络和循环神经网络为
受脑科学、神经计算科学研究的启发,脉冲神经网络作为模仿生物大脑机理的计算模型,在仿生视觉、嗅觉、记忆等应用场景中暂露头角,并逐渐成为脑模型研究的主流。脑科学研究表明,生物大脑的神经元突触个数比其神经元数量大3-4个数量级,生物大脑每周期的生物实时处理时间大概为1-10 ms,大脑工作过程伴随着大量脉冲信号的传递。因此,脑模型的生物实时仿真可抽象为超大规模的图计算和海量微小脉冲包的通信问题,给传统冯
随着大数据时代的飞速发展,现实生活中的许多数据呈现出高数据量和高维度的特点。由于这些现实数据含有特定的物理意义,通常都具有非负性,被统称为非负张量数据。现实的非负张量数据经常呈现“高维,大规模和异构”等形态,其有价值的信息蕴含在复杂的潜在结构中,随着数据规模的不断增大,数据分析所需的存储和计算成本也相应增加。此外,流形学习技术指出,观测到的数据实际上是通过内在流形结构映射到高维空间的。但现有的经典
由于可以制成体积小、重量轻、能量密度大的可穿戴便携产品为数码设备、动力汽车等提供能量,锂离子成为了是当下应用最广泛的储能设备。电极材料是锂离子电池的重要组成部分,其容量也是决定电池性能的关键因素。为满足新能源汽车、航空航天及国防等高耗能场合对于动力电池的需求,研发高容量、环保且性价比高的负极材料显得尤为重要。锡基材料因为价格低廉、无毒且具有高理论比容量(Sn:994m Ah/g,SnO2:1494