数据流频繁情节挖掘的差分隐私保护方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:leoki111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据新兴技术的发展,出现了越来越多的持续监控应用场景,例如大型基础设施网络监控和疾病实时监控等。在这些场景中,数据流上聚类、分类和模式挖掘等问题都是研究者关注的重点,然而在参与者持续分享数据时,往往会导致个人敏感信息的泄露,如何在持续数据共享的同时保护个人敏感信息不被泄露是一个需要解决同时又充满挑战的研究问题。差分隐私模型是一种严格并且可以证明的隐私保护模型,早期的差分隐私研究大都对静态数据集进行一次性的计算和发布,而数据流本身具有快速、变化、无限、连续等特点,所以给数据的持续分析和计算带来一些挑战。频繁情节挖掘是一种从事件数据流中挖掘有用信息的框架,频繁情节挖掘旨在数据集中挖掘出现次数大于用户指定阈值的情节的集合。现有的持续监控下差分隐私保护研究大都基于计数的简单统计和分析任务,面向复杂任务的研究不仅方案少而且发布结果的可用性也待进一步的提高。本文针对在事件数据流中连续发布挖掘的频繁情节而产生的隐私泄露问题展开研究,提出一个实时的差分隐私频繁情节挖掘方法Re-DPFE(Real-time Differentially Private Frequent Episode Mining),能够提供w-event隐私保证。主要工作如下:(1)对频繁情节的挖掘,静态场景中挖掘频繁序列的隐私保护方法和数据流中隐私发布方法进行综述和分析,指出拓展现有技术解决在流数据中隐私挖掘频繁情节存在隐私预算利用率低,执行效率低,无法适用于窗口中隐私挖掘频繁情节的问题。针对在数据流上挖掘频繁情节这个场景下存在的新的隐私泄露问题进行了详细的阐述和分析。(2)为了解决数据流上隐私预算分配问题,本文在事件数据流上每个时间戳设计了一个自适应w-event隐私机制,由动态采样方法和自适应分配隐私预算策略构成。能够根据数据流中的历史数据动态决定采样频率,自适应分配隐私预算给滑动窗口中的采样时间戳,同时保证整个窗口中总的隐私预算不超ε。(3)为实现事件数据流上隐私发布滑动窗口中的频繁情节,提出了基于样本的扰动机制,利用了抽样的思想基于样本数据集更准确地从候选情节集中挑选出频繁情节,然后对频繁情节的支持度添加拉普拉斯噪音。为了解决数据流上执行效率低的问题,滑动窗口中未被采样的时间戳按照最近一次发布的统计值近似发布。同时根据差异计算公式提出了增量扰动机制,能够将分配给当前采样时间戳的隐私预算都分配给新到达的数据,而当前滑动窗口中的历史数据用上一次发布的统计值近似发布。最后通过过滤机制对扰动值进行校正,进一步提高发布数据的效用性。本文对关键子算法和总算法的隐私安全性和时间复杂性分别进行分析,证明了能为发布的频繁情节提供有效的隐私保护。(4)在三个公开的真实数据集(BMS,Retail和Kosarak)上进行实验,由于缺少直接方法进行对比,本文根据现有技术提出了一个直接的方法BS(BASELINE)。选择F-score、相对误差(RE)和运行时间作为评价指标,通过改变滑动窗口大小w,隐私预算ε,情节发生的最大窗口δ这三个参数对Re-DPFE算法和BS进行比较评估。实验结果表明Re-DPFE算法无论是在执行效率还是数据效用性方面都更有优势。
其他文献
在深度学习发展下,计算机对事物的认知不再局限于对数据进行分类,识别和定位上,同时可以实现数据的生成,是对数据的高维理解。古有云“知其然,知其所以然”,当可以对数据进行
随着各国对环境保护、技术进步和能源安全重视程度的加深,大量消耗化石能源的内燃机在公路交通领域的应用正逐渐被采用其他能源的各类动力系统所取代,以电动化为技术背景的新
磁斯格明子是手性铁磁材料中稳定存在的二维拓扑自旋准粒子。实验中观测到的磁斯格明子具有尺寸小、可擦写、具有极低的驱动电流密度等拓扑特性,以磁斯格明子作为计算存储单
水污染是21世纪以来人类所面临的重要挑战。近年来,我国有限的水资源不断遭受污染,造成水质恶化、水源污染,随着我国经济高速发展,污水排放量逐年增多,成分逐年复杂。膜生物
视觉是人类感知和理解世界最直接方式,客观地还原所见的世界是一直是人们的目标。传统二维显示技术只能简单反映空间景物内容,缺少深度等反映物体空间位置关系的关键信息,显
高光谱图像数据将反映地物空间几何关系的图像信息和反应地物辐射属性的光谱信息有效地结合在了一起。高光谱图像通常由数百个相邻波段和狭窄波段组成,从同一场景的可见光谱
模切件是指将原材料按照预先给定的形状进行裁切和精密加工而形成的零配件。随着电子消费品行业的飞速发展,对模切件的海量需求使得在生产过程中对模切件的质量控制显得尤为
本文针对永磁同步电机(PMSM)采用传统矢量控制方法存在转矩脉动较大,超调量大等缺点。首先采用将模糊控制和传统比例积分调节器(PI)结合起来的方式;同时针对数字信号处理器(D
近年来,区块链技术得到了快速的发展,涉及加密货币,金融,物联网,医疗等各个领域,各种类型的区块链应用中产生了海量的交易数据,这为研究人员通过分析区块链数据,了解和解决相
近年来,随着大数据和深度学习技术的不断发展,对话系统在各个领域越来越引起人们的重视。对话系统大致可分为两种:任务导向型对话系统和非任务导向型对话系统。面向任务的系