论文部分内容阅读
随着大数据新兴技术的发展,出现了越来越多的持续监控应用场景,例如大型基础设施网络监控和疾病实时监控等。在这些场景中,数据流上聚类、分类和模式挖掘等问题都是研究者关注的重点,然而在参与者持续分享数据时,往往会导致个人敏感信息的泄露,如何在持续数据共享的同时保护个人敏感信息不被泄露是一个需要解决同时又充满挑战的研究问题。差分隐私模型是一种严格并且可以证明的隐私保护模型,早期的差分隐私研究大都对静态数据集进行一次性的计算和发布,而数据流本身具有快速、变化、无限、连续等特点,所以给数据的持续分析和计算带来一些挑战。频繁情节挖掘是一种从事件数据流中挖掘有用信息的框架,频繁情节挖掘旨在数据集中挖掘出现次数大于用户指定阈值的情节的集合。现有的持续监控下差分隐私保护研究大都基于计数的简单统计和分析任务,面向复杂任务的研究不仅方案少而且发布结果的可用性也待进一步的提高。本文针对在事件数据流中连续发布挖掘的频繁情节而产生的隐私泄露问题展开研究,提出一个实时的差分隐私频繁情节挖掘方法Re-DPFE(Real-time Differentially Private Frequent Episode Mining),能够提供w-event隐私保证。主要工作如下:(1)对频繁情节的挖掘,静态场景中挖掘频繁序列的隐私保护方法和数据流中隐私发布方法进行综述和分析,指出拓展现有技术解决在流数据中隐私挖掘频繁情节存在隐私预算利用率低,执行效率低,无法适用于窗口中隐私挖掘频繁情节的问题。针对在数据流上挖掘频繁情节这个场景下存在的新的隐私泄露问题进行了详细的阐述和分析。(2)为了解决数据流上隐私预算分配问题,本文在事件数据流上每个时间戳设计了一个自适应w-event隐私机制,由动态采样方法和自适应分配隐私预算策略构成。能够根据数据流中的历史数据动态决定采样频率,自适应分配隐私预算给滑动窗口中的采样时间戳,同时保证整个窗口中总的隐私预算不超ε。(3)为实现事件数据流上隐私发布滑动窗口中的频繁情节,提出了基于样本的扰动机制,利用了抽样的思想基于样本数据集更准确地从候选情节集中挑选出频繁情节,然后对频繁情节的支持度添加拉普拉斯噪音。为了解决数据流上执行效率低的问题,滑动窗口中未被采样的时间戳按照最近一次发布的统计值近似发布。同时根据差异计算公式提出了增量扰动机制,能够将分配给当前采样时间戳的隐私预算都分配给新到达的数据,而当前滑动窗口中的历史数据用上一次发布的统计值近似发布。最后通过过滤机制对扰动值进行校正,进一步提高发布数据的效用性。本文对关键子算法和总算法的隐私安全性和时间复杂性分别进行分析,证明了能为发布的频繁情节提供有效的隐私保护。(4)在三个公开的真实数据集(BMS,Retail和Kosarak)上进行实验,由于缺少直接方法进行对比,本文根据现有技术提出了一个直接的方法BS(BASELINE)。选择F-score、相对误差(RE)和运行时间作为评价指标,通过改变滑动窗口大小w,隐私预算ε,情节发生的最大窗口δ这三个参数对Re-DPFE算法和BS进行比较评估。实验结果表明Re-DPFE算法无论是在执行效率还是数据效用性方面都更有优势。