论文部分内容阅读
当今是数据爆炸的时代,网络技术、传感技术、存储技术等方面的迅猛发展使得海量数据的采集与获取前所未有的容易,极大地促进了数据挖掘技术的发展。研究机构、商业组织,甚至个人都可以轻易地利用数据挖掘技术发现数据中的知识。然而,数据的不当使用往往会带来严重的隐私泄露问题,引起法律争端与道德争议,同时也使数据的共享受到了限制,阻碍了数据挖掘技术的发展。近年来,数据挖掘中的隐私保护问题成为一个研究热点。隐私保护数据挖掘的核心任务在于设计数据挖掘模型,使其能够在保证数据隐私的前提下,不至于过多地牺牲模型的准确率,即寻求算法隐私性与准确性的平衡。本文对现有隐私保护技术进行了综述及归纳分析。介绍了主流的隐私保护技术,包括基于数据加密的技术、基于匿名化的技术,和基于数据扰动的技术,并针对其实现手段和主要特点对这几种技术做了对比分析。特别地,针对传统数据挖掘应用中的隐私泄露问题,本文引入了先进的差分隐私保护模型。差分隐私提供了不依赖于攻击者背景知识的鲁棒设计,并且提供了严格的数学证明,能够有效保证数据挖掘过程中的数据隐私。在本文涉及的分类及推荐算法中,研究了差分隐私应用于相应数据挖掘应用的实现机制和设计重点,以及算法实现中的隐私预算计算和分配问题,以保证提出的算法能在满足差分隐私的同时,有效保护算法准确率,实现了在隐私保护的情况下进行准确数据挖掘的目的。本文的主要工作可以归纳为以下几个方面:(1)基于决策树及集成策略的差分隐私保护分类算法。决策树分类是数据挖掘领域最重要的分类算法之一,在构建决策树的过程中,通过统计评估对分支结构和叶节点进行推导。本文针对决策树构建过程中的隐私泄露问题,分析树模型中的计数查询,并阐明直接依据拉普拉斯机制实现差分隐私的缺点。在满足差分隐私的前提下,提出利用最大类别标记衡量分支属性重要性的方法,进而大大节约了隐私预算。此外,针对分支属性评估过程中的查询密集问题以及隐私预算的累加问题,设计了基于分支属性个数的隐私保护预算分配策略,以平衡信噪比。针对隐私单树模型的不稳定问题,通过集成策略进一步对模型进行提升。通过实验验证了提出的算法能够在满足差分隐私的前提下,保证分类的准确率。(2)基于直推支持向量机的差分隐私保护分类算法。针对标记数据不足的场景进行隐私保护分类算法设计,同时依据标记数据和非标记数据进行训练。不同于基于扰动的隐私保护支持向量机分类,本文提出的算法将隐私保护的重点放在非标记数据分类结果的保护上,而非分类模型的训练过程。依据直推向量机理论,设计算法以构建近似正确标记池,从而有穷化分类结果的选择范围。为实现差分隐私,衡量近似正确标记池中的候选标记序列与权威标记之间的一致性,并依据指数机制随机采样分类结果。在近似正确的要求下,能够保证最终分类结果的可用性。通过实验验证了提出的算法能够对非标记数据进行准确的分类。(3)基于自动编码机的差分隐私保护推荐算法。推荐系统依据历史评分数据,对用户偏好进行预测。在大部分的应用中,通过将随机扰动引入目标函数再优化的方式,实现用户数据的隐私保护。然而,由于评分数据比较稀疏,而且用户评分向量的粒度很大,在扰动尺度估计中会引发过大的敏感性,因此扰动后往往难以充分保证模型的准确率。本文基于深度学习中的自动编码机理论,对稀疏用户评分向量进行重构。在模型训练中,通过最小化所有用户重构评分与原始评分之间的误差,实现协同过滤推荐的目的。考虑到模型计算中的隐私保护问题,引入高斯机制对参数求解过程中的梯度向量进行扰动,实现差分隐私保护的推荐算法。通过实验验证了提出的算法能够在较高准确率下完成推荐任务。