基于差分隐私的线性回归分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:kangta98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着数据分析和发布等应用需求的出现和发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战。文中对差分隐私保护技术的基本原理和特征进行了阐述,重点介绍差分隐私下拉普拉斯机制的线性回归分析技术,它既保护了用户的隐私信息,又不影响数据的可用性,达到了研究目的。在对已有技术深入对比分析的基础上,指出了差分隐私保护技术的未来发展方向。
  关键词:差分隐私;隐私保护,回归分析,线性回归
  中图分类号:TP309 文献标识码:A 文章编号:1009-3044(2016)06-0026-04
  Based on Differential Privacy of Linear Regression Analysis
  WANG Bao-Nan,FANG Xian-jing
  (Department of computer,Anhui University of Science and Technology ,Huainan 232001 ,China)
  Abstract: With the emergence and development of data analysis and publishing applications, and how to protect the privacy of data and prevent sensitive information leaks has become a major challenge currently facing. In this paper the basic principles and characteristics of differential privacy protection technologies are described, linear regression analysis focuses on privacy under Laplace differential mechanism, both to protect the user’s privacy, without affecting the availability of data, to achieve the purpose .In contrast to the prior art in-depth analysis, based on the difference it pointed out the future direction of development of privacy-enhancing technologies.
  Key words: differential privacy; privacy protection; regression analysis; linear Regression
  1 引言
  信息化社會的发展进步使得部分机构可以获得大量个人和组织的数据信息进行数据挖掘与分析研究,从而带来商业价值和科研价值。例如各大商场的顾客购物数据和证券公司个人交易数据的分析与统计等。但是,这些数据涉及的大量个人隐私信息的数据发布和分析都面临着隐私泄露问题。因此, 隐私保护问题已成为重要的研究课题。隐私保护技术可以解决个人和组织的数据发布和数据分析带来的隐私安全问题。如何发布数据而又不泄露隐私信息是隐私保护技术的主要目的。
  当前,差分隐私成为一种新的隐私保护技术,差分隐私保护是通过添加特定的噪声使得数据失真来达到隐私保护的目的。与传统的隐私保护技术相似,差分隐私保护技术的实施主要考虑两个因素:(1)怎样保证算法的设计符合差分隐私的定义,从而确保隐私数据不被泄露;(2)怎样减少噪声带来的误差,从而提高数据的可靠性。
  文献[13]借鉴基于差分隐私下拉普拉斯机制与逻辑回归方法提出一种[ω*]的计算方法 LP Log,此方法先求出[ω*]。然后再往数据中添加拉普拉斯噪音,然而由于回归分析的输入与输出有紧密的关联性,使得敏感度非常高,最后导致预测精度比较低。文献[14]提出了一种对目标函数直接扰动的方法,该方法是对元组目标函数的均值添加噪音。
  上述2种回归分析方法均存在各自的不足。第一种回归分析方法,它的回归分类精确度比较低,噪音误差比较高;第二种方法缺陷在于,基于扰动机制的回归分析方法目前只适用于特定的目标函数,存在一定的局限性。针对这些缺陷,本文提出基于拉普拉斯机制的线性回归分析。
  2 差分隐私保护
  2.1 差分隐私
  差分隐私保护通过向数据中添加噪声使敏感数据失真,而部分数据或数据属性保持不变。差分隐私保护技术可以达到这样一个效果,即在用户数据中增加或减少一个记录数据,不会影响数据的输出结果,不影响数据的有效性与可靠性。即使在最坏的情况下,如果攻击者知道数据中除一条记录数据之外的所有数据信息,仍可以做到保证这一条数据信息不被泄露的效果。
  5 结论
  本文介绍差分隐私的相关概念以及隐私保护的重要性。重点研究了差分隐私保护下拉普拉斯机制的线性回归分析。首先,设计相关算法; 其次,给每一个多项式系数添加[Lap(2(d 1)2/ε)]噪音,最后在运行噪音目标函数中优化[ω]。最后,发布噪音数据。实验运行结果显示,随着隐私预算增加,误差率越小,数据可用性较好,实现了数据的隐私保护。线性回归分析比较简单,因为目标函数就是[ω]多项式本身。差分隐私将是未来一个长期研究的课题,将其应用到回归分析中,尚有很多需要改进的地方,这是笔者下一步研究的方向。
  参考文献:
  [1] 李杨,温雯,谢光强.差分隐私保护研究综述[J].计算机应用研究,2012,29(9) : 3201.   [2] DWORK C.A firm foundation for private data analysis[J].Communications of the ACM,2011,54( 1) : 86-95.
  [3] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.
  [4] DWORK C.The differential privacy frontier[C]/ /Proc of the 6th International Conference on Theory of Cryptography Conference.Berlin: Springer - Verlag,2009: 496-502.
  [5] J. Zhang, X. Xiao, Y. Yang, and et al.. PrivGene: differentially private model fitting using genetic algorithms. SIGMOD, 2013.
  [6] Zhang J, Zhang Z, Xiao X, et al. Functional mechanism: Regression analysis under differential privacy[C]/ /Proceedings of the 38th Conference of Very Large Databases(VLDB).Istanbul,Turkey,2012:1364-1375.
  [7] C. Dwork. A firm foundation for private data analysis.Commun.ACM,2011,54(1) : 86 – 95.
  [8] B. Fung,K. Wang,R. Chen,et al. Privacy - preserving data publishing: A survey of recent developments[J].ACMi.Computing Surveys ( CSUR) ,2010,42(4) : 18.
  [9] DWORK C.Differential privacy: a survey of results[C]/ / Proc of the 5th International Conference on Theory and Applicationa of Models of Computation. Berlin: Springer -Verlag,2008: 1-9.
  [10] DWORK C.The promise of differential privacy: a tutorial on algorithmic techniques [C]/ /Proc of the 52nd Annual IEEE Symposium on Foundation of Computer Science.Washington DC: IEEE Computer Society,2011:1-2.
  [11] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.
  [12] McSherry F,Talwar K. Mechanism Design via Differential Privacy[C]/ /Proceedings of the 48th Annual IEEE Symposium on Foundations of Computer Science ( FOCS) .Providence,RI,USA,2007: 94 -103.
  [13] Smith A. Privacy-preserving statistical estimation with optimal convergence rate[C].Proceedings on the 43th Annual ACM Symposium on Theory of Computing(STOC).2011:813-822.
  [14] Chaudhuri K,Monteleoni C. Privacy-preserving logistic regression[C].Proceedings of the 20th Annual Conference on Neural Information ProcessingSystem(NIPS).Vancouver,British Columbia,Canada,2008:289-296.
其他文献
1995年对渭南市渭北塬区农田土壤的调查研究结果表明,与1980年比较,土壤有机质,全氮,碱解氮中度积累,速效磷,全磷高度积累,速效钾大幅度下降,在施肥中尖稳 ,增磷,补钾,以提高塬区生产水平。
目的针对人工堆焊耐蚀耐磨合金层效率低、质量稳定性差等问题,研制一种管线内壁成形一体化成形装置。方法设计管线内壁堆焊制造焊接系统、枪体夹持系统、旋转系统、水平驱动
目的:探讨胸主动脉夹层动脉瘤(TAD)腔内隔绝术(EVGE)中移植物(SG)释放困难的解决方法.方法:总结我院4年来对TAD进行EVGE术中遇到SG释放困难的病例,采用强力后撤、导鞘预后撤
现代白内障囊外摘除联合人工晶体植入术是当前治疗白内障的主要手段,其远期晶体后囊膜混浊的发生已被人们所重视.我院自1996年6月至1999年6月,用Nd:YAG激光治疗264例(291眼)
商洛地区人口多,耕地少,农业生产基本条件很差,粮食问题始终是制约农村经济的首要问题。由于该区人口的增加,单靠传统的耕作制度是不可能解决粮食问题的,而最有效的途径依靠科技投
<正> 近期美国TRIK工业有限公司推出了商品名为olivoil Glutinate、来自橄榄油与小麦蛋白的纯天然、温和型表面活性剂。它具有优良的发泡性能,是清洗用品的理想组分。该产品
从陕西农村社会化服务供给的特点和问题分析入手,研究提出了强化陕西农村社会化服务供给的措施意见,以推动陕西农村社会化服务迅速发展。