【摘 要】
:
随着国家大数据战略的发展,数据已成为一种蕴含巨大价值的生产资料,大数据分析也正在社会生产、国家管理等方面发挥重大作用。然而,在对涉及敏感信息的大数据分析过程中往往存在隐私泄露的风险。差分隐私(Differential Privacy,DP)凭借其对隐私保护提供的严格定义,被广泛应用在数据挖掘、机器学习等众多领域。相较于传统的匿名化方法和密码学方法,它能够提供更为严谨的隐私保护度量方法和更小的计算开
论文部分内容阅读
随着国家大数据战略的发展,数据已成为一种蕴含巨大价值的生产资料,大数据分析也正在社会生产、国家管理等方面发挥重大作用。然而,在对涉及敏感信息的大数据分析过程中往往存在隐私泄露的风险。差分隐私(Differential Privacy,DP)凭借其对隐私保护提供的严格定义,被广泛应用在数据挖掘、机器学习等众多领域。相较于传统的匿名化方法和密码学方法,它能够提供更为严谨的隐私保护度量方法和更小的计算开销。中心化差分隐私依赖于可信的第三方服务器,通过第三方服务器对原始数据聚合分析后的结果添加噪声以避免泄露隐私。一旦第三方服务器受到攻击,个体隐私依然面临泄露的风险。相反,本地化差分隐私(Local Differential Privacy,LDP)从数据源头,通过对源数据、数据特征等添加噪声,实现个体数据隐私保护的效果。目前,本地化差分隐私已被谷歌、微软等大型企业采用,以保护用户数据不被泄露。而如何在保证个人数据的隐私信息前提下,兼顾并提升大数据分析质量已成为的重要研究问题。因此,针对大数据分析任务中数据量大、数据种类多、数据隐私性和可用性难以兼顾等问题,本文针对差分隐私下的大数据分析技术展开了研究,主要研究成果如下:(1)针对结构化数据量众多,其频率估计算法需提供可靠的隐私保证,以及更高的查询准确性需求,本文提出了一种基于本地化差分隐私的两阶段轻量级频率估计算法。该算法通过抽样训练轻量级的频率预测模型,区分客户端持有的数据项频率,从而减少存储在草图中的哈希冲突,进一步提升频率估计算法准确性。实验表明,本地化差分隐私的轻量级频率估计算法可以提升结构化数据的频率估计精度,并在数据域较大的情况下表现更为优异。(2)针对非结构化数据的信息来源多样、数据种类繁多、隐私保护需求各异的现状,本文设计了一种基于本地化差分隐私的多源数据融合算法。该算法通过本地化差分隐私对不同来源的数据采取不同的噪声添加方式,并设计预聚合框架对不同来源数据的隐私预算进行重分配,以此降低噪声对多源数据分析任务结果的影响。实验表明,相较于传统的多源隐私数据融合算法,该算法能够提升多源数据分析任务的质量。(3)基于以上两部分研究内容,本文从全局角度定义隐私保护效果与大数据分析服务质量之间的矛盾问题,研究隐私保护-价值挖掘均衡的数据共享激励机制。该机制从数据可用性、数据分析质量、效能代价等方面构建全局博弈模型,并利用单次博弈和重复博弈计算纳什均衡值,从而帮助所有参与者找到效用最大化的最优策略。实验表明,该机制可以在保证用户数据隐私的前提下,激励用户使用高质量的数据积极参与训练。
其他文献
新课标明确了数学运算在学生数学思维发展中的意义和价值,并分别在三个学段目标中分层次提出了探索数的运算的一致性,发展学生的数感、符号意识、运算能力和推理意识等目标要求。
海事是综合交通运输的重要组成部分,也是我们国家水上的主要行政执法力量,肩负着保障水上交通安全、维护水域清洁、保护船员整体权益、维护国家海洋主权和人民利益的重要职责。海事系统大力推进队伍“革命化、正规化、现代化”建设,目标是构建一支听从指挥、素质精良、作风过硬、服务人民的海事队伍,最终形成监管到位、保障有力、反应快捷、服务智能的现代海事服务体系。因此,文章从海事航保队伍职业化建设的现状入手,为提升海
<正>为深入学习贯彻习近平总书记关于推进法治专门队伍革命化、正规化、专业化、职业化的重要指示精神,贯彻落实交通运输部、交通运输部海事局和东海航海保障中心关于海事队伍“四化”建设的部署要求,东海航海保障中心福州航标处全面启动海事航保队伍“四化”建设工作,多措并举,稳扎稳打,凝心聚力扬起队伍“四化”建设风帆。
数学解题能力是数学能力和素养的集中体现,是在一次次的数学解题活动中形成并发展提升的.本文通过两个例子的实践,阐释如何在数学解题活动中培养与发展数学核心素养,提升数学解题能力.
<正>党的二十大报告对中国式现代化的本质要求进行了深刻阐述。全面建设社会主义现代化国家、全面推进中华民族伟大复兴,关键在党,关键在人。海事作为交通运输系统一支重要执法队伍,在助力加快建设交通强国、努力当好中国现代化的开路先锋征程中,关键就是要以海事队伍“四化”建设为遵循,将“四化”建设作为坚定拥护“两个确立”、坚决做到“两个维护”的最生动实践,全力打造一支又强又美的海事铁军。深圳海事局自成立以来,
随着价值互联时代的到来,区块链作为构建价值传递网络的关键技术,已经广泛应用于金融、法律、能源、医疗、保险和公共服务等众多领域。但区块链的性能瓶颈仍然是当前亟待解决的重要问题,也限制了区块链技术在元宇宙、Web3.0和工业互联网等新兴领域的进一步发展。作为一种庞大分布式系统,区块链建立在底层TCP/IP网络的基础上,大量的节点间区块和交易数据同步是制约区块链效率的重要原因之一,但目前,针对区块链网络
目的 分析临床颈部淋巴结阴性(cN0)甲状腺微小乳头状癌(PTMC)病人中央区淋巴结转移的影响因素。方法 选取2019年1月至2021年12月合肥市第一人民医院甲状腺乳腺外科首诊收治并由同一治疗组手术治疗行预防性中央区淋巴结清扫的cN0期PTMC病人106例,回顾性分析年龄、性别、肿瘤长径、肿瘤是否多灶及桥本甲状腺炎与中央区淋巴结转移率的关系,并探讨其独立危险因素。结果 cN0期PTMC病人中央区
离群点检测的目的是在给定的数据中发现那些与其他数据显著不同或不一致的数据。由于在网络入侵检测、欺诈检测以及生命科学等多个领域的应用,离群点检测已成为数据挖掘领域的研究热点。在所提出的不同种类的离群点检测算法中,基于隔离的算法因其线性的时间复杂度以及良好的可伸缩性备受欢迎。本文针对基于隔离的离群点检测算法存在的问题,提出两种离群点检测算法:基于极差的隔离森林离群点检测算法、基于相对比重的扩展隔离森林