机器学习中隐私保护数据计算研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:MUWANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算与分布式计算的发展,数据挖掘和深度学习等机器学习算法已能很好地结合大数据的优势,训练出更加精确的模型。因此,云外包学习和联邦学习成为当下流行的两种大数据机器学习范式。然而,在云外包机器学习和联邦学习过程中,要求数据拥有者提供原始数据或共享局部数据的训练参数,这些信息的提供均存在大数据隐私泄露的风险。例如,从医疗、金融等采集的大数据可能会泄露私人数据,包含个人基本信息、患者病历、经济信息等,一旦被披露,个人的生命财产将受到严重威胁。因此,研究云外包机器学习和联邦学习中隐私保护的大数据计算方法具有重要意义。本论文研究云计算环境下多数据拥有者的联合关联规则挖掘和分布式多客户端环境下的联邦深度学习中的隐私安全计算问题。论文分析现有的各类攻击方法,设计出安全数据加密算法。针对联合关联规则挖掘和联邦学习的各自特征,设计出各自特定的适用于加密数据的隐私保护数据计算方案。两种机器学习方法中,客户端提交给云服务器的原始数据均为加密数据,云服务器对加密数据进行计算,并返回加密形式的预测结果给客户端。论文证明了所提出的机器学习模型的适用性并评估了它们的性能。实验结果表明,论文中提出的方案能够提供准确的隐私保护关联规则挖掘和深度学习分类。本论文的主要研究成果是:(1)设计了数据库模糊方法,以保证数据挖掘效率。为了确保数据挖掘和深度学习的精度,论文的隐私保护计算均在密文数据上进行。考虑联合数据库的数据量非常庞大,无论是对数据的加密还是对加密数据的计算,所需的算力和存储消耗均会很大。因此,论文中并不是直接对数据集进行加密,而是设计一种数据库模糊方法,即在数据库中插入虚假交易以混淆敌手,从而保证数据库的隐私安全性;同时,为了保证数据集的可用性(可进行数据挖掘计算),需给每条交易标记一个标签,真实交易的标签为1,虚假交易的标签为0。这样,数据挖掘结果由插入虚拟交易后的数据库挖掘的结果和标签共同决定。(2)设计了多密钥同态加密机制,以防止在数据挖掘与深度学习过程中,多联合方的窜某攻击。具体地,论文设计了一种多方协商的秘钥划分方法,并基于该方法设计出两种同态加密算法:采用指数乘的对称同态加密算法和基于椭圆曲线的加法同态加密算法。论文利用指数乘的对称同态加密算法加密待挖掘数据库的标签,并设计出用于数据挖掘的安全比较算法,使得多方联合挖掘能够顺利进行。论文基于椭圆曲线加同态加密设计隐私保护机制,用以掩盖每个客户端的局部梯度,使恶意敌手和半可信云难以推理数据集原始信息。所提出的隐私保护机制在保持训练模型高预测精度的同时,很好地平衡了安全性和效率。(3)设计了一种数据同态验证机制,以防止联邦学习中的全局参数被恶意敌手/云服务器篡改。该机制允许各分布式客户端验证从云服务器端获取的聚合密文是否为所有联合客户端的局部数据密文的融合。因此设计的同态验证方法需要能对同态计算进行验证。具体地,论文设计基于椭圆曲线的同态hash函数,该函数能将任意长度的输入数据转换为固定长度的输出摘要,且该函数满足同态属性,即对输入数据的计算操作可直接转移到对摘要的计算操作;同时,由于hash函数的抗碰撞性,敌手不能根据摘要猜测出原始函数输入,也不能在无密钥情况下同时篡改输入与摘要。因此,基于设计的椭圆曲线的同态hash函数构建的验证机制可以用来验证来自敌手/云服务器的全局参数(即聚合梯度)是否正确。(4)设计了一种快速同步随机梯度下降(F-SSGD)方法,以保证联邦学习的在多客户端异质情况下,模型的快速训练和训练收敛。该方法可保证当联邦学习中的各客户端算力存在差异或客户端数据分布不一致时,联邦学习模型能快速收敛。具体地,在F-SSGD中,设置了一个时间周期,在此期间,算力较强的客户端可以继续计算多个本地梯度,而无需等待速度较弱的客户端;而算力较弱的客户端加权他们的多个梯度副本,以确保训练收敛,并防止最终模型偏向执行计算最快的客户端。在达到设定的时间周期之后,所有的客户端都将它们的本地聚合梯度提交到云上进行模型更新。实验和理论证明了F-SSGD方法可保证联邦模型的收敛,且收敛速度为O(1/M),其中M为迭代次数。
其他文献
学位
学位
近年来,耦合神经网络被广泛地应用于模式识别、信号处理、人工智能、保密通信和机器人等领域,因此耦合神经网络引起了来自不同领域的专家学者们的极大关注。众所周知,这些应用很依赖于耦合神经网络的一些动力学行为,特别是同步和无源性。在现有的很多文献中,神经网络在无穷的时间里实现了同步和无源性;而在实际生活中,由于机器有使用年限和人类的寿命是有限的,因此研究人员希望网络也能在有限时间内实现同步和无源性。现今关
电化学发光(ECL)生物传感器具有稳定性好、选择性好、响应速度快、灵敏度高、分析速度快、操作简便等优点,特别适用于组分复杂和低丰度的生物体系的分析。提高对目标物的识别一直是ECL生物传感领域的研究主题。而构建高灵敏的ECL生物传感器实现对目标物的识别主要有两种方式:(1)通过合成新型的ECL材料,提高发光体的ECL效率,从而提高传感器的ECL强度和稳定性。(2)借助DNA纳米机器实现对低丰度目标物
学位
学位
陆地生态系统总初级生产力(Gross Primary Productivity,GPP),是陆地植物通过光合作用吸收的碳总量,是陆地生物圈与大气圈之间最大的碳通量。陆地生态系统总初级生产力不仅对全球气候系统有重大影响,同时也是农业和林业生产的基础。GPP是生态系统碳循环的开始,对其模拟估算直接关系到生态系统碳收支评估的准确性,也是全球碳循环研究的热点之一。因此,准确地估算陆地生态系统的生产力对评估
学位
电致化学发光(ECL)分析技术,具有发光分析的高灵敏度和电化学分析的高可控性,被广泛应用于食品检测、临床诊断和环境分析等领域。ECL分析技术的发展主要围绕着构建传感方法学和寻找新型ECL发光体两个方面。其中,就肿瘤标志物的检测而言,单组分的分析容易造成假阳性或假阴性结果,从而导致检测的准确度降低。为了提高癌症诊断的准确率和效率,多组分联合检测的方式应运而生。传统的基于电压分辨的ECL多组分传感器,
学位