论文部分内容阅读
近年来,人工智能(Artificial intelligence,AI)在诸多领域已经取得了巨大成功,如人脸识别、智慧医疗、自然语言处理和语音识别等。然而,AI领域仍然存在两个主要的挑战:用户数据隐私泄露和数据量少且质量低的问题。首先,由于训练数据牵涉敏感信息,深度学习模型可能会遭遇隐私泄露的风险;其次,AI领域的企业或用户只拥有极少量且质量较差的数据。并且由于人工标注成本太大,大部分数据都是无标签或者含少量标签的数据,这样导致难以训练出预测精度较高的模型。考虑到行业竞争、数据隐私保护和复杂的行政流程的问题,各个企业想要把各自的数据协同起来训练AI模型难以实现,因此造成“数据孤岛”问题。另外,由于现实生活中存在的大多数是不均衡数据分布的场景,即有的用户的数据量大,有的用户数据量小,这也为联邦学习模型的训练带来了困难。本文主要研究不均衡数据下的具有隐私保护的联邦学习模型训练问题。针对现今AI领域的“数据孤岛”、用户数据隐私泄露、不均衡数据造成联邦学习的模型表现欠佳的问题,提出了针对不均衡数据的差分隐私联邦学习框架。首先,在联邦学习中,各用户只需分享本地模型训练过程中的模型参数更新至第三方的云平台,由云平台进行模型参数的整合并下发至各用户,如此迭代训练,共同建模。在云平台对参数进行整合后,需通过加密机制或噪音扰动机制对参数进行处理,这样可达到保护用户数据隐私的目的。用户间不分享数据,而是分享模型参数来共同训练AI模型,这样间接打破了“数据孤岛”问题。用户间无需担心数据融合带来的隐私泄露问题,提高了数据的利用率;第二,本文的联邦学习框架使用差分隐私来保护用户的数据隐私,在各用户本地模型训练过程中进行差分隐私处理,再将模型参数更新上传至云平台。并根据不同的用户拥有的数据量设置不同的隐私预算以应对不均衡数据带来的问题;第三,在联邦学习框架的用户本地模型更新中,本文提出了一种新型的具有自适应梯度下降的差分隐私卷积神经网络算法。在参数优化过程中,该算法能自适应的调整扰动梯度和选取最优梯度下降步长的隐私预算,有效的提高模型的预测精度。通过实验表明,相比于现有的工作,本文的联邦学习框架有更好的鲁棒性;在有效保护参与联邦学习模型训练的用户的数据隐私的情况下,本文的框架有很好的模型性能。