论文部分内容阅读
多标记学习是机器学习的一个重要研究领域,在近些年得到广泛关注。在多标记学习中,每一个训练样本都被赋予由一组类别标记组成的标记子集来表示其多种语义信息,而学习的任务为给未分类的样本预测出其所有相关的类别标记。值得关注的是,现有的多标记学习算法都只是从机器学习的角度出发,在训练分类模型时,直接利用训练数据集的真实特征信息;在对未分类样本进行分类时,直接将未分类样本提交给分类模型进行分类。因此,这些方案只适用于训练数据集的拥有者自己训练出分类模型,再用模型来给自己的未分类样本分类。然而这样的应用场景是十分有限的。假如训练数据集的拥有者和未分类样本的拥有者是互不信任的两方,则现有的多标记学习方案都会产生隐私信息泄漏的问题。因此,如何能在对样本进行分类的同时保护数据的隐私信息,成为迫切需要研究的方向。本文对此进行研究,主要工作如下:(1)研究了保护隐私的多标记学习问题。本文将加法同态加密和安全点积协议相结合,运用在客户-服务器模型下的多标记分类中,提出了一个保护隐私的多标记分类方法。该方法使得客户和服务器在分类过程中均不能获得任何有关对方的有价值的隐私信息。证明了该方法的安全性,分析了该方法的计算和通信复杂度,模拟实验评估了方法的效率。(2)为了减小用户在分类过程中的计算负担,本文在保护隐私的多标记分类方法中引入两个不共谋的云服务器,提出了一种云环境下保护隐私的多标记分类方法。本文提出的方法利用加法同态加密和一系列安全多方计算协议,将多标记分类的任务外包给云服务器。本方法不仅能够在完成多标记分类任务的同时保护用户和训练数据拥有者的隐私信息,还能够大大减小二者的存储费用开销和计算负担。证明了方法的安全性,分析了方法的计算和通信复杂度,模拟实验验证了方法的效率。