论文部分内容阅读
随着当今社会信息化与全球化的飞速发展,人们在生活中不可避免会接触到大量的外文信息内容。在线机器翻译的出现及普及对人们理解外文提供了很大的帮助。统计机器翻译(SMT)是当前广泛使用的机器翻译技术,这种技术从双语语料库中学习统计模型,并通过统计模型来评估和筛选候选翻译文本,从而得到质量较高的翻译结果。通常来说,为了得到更好的翻译结果,统计机器翻译需要大量的语料数据来进行统计模型的训练,从而得到包含大量统计参数的统计模型。因此,统计机器翻译往往基于云服务,用户需要上传文本数据到服务器来获取翻译结果。在这样的场景下,服务器可能对用户上传的文本数据进行收集,从而危害到用户的隐私。考虑到当今人们对隐私的愈发重视,对隐私要求严格的用户可能会放弃使用在线机器翻译服务,我们迫切地需要具有隐私保护能力的机器翻译服务来保证用户的隐私。在本论文中提出了一种能够保护用户文本隐私的统计机器翻译框架PrivSMT。其基本思想是将翻译解码器,也就是机器翻译系统中具体负责翻译过程的模块,从服务器端解耦。解耦后的解码器被放置于客户端,翻译的运算过程将在客户端进行。因此,客户端不再需要将用户的待翻译文本上传至服务器,只需要在翻译的过程中向服务器请求必要的统计参数。这些对统计参数的请求中依旧包含用户原始文本的片段,本文中将这些请求分布在不同服务提供商的服务器上以保证服务器不能通过文本片段还原出用户的原始文本。为了进一步保护用户隐私,本文提出了一种隐私敏感度度量的方式来度量用户提交的文本片段所包含的隐私信息量。设计了一种请求分配算法来找出用户文本片段的最佳分配方式以保证泄露给单个服务器的隐私信息最小化。在此基础上,本文还提出了多种隐私增强方案来增强单个服务器上的用户隐私。实验结果显示,PrivSMT框架具有很高的效率,并且极大地缓解了隐私泄露情况。