PrivSMT:一种在线机器翻译隐私保护框架

来源 :南京大学 | 被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今社会信息化与全球化的飞速发展,人们在生活中不可避免会接触到大量的外文信息内容。在线机器翻译的出现及普及对人们理解外文提供了很大的帮助。统计机器翻译(SMT)是当前广泛使用的机器翻译技术,这种技术从双语语料库中学习统计模型,并通过统计模型来评估和筛选候选翻译文本,从而得到质量较高的翻译结果。通常来说,为了得到更好的翻译结果,统计机器翻译需要大量的语料数据来进行统计模型的训练,从而得到包含大量统计参数的统计模型。因此,统计机器翻译往往基于云服务,用户需要上传文本数据到服务器来获取翻译结果。在这样的场景下,服务器可能对用户上传的文本数据进行收集,从而危害到用户的隐私。考虑到当今人们对隐私的愈发重视,对隐私要求严格的用户可能会放弃使用在线机器翻译服务,我们迫切地需要具有隐私保护能力的机器翻译服务来保证用户的隐私。在本论文中提出了一种能够保护用户文本隐私的统计机器翻译框架PrivSMT。其基本思想是将翻译解码器,也就是机器翻译系统中具体负责翻译过程的模块,从服务器端解耦。解耦后的解码器被放置于客户端,翻译的运算过程将在客户端进行。因此,客户端不再需要将用户的待翻译文本上传至服务器,只需要在翻译的过程中向服务器请求必要的统计参数。这些对统计参数的请求中依旧包含用户原始文本的片段,本文中将这些请求分布在不同服务提供商的服务器上以保证服务器不能通过文本片段还原出用户的原始文本。为了进一步保护用户隐私,本文提出了一种隐私敏感度度量的方式来度量用户提交的文本片段所包含的隐私信息量。设计了一种请求分配算法来找出用户文本片段的最佳分配方式以保证泄露给单个服务器的隐私信息最小化。在此基础上,本文还提出了多种隐私增强方案来增强单个服务器上的用户隐私。实验结果显示,PrivSMT框架具有很高的效率,并且极大地缓解了隐私泄露情况。
其他文献
  本文首先介绍了传统调试技术的分类和特点,随后提出了一种新型的调试技术——解释执行调试技术。阐述了其原理和基于这种技术的调试器结构,并介绍了这种技术在替代硬件仿真
印制电子工艺是一种相似于微纳米加工技术的加成反应,它是采用多种油墨材料印制和热处理等一系列工艺达到形成线路或者电极以构建电子部件或者电子器件为目标的印刷工艺。本文
颜色是图像的重要特征,影响着人们对图像的视觉感知和评价。鉴于目前在图像处理技术中关于颜色渐变算法、颜色渐变类型以及描述颜色渐变区域模型的研究相对较少。为了使用客观
该论文重点讨论利用目前先进的LotusDomino/Notes群件平台设计基于Web的机关办公自动化系统.首先介绍了WWW背景知识,包括Web规范和体系结构,几种Web应用开发技术.然后对机关
学位
该文基于小波分析和FBM模型分别实现了两种图象纹理分割算法,有效地检出了菌落图象中对分类最有意义的中间隆起部分,为后继工作奠定了基础.菌落形貌牲的定量描是实现菌种自动
针对连续工业生产过程特点和过程控制目标,该研究报告提出并讨论过程鲁棒优化控制问题.针对过程鲁棒控制理论研究和应用现状,指出存在的问题,分析产生的原因,然后从几个方面
信息化社会中人们工作的特点是群体性、交互性、分布性和协作性.计算机支持的协同工作(CSCW:Computer Supported Co-operative Work)作为一种将人类合作行为模式与计算机技术
分类精度和学习速度是评价分类器性能的两个主要指标。现有多层感知器(Multilayer perceptrons, MLPs)及其学习算法能有效解决中、小规模即样本数、维数和样本类别均比较小的
随着计算机逐步的智能化,人机交互技术越发重要。手势交互技术是一种以手为核心的直观的人机交互技术。手作为人体最为灵活的部分之一,能够传递各种各样的信息。近些年来,基于视