PrivSMT：一种在线机器翻译隐私保护框架

来源 :南京大学 | 被引量 : 0次 | 上传用户：caoenjia

【摘要】

：

随着当今社会信息化与全球化的飞速发展,人们在生活中不可避免会接触到大量的外文信息内容。在线机器翻译的出现及普及对人们理解外文提供了很大的帮助。统计机器翻译(SMT)是

【作者】

：

方一鑫

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2016年期

【关键词】

：

在线机器翻译隐私保护隐私度量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着当今社会信息化与全球化的飞速发展,人们在生活中不可避免会接触到大量的外文信息内容。在线机器翻译的出现及普及对人们理解外文提供了很大的帮助。统计机器翻译(SMT)是当前广泛使用的机器翻译技术,这种技术从双语语料库中学习统计模型,并通过统计模型来评估和筛选候选翻译文本,从而得到质量较高的翻译结果。通常来说,为了得到更好的翻译结果,统计机器翻译需要大量的语料数据来进行统计模型的训练,从而得到包含大量统计参数的统计模型。因此,统计机器翻译往往基于云服务,用户需要上传文本数据到服务器来获取翻译结果。在这样的场景下,服务器可能对用户上传的文本数据进行收集,从而危害到用户的隐私。考虑到当今人们对隐私的愈发重视,对隐私要求严格的用户可能会放弃使用在线机器翻译服务,我们迫切地需要具有隐私保护能力的机器翻译服务来保证用户的隐私。在本论文中提出了一种能够保护用户文本隐私的统计机器翻译框架PrivSMT。其基本思想是将翻译解码器,也就是机器翻译系统中具体负责翻译过程的模块,从服务器端解耦。解耦后的解码器被放置于客户端,翻译的运算过程将在客户端进行。因此,客户端不再需要将用户的待翻译文本上传至服务器,只需要在翻译的过程中向服务器请求必要的统计参数。这些对统计参数的请求中依旧包含用户原始文本的片段,本文中将这些请求分布在不同服务提供商的服务器上以保证服务器不能通过文本片段还原出用户的原始文本。为了进一步保护用户隐私,本文提出了一种隐私敏感度度量的方式来度量用户提交的文本片段所包含的隐私信息量。设计了一种请求分配算法来找出用户文本片段的最佳分配方式以保证泄露给单个服务器的隐私信息最小化。在此基础上,本文还提出了多种隐私增强方案来增强单个服务器上的用户隐私。实验结果显示,PrivSMT框架具有很高的效率,并且极大地缓解了隐私泄露情况。

其他文献

解释型仿真调试器的原理、开发与应用

　　本文首先介绍了传统调试技术的分类和特点，随后提出了一种新型的调试技术——解释执行调试技术。阐述了其原理和基于这种技术的调试器结构，并介绍了这种技术在替代硬件仿真

学位

解释执行调试仿真调试器加密程序执行调试信息

基于Domino Web的机关办公自动化系统的设计与研究

该论文重点讨论利用目前先进的LotusDomino/Notes群件平台设计基于Web的机关办公自动化系统.首先介绍了WWW背景知识,包括Web规范和体系结构,几种Web应用开发技术.然后对机关

学位

WWW工作流DominoWeb办公自动化系统

机器视觉新模型与工业微生物菌种自动识别的研究

该文基于小波分析和FBM模型分别实现了两种图象纹理分割算法,有效地检出了菌落图象中对分类最有意义的中间隆起部分,为后继工作奠定了基础.菌落形貌牲的定量描是实现菌种自动

学位

微生物菌种小波分析多分辨率小波分解分形FBM模型图象纹理分割纹理熵

不确定系统的鲁棒最优控制及工程应用研究

针对连续工业生产过程特点和过程控制目标,该研究报告提出并讨论过程鲁棒优化控制问题.针对过程鲁棒控制理论研究和应用现状,指出存在的问题,分析产生的原因,然后从几个方面

学位

优化控制鲁棒控制不确定采样系统

基于组件模型的计算机支持协作系统

信息化社会中人们工作的特点是群体性、交互性、分布性和协作性.计算机支持的协同工作(CSCW:Computer Supported Co-operative Work)作为一种将人类合作行为模式与计算机技术

学位

CSCW协作机制COM/DCOM组件三层体系结构协同公安指挥系统

面向大规模数据集的神经网络动态学习算法研究

分类精度和学习速度是评价分类器性能的两个主要指标。现有多层感知器(Multilayer perceptrons, MLPs)及其学习算法能有效解决中、小规模即样本数、维数和样本类别均比较小的

学位

多层感知器动态学习模块化特征表示样本选择

PrivSMT：一种在线机器翻译隐私保护框架

其他学术论文