基于汉语虚词用法的机器翻译改进研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:robinhin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球化的大背景下,世界各地之间的沟通日益频繁,翻译是人们克服语言障碍的最主要手段。然而翻译人员需要学习大量的语言、传统文化知识,人工翻译的成本较高,从而提出利用机器来完成翻译,在研究中产生了大量基于规则、基于统计以及基于神经网络的机器翻译算法。随着语料资源的积累和计算能力的逐步提高,端到端的神经机器翻译模型产生的译文与人工翻译的译文质量越来越接近。但是,从学术研究报告和企业的测评报告中可以发现,汉语到英文的翻译任务表现明显差于一些印欧语系语言到英文的翻译任务,本文认为,造成这种现象的原因之一是汉语通常依靠虚词或词序来完成在其它语言中通过形态或句法所表达的语法意义。本文基于现代汉语虚词用法知识库(CFKB,Chinese Function word Knowledge Base),对现代汉语虚词用法的自动识别进行尝试,并研究汉语虚词用法在汉英机器翻译中的应用,主要研究内容包括:(1)利用条件随机场(CRF,Conditional Random Field)对汉语虚词用法进行自动识别,并提出基于深度学习的汉语虚词用法识别模型。利用基于门循环单元(GRU,Gated Recurrent Unit)的模型自动地从序列的两侧提取与任务有关的信息,完成虚词用法自动识别。实验表明,基于深度学习的汉语虚词用法识别模型在部分常用虚词的用法自动识别任务中准确率可以在条件随机场模型的基础上取得2个百分点以上的F1值提升。(2)在虚词用法自动识别的基础上,对自动识别的虚词用法在神经机器翻译中的应用展开初步尝试。分别通过“拼接”、“划分”和“区分”三种方式将虚词用法信息融入神经机器翻译模型。实验结果表明,通过“拼接”方式加入虚词“的”的用法信息可以取得平均0.67个BLEU值的提升,通过“区分”方式加入虚词“的”的用法使得平滑对齐错误率降低了1.42个百分点。证明部分常用虚词对机器翻译的积极影响,以及本文方法的有效性。(3)对融入虚词用法特征的神经机器翻译的线上部署进行初步探索,完成融入虚词用法信息的神经机器翻译系统的开发。
其他文献
随着我国经济建设的发展以及人们经济水平的提高,很多家庭会更渴望将家庭闲置的资产用于投资理财,以获取家庭收入最大化。家庭投资理财主要解决的是在家庭财产资金有限的情况
本研究于2015年4月(春季)、2015年6月(夏季)、2015年10月(秋季)、2016年1月(冬季)在海南东寨港红树林保护区生态系统分别选取15个采样点沉积物进行采样,分离、鉴定小型底栖动
本文介绍刘艳骄主任以泻青丸为辅助方剂,治疗发作性睡病初期的经验。从肝风内动、肝郁气滞、肝失疏泄、余毒未清、经筋失养等病因病机角度出发,初步探讨泻青丸在治疗发作性睡
荔枝蝽Tessaratoma papillosa(Drury)是一类主要危害荔枝、龙眼等无患子科果树的重要害虫,对该类果树的正常生长、果实生产均可造成很大影响。本实验以荔枝蝽为研究对象,聚焦
<正>1972年,一本新书的出版把美国人吓了一跳。那本书颠覆了传统的减肥理念,告诉大众:"肥胖的元凶不是脂肪,而是碳水化合物!"关于这种饮食理念,《阿特金斯博士新饮食革命》一
我国现行的公共服务供应制度,是由地方政府及其他公共部门在中央政策框架下供应基本公共服务。与户籍制度挂钩是其重要特征。在该制度下,地方政府在进行人口管理服务时,将地
灭活病毒及病毒样颗粒(Virus like particles, VLPs)是两类重要的疫苗抗原,都具有多聚亚基的大颗粒组装体结构,在生产和储存过程中易于发生结构变化,影响疫苗的安全性和有效
我国竞技篮球与基层大众篮球正在蓬勃发展,需要大量、规范、具有一定水平的篮球裁判员。广西高校及基层大众篮球运动发展迅猛,高校体育院系是篮球裁判员培养的重点。目前体育
随着我国经济快速、持续的发展以及人们经济水平的提高,我国家庭居民可支配收入得到持续增长,投资理财已经逐渐走进中国家庭的生活。家庭投资理财主要解决的是在家庭财产资金
互联网技术的迅猛发展,在给人类生产生活带来深远影响的同时,也催生了网络空间这一新型领域。由于互联网信息技术逐渐渗透到国际社会的多方领域,网络空间也随之成为承载世界