论文部分内容阅读
在全球化的大背景下,世界各地之间的沟通日益频繁,翻译是人们克服语言障碍的最主要手段。然而翻译人员需要学习大量的语言、传统文化知识,人工翻译的成本较高,从而提出利用机器来完成翻译,在研究中产生了大量基于规则、基于统计以及基于神经网络的机器翻译算法。随着语料资源的积累和计算能力的逐步提高,端到端的神经机器翻译模型产生的译文与人工翻译的译文质量越来越接近。但是,从学术研究报告和企业的测评报告中可以发现,汉语到英文的翻译任务表现明显差于一些印欧语系语言到英文的翻译任务,本文认为,造成这种现象的原因之一是汉语通常依靠虚词或词序来完成在其它语言中通过形态或句法所表达的语法意义。本文基于现代汉语虚词用法知识库(CFKB,Chinese Function word Knowledge Base),对现代汉语虚词用法的自动识别进行尝试,并研究汉语虚词用法在汉英机器翻译中的应用,主要研究内容包括:(1)利用条件随机场(CRF,Conditional Random Field)对汉语虚词用法进行自动识别,并提出基于深度学习的汉语虚词用法识别模型。利用基于门循环单元(GRU,Gated Recurrent Unit)的模型自动地从序列的两侧提取与任务有关的信息,完成虚词用法自动识别。实验表明,基于深度学习的汉语虚词用法识别模型在部分常用虚词的用法自动识别任务中准确率可以在条件随机场模型的基础上取得2个百分点以上的F1值提升。(2)在虚词用法自动识别的基础上,对自动识别的虚词用法在神经机器翻译中的应用展开初步尝试。分别通过“拼接”、“划分”和“区分”三种方式将虚词用法信息融入神经机器翻译模型。实验结果表明,通过“拼接”方式加入虚词“的”的用法信息可以取得平均0.67个BLEU值的提升,通过“区分”方式加入虚词“的”的用法使得平滑对齐错误率降低了1.42个百分点。证明部分常用虚词对机器翻译的积极影响,以及本文方法的有效性。(3)对融入虚词用法特征的神经机器翻译的线上部署进行初步探索,完成融入虚词用法信息的神经机器翻译系统的开发。