统计机器翻译中的源端重排序方法探究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:stanley45518501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计机器翻译中,从翻译系统解码出来的译文结果看,源端和目标端语序相近的句子,译文效果比较好。然而,在翻译系统中的源端和目标端的语序往往存在着较大的差异,比如汉语是“主谓宾”的结构形式,而蒙古语却是“主宾谓”的结构形式。当互译语言具有这种非对称的结构特点时,由标准的短语翻译系统翻译出来的译文质量相对较差。另外,基于短语的统计机器翻译系统严格限制短语必须是连续的,虽能够很好地解决短距离的局部调序,但在很大程度上限制了短语翻译的作用范围。本文将通过引入句法信息和词性标注信息建立不同的源端重排序模型,使源端和目标端的语序保持一致,以此来减缓这些问题。   首先,在基于短语结构的句法树基础上,结合词对齐并改进规则抽取算法进行规则的自动抽取,然后基于自动抽取的重排序规则对源端进行调整,并与手动书写的重排序规则进行对比。其次,从基于依存的句法树方面进行研究,提出了一种依存重排序规则抽取算法,从而完成对源端句子的语序调整。然后,根据词性标注信息,从词性标注序列的泛化角度,提出了一种词性标注序列重排序规则抽取算法,基于这些重排序规则进行源端的调序。最后,提出了一种基于源端重排序的短语表融合方法,即训练融入依存标签信息的短语表和融入词性标注标签信息的短语表,并对这些短语表中的标签信息进行去除处理,将处理过的短语表和基于源端重排序训练的短语表进行融合,进一步探究翻译系统的翻译性能。   以汉蒙翻译系统为例的实验证明,与标准的短语统计机器翻译系统相比,融入句法信息和词性标注信息的源端重排序模型是有效的,可以较为明显地提高统计机器翻译系统的性能和译文质量。
其他文献
现阶段我国农业正朝着数字农业的方向发展,和传统农业相比,是一种新型的集约化和信息化农业。温室环境监控系统对温室农业生产的发展和数字农业发展有着十分重要的意义。针对
伴随着制造成本的降低和城乡电网升级,电力电缆的使用越来越广泛,从而对于国民经济和社会发展起着重要的支撑作用。然而,由于绝缘老化和机械损坏等原因,电力电缆在长期的运行
脑干听觉诱发电位(Brainstem Auditory Evoked Potential,BAEP)是在给予听觉神经系统特定声音刺激后约10ms内在头皮上记录到的由耳蜗到脑干听觉神经通路的电位变化,具有幅值
Hydrogen consumption measurement is an urgent question for fuel cell vehicle along with the energy and environmental issues. At present, there are three hydrogen consumption measurement methods which
随着计算机和集成电路技术的发展,嵌入式系统获得了广阔的发展空间,也推动了嵌入式视频处理系统的飞速发展。   本系统是一种基于ARM+DSP双核架构的嵌入式视频跟踪系统。该
基于视频图像处理的客流识别技术在交通运输、商场等公共安全领域有重要的应用价值和广阔的发展前景。在视频监控系统中,利用数字图像处理技术进行客流识别是目前国内研究的
移动互联应用要求服务器能够快速回应大量请求,这对服务器的结构设计提出了较高的要求。如何清晰,简洁地对服务器的逻辑处理层次进行建模是本文要解决的一个问题。同时,为了对校
:铁路大型装车点是转变铁路经营方式、适应市场需要的现代化货运基础设施,对铁路货运组织创新、提高运输能力和经济效益、优化运力资源配置等方面具有十分重要的意义。由于铁
医学研究表明,及早对下肢残障患者进行康复训练能增强关节活动度,明显提高下肢运动能力的最终康复程度。康复机器人是机器人技术在医疗方面的新应用。基于虚拟现实的步态康复训
GPS(Global positioning system)全球定位系统是新一代卫星导航定位系统,随着现代科学技术的发展,GPS定位已经应用到各个领域。本文设计了一种基于GPS的露天煤矿车辆调度系统。