基于短语和句法信息的统计机器翻译方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:jinsanshao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今世界信息量的迅猛增加和国际交流的日益频繁,以及计算机网络技术的迅速普及和发展,不同语言之间的交流障碍愈加明显和严重。因此,人们对机器自动、有效地在不同语言之间执行翻译的潜在需求也越来越大。同时,高质量的自动的机器翻译,正是计算语言学研究,甚至是人工智能领域的终极目标之一。   目前,基于统计的机器翻译以其优异的性能已经成为机器翻译领域的研究热点。本文主要针对其中的基于短语和基于句法的方法分别展开研究。   在统计词对齐模型方面,本文利用双语的句法重调序融合改善词对齐模型的性能。   在基于短语的统计机器翻译系统方面,本文的工作包括利用基于词和词位置相关信息的短语重调序模型加强短语间的重调序能力;在解码时融合知识库处理短语翻译模型未覆盖的待翻译片段。NIST2004上的评测显示,本系统在BLEU值上相对于Pharaoh系统取得了12.9%的相对提高。   在基于句法的统计机器翻译系统方面,本文首先实现了一个基于树到树的句法翻译模型,并在此基础上尝试融入短语翻译模型,用以改善句法翻译模型对于非句法结构处理不利的情况。由此,本文提出了一个基于句法-短语的统计机器翻译系统,并取得初步的效果。
其他文献
3G长期演进计划(LTE)是近几年来3GPP启动的最大的新技术研发项目,这种以OFDM/FDMA为核心的技术,是通信技术的一个革命。LTE旨在提高数据传输速率,降低系统时延,增大系统容量和覆盖
多源遥感图像融合技术是指将不同类型传感器获取的同一地区的图像融合成一幅新的图像,其融合处理过程就是采用一定的算法将各图像中包含的冗余信息、互补信息有机结合起来,得到
本文以条斑紫菜(Porphyrayezoensis)为原料,提取不同溶解性蛋白质后进行酶解并对酶解条件进行优化,获得对金黄色葡萄球菌(Staphylococcus aureus)具有显著抗菌作用的酶解物备后续
上海光源工程(Shanghai Synchrotron Radiation Facility,SSRF)是十五期间的国家重大科学工程,为提高工程管理水平,进一步完善信息化体系,PDM(Product Data Management)产品数据
WiMAX作为最具发展潜力的宽带无线接入技术之一,以其独特的优势和魅力,引起了诸多厂商和运营商的广泛关注。WiMAX系统具有优异的性能和广阔的市场前景。因此,目前对该技术的研究
上海光源(SSRF)是先进的第三代中能同步辐射装置,其首期建设的7条光束线站中的XAFS光束线站是一个基于插入件的通用、高性能X射线吸收光谱实验装置。该光束线站主要用于高能量
数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,它已经成为计算机信息系统与应用系统的核心技术和重要基础。数据库设计是信息系统开发和建设的重要
手写数字识别具有广泛的应用前景,很多学者对此做了大量的研究,提出了很多预处理和模式识别的算法,大大提高了手写数字的识别精度。但手写数字识别的识别精度和识别速度问题仍妨
基于IEEE 802.16/WiMAX的宽带无线接入技术,作为解决“最后一公里接入”有良好的应用前景。该协议可在获得高速的宽带无线连接的同时,保证各种不同业务的QoS需求。但在非视距传
随着人口的迅速增长,人类经济活动的不断加剧,生物多样性受到了严重的威胁,生物多样性正以前所未有的速度丧失,这已经成为人类共同面临的全球性问题。生物多样性是人类赖以生