统计机器翻译中解码算法的研究

被引量 : 0次 | 上传用户:protosser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译近二十年来在机器翻译领域取得了巨大的成功,在大规模公开评测中,基于统计的方法相比其他机器翻译方法显示出了明显的优势,已成为国内外研究的热点。通过对双语语料库的统计分析,能够自动地学习如何进行翻译,因此对统计机器翻译的研究具有重要的理论意义和实用价值。解码算法作为统计机器翻译的重要组成部分,基本思想就是根据统计模型,在目标语言的词汇空间内,查找评分最高的翻译结果,其性能直接影响着最终译文的质量和翻译效率。本文主要对统计机器翻译中基于短语和基于句法的翻译模型的解码问题进行了研究,分别根据翻译模型的特点采取有效的评分策略,选择合理的启发式信息,应用柱搜索策略,在不显著降低译文质量的同时提高解码效率。本文主要进行了以下几个方面的工作:(1)基于短语的统计翻译模型解码器的研究。在此,重点研究了启发式函数,以及在基于短语的统计翻译模型的解码中的应用研究。在已知基于短语的统计翻译模型和语言模型的基础上,综合考虑解码过程的翻译历史和对未来翻译代价的合理估计,作为对整个翻译假设的耗散值,更合理的指导翻译的过程;同时利用柱搜索来限定已扩展相同中文词的假设的数目,从而进一步缩减扩展时的搜索空间,以达到加快搜索速度的目的;(2)基于句法的统计翻译模型解码器的研究。在Yamada和Knight提出的基于句法的统计翻译模型的基础上,加入语言模型,利用句法分析的方法进行解码,以实现源语言到目标语言的翻译过程。在搜索的过程中,同样采用了柱搜索的方法,保存概率最大的n条产生式规则作为下一步推导的基础,自底向上形成一棵英文的句法分析树;(3)两种解码器的翻译实验。采用2005年863的评测语料对解码器的翻译性能及译文质量进行了评测,并对实验结果进行分析。实验表明:基于短语统计翻译模型的翻译性能和同类最好的系统相当,明显优于基于句法模型;基于句法的统计翻译模型在处理句子结构问题上有一定的优势,模型使用参数较少,值得进一步的研究。
其他文献
本文以2014-2016年存在股东委派非执行董事、提名独立董事的A股沪深两市上市公司为研究对象,手工收集整理了非执行董事的委派人信息、独立董事的《提名人声明》数据,采用“公司-年份-董事”的数据结构进行分析与回归,从非执行董事与独立董事的选聘角度出发,重点考察了非执行董事、独立董事受制于其委派人或提名人主体的情况下,在董事会治理中发挥的作用的差异,研究表明:(1)非执行董事群体中,由其他股东委派的
剑川石钟山石窟名冠南天,开凿于1000多年前的南诏大理国时期。它以宗教、皇室活动、社会世俗、中外文化交流、生殖崇拜等造像内容和精细、生动的艺术形象,为研究云南历史上南诏
<正>本文主要针对大数据时代医院财务管理的创新应用展开深入研究,通过提出大数据时代医院财务管理创新应用中存在的不足之处,重点提出了几点创新应用措施,主要包括构建完善
近年来,结构的损伤识别成为结构健康检测的一个重要组成部分而受到越来越多学者的重视和研究。其中,桥梁的损伤识别对于桥梁结构的安全服役有着重要的研究意义。迄今为止,众多学
哲学家约翰·罗斯金说:“人劳碌一生,其最高奖赏不在于他从中获得了什么,而在于他借此成为一个什么样的人。”作为教师,怎样去培养一个个有血有肉、有情有义的真人呢?本人尝
背越式跳高技术是由一系列动作环节有机组合而成的复杂因果系统,任何一个环节出现问题都会对后续各个环节造成不良影响,并最终导致运动成绩的损失。在这些环节中,与运动成绩直接相关的是过杆环节;而对过杆直接产生影响的则是起跳环节。因此,有必要从运动学的角度,探讨背越式跳高起跳与过杆参数之间可能存在的相关性问题,从而为跳高项目参与人员的训练提供理论参考。本文以2018年4月全国田径大奖赛总决赛男子跳高的前八名
加权整体最小二乘法(WTLS)估计变量误差模型(EIV)参数需要进行大量的矩阵运算,为了提升估计EIV模型参数的计算效率.本文以WTLS的平差准则为出发点,运用矩阵运算定理,研究了WL
碳纤维前驱体聚丙烯腈是由丙烯腈(AN)和少量共聚单体聚合而成,最常用的共聚单体为衣康酸(IA)。我们对IA进行了氨化处理,合成了新的共聚单体衣康酸铵(AIA)。采用溶液聚合和悬浮聚合两
“健康不仅仅是没有疾病和病症,而且是一种个体在身体上、精神上、社会上完全良好的状态”(世界卫生组织章程序言语)。有人提出健康的概念应包括体格健康、精神健康、社会健康
作为伊斯兰教物质文化代表的新疆伊斯兰教建筑,其造型形式独具特色,形态各异,具有很高的艺术魅力和研究价值。更为重要的是,伊斯兰教建筑是伊斯兰教徒顶礼膜拜的地方,作为建筑艺术