基于实例机器翻译中几个重要问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kekexiaozi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是人工智能中最活跃的研究领域之一。作为机器翻译的一个主要分支,基于实例的机器翻译(Example-basedMachineTranslation,EBMT)涉及到许多机器学习问题,并探索了如何在自然语言处理中使用类比和实例复用等认知过程。作为面向特定领域的一个良好切入点,EBMT能够比较经济、快速地建立实用的翻译系统。因此,对于EBMT的研究具有重要的理论意义和实用价值。本文以基于实例的机器翻译方法为研究主线,就其中的一些关键技术进行研究。作为EBMT的重要组成部分,首先研究了翻译实例库的构建方法,并对搭配翻译实例这一翻译获取中的难点进行专门研究。在此基础上,进一步研究基于实例的翻译模型构建问题。另外,还对输出译文质量自动评价方法进行了探索。具体地讲,本文从如下几个方面进行了研究:  1.研究了翻译实例库的构建方法。提出了浅层句法信息和概率统计模型相结合的翻译实例获取方法。首先,利用浅层句法信息划分源语言和目标语言的翻译单元;然后,在词对齐结果的指导下,确定候选翻译单元(语块)对齐方式,从而降低了语块对齐方式的搜索空间;最后,通过语块对齐概率模型确定源语言和目标语言翻译单元之间的映射关系,从而获取翻译等价单元。该方法一方面,避免了完全句法分析结果不十分可靠的缺点,同时又利用了统计方法的灵活性和通用性。  2.研究了搭配翻译实例的获取。针对翻译知识获取中的难点——搭配翻译实例的获取提出了一种利用单语语料库进行搭配翻译的方法。该方法采用对数线性模型综合利用多种特征信息构建搭配翻译模型,除了搭配内部的翻译概率之外,还进一步引入了上下文信息进行译文消歧,有效地提高了搭配译文的准确率。  3.研究了基于实例的翻译模型构建方法。探讨了如何利用机器学习方法(而不是根据人类以往的直觉和经验)来指导EBMT模型的构建。一方面,形式化地构造高维特征空间以涵盖翻译实例库中所蕴含的各类特征信息;另一方面,通过最大熵模型来试图挖掘各类特征信息对于翻译过程的的贡献以及这些信息之间的相互影响。  4.研究了输出译文质量的自动评价方法。从EBMT的应用角度出发,与现有的面向参考译文的质量自动评价标准不同,本文探讨了如何在支持向量机的回归模式下对人工评价函数和人工评价过程进行拟合,训练过程中充分采集了精确率、召回率、句法属性、语义属性、频率信息以及编辑距离等多层面的信息特征,从而提高了自动评价方法与人工评价方法的相关性。
其他文献
正颌外科手术计划及仿真系统研究的两个关键问题是对人体组织的建模和对外科手术术式的仿真。过去的研究中,对手术术式的仿真研究多围绕人体的骨组织进行,对人体软组织的仿真
可压缩传感理论(Compressed Sensing,CS)是信号处理领域新近发展的一种新框架。它的主要内容是:利用稀疏或可压缩信号的少量且非相干的随机线性投影获得信号的编码,通过一定
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜
随着科学技术的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的
随着XML数据在互联网络上应用的不断增长,越来越多的信息以XML的格式通过网络进行发布和交换。在这些应用中,XML数据以流的形式不断地快速到达,而针对XML数据流上的查询是对
随着信息栅格技术的引入以及各种新技术的应用和新技术体系的建立,未来指挥自动化系统变得更加复杂,系统对设备、软件和环境等更加依赖。因此,为使指挥自动化系统在各种作战环境
随着超大规模集成电路、微电机系统与无线网络技术的发展,一类新型的无线网络平台-无线传感器网络应运而生,该网络可利用传感器节点从感兴趣的区域中采集数据并通过多跳的方式
数据包分类技术是网络管理的基础技术,尤其在网络访问控制以及面向网络业务的Qos控制中发挥着至关重要的作用。目前已有的数据包分类算法面向静态规则算法,其研究目标主要集
遗传算法(GA)是一种模拟自然界生物进化的搜索算法,由于它简单易行、鲁棒性强,尤其是不需要专门的领域知识而仅用适应度函数作评价来指导搜索过程,从而使它的应用范围极为广
本文在自然语言理解技术的理论基础上,根据湖水清污机器人的特点,研究自然语言理解技术在其上的应用。 首先,收集大量的语料对其进行分析并结合现有理论设计系统。命令语句中