日汉机器翻译中汉语生成策略和规则系统的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wangle2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域中的一个重要应用。随着国际交流的频繁和互联网的发展,对机器翻译的需求越来越大。目前机器翻译的研究取得了很大进展,但是同人们的期望依然有相当大的差距。同时,机器翻译中对目标语言生成的研究并不充分,这是一个值得继续深入研究的课题。 本文结合一个具体的日汉机器翻译系统,从基于格语法表示的日语分析结果出发,讨论了汉语生成的问题。主要包括以下几方面的内容: 1.分析目标语言生成应该完成的主要工作以及常见的方法,并在此基础上提出了一种转换和生成一体化的汉语生成策略。在该策略中将转换和生成两个过程融合在一起,可以避免错误的累积放大;同时,能够在目标语生成阶段尽力弥补源语言分析的不足。 2.在基于规则的系统中,规则语言的表达能力和可扩充性是系统的核心问题之一。论文分析了规则描述语言的设计原则,并据此改进了系统中所使用的汉语生成规则描述语言,该规则描述语言具有较强的表达能力。 3.以提高规则描述语言的可扩充性(从而使得整个汉语生成子系统可扩充)为目的,提出了一种基于元规则的规则描述语言解释技术,其中使用了一个自动机模型,该模型有较强的表达能力。文中所述的原则和技术也适用于一般的基于规则的自然语言处理系统。 4.分析了论文中所提出的汉语生成策略和规则系统的效果。并探讨了如何在现有的基于规则的系统中加入基于语料库的方法,主要是处理译词选择问题和确立翻译用的格分类。
其他文献
随着Peer-to-peer技术的发展成熟,Internet上的P2P流量比例不断攀升,其对网络的影响也日渐加剧。DHT技术作为P2P技术的研究热点也开始被广泛应用于各种新型业务中,而大量新型
字符自动编针是电脑刺绣系统中一个重要的功能,日常使用非常频繁。TrueType类型的字体是计算机中使用最为广泛的字体类型,因而采用TrueType字体轮廓作为刺绣的轮廓成为字符自动
集群作为一种廉价的高性能计算平台,受到了人们的日益青睐,获得了越来越广泛地应用。集群环境中存在大量的可加以利用的计算资源,如何科学有效地对这些资源加以利用,以充分发挥集
本文在医疗保险相关项目中利用分类挖掘算法,实现了对医疗保险费用分析的决策支持应用,本文在项目应用的基础上主要讨论了以下一些问题: (1)分析了目前某市医疗保险制度运行中
图像处理和识别是实现刺绣CAD编程自动化和智能化的关键技术,也是解决和提高刺绣CAD生产效率的主要手段。因此,目前刺绣CAD系统的图像自动编针成为了世界各国研究的热点。
开发安全的软件需要花费大量的人力物力,如何使开发安全的软件变得更容易是计算机学科的一个基本问题。通过容错、复用等技术手段以及谨慎的系统设计可提高软件的安全性,但是无
随着计算机硬件技术的飞速发展,处理器和相关部件的性能得到了很大的提升。相对便宜的多处理器计算机和支持多处理器的操作系统的出现,开发人员可以利用线程来实现并行处理。而
工程图识别和三维重建是图形识别与 CAD 领域的研究热点,具有重要的理论意义和应用价值。本文总结现有的工程图识别方法及其在处理建筑工程图时的局限性;在此基础上,对建筑工程
软件过程改进是提高软件开发生产率、保证软件产品质量的有效手段之一。常用的软件过程改进方法有:CMM、ISO9000、SPICE等。其中,软件能力成熟度模型(SW-CMM)是被广泛采用的软件
  论文在研究了各类中间件技术的基础上,就图书出版领域常用的几类软件体系结构进行了描述和比较,结合图书出版领域业务系统的特点和需求,构建了一个针对该领域的基于J2EE规范