汉英机器翻译若干关键问题的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:loganhuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译系统具有巨大的社会效益和经济效益,并且随着中国经济的迅速发展和国力的不断增强,汉语正在成为一种新的强势语言而被世人瞩目,因此汉英机器翻译的研究显得越来越重要。本文主要研究汉英机器翻译中的两个关键问题:时态处理问题和汉语句群划分问题。汉英机器翻译系统需要处理时态的问题,否则会影响翻译结果的准确度和流利度。此外,目前基于统计的机器翻译方法占据主导地位,由于时态处理还可以降低统计数据的稀疏性,统计机器翻译系统更迫切需要时态处理。   本文提出了一种新的用于解决层次性问题的统计机器学习方法--马尔科夫树标注模型。该模型的思想是:选择问题的特征并将问题表达成结点充满特征的树,而后对该树所有结点进行自动标注获取树的最佳标注;此模型最大特点是从整体上考虑最佳标注。本文提出的树最佳标注算法,能从整体上获取最佳标注,且具有多项式复杂度。马尔科夫树标注模型是解决层次性问题的一种通用的机器学习方法,为解决具有层次性的问题提供一种新的思路和途径,具有一定的理论意义和较广泛的应用前景。运用马尔科夫树标注模型在不完全时态树上进行时态标注,取得良好的效果。与目前最好的时态处理算法相比,该方法的准确率提高8%左右。基于马尔科夫树标注模型的时态处理算法能较好地解决汉英机器翻译中的时态处理问题,这在机器翻译研究领域,具有一定的创新价值。汉英机器翻译还需要语篇的处理。目前尚无在句群层次上的词汇消歧、冠词、代词、时态、省略的处理,而汉语句群自动划分问题的解决是这些处理的前提。已有的句群自动划分算法均是处理单重句群,本文首次探讨了多重句群划分的问题,并提出了一种基于层次聚类的多重句群自动划分算法。在该句群划分算法中需要抽取语篇的关键词,为此本文提出了关键词的局部重现度的概念。关键词在语篇的局部上下文中经常会重复出现,而常用词汇往往分散在整个语篇中,关键词的局部重现度是这种语言学现象的有效表达方式,其值与关键词的频度无关,而与主题词在语篇中出现的位置有关,是一种新颖、有效的方法。局部重现度作为关键词抽取的一个重要特征,可以广泛应用在自动摘要、信息检索、词典构建、机器翻译、数字图书馆等应用领域。
其他文献
图论最早源于著名的哥尼斯堡七桥问题,已有两百多年的发展史.图的染色理论起源于四色问题,是图论研究中最重要的课题之一.在自然科学、社会科学领域都有重要的应用.在本论文中,
根据相关实验和实践应用证明,主蒸汽后期地层次生水体会使火驱燃烧带峰值温度变低,同时,使热前缘波及的范围不断增大,并且在干式注气过程中,与湿式燃烧有着相同的机理。本文就主蒸
自2009年Buckdahn,Djehiche,Li和Peng[1]率先引入平均场倒向随机微分方程(简记为,MFBSDEs),这类方程就倍受关注。他们研究了MFBSDEs和相应偏微分方程(简记为,PDEs)粘性解的关系。
地震波形反演因其具有广泛的应用背景和潜在的巨大经济效益,近年来一直是理论和应用研究的热点和焦点。开展实用、可靠的波形反演方法研究具有十分重要的理论意义和现实意义
网络的普及,使得人们检索到感兴趣的图像变得更加困难,需要有专门的技术来实现,这就是图像检索技术。图像检索技术是信息检索的一种。图像检索的技术有两类:基于文本的图像检
近年来,信息聚合理论在应用方面取得了举世瞩目的成功。它的理论和方法在医学、经济、管理和军事等诸多领域中得到了广泛的应用。在信息聚合理论中,国内外的众多学者提出了各种
在充填料浆的输送过程中,充填管路接头起着至关重要的作用。某煤矿超高水材料充填开采过程中,前期使用的混合管与充填软管的简易接头因其诸多缺陷,在工作过程中易被堵塞。为
本文考虑各向异性薛定谔方程问题{-ε2div(A(x)▽u)+u+V(x)u=|u|p-1u,x∈RN,u→0,|x|→∞,解的存在性。其中,当N=1,2时,p>1,当N≥3时,1<p<N+2/N-2,A(x)是对称矩阵,其元素有界可测。  
本文从城市规模和经济密度两个视角,结合江苏省13个地级市市辖区的统计数据,通过检验城市规模、经济密度对城市生产率的估计值大小,来判断江苏省城市化经济效应是否存在及作用强
本文研究了几类中立型不确定时滞系统的保成本控制问题。实际系统中,存在着时滞现象和各种各样的不确定性,从而可能导致系统的不稳定。因此在控制系统中,需要设计一个优质的控制