基于括号转录语法和依存语法的统计机器翻译研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:wmwanll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于句法的统计机器翻译近年来逐渐成为统计机器翻译的研究热点.基于句法的模型有助于解决基于短语的模型所面临的主要问题,如短语层次上的重排序,泛化能力弱,以及要求短语连续等问题.语言学意义上基于句法的模型,还可以将源语言端、目标语言端的语言学知识引入到翻译模型中,从而极大地改善译文的质量. 本文在基于句法的统计机器翻译框架下,针对短语模型的主要问题,在括号转录语法的基础上提出了基于最大熵的括号转录语法模型,在依存语法的基础上提出了依存treelet-string对应模型.为了支持基于依存语法模型的研究,本文在统计汉语句法分析方面也进行了深入的研究.在以上三个方面,取得了以下主要成果:1.多知识源驱动的统计汉语句法分析句法分析的准确度和速度对于基于句法的统计机器翻译来说至关重要.在提高句法分析准确度方面,本文采用多种策略,将树库内部和外部的知识融合到统计句法分析模型中.首先改造了中心词映射表,并对一些短语进行重标注,从而充分利用了树库内部的词汇知识和语法知识.其次构建了一个单词.类的选择偏向模型,将树库外部的语义知识引入到句法分析中,使句法分析F1值提高了0.9﹪,错误率下降了4.4﹪.进一步的错误分析表明语义知识在复合名词短语,并列结构以及名/动词性标注消歧方面都有很大作用.在提高句法分析速度方面,本文定义了两种估计量来近似估计边的外向概率:先验估计量和边界估计量.由这两种估计量构成的组合估计量使句法分析器在性能不变的情况下,速度提高了1.5倍.2.基于最大熵括号转录语法模型的统计机器翻译针对括号转录语法(BTG)模型没有提供一个机制来确定相邻语块顺序的缺陷,本文提出了基于最大熵的括号转录语法(Maximum Entropy Based BTG,下文简称为MEBTG)模型.该模型将BTG中预测相邻语块顺序问题看作是一个分类问题,从而引入最大熵分类器,构建最大熵重排序模型.本文提出了重排序实例抽取算法,同时将双语语块的边界单词作为最大熵的分类特征.总体上来说,最大熵重排序模型相对于其它重排序模型,如距离惩罚模型,先验概率模型,词汇化模型,具有诸多优点.它是基于特征的,因而具有一定的泛化能力;它是和内容相关的,并且采用判别式训练,因而充分利用了训练语料库中的信息;同时它也是层次化的,在一定程度上能够处理远距离重排序.本文在.MEBTG模型基础上实现了一个实际的翻译系统Bruin,系统的核心模块解码器是基于CYK算法设计的.实验表明,最大熵重排序模型显著地提高了系统的BLEU值.在大规模语料上,Bruin系统引进了一些新技术,性能获得了极大提高.这些技术包括建立双语言模型,以及引入重排序窗口和标点符号来限制重排序等.3.基于依存treelet-string对应模型的统计机器翻译为了将语言学知识集成到翻译模型中,本文提出了一个新的基于依存语法的模型:依存treelet-string对应(DTSC)模型.该模型将源语言的依存结构树映射到目标语言的串上.DTSC模型具有很强的灵活性和表达能力.它能够描述多层树结构,具有泛化能力,可以处理与中心词相关的不同结构的重排序问题,通过引入变量和间隔允许源语言目标语言两端的短语非连续,最后它可以与短语模型充分兼容.本文给出了DTSC的抽取算法,以及DTSC模型与N-gram语言模型的融合方法.为DTSC模型设计了Chart风格的解码器算法,在算法中引入了两种基本操作:替换和粘接.在DTSC模型的基础上本文实现了一个翻译系统Mo-tse,给出了Mo-tse与Bruin的对比实验,以及译文结果分析.
其他文献
随着软件技术的飞速发展,软件产品的应用越来越广泛。软件产品的版权保护问题逐渐成为人们普遍关心的问题。软件水印技术作为软件产品版权保护的一种重要手段,已成为学术界研
随着信息技术的飞速发展,浏览器技术得到了不断创新。但是不同浏览器之间所带来的网页兼容性问题也变得愈发突出,网页兼容性问题已经成为制约开源软件发展的瓶颈。目前几乎所
随着高校数字化校园建设的不断深入,信息化应用系统日益膨胀,信息化环境日益复杂,各种系统的开发和投入应用在数字化校园建设中的问题也不断暴露出来,如:信息“孤岛”现象严重;各应
于位置信息的能量驱动的头结点轮换机制,取得了兼顾聚类的能量与地理分布的轮换机制。   (2)提出了一种支持优先级的节点接入协议,使用二维Markov模型分析了协议的饱和吞吐量
学位
随着信息和互联网技术的广泛应用,信息化为制造业的持续发展提供了再生力量,网络化制造将成为制造业的发展方向,这使得信息安全成为企业信息化过程亟待解决的问题。密码技术
水文监测系统主要是对水情信息进行采集并能够实时传输水情信息编码的系统。当前水文监测系统通信方式有多种选择,通信方式上存在着各自的缺点。此外,虽然水情信息具有标准编码
教学及教学质量是学校的中心工作。学校的发展与改革要以服务人才培养、服务教学为中心和目标。 数据挖掘是运用现代人工智能的方法对数据库中庞大的数据进行分析、提取有
随着各企事业单位信息化工作的开展,这些单位都建有若干应用系统。由于时间跨度较大和缺乏统一建设规划,这些应用系统的开发及运行平台、数据结构等很可能是异构的,加上这些
随着网络购物已经被广大消费者所接受并广泛应用,电子商务也以新的面孔被更多地了解与应用。在因特网开放的网络环境下,B2B电子商务网站是一种基于浏览器/服务器的新型电子商
学位
无线自组织网络是由无线移动节点自组织而成的无固定基础设施的多跳无线网络。基于信任评估的信任管理系统可以通过对特定节点的监控识别恶意节点,尤其是内部攻击节点,将之驱出
学位