英汉机器翻译中长句分析技术的研究

来源 :沈阳航空航天大学 | 被引量 : 3次 | 上传用户:jinkejinlv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域的一个重要研究方向。在现有英汉机器翻译系统中,长句分析是一个研究难点。随着信息技术的发展,单词量巨大、结构复杂的专利或科技长句已广泛出现在人们的日常工作中。如何对这些长句进行合理且有效的翻译成为现有机器翻译技术亟待解决的难题。本文采用长句切分的方式对英语长句进行分析,以提高英汉机器翻译中长句的翻译质量。为了实现长句的合理切分,本文提出了两种基于规则的算法。第一种算法基于正则匹配,结合句子的词性标注信息来完成长句的切分。首先,通过句子成份的合并达到“减少”句子中单词个数的目的,为后续切分过程提供便利。其次,识别并列子句对句子进行第一次切分,切分的句子包括转折句、因果句、条件句等,这些子句都是相对独立的句子,便于机器翻译系统分别进行处理。最后,识别从句对句子进行第二次切分。从句识别后,长句主干会变得更为简洁,显著简化句子的结构。然而,第一种算法中存在的诸如规则覆盖率低、所用特征少、深度依赖句子词性等缺陷影响了算法的应用,因此本文提出了另一种基于错误驱动的英语长句切分算法。该算法首先合并句子中影响切分的成分和一些简单短语,以减少切分错误的数量;然后利用天然切分点对长句进行初步切分,包括并列句的切分和从句的切分;最后,本文总结了不同的错误情形,并利用大量语言学特征(包括片断长度、片断语法结构等)制定规则,对切分错误进行识别和修正。在NTCIR-9专利语料上的实验证明了两种英语长句切分方法的有效性。为了验证长句切分对机器翻译的作用,本文将切分结果应用于谷歌在线翻译平台,两种切分方法分别使译文的BLEU值提高了4.42%和11.26%。
其他文献
目的:本实验通过研究当归补血汤对缺氧血管内皮细胞及与肿瘤共培养血管内皮细胞增殖的双向调节作用及其可能机制,揭示当归补血汤双向调节不同疾病血管生成的可能机制,为中医药
有限的一节课,一定要抓住课堂教学的实效性的最大化,精选、精讲、精炼是提高课堂教学实效性的有效途径。笔者以记“追寻生命的起源”公开课为例,以考试说明为轴心对历史素材恰到
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
金属有机框架材料(Metal-oganic frameworks,MOF)是一类有有机分子和无机氧化物簇为节点搭建的三位纳米多孔晶体。由于其超丰富的官能团[1],超高的比表面积(~7400m2/g)以及可
学生会是每所高校必有的学生组织,在服务学校、服务师生方面发挥了重要作用。近年来,在高校学生会蓬勃发展的过程中,各种问题也随之而来,学生认可度低、影响力薄弱、凝聚力差
<正>小儿斜视矫正手术一般手术时间短,刺激中等,但操作精细,术中要求患儿安静、无躁动。氯胺酮静脉全麻因具有镇痛效果好,保护性吞咽反射不消失等优点,长期以来广泛应用于小