【摘 要】
:
命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越重要。在机器翻译领域,双语翻译词典是重要的翻译资源,但是传统的基于词典的方法很难提供大量的,实时的术语的
论文部分内容阅读
命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越重要。在机器翻译领域,双语翻译词典是重要的翻译资源,但是传统的基于词典的方法很难提供大量的,实时的术语的翻译。为了取得足够好的翻译质量,前人提出了一系列自动抽取双语翻译对的方法,但早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理未登录词等问题。随着互联网的飞速发展,越来越多的双语甚至多语页面大量出现,这些页面语种不同但是表达的内容却大致相同,搜集这些页面就可形成当前比较流行的“可比较语料”。基于互联网的可比较语料包含的双语翻译对覆盖面非常广泛,从这种语料中抽取双语翻译对己成为当今信息抽取领域里的一个研究热点。本文提出的从大规模网页中抽取双语翻译对的方法是基于可比较语料的。首先从大规模的可比较语料中抽取符合匹配模式的插入语候选项,然后从得到的插入语候选项中抽取候选互译对,再利用IBM翻译模型的词对齐模型得到正确的双语三元组,从而得到最终的翻译对。实验结果显示,运用本文提出方法实现的系统,得到的翻译元组的准确率能达到95.6%。此外,本文针对IBM词对齐模型的一些缺陷,利用基于对齐语料和启发知识的词对齐技术让翻译元组的抽取的准确率最终提高到96.7%,该结果表明对齐的双语语料和可比较双语语料在研究上存在互补作用。通过本文介绍的方法,可比较语料可以补充转化为平行语料,为自然语言处理提供更多的研究资源。
其他文献
最近几年来,无线局域网技术发展非常迅速。由于它具有很多传统有线网络所不可比拟的优点,例如组网灵活、布线容易、支持移动接入、价格便宜等等,现在已经广泛应用于各个领域之中
随着社会经济的发展和科学技术的进步,我国的人口计划生育家庭奖励及帮扶工作也实现了数字化、网络化管理,很大程度上减少了人工操作的繁琐性和易出错性。然而,随着业务需求的不
粒计算是人工智能领域新兴起的一个研究方向,是一种新的处理数据的方法和范式。该方法主要用于处理不确定的、模糊的、不精确的、部分真的和海量的信息,其基本思想是利用不同
量子遗传算法是将量子计算与遗传算法相结合的一种新的优化方法,具有重要的研究价值和实用价值。量子遗传算法全局寻优能力强,但局部寻优能力较差。针对这一问题,本文对量子
由于复杂的网络坏境,多跳无线网络面临的多径衰落效应非常强烈,严重地影响了无线信号的传输,需要采用有效的抗衰落手段来增强无线网络的传输质量。协作通信因能克服信道衰落、提
Voronoi图作为空间离散划分的基本几何结构单元,是计算几何领域重要的研究方向之一。Voronoi图因其垂直平分的特性,特别适用于利用有限体积法求解如液体间流动、热传导等具有某
随着网络、通信技术的不断发展,我国高等院校普遍建立了自己的校园网络,特别是随着我国在科技人才的培养和教育资源方面的深度投入,数字化校园的建设日渐成为各大高校的主流
随着工业现代化和互联网信息化进程的不断推进,精准快速有效的信息搜索技术在机械产品变型设计中显得特别重要。资料数据统计显示,在三维CAD新产品开发设计中,约40%是直接重
Internet上数据量急剧膨胀使其成为企业竞争情报获取的重要来源,然而如何从这个信息海洋中找到企业所需要的情报成为困扰企业竞争情报获取的难题。商业信息抽取作为解决这一