汉英平行语料库中名词短语对齐算法的研究

来源 :中国科学院软件研究所 | 被引量 : 14次 | 上传用户:xiuluoyanyu1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。 在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。 本文以平行语料库及其对齐技术在基于实例的机器翻译和机器辅助翻译中的应用为背景,讨论了《大规模汉英平行语料库》的建设,包括语料的采集、编码、句子对齐和语料库索引等问题。然后介绍了使用规则和统计相结合的方法进行汉英名词短语对齐的研究。对齐算法利用英语的句法分析器进行英语名词短语识别,采用句法模式规则过滤汉语名词短语候选集,最后通过基于共现频率的相似度计算来选取最佳配对。算法有效地克服了单纯利用规则和双语词典的方法的一些不足,提高了准确率。
其他文献
PDM是Product Data Management(产品数据管理)的缩写,它是依托IT技术实现企业最优化管理的有效方法,是科学的管理框架与企业现实问题相结合的产物,是计算机技术与企业文化相结合的一种产品。PDM在企业的信息集成过程中起到一个集成“框架(Framework)”的作用。PDM涉及的领域很广,它可以管理各种与产品相关的信息,包括电子文档、数据文件以及数据库记录,可触及现代企业的每个角
在当今世界经济环境下,市场竞争日益激烈,制造企业面对巨大的竞争压力.为在激烈的市场竞争中占有一席之地,许多制造企业通过企业信息化和流程改造等手段,以求增强企业实力.企
数字权限管理DRM(Digital Rights Management)就是利用先进的信息技术,在提供数字化和网络化信息服务的同时,有效地阻止对这些信息的非法使用和拷贝,以达到保护数字知识产品知识产
本文所介绍的内容是如何把嵌入式Linux应用于GPS行业终端设备中。所谓GPS行业终端,在功能上可以简单的描述为GPS+PDA+手机。也就是说这样的系统在GPS功能上含有一套完整的GPS
乐观公平交换协议是一类典型的安全协议,用于在两个或多个主体之间安全、高效地进行电子交易。与其它安全协议相比,乐观公平交换协议在结构上较为复杂,从而更容易存在安全缺
由于环境污染和石油资源日益短缺的压力,为实施可持续发展战略,混合动力汽车已成为21世纪汽车工业的发展方向.尽管电动汽车是解决这类问题的最好方式,然而在蓄电池没有取得突
  本文的研究目标就是从数据集合中挖掘出基于距离的例外集合。  首先,对传统例外算法做了研究,根据需要挖掘的实际数据的情况,我们选择了基于距离的例外挖掘方法。提出了改
信息咨询的口语对话系统是当前对话系统研究的热点,对话管理是对话系统的核心技术之一。本文在对话管理的基础理论、具体方法和实际应用等方面都进行了深入的研究和积极的实践
为了保障贵州省公安信息网的良性运行,信息网络安全成了迫切需要解决的问题.为此本文对以下几个方面进行了分析和说明:公安信息网是以TCP/IP协议为基础的Intranet网,主要提供
计算机通信技术、微电子技术的发展推动了信息革命,网络化、数字化成为它的技术特点.信息化把人们带进了高速度、多媒体、智能化、个人化、全球一体的信息环境,使人们跨入数