汉英名实体词对齐技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zane35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语名实词对齐为基础的应用日益增多。除了在机器翻译方面的应用的之外,双语名实体词对齐在术语提取、信息检索、翻译词典编纂、自然语言生成也有着重要的用途。据统计现有词典资源上查不到的名词,大部分是名实体,包括一些专业术语,因为这部分词汇更新较快。因此名词尤其是名实体的双语对应显得更为重要。由于传统的词对齐算法对于名实体词对齐得不到一个满意的结果,本文在原有的词对齐算法基础上探索了几种名实体词对齐的方法。并从对齐结果中自动抽取对译片断对构造对译片断库,应用到已有的EBMT系统中进行翻译结果评价。本文从以下几个方面进行了研究:1.本文运用在句法分析方面取得成功的基于转换的错误驱动算法建立了一个汉英名实体词对齐的自学习系统。在建立了一个拥有3592句手工对齐的语料库之后,通过自学习系统获取了大量规则,这些规则的获取方法不仅简单易行,更在应用于汉英名实体词对齐中取得了很高的正确率。2.针对英汉双语语料库规模不足的现状,本文将引入网络搜索频率数的方法。首先将双语句对中未被对齐的双语名实体作为关键词构造为查询条件,自动送入搜索引擎,然后对查询结果通过相关处理,获得可靠的名实体词对齐对。实验表明,该方法显著的提高了双语名实体词对齐的召回率。从实验结果可以看出两种方法的优缺点在一定程度上存在较强的互补性。因此,基于混合策略的名实体词对齐方法能够充分利用现有资源,有利于提高名实体词对齐的质量,是一种有效的名实体词对齐方案。3.在前面两章中,本文研究了双语语料库的名实体词对齐词技术,其目的正是为了能够更好地从双语语料库中自动获取高质量的翻译知识。翻译知识的质量将直接影响到翻译结果的好坏。本节通过对这些词对齐工具产生的翻译片断和翻译片断产生的翻译结果来评价词对齐工具的整体性能。通过对翻译结果的评价,验证了前面得到的对齐结果的有效性,也侧面反映了算法的优越性。
其他文献
链接分析是社会网络分析中非常重要的一类问题,关于社会网络的众多工作都是希望从网络中挖掘到更多的知识,包括节点的信息、链接的信息、网络社区的信息等等。链接分析则是对
本文所研究的说话人分割与聚类技术是语音识别领域中一个较为新兴的研究方向。该技术主要是针对含有多个说话人的对话型语音,例如含有两个人的电话录音、包含多个人的会议录音
作为一种服务化的网络制造新模式,云制造为制造业由生产型向服务型转变和升级带来了新的思路,通过对现有制造资源进行整合来实现资源的快速共享与高效利用。随着云制造技术的普
随着因特网应用的发展,XML成为数据描述和数据交换的标准,因此大量的XML文档出现在网络应用中。对于这种情况,XML数据的有效存储和XML数据的快速查询,成为当前急需解决的问题。针
随着近年来Web Service的蓬勃发展, XML ( extensible markup language)越来越多地活跃在数据交换和存储领域,用XML表示的半结构化数据得到越来越普遍的应用,XML已经成为Inte
政府、企业等机构都纷纷建立了自己的内部局域网,网络建设已经成为提升企事业单位工作效率和核心竞争力的关键因素之一。在网络规模不断增大的同时,因为以错误的方式或为达到
本文要研究的共享讨论班级系统是根据目前德州学院的现状需要提出的一个可以实现文本、语音即时通信的基于JXTA对等网络平台架构的讨论平台。德州学院计算机系的教师们在科研
近年来新蠕虫层出不穷,危害越来越大,其造成的危害程度远远超过传统的病毒,已有的防病毒技术对蠕虫并不适用,而对蠕虫的专门研究相对滞后。网络蠕虫之所以难于控制主要是由于Inte
多线索技术正在成为处理器设计领域的主流技术。传统多线索技术具有隐藏指令延迟的功能,并行多线索技术在此基础上,继承了超标量处理器多取指、多发射、推测式执行、乱序执行等
随着网络技术的飞速发展,大型报业集团对整个出版流程的管理和控制迫切需要一个协同工作的环境,因此提出了多人实时协同组版的要求。此项课题的研究,将极大提高报社、杂志社的工