面向汉藏辅助翻译的短语对齐方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:baoma123ertswe_ss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。构建平行语料库的关键技术之一就是对齐。平行语料的对齐不仅能够获取一些语言知识,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。   双语短语对齐是当今辅助机器翻译和双语信息检索研究的热点和难点问题。对于“短语”一词,自然语言处理领域并没有统一的界定。一般有两种理解:其一、具有一定结构和层次的语言结构单位;这种短语需要利用句法分析技术进行识别。其二、句子中连续的词串就是短语,不要求有结构和层次关系,它所涵盖的范围更广。本文中基本名词短语(Base Noun Phrase,以下简称BaseNP)有较简单的内部结构关系,其它的“短语”都属于后者,也只是连续的词串而已。本文以平行语料库对齐技术在融合多种策略的汉藏机器辅助翻译中的应用为背景,主要研究汉语短语识别,汉藏短语对齐,汉藏BaseNP对齐等翻译词典构建中的关键问题:   (1)提出汉藏短语对齐框架。本文先分析汉语和其他语言之间短语对齐技术,结合藏文特点提出汉藏短语自动/半自动对齐方法。目前而言,藏文自然语言处理研究进展相对滞后,藏文的基础资源库以及相应信息处理工具的匮乏,导致广泛应用的已有双语短语对齐技术无法直接应用到汉藏短语对齐工作中,或者对齐效果不理想。因此,我们以汉藏句子对齐语料为基础,提出先识别汉语短语,再利用释义词典、共现概率、双语词语对齐和上下文搭配差异等等信息为汉语短语确定对应的藏文短语。   (2)在汉语短语识别阶段,我们把它大致分抽取候选短语和过滤短语边界两部分。为了能够找出尽可能多的汉语短语,在抽取候选短语过程中,把简单的词串频统计方法和基于搭配度的汉语短语获取方法组合着用。在边界高频干扰词项过滤模块中结合应用统计方法和语言规则,提高了汉语短语的正确率。   (3)在汉藏短语对齐阶段,提出基于词对齐的汉藏短语对齐和低频短语译文获取模型。传统短语对齐方法在汉藏双语语料中的效果很不理想,针对汉藏语料所存在的问题及藏文形态特征,提出关联度和藏文句法形式标记相结合的汉藏短语对齐模型,有效提高了短语对齐性能。它因为放宽了双语短语定义的严格条件,在松弛尺度的策略下能够获得更多汉藏短语翻译等价单位。并针对汉藏句子对齐语料中数据稀疏问题,提出了藏文词序列相交短语译文获取模型,有效解决了低频短语自动对齐问题。   (4)在汉藏BaseNP对齐阶段,我们参考英汉短语对齐的方法,针对藏文语言的特殊性,利用汉藏句子对齐语料先识别出汉语的BaseNP,再根据词对齐或藏文词序列相交计算结果等信息生成藏文BaseNP的候选并做一些后续处理获得正确的藏文基本名词短语,从而达到汉藏BaseNP的对齐。这部分工作的重点是提出了基于中心语块扩展的汉藏基本名词短语对齐方法。其中,获取藏文BaseNP包括藏文中心语块的确定和扩展中心语块两个主要步骤。在藏文中心语块确定过程中,用Dic&WA方法和基于词序列相交的方法;在扩展中心语块过程中,定义了扩展可信度来确定BaseNP的统计边界。在没有藏文标注语料、藏文树库和词性标注器的前提下,汉藏BaseNP对齐获得了令人满意的效果。同时,此BaseNP对齐框架对汉藏动词短语对齐任务有借鉴意义。   本文对提出的所有方法和算法都进行了实验验证,对其性能进行了比较与分析。实验结果表明,本文提出的方法充分考虑了构建汉藏翻译词典工作中的正确率和召回率之间的平衡问题,能够有效节省后续人工校正工作量,很好地辅助于汉藏翻译词典构建工作。  
其他文献
从二十世纪五十年代用户界面出现至今,用户界面的发展经历了三次演变:批处理界面、命令行界面和WIMP(Window,Icon,Menu,Pointing Device)界面。由于WIMP界面与以前的界面风格相比
目前全国各高校均已建成基于Web的校园信息发布平台、教务信息管理平台。教师和学生可以很方便的基于这些平台收发通知、学习网络课程,管理课程等,但是在考试、出卷、试卷分析
元数据,作为描述数据的数据,是机群文件系统的重要组成部分。元数据服务的高可用对于降低元数据服务器异常宕机对正常应用的影响具有十分重要的意义。然而,现有的典型机群文件系
Web服务是松散耦合的,可复用的软件模块,是一种在XML基础上发展起来的分布式计算技术,是一种新的网络服务,其目的是为在Internet上不同操作系统、硬件平台和编程语言间集成应用软
随着多媒体技术的发展和移动数码设备的普及,图像渐渐地成为了人们获取信息和传播信息的主要载体。目前大部分数字图像的采集方式都是基于以香农-那奎斯特采样定理为基础的信
随着互联网的迅猛发展,出现了大量带有层次标签的数据,如网页和网页对应的目录结构、产品描述和对应的目录、以及名词解释和对应的层次结构等。对于这类带有层次标签的数据,如何
安卓手机从2008面世以来一路迅猛发展。目前全球约有50亿部手机,其中android系统智能机约占30%。巨大的用户市场带来了安卓应用的繁荣,也增加了手机电量的消耗。移动设备的电池
随着人们生活水平的不断提高,健康问题越来越受到人们的关注。日常生活行为量表可以作为一个评估标准用来对生活能力进行评定,便于尽早发现潜在疾病,保护人体健康。因此,对日常生
随着软件工程的发展,模块化的重要性也逐渐体现出来。OSGI平台提供了一种基于构件的软件开发模式,用户可以通过使用平台上已有的构件来创建自己的应用,OSGI构件的可热插拔特
随着卫星通信技术的飞速发展和应用领域不断扩大,在轨运行的通信卫星数量不断增加,因设备故障、操作不当或者非法盗用、恶意攻击转发器造成的卫星业务干扰事件持续发生,卫星干扰