面向机器翻译的英语功能名词短语识别研究

被引量 : 11次 | 上传用户:supermilk009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英语名词短语识别在机器翻译中有着重要的作用。现有英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。本文提出一种英语功能短语及其自动识别方法,以消除英汉机器翻译中的名词短语结构歧义。基于名词短语在小句中的功能语法来确定名词短语的边界,这样的名词短语在本文中称为功能名词短语。研究工作主要包括英汉机器翻译中的名词短语结构歧义问题分析、英文词性自动标注和英文短语识别等研究。本文构建了一个小规模的商务领域英汉双语平行语料库作为研究语料,包含20万英文词和27万汉字。(1)英汉机器翻译中的名词短语结构歧义问题。基于忠实度与流畅度合并的机器翻译人功能评价方法,对SYSTRAN和GOOGLE机译系统的英汉机器翻译结果进行评测,分析了机器翻译中的词义歧义和句法歧义问题;在此基础上,归纳了机器翻译中名词短语的结构歧义问题。研究表明,不论是词义歧义问题还是句法歧义问题,都与名词短语的识别和理解有很大的关系。其中,N1+prep+N2是引起歧义的最典型的表层结构,这种表层结构容易引起的歧义主要体现在:与动词构成固定搭配的名词歧义问题;小品词引起的歧义问题;“介词+名词”作后置定语的歧义问题;以及“介词+名词”作状语的歧义问题等四种名词短语结构歧义。(2)研究面向英汉机器翻译的英语词性标注。研究了一个应用于机器翻译的英语词性标注系统,为功能名词短语的识别研究提供词性知识。在预实验的基础上,对宾州树库标注集进行细化和改进,形成了本文的词性标注集。依据此标注集,采用最大熵模型结合语言规则的方法进行了标注词性。实验结果表明,开放测试的精确率达到98.14%,未登录词的精确率为85.65%。(3)研究英语功能名词短语识别。本文识别了名词短语的边界和句法功能。首先依据系统功能语法,归纳了功能名词短语在小句中的功能,形成了本文的功能块标注集;其次选择了条件随机域模型结合语义信息和规则的方法进行了名词短语识别。为检验本文的词性标注集在功能名词短语识别中的作用,在开放测试中还选择了斯坦福标注器作为比较。实验结果表明,结合金标准词性实验的F值达到了89.04%。此外,使用本文的词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。
其他文献
进入21世纪以来,中国的造船业得到了飞速的发展,在2010年上半年,坐上了造船业世界第一的宝座,但中国的造船第一只是相对于完工船舶数量、载重吨的指标来说,从单船价格、单船
所谓分布式驱动电动汽车就是由一组或多组车载动力源,为每个车轮的驱动电机提供电源,这样将单独可控的驱动系统分布到各个车轮上的电动汽车。分布式驱动电动汽车作为新兴的汽车
<正>翼状肩胛(winged scapula)是一种比较少见的疾病,常导致上肢功能受限或紊乱,影响患肢上举、提拉、外展以及推重物的能力,影响患者的日常生活,如穿衣、梳头、刷牙等。形成
<正>快餐消费在欧洲持续增长,目前使用的黑色塑料包装会影响废物处理器对可回收材料的激光识别,因此急需新的可持续解决方案。Huhtamaki公司与S?dra、Saladworks公司共同合作
程钜夫从至元十三年(1276)起入仕元廷,延祐三年(1316)致仕回乡,在他四十年的馆阁宦履生涯中,他一直尽力消除北方统治者对南方的猜忌与防嫌,为南人争取入仕机会,弭平南北隔阂
传统信用文化已经与社会的现代化不能完全相适应,所谓儒学重建或复兴传统诚信文化虽然有着重大的文化复兴的意义,但却不能有效解决今天所有的信用问题;其二、在中国信用文化
近年来,湖南省宁乡县国土资源局党风廉政建设坚持“标本兼治、综合治理、惩防并举、注重预防”方针,促进工作作风转变,为宁乡国土资源管理事业提供了有力的政治保障。
文章对我国载人航天器工艺需求进行了分析,对载人航天器现存的薄壁结构残余应力控制与消除技术、载人密封结构高可靠低应力焊接技术、碳纤维复合材料应用技术等工艺瓶颈进行
随着人们生活质量的提高,居民的寿命得到了普遍延长,老年痴呆发病的人数也不断增加。流行病学和动物实验研究均发现,大气颗粒物与阿尔茨海默病(Alzheimer′s disease,AD)的发
<正>一、专题征集2015年,《中国教师》每期关注一个专题,聚焦教育领域的热点和重大问题。现将2015年关注的专题公布如下,欢迎广大作者踊跃投稿,也欢迎自设专题、自组稿件。1.