面向统计机器翻译的汉维词对齐性能提高的方法研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:q_yong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词对齐技术是统计机器翻译中的翻译模型和调序模型的基础,这表明了词对齐技术是统计机器翻译系统中最重要部分。同时,词对齐技术在自然语言处理领域发挥着重要作用。例如双语语料库的建设、语音识别和信息检索等。如果错误出现在词对齐阶段,那它将会在这些模型中将错误延续下去,由于未解决词对齐阶段中的错误,这将导致模型中出现更多错误。目前,汉英词对齐技术的研究起步较早而且取得了不错的成果,然而汉维词对齐技术的研究起步较晚,因此汉维词对齐还面临着语料较少而且语料会有部分对齐错误的问题;同时由于维语的形态结构非常的丰富和复杂,这给汉维词对齐带来了非常严重的数据稀疏问题;另外,在实验过程中我们发现汉维词对齐中存在命名实体和非命名实体错误对齐的问题。本文针对以上问题,主要研究内容包括:(1)本文将基于困惑度的训练语料过滤方法应用于汉维双语词对齐语料库的预处理。通过删除严重错误的双语句对,获得更好的汉维双语语料库。困惑度可以在单词对齐阶段中删除具有严重错误的双语句对,从而提高单词对齐性能。本文通过汉维双语对齐句的困惑度过滤训练语料库,比较不同的困惑度对汉维词对齐效果的影响。实验表明,该方法在困惑度阈值小于12时,汉维词对齐的性能得到有效提升。(2)本文引入了基于形态切分的算法实现汉维词对齐语料预处理。在对维语名词和动词切分的基础上加入对维语形容词的切分,切分能获得包含更多语义信息的维语句子,这样可以在一定程度上可以解决数据稀疏性的问题,从而提高汉维词对齐的性能。(3)一种基于对双语命名实体进行识别来提高汉维词对齐性能的方法。首先,通过CRF方法对双语中的命名实体进行识别;然后,用双语语言标记的命名实体替换,然后在替换后的双语语料上进行汉维双语词对齐的实验;最后,再将实验结果中标记替换的命名实体恢复。该方法实现了汉维词对齐性能的提高。
其他文献
滴滴出行是一个规模巨大的网约车出行互联网公司,如何把握市场变化来扩大公司运营规模,获取用户第一意愿是非常重要的。原本各业务部门的问卷调研方式都是自行维护,用户都是独自分开的,同一时段不同部门下发不同调研任务,会存在对同一用户下发多个调研信息的情况,造成用户反感。并且由于调研数据的不互通,无法有效的对调研整体情况进行分析优化。调研问卷系统应运而生,将所有的用户调研归于一处,为整个公司提供调研服务。被
从数学的角度来研究实际问题,往往对实际的问题进行抽象化建立数学模型,然后利用数学方法来解决。本文针对具有捕获因素以及外来物种入侵的生物系统,通过建立广义生物经济数
数学建模的教与学是世界范围内一个重要研究领域,概率建模和数学建模在研究目标、研究理论、实践和策略方面有共同点和相似之处。以往数学建模所涉及的模型大都是确定性数学的模型,比如,小学的路程—时间—速度模型、植树模型,初高中的各类函数模型,很少涉及到非确定性数学的模型,比如,概率模型,尤其是小学,几乎见不到概率模型,也很少对儿童概率建模的教与学以及儿童在解决概率建模问题时所使用的方法,即概率建模认知策略
本文主要研究下述具有结构阻尼的可伸缩梁方程的长时间行为:其中α ∈[1,2),特别地,当α = 1时,p*=pα = pα’.其中Ω是RN中具有光滑边界(?)Ω的有界域,g(x)是外力项,f(u)是
内燃机自问世以来,给人们的生活和生产模式带来了翻天覆地的变化。随着工业化的推进和人们不断提高的物质生活水平,对内燃机各项工作指标的考验也越来越严苛,满足诸多指标基本要求一直是可靠性要求。连杆小头轴承-活塞销是柴油机中典型的摆转摩擦副,采用飞溅润滑方式,是受载环境最恶劣的运动副之一,其表面润滑状况直接影响发动机整体的可靠性。因此针对摆转运动副的润滑机制和影响规律的研究,对发动机摆转副的设计和提高柴油
随着人类对宇宙空间的不断探索,各类探测器海量的数据传回地面。空间光通信技术凭借大带宽、高速率和保密性好的优点得到越来越多的研究。脉冲位置调制(Pulse Position Modul
截至2019年,我国国家级传统村落数量已达6819个,其中广义上地处山地丘陵地区的国家级传统村落约为5601个,占总数量的82.13%。山地型传统村落因其数量多,分布地域广,蕴藏着最具体系的实用价值与文化价值。辽西北与皖西南地区山地传统村落资源高度聚集,是我国东北与东华东地区山地型村落的代表,本文针对两地山地传统村落空间形态进行研究,探寻山地传统村落的村落营建逻辑体系,以期为两地及盈千累万同类型传
本案例以费尔南德斯总统在关于阿根廷新型冠状病毒情况的演讲为例,在本研究中,笔者将对西汉交替传译中出现的非流利现象进行分析。首先,根据前人的文献和笔者自身的实践经验,笔者对口译中的非流利下定义,并给出本案例中非流利的主要两大分类,即停顿和修正。其次,笔者围绕具体案例,总结分析非流利现象出现的原因为:长难句听辨困难、背景知识不足、提取恰当表达过慢、不良语言习惯。最后,本文将给出解决口译中非流利问题可能
可满足性问题是一个寿命很长且经典的数学问题,SAT问题一般被称为命题逻辑的可满足性问题。确定性算法和非确定性算法是解决SAT问题的两种算法,为布尔表达式分配适当的逻辑值可以使公式为True,则称该公式是可满足的。根据给定的公式就可以检测出布尔可满足性问题是否可满足。在计算机的各个领域这个决策问题都至关重要,包括计算机科学,算法,密码学,人工智能和复杂性理论。建模这种方法适用于大多数的可满足性问题,
农产品全程质量安全监管是一项复杂的社会经济系统工程,运用大系统控制论的方法,按照农产品质量安全监管的总目标要求以及其相关环境,从农产品生产端的供给侧开展研究,期望通