基于上下文建模的篇章级神经机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wyingying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章级神经机器翻译(Document-level Neural Machine Translation,DNMT)通过神经网络将一种语言的篇章翻译成另一种语言,并且译文需要符合篇章表述逻辑。然而,大多数翻译系统均以句子为翻译单元,忽略了篇章中各个句子间的内在联系。针对此问题,本文提出有效的篇章级神经机器翻译模型,通过融入源端和目标端篇章上下文中有效的信息,来辅助当前句的翻译,从而提升机器翻译性能。本文主要从以下几个方面展开篇章级机器翻译研究:(1)融合目标端上下文信息的篇章级神经机器翻译。目前,大多数篇章级神经机器翻译方法利用源端篇章的上下文,而忽略了目标端篇章上下文的重要性。在此背景下,本文提出了融合目标端上下文信息的篇章神经机器翻译。具体地,本文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果。实验结果表明,在引入较少的参数量的条件下,该方法能够显著提高翻译性能。同时,随着第一次翻译(即句子级译文)质量的提升,本文所使用的方法也更有效。(2)基于多视角注意力的篇章级神经机器翻译。序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果,但直接翻译长文本时,却很难达到较好的翻译效果。本文首先分析了 Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后据此提出了多视角注意力机制,主动地关注序列内各种内容,让一部分注意力头关注当前句,另一部分注意力头关注篇章信息。实验结果表明,本文方法简单有效,在不增加任何参数的情况下,能有效提升篇章神经机器翻译性能。(3)融合源端篇章主题信息的篇章级神经机器翻译。自然语言中存在着大量的一词多义的现象,不同的语境下,同一单词所表达的含义可能不同。针对这一现象,本文提出了融合源端篇章主题信息的篇章神经机器翻译,将主题模型提取的源端篇章主题信息同当前句的表示进行融合。实验结果表明,本文方法能有效提升神经机器翻译性能;同时,本文分析了篇章主题信息和前人所提出的篇章翻译模型所提取的篇章信息之间的互补性,实验结果表明,两种方式所提取的篇章信息相似度比较高,但仍能一定程度上提升模型翻译性能。
其他文献
近年来我国经济社会飞速发展,国内社会较以往发生很大的变化,新生问题越发复杂,网格化管理正是在这种背景下应运而出。网格化管理借助智能化手段实现了社会治理的现代化,打破了传统政府管理职能的边界,畅通了各细分场域的信息和资源壁垒,以其精准性、便捷性、高效性,构建了社会治理的创新体系,迅速席卷全国,在不同地区、不同领域产生了许多先进典型实践实例。本文主要针对网格化管理模式在基层乡镇的具体实施和执行,依照新
学位
高能量密度,高功率密度的电化学储能系统是推动社会发展的重要技术,尤其在便携式电子设备和电动汽车等新兴产业中。在电化学储能装置中,锂离子电池因其能量密度高,循环寿命长,价格便宜以及绿色环保而受到越来越多的重视。提高锂离子电池能量/功率密度的研究重点是研发高容量正极材料。LiNiO2正极材料以及其衍生物因具有理论高比容量、高工作电压以及低成本引起了广泛的研究兴趣。然而,LiNiO2材料本身存在显著的缺
学位
炭黑具备良好的耐光热稳定性、抗静电性、抗紫外性,是纺织行业良好的着色剂。为积极响应“双碳”目标,炭黑水性分散体系的使用愈发广泛。具有高表面能炭黑原生粒径小,不具备完全疏水或亲水的性质,这就为防止炭黑重新团聚提出了严格的要求。本文采用分散剂直接分散法研磨分散炭黑,以制备具有良好分散性能的炭黑分散液。首先,研究了市售的三种不同分散剂制备的炭黑分散液的性能,通过探究炭黑分散剂各组分的添加量对炭黑分散液中
学位
随着人工智能的发展,互联网医疗等概念被提出。将中医与人工智能结合起来,充分利用深度学习的优势,扩大中医的应用场景(如辅助诊疗、疾病风险评估、远程会诊等)成为当前的研究热点。本文就如何将深度学习算法应用到中医辅助诊疗任务中做深入研究。本文的任务是中药推荐。中药推荐是中医在人工智能背景下的主要任务。通过分析病人症状并结合辨证论治等相关理论,给出精准药方,辅助中医师临床诊疗,具有重要的应用意义。基于这一
学位
在当前中国城市建设提倡重视城市风貌特色、关注高品质发展的背景下,很多传统街区已经逐渐打造成体验型传统商业街区,深受游客青睐,但随着经济的不断发展,识别其所包含的地域性风貌特征,有着重要意义。传统商业街区保留着古城的记忆,而街区界面则被认为是识别古城特色风貌的有效途径,通过研究发现,游客虽然是作为传统街区片区风貌商业化趋势的潜在影响者,但同时他们也是街区界面信息最直接的感知者。通过视觉感知的方式识别
学位
事件抽取是自然语言处理中的一个重要的工作,用于抽取文本中的结构化信息。事件论元抽取作为事件抽取的子任务,旨在识别出文本中与事件相关的实体和其对应的角色类别,不仅能获取事件中的重要信息,而且在舆情监测、对话系统和事理图谱构建等领域有着重要的意义。目前,现有的句子级中文事件论元抽取研究通常只考虑句子内部的信息,忽略了其他层面的信息(比如篇章信息、标签信息、实体信息等)。在实际场景中,句子级信息往往难以
学位
由于空气组成成分多、含量波动较大,严重影响着分类结果的准确率,因此为了增加空气质量分类预测的可靠性,提出了粒子群(Particle Swarm Optimization,PSO)优化支持向量机(Support VectorMachin,SVM)算法的分类方法。此方法首先通过迭代寻优的方式在全局搜寻最优粒子作为支持向量机的运行参数,之后通过训练集数据进行机器学习建立了支持向量机多分类模型,最后将测试
期刊
随着人民对美好生活需求的日益增长,政府坚持以人为本,推动“放管服”改革,加快建设让人民满意的服务型政府,政府治理领域的问题慢慢凸显,而购买公共服务作为政府治理方式的新发展,有助于提高服务质量的同时,又有助于政府职能的转变。本文主要选取无锡市公民为研究对象,对政府购买公共服务中公众参与的方向展开研究。本论文的主要研究方式为文献研究法、调查问卷法、访谈法等,在梁溪(市中心区域,经济发展好)、锡山(发展
学位
有机硅材料性能优异,得以在各个领域广泛应用。具有不同取代基的聚硅氧烷成膜性优异,由此可提供不同的表面性质。由聚硅氧烷构筑具有高比表面积的纳米和微米尺度的物理结构,可强化聚硅氧烷的表面性质,由此可获得超浸润性和快速响应性表面。本论文以不同种类的硅烷单体,在纤维/织物表面以液相法原位生成不同形貌的微纳结构,研究了织物表面结构与性能关系,由此探讨了改性织物的潜在功能性。本文开展的主要工作及所得结论包括以
学位
现如今,随着人类社会的发展和工业的进步,由于人类活动而排放了大量的重金属污染的到水体中,如不加以解决,必将危害人类自己。角蛋白作为一种生物材料,具有储量丰富、简单易得、绿色无污染和可再生的优点。角蛋白上含有氨基、羧基和羟基等活性位点,可以作为一种生物吸附材料来使用,但由于这些活性位点不够丰富和可及性差,所表现出来的吸附性能有限。本文采用接枝改性法,在角蛋白表面接枝大量氨基,用以提高角蛋白的吸附性能
学位