【摘 要】
:
机器翻译是自然语言处理领域的核心研究方向。随着深度学习技术不断发展,神经机器翻译技术在大规模平行语料、端到端大模型和充足计算资源的共同推动下取得了突破性进展。尽管神经机器翻译模型在标准数据集上表现出优秀性能,但在朝汉神经机器翻译领域仍存在一些亟待解决的问题。本学位论文针对朝汉翻译任务中朝鲜语低资源、曝光偏差、译文多样差三个问题,研究了基于强化学习和质量评估的朝汉神经机器翻译方法。首先,针对朝鲜语资
论文部分内容阅读
机器翻译是自然语言处理领域的核心研究方向。随着深度学习技术不断发展,神经机器翻译技术在大规模平行语料、端到端大模型和充足计算资源的共同推动下取得了突破性进展。尽管神经机器翻译模型在标准数据集上表现出优秀性能,但在朝汉神经机器翻译领域仍存在一些亟待解决的问题。本学位论文针对朝汉翻译任务中朝鲜语低资源、曝光偏差、译文多样差三个问题,研究了基于强化学习和质量评估的朝汉神经机器翻译方法。首先,针对朝鲜语资源匮乏导致译文质量评估困难的现状,提出了基于跨语言预训练模型的质量评估模型。该模型借鉴注意力思想采用一种融合跨语言信息的句子嵌入方法,分别从语言学注意力和词项注意力两方面对跨语言信息进行关注。该方法缓解了朝鲜语小样本带来的质量评估困难,增强了跨语言句子编码的表征能力。其次,针对曝光偏差问题,使用强化学习方法指导翻译模型训练,避免使用主流教师强制的训练策略。在训练过程中神经机器翻译模型作为强化学习的智能体,通过不断与环境进行交互接收奖励,决策出最佳翻译目标句。最后,针对机器翻译译文多样性差的问题,将质量评估模型引入到翻译任务中。在神经机器翻译模型解码的每个时间步,使用质量评估模型对源句和生成译文片段进行评估,并将强化学习奖励函数设置为BLEU值和QE评估得分的组合,使得模型在快速收敛的同时有效增加了翻译多样性。本文提出的翻译质量评估模型与质量评估任务领域的主流模型Qu Est++、Bilingual Expert和Trans Quest相比,皮尔逊相关系数分别提升了0.226、0.156和0.034,斯皮尔曼相关系数分别提升了0.123、0.038和0.026。本文提出的朝汉神经机器翻译模型QR-Transformer与Transformer相比,朝-汉两个语向BLEU值分别提升了9.3和5.63,QE分数分别降低了7.33和5.97。在翻译多样性方面,QR-Transformer与经典beam-search模型相比,P-BLEU值最多下降了14.47。实验结果表明,本文提出的翻译质量评估模型和朝汉神经机器翻译模型有效提升了对应任务的性能,在朝鲜语低资源、曝光偏差和译文多样性方面均做出了显著改善。
其他文献
回指(anaphora)的加工过程受到语义、句法、语用等多种因素的影响。约束原则A(Chomsky,1986)认为反身代词在管辖语域内受约束,但中文反身代词“自己”可在动词语义影响下回指远距离主语(如“A觉得B背叛了自己”中,“自己”与“A”而不是与“B”共指)。相较于回指近距离主语,该过程存在额外的加工过程,消耗更多的认知资源,在事件相关电位上引起更大的P300和P600反应。手语是基于视空间模
融入“可持续发展”理念的汉语写作课教学设计顺应“全球胜任力”人才培养趋势,将联合国“可持续发展”理念融入到汉语作为第二语言写作课教学中。论文以对外汉语专业本科二年级的留学生为教学对象,采取逆向设计方法,围绕环境、贫困、平等和教育四个主题开展写作课教学设计。以期通过丰富、有意义、有趣味性的输入改善写作课现状,并在训练学生写作能力的同时,通过写的交流培养学习者的可持续发展意识。论文分为六章。第一章介绍
复合动趋式一直是汉语教学的难点,尤其是在复合动趋式与宾语组合时的语序问题(VOC1C2、VC1OC2、VC1C2O)上,国际学生存在较多偏误。本文结合该结构的离合特征和“最小对比对”的描写方法,选取“V出来/去”“V进来/去”进行偏误研究。通过统计BCC语料库和全球中介语语料库发现,该结构在分布上存在显著差异,VC1C2O成为汉语二语学习者的热门选择,然而在这一结构的使用上错误率>正确率,其原因是
本文从实际教学经历中遇到的研究问题——如何解答西班牙语母语初学者关于名词后汉语复数标记“们”的提问出发,以调查研究的方式从特征重组角度探讨了西班牙语母语者对名词后汉语复数标记“们”的习得情况,以此为根据来寻求教学中遇到的问题的答案。文章主要分为以下内容:首先本文在前人的相关研究基础之上总结了当前学界对特征重组研究范式的讨论成果,结合汉语本体研究对“们”的各家看法、西语复数标记研究、汉西复数标记对比
如今互联网技术高度发达,“互联网+教育”的理念给传统教学模式带来了冲击和挑战。在汉语教学领域,线上教学也在不断地实践发展。目前,将多模态话语分析理论应用在线上教学的研究较少,因此需要系统地厘清线上汉语课程的模态使用和搭配情况,以便为教学实践提供参考。本文以上海外国语大学本科一年级“汉语精读”课程为研究对象,该课程采用了在线同步异步混合式教学模式。结合前人研究与线上教学特点,我们制定了线上教学模态表
语言测评素养对外语教师而言是指运用适当的测评方法检验学习效果、解读水平信息、反馈和改善语言教学的能力。教师语言测评素养研究一般围绕语言测评素养的构念界定、现状调查和发展路径展开。国内外学者对外语教师测评素养的测量、调查以及分析的实证研究已有一定成果。在国际汉语教学方面,对教师语言测评素养的研究则比较欠缺。本研究立足后疫情时代中国高校国际汉语教师发展需要,通过调查和访谈,探索教师测评素养的情况及其提
本文首先对汉阿语言方位词“上”进行了综述,然后以现代汉语“上”的功能和用法为依托,详细描写了汉阿两种语言“上”的语义和句法功能,通过从两者方位意义、隐喻意义和引申意义三个方面对比发现,从方位义来说,汉语的“上”可以同时包含分离、接触和包容三种位置关系,而阿语则要用三个词来分别对应这三种方位关系。然而,同一语境中,不同阿拉伯国家的人也会选择不同的介词。在表示空间方位时,“上”一般位于NP的后面,构成
趋向动词“起来”一直是研究的热点。但目前,趋向动词“起来”与日语中相关表达的对比研究还不够具体深入。现有研究基本上都是在偏误探源的部分,会结合日语来说明母语负迁移的影响而已,重点都不在汉日语言的对比上。此外,由于这些研究的语料基本选自语料库、留学生作业或者调查问卷,能够加以对比分析的语料较为缺乏。所以,这就导致现有有关趋向动词“起来”与日语中相关表达的对比研究都是点到为止而不够全面深入的,这不利于
口语课是训练口语交际能力的语言技能课,口语教材是教学的依托,而课文是口语表达的示范,对教学的进行和效果有着直接影响。现有文献中对专项进行口语教材课文的研究较少。选取了《新目标汉语口语课本》(2、3)、《发展汉语初级口语》(2)和《体验汉语口语教程》(3)中的课文为研究对象,通过教材考察和学生调查,希望对口语教材课文的编写及相关教学提供一定的参考。我们从交际角色、人物设置、话题、课文情景、交际场所、