【摘 要】
:
机器翻译是一项无需人工参与且可实现自动化翻译的自然语言处理任务,属于自然语言处理的重要研究领域。近年来移动互联网的迅速发展为机器翻译研究提供了广阔的应用空间。机器翻译方法也从早期基于规则与统计的机器翻译发展到如今依托神经网络模型端到端的方法。目前低资源语言的机器翻译在数据方面多是利用单语数据、辅助语言以及多模态数据改善翻译效果,在模型方面利用过参数化的模型提升神经机器翻译的性能。本学位论文针对神经
论文部分内容阅读
机器翻译是一项无需人工参与且可实现自动化翻译的自然语言处理任务,属于自然语言处理的重要研究领域。近年来移动互联网的迅速发展为机器翻译研究提供了广阔的应用空间。机器翻译方法也从早期基于规则与统计的机器翻译发展到如今依托神经网络模型端到端的方法。目前低资源语言的机器翻译在数据方面多是利用单语数据、辅助语言以及多模态数据改善翻译效果,在模型方面利用过参数化的模型提升神经机器翻译的性能。本学位论文针对神经机器翻译的词语切分和低资源语言中存在数据量不足导致的过拟合问题,在翻译模型中融入朝鲜语语义结构先验知识,提出了基于多粒度文本表征的朝汉神经机器翻译方法。首先,本文对传统朝鲜语处理单位在机器翻译、标题生成与文本分类任务中进行评测与分析,包括语节粒度、词素粒度和音节粒度。然后对朝鲜语进行结构化分析与构造,提出结合朝鲜语语言结构并与机器翻译相适应的朝鲜语文本处理单位,即子语节与子词素粒度。在三个下游任务中,所提出的子词素与子语节粒度表现优异,其中子词素粒度在机器翻译、标题生成任务中由于增加语言知识划分,生成效果最好,证实增加了基于语言知识划分的边界信息后有利于模型训练,子语节粒度相较于其他粒度更具有宏观结构信息,是带来类内差异的主要原因。其次,提出了多头多粒度注意力结构,在目前机器翻译的主流范式中融入语言学结构信息,使用语言学先验结构知识指导翻译模型的构建。目前在低资源的机器翻译任务中存在模型过拟合问题,即数据量不足,增加该结构后,可利用朝鲜语丰富的形态变化为句子表示引入先验结构化偏置,从而减轻在小规模数据上的过拟合问题。最后,使用粒度感知掩码方法,改进多头多粒度注意力结构。粒度感知掩码方法将捕获到的多粒度信息进行掩码,该过程可以引导模型学习不同粒度之间的关系,增强了模型对于序列中不同粒度划分的结构信息,强化了粒度间的差异性。这一改进利用源语言的语言结构信息改善机器翻译模型的性能,增强朝鲜语句法和语义信息的建模能力。在朝汉平行语料库中实验结果表明,所提出的子词素处理单位使用16K的词典即可达到较高的译文水平。在融合多粒度信息后的朝汉神经机器翻译模型BLEU值达到了22.68,较基线模型BLEU值提高了1.15,在此基础上增加了粒度感知掩码方法后BLEU值达到了22.71,较基线模型BLEU值提高了1.18。实验结果表明,本文提出的方法优于其他粒度融合方法的模型,能够改善朝汉神经机器翻译模型的性能。
其他文献
<正>兔子有一对圆圆的红眼睛,就像两颗红宝石。一天早晨,兔子在去摘果子的路上遇到了小猪。小猪看见她后立刻大声叫道:"兔子,你的眼睛怎么是红的呀?"兔子说:"我爸爸妈妈的眼睛也都是红色的呀。"小猪吃惊地说:"那……你们不会都得了红眼病吧!"兔子不信,继续朝前走。接下来的一路上,兔子又遇到了小鸟、小狗、小牛和松鼠,大家都认为她生病了。
在控制系统中滤除输入信号中的噪声获取信号的导数一直被视为是一个重要话题。早期通过差分法来获取输入信号的导数,虽然差分法操作方便易于实现,但其在进行差分估计时会放大输入信号中的噪声。并且采样周期越小噪声放大效果越显著。若将该信号引入到控制系统中无疑会降低系统的控制精度。随着研究的不断深入,利用滤波器来处理噪声信号被普遍认为是一种切实可行的方法。线性滤波器因其结构简单计算成本低常被作为处理噪声信号的首
为确保延边稻区水稻生产达到优质和高产两个重要目标,本研究以吉林省优质粳稻品种吉粳302、吉粳515、吉粳88为研究对象,在吉林省延边州龙井试验地进行了不同播期试验,设置3个播期,分别为ST1(4月10日)、ST2(4月22日)、ST3(5月4日),主要探究不同播期对三个品种籽粒灌浆动态、淀粉分支酶活性(SBE)、稻米品质、产量及产量构成的影响。其结果如下:1.随播期的推迟,各品种出苗-抽穗阶段(营
自高丽睿宗时期始,至朝鲜世宗时期的两朝东北面疆界的变革,历经三百多年、两朝二十三代王的东北面经营最终于世宗时期完成了以图们江为界的形态。而在这个过程之中,朝鲜王朝世宗时期重臣金宗瑞起到了至关重要的作用,他写给世宗的《论筑行城四镇便否疏》是高丽至朝鲜世宗时期之前,两朝面对东北面疆界问题的一个总结以及对于下阶段疆界政策的一个规划。通过对于该上疏的分析,可以梳理出疆界意识演变的脉络,对于东北面疆界的认识
随着养殖业的发展,弥勒县域畜禽养殖规模不断扩大,养殖过程中各种因素导致的畜禽死亡时有发生,由于病死畜禽无害化处理机制体系尚未健全完善,部分养殖场(户)通过焚烧、深埋等方式自行处理病死畜禽,甚至存在随地丢弃病死畜禽的现象。若不能正确做好病死畜禽无害化处理工作,将会对畜禽疾病防控、人民生命财产安全及生态环境等造成不良影响,不利于养殖业的健康发展。该文主要结合实际工作经验,分析病死畜禽无害化处理的存在困
7075是铝合金的一种常用合金,具有质轻、高强度、韧性好、结构紧密及耐腐蚀性强的优点,被广泛应用于航空航天精密零部件、汽车外形与重要部件制造等领域。7075铝合金在切削过程中,因高强度物理性质,导致加工过程中机床主轴振动异常、切削力大、粘刀、振刀、刀具磨损和加工表面质量不易保证等因素影响,为弥补7075铝加工工艺参数研究中的不足,对其进行工艺参数优化研究意义非凡。基于此,本文以7075铝合金数控铣
随着互联网的普及和多媒体技术的发展,数字漫画作品逐渐占据了漫画产业的主流地位,盗版漫画作品随之出现。数字漫画作品的侵权行为主要体现于文本和图像两方面,然而目前并没有相关技术手段对数字漫画作品的文本侵权行为进行识别和认证。因此本学位论文在现有文本版权识别研究的基础上,提出了基于漫画人物语言特征的内部版权识别和外部版权识别方法。首先,针对漫画语料不足的问题,构建了漫画原语料与盗版漫画语料,并命名为MH
近年来,我国多次出现上市公司因高溢价并购引发巨额商誉减值的暴雷事件,给公司乃至整个资本市场带来严重影响。并购重组作为公司重大事项,其结果很大程度上取决于高管决策,而不论是出于自利动机还是受限于专业程度,往往都会导致高管在决策时形成过高的商誉,进而诱发后续的商誉减值。因此,公司需要通过有效的治理机制,对管理层权利进行监督制衡。其中,董事会作为公司治理的核心,在负责战略谋划和决策制定的同时,也负责对高
目前,对于我国的经济发展和保障民生来说,电力行业是必不可少的,近年来,我国出台了大量管理政策深刻地影响着整个电力系统。随着电力体制改革不断深化,能源产业向低碳化、清洁化、多元化转型的发展态势势不可挡,日益凸显,高质量发展也成为我国“十四五”时期各行各业发展特征的关键词,电力行业面临着经济社会发展和保障民生提出的更高要求和更高期望。本研究以LKHD发电公司的发展战略为研究主题。首先明确了 LKHD发
随着互联网技术的发展以及各大视频平台的崛起,动画作品的影响力日益扩大。近年来中国的动画行业发展迅猛,动画产业链逐步形成。2021年国产动画的发行量、累计观看人数和观看时长再创新高。动画是一种综合的艺术表达方式,它涵盖了文学、音乐、绘画、电影等各个方面,制作难度非常高。一部好的动画作品通常能产生很大的经济价值。然而屡屡出现的侵权现象成为了影响我国动画行业健康发展的绊脚石。目前针对数字动画作品的版权保