【摘 要】
:
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer。首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题。实验表明,QR-Transformer有效提升了中
【基金项目】
:
国家语委“十三五”科研资助项目(YB135-76),延边大学外国语言文学一流学科建设项目(18YLPY13)。
论文部分内容阅读
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer。首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题。实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.
其他文献
随着计算机网络技术的飞速发展,新型攻击手段层出不穷,而传统的静态被动防御手段难以有效应对。端信息跳变是一项网络动态防御技术,能够主动防御网络攻击,保护重要网络节点。该技术借鉴跳频通信技术的思想,通过伪随机地改变通信双方或一方的端信息,隐藏重要节点,增加攻击者的攻击难度和攻击成本,干扰甚至破环攻击者的攻击,实现网络主动防御。首先进行了端信息跳变技术研究现状的调查,按照跳变项进行分类并分析了优缺点。然
含负项高效用项集(HUI)挖掘是新兴的数据挖掘任务之一。为了挖掘满足用户需求的含负项HUI结果集,提出了含负项top-k高效用项集(THN)挖掘算法。为了提升THN算法的时空性能,提出了自动提升最小效用阈值的策略,并采用模式增长方法进行深度优先搜索;使用重新定义的子树效用和重新定义的本地效用修剪搜索空间;使用事务合并技术和数据集投影技术解决多次扫描数据库的问题;为了提高效用计数的速度,使用效用数组
在全球定位、移动通信技术迅速发展的背景下涌现出了海量的时空轨迹数据,这些数据是对移动对象在时空环境下的移动模式和行为特征的真实写照,蕴含了丰富的信息,这些信息对于城市规划、交通管理、服务推荐、位置预测等领域具有重要的应用价值,而时空轨迹数据在这些领域的应用通常需要通过对时空轨迹数据进行序列模式挖掘才能得以实现。时空轨迹序列模式挖掘旨在从时空轨迹数据集中找出频繁出现的序列模式,例如:位置模式(频繁轨
特征选择能够有效提升数据分类的性能。为了进一步提升蚁群优化(ACO)在特征选择上的求解能力,提出一种结合头脑风暴优化的混合蚁群优化(ABO)算法。该算法利用信息交流档案维护历史较好解,并通过基于松弛因子的时间最久优先方法动态更新档案。当ACO的全局最优解多次未更新时,采用基于Fuch混沌映射方法的路径-想法转换算子将档案中的路径解转换为想法解,并将其作为初始种群,通过头脑风暴优化(BSO)在更广阔
针对三维空间飞行器复杂飞行任务的路径规划,提出一种建立磁导率连续过渡带模型的人工磁场建模的路径规划方法。用该方法建立飞行区域障碍物模型、兴趣区域模型、飞行高度限定模型;采用有限元分析法解算飞行区域各个点磁场方向;通过逐点迭代方法生成路径。仿真结果表明,该算法在路径平滑性能、兴趣区域搜索性能和避险性能上比传统SIMPLEC分别提高了4.6%、3.1%、21.01%,比人工势场法分别提高了4.3%、4
为了减小低照度图像在图像预处理过程中所造成的影响,提出一种HSV空间的基于巴特沃斯低通滤波(BLPF)的改进Retinex算法。把低照度图像从RGB各通道转换到HSV各通道,对饱和度分量进行自适应线性拉伸,对亮度分量进行基于BLPF的改进Retinex增强,不仅有效地降低噪声的干扰,在增强图像暗区亮度的同时抑制局部高亮区的"光晕",而且凸显图像细节,还原图像原有的色彩。通过大量测试,验证了该方法的
针对传统AdaBoost算法的基分类器线性组合效率低以及过适应的问题,提出了一种基于基分类器系数与多样性的改进算法——WD AdaBoost。首先,根据基分类器的错误率与样本权重的分布状态,给出新的基分类器系数求解方法,以提高基分类器的组合效率;其次,在基分类器的选择策略上,WD AdaBoost算法引入双误度量以增加基分类器间的多样性。在五个来自不同实际应用领域的数据集上,与传统AdaBoost
针对机器故障下的柔性作业车间重调度问题,提出了一种改进的帝国竞争算法(ICA)。首先,以最大完工时间、机器能耗和总延迟时间为目标函数建立柔性作业车间动态重调度模型,并对三个目标采用线性加权法;然后提出了改进的ICA来把优良的信息保留到下一代,即在传统ICA的同化和革命步骤后加入一个轮盘赌的选择机制,使初始帝国中的优秀基因得以保留,并且更新后的帝国质量更优,更加贴近最优解;最后,在机器发生故障后,采
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情