【摘 要】
:
近年来,深度学习在各个领域获得突破性进展,而通过深度学习对机器翻译任务建模的神经机器翻译方法成为诸多学者研究的对象,并且在性能上逐渐超越统计机器翻译,成为机器翻译研究和实际应用的主流范式。但是,神经机器翻译的性能极大程度地依赖双语平行数据的规模和质量,这导致神经机器翻译在诸多低资源语言的翻译任务中无法获得良好的性能。在实际的训练过程中,最明显的问题就是因为训练数据不足导致的过拟合和泛化能力不足,并
论文部分内容阅读
近年来,深度学习在各个领域获得突破性进展,而通过深度学习对机器翻译任务建模的神经机器翻译方法成为诸多学者研究的对象,并且在性能上逐渐超越统计机器翻译,成为机器翻译研究和实际应用的主流范式。但是,神经机器翻译的性能极大程度地依赖双语平行数据的规模和质量,这导致神经机器翻译在诸多低资源语言的翻译任务中无法获得良好的性能。在实际的训练过程中,最明显的问题就是因为训练数据不足导致的过拟合和泛化能力不足,并且相比于统计机器翻译,神经机器翻译对不规范输入中的噪声特别敏感,容易造成系统的翻译错误,使得神经机器翻译在实际应用过程中存在困难。为了使翻译模型具备良好的泛化能力和针对噪声的稳定性,可以通过正则化策略在训练翻译模型的基础上增加额外的规则限制,这些限制能够起到筛选模型的作用,从而获得具备期望特性的翻译模型。因此本文的研究内容就是在神经机器翻译中合理地应用正则化方法,改善神经机器翻译在低资源场景的应用问题。本文针对神经机器翻译的三个方面进行了研究和探索,分别是神经机器翻译的子词序列化过程、训练数据和训练方式。(1)神经机器翻译的子词序列化是将双语平行文本的单词序列转换成子词序列的过程,相比于单词序列翻译关系的建模,子词序列的学习能够更好地平衡词表大小和未登录单词问题,并且模型对罕见单词具备更好的泛化能力,因此,子词序列化是目前神经机器翻译的常规操作。现在常用的子词序列化算法都将文本的单词序列转换成唯一确定的子词序列供神经机器翻译模型学习,但是同一词表下,单词的子词序列并不唯一,这意味着模型忽略了单词的其他可能子词分割方案。在模型训练过程中,考虑对单词的更多子词序列是子词序列正则化的核心思想。子词序列正则化将子词序列的不确定性作为噪声能够增强模型的鲁棒性,并且促进模型对单词子词的学习,同时也使得模型训练和测试存在差异。为此,提出了基于对比学习一致性约束的子词序列正则化方法,通过在语义层面的一致性对齐和模型在诸多不同序列输入条件下模型输出的一致性约束更好地促进模型对单词多子词分割方案的学习,提高模型鲁棒性的同时拉近模型训练和测试的差距。实验结果表明,相比于现有的子词序列正则化方法,该方法能够获得更多的性能提升,并且对于噪声的适应性能更加出色。(2)神经机器翻译的训练数据是决定系统性能的重要基础,低资源应用场景中,训练数据的不足难以使得模型充分训练,即使在有限的训练数据中获得较好的性能,但是面对训练过程中从未见过的输入系统难以获得理想的结果。为此提出针对神经机器翻译的词级别正则化方法缓解过拟合问题,其词级别正则化过程能够针对源语言句子和目标语言句子中的单词灵活地注入连续或者离散的噪声,从而增加源语言句子的多样性的同时抑制模型对目标语言句子的过度学习,此外,为了消除噪声对模型性能的负面影响,引入对抗学习目标进行多任务训练,提高模型对句子语义信息的捕获能力。通过实验也证明了神经机器翻译词级别正则化方法能够有效防止模型出现过拟合。(3)神经机器翻译的常规训练方法是在训练数据集上优化Transformer模型每一层参数的一次性训练过程,但是在低资源语言的训练中,逐层的众多参数难以得到训练,同时存在众多冗余参数,这些未得到充分训练的参数意味着模型测试过程中存在极大地不确定性,严重影响翻译系统的结果。为此提出神经机器翻译渐进剪枝正则化方法,将堆叠的Transformer子层结构分组得到底层网络组和高层网络组,在底层网络组训练结束后复制得到高层网络组继续训练,每次迭代训练的过程对参数结构进行约束,促进参数结构稀疏的同时将不确定性高的参数视为冗余参数进行剪枝,保留核心参数,从而实现更加紧凑的翻译模型。最后实验验证神经机器翻译的渐进剪枝正则化方法能够有效地提升模型在低资源场景下的翻译性能。
其他文献
元学习作为近年来机器学习领域提出的一种新范式,旨在从多个任务中学习经验,从而更快更好地适应于新任务。作为元学习的重要应用场景,小样本学习旨在研究样本稀少情况下学习算法的泛化性问题。目前,研究者们已提出众多有效的元学习算法,使得小样本分类任务的准确性得到提升。然而,我们发现这些算法仍然存在待解决的问题,比如样本数据的复杂性、噪声数据或模型假设所引起的不确定性问题,阻碍了现有模型的进一步提升。针对上述
语义角色标注(Semantic Role Labeling,SRL),又称为浅层语义分析,其目标是识别句子的谓语论元结构,包括句子中的所有谓词,以及谓词相关的论元。首先,为了解决多领域SRL数据集匮乏的问题,本文人工标注了一个较大规模的多来源多领域汉语SRL数据集,进而开展了跨领域SRL方法探索。考虑到语义和句法的紧密联系,本文的另一个重点是如何在跨领域SRL模型中有效地使用句法信息。本文尝试了两
近年来,我国的交通系统飞速发展,各类交通工具不仅丰富了人们的出行选择,也拉近了人们的地理空间距离。与此同时,城市的交通拥堵现象日益严重,不仅增加了人们的通勤成本,还容易导致特大安全事件的发生。为了缓解交通拥堵带来的各种影响,城市路况的精准预测显得尤为重要。其中,交通流预测旨在分析交通流的历史规律,从而推演未来的交通演化情况。本文将重点研究交通流预测技术的发展,分析现有研究方法的优势与不足,并提出针
随着金融交易市场的迅速发展,互联网金融和移动金融逐渐成为投资交易的新型金融业务模式,这给投资者带来了极大便利的同时,也使得金融市场的交易数据呈爆炸式增长。在金融资产的交易过程中,订单流的限价指令信息形成了限价指令簿。投资者能够利用限价指令簿来预测金融资产的价格趋势,并根据预测的结果进行交易决策。目前,限价指令簿趋势预测的主流方法是深度学习方法,其中大部分方法只采用限价指令簿的事实信息,少量方法会兼
场景图生成任务是对图像理解的一种结构化表示形式,这种表示形式不仅可以为基本的目标识别任务提供上下文线索,还可以为更广泛的高级视觉任务提供价值,应用前景十分广泛。针对模型中的单峰偏置问题和数据集中的数据偏置问题,论文首先研究模型单峰偏置缓解,通过引入协同策略来缓解单峰偏置,并基于提出的场景图生成模型展开数据偏置缓解的研究,重点研究了奖惩策略下和类平衡策略下的场景图生成方法。主要工作内容如下:(1)针
捆绑销售旨在向用户推荐捆绑的商品包,具有着重要的营销价值。互联网技术的浪潮推动了对捆绑销售场景的研究,根据不同的捆绑销售场景,将推荐任务划分为商品包推荐、合购者推荐和多任务推荐,并在图神经网络的框架下,推进对这三个推荐任务的研究。主要内容有:(1)针对向用户推荐捆绑商品包的问题,本文提出了模型IHBR。模型根据用户的对捆绑商品的购买意图探究了商品之间的共购、共现关系,使用自注意机制学习商品依赖性,
随着智能移动设备的发展和普及,各种基于位置的服务提供商不断涌现,为用户提供丰富多彩的服务,比如查找最近的餐馆、规划出行路线等。路网最短路径及其距离查询作为各种服务最核心、最高频的操作,它的计算效率极大地影响着服务质量和用户体验。现有的最短路径及其距离查询算法,没有充分挖掘、利用查询和路径的时空信息,算法计算效率不能满足实际应用需求。本文在分析现有工作不足的基础上,深入研究路网最短路径及其距离查询算
抽象语义表示(Abstract Meaning Representation,AMR)是一种新型的句子级语义表示方法,它将句子的语义表示为一个单根有向无环图。AMR文本生成(AMR-to-text Generation)任务的目标是获取与给定AMR图具有同样语义的句子。随着神经网络在自然语言生成领域中的兴起,序列到序列模型在AMR文本生成任务中也取得了很好的性能。本文围绕基于序列到序列Transf
缺陷检测是工业生产过程中把控出厂产品质量的关键步骤,实现自动化缺陷检测对促进“智”造业发展有着重要意义。近年来,深度学习算法被广泛应用于缺陷检测领域并取得了不错的检测效果,但现有的相关研究大多仅针对某特定的检测场景,且对运行检测程序的设备性能要求较高,不具备良好的可迁移性和推广价值。文中通过总结缺陷检测应用场景的共性,使用基于神经网络的机器视觉方法设计并实现了一个可迁移、高适配的缺陷检测应用框架,
自动文本摘要技术一直是自然语言处理中的热点与难点。近年来,针对新闻文本的摘要生成研究较多,且已日趋成熟。相比于具有较固定结构的新闻文本,还有一些长文本具有复杂的文本结构,如专利、剧本等。由于这些文本的摘要研究不多,使用传统文本摘要方法生成的摘要存在着内容不准确、覆盖不全面等问题。以往的大量研究主要集中在对语义信息等序列化信息的使用上,而相关研究表明文本结构信息对于摘要的生成同样具有较大的作用。本文