多语言互译神经机器翻译系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:scg5252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习技术和神经网络的发展,基于深度学习的神经机器翻译逐渐兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势。在神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程可以由编码器-解码器(Encoder-Decoder)框架实现。在多语言神经机器翻译领域中,目前主流的模型均为多语种数据混合训练的单编码器-解码器模型,这种模型不仅降低了企业训练多个语向的训练成本,同时通过语言间的共性,多资源的语向会弥补低资源语向的劣势;由于只存在一个模型,企业的存储压力也大大减少。为了实现一个多语言互译神经机器翻译系统,并在准确性和实时性达到企业调用标准,本文首先调研了神经机器翻译系统所采用的前沿技术,通过开源方式获取高质量多语言数据,并设计了数据处理流程、模型搭建训练流程以及前端微服务展示流程;针对多语言模型在测试时生成的错误,本文在数据层面针对性优化了多语言数据切词算法,在模型层面优化了隐层空间中不同语种的区分度,使最终实现的多语言翻译系统在准确性方面比肩单语种翻译模型;针对模型在生成阶段延迟较高的问题,本文设计并实现了 cache缓存机制极大降低生成所需时间,使模型在实时性方面也达到毫秒级的生成速度,确保前端调用翻译接口低延迟。
其他文献
我国的移动应用在近年来出现井喷式的增长,这样也导致大量的移动端网页需要手工编写。与此同时,在前后端分离的开发趋势下,前端工程师们开始投入更多的时间和精力去完成业务逻辑设计、数据流转和处理、性能优化、交互体验等方面的工作,而冗余繁琐的网页开发工作仍然占据了工程师们大量的时间,极大地浪费了人力成本。为了解决这一矛盾,本文希望通过开发一个辅助开发系统,实现利用系统自动生成移动端网页代码的效果。在需求分析
近些年来,光频梳因为结构简单、成本低以及易于操作等优点成为光通信系统的理想光源,在微波光子学领域具有广阔的应用场景。为了促进光频梳相关技术进一步发展,追求更优质的光频梳尤为重要。本论文首先从光频梳的产生机制展开研究,主要研究了循环频移产生光频梳的方案中高边模抑制比、梳齿间隔可调谐性和梳齿根数的可控性等问题。然后利用光频梳独特的时间和光谱特性,在频率测量的应用方向上进行了探索性研究,具体展开工作如下