面向生物医学领域的神经机器翻译领域适应方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chenhaun0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在拥有大规模平行语料库的通用领域,神经机器翻译往往表现出色。然而,一些特定领域如生物医学、军事外交等专业性强的平行语料库规模比较有限,直接使用这些低资源领域的平行语料库来训练神经机器翻译模型,翻译效果往往不够理想。随着智慧医疗的发展,为了更好地挖掘和利用国际生物医学文献及相关成果,研究生物医学领域的中英神经机器翻译的领域适应方法,利用通用领域的知识来改进生物医学领域神经机器翻译模型的训练效果,有效减少模型对生物医学领域数据的依赖,具有重要意义。目前主流的领域适应方法是在大规模域外平行数据集上训练预训练模型,然后再基于目标领域的域内小规模平行数据集进行模型的微调,但模型的预训练过程非常消耗训练资源和时间,域外数据集质量对预训练模型效果有很大影响,而且基于小规模平行数据集的微调容易导致模型的过拟合。针对这些问题,本文基于Transformer构建生物医学神经机器翻译模型,在预训练过程中引入逐步微调的训练方式来高效训练域外数据集,并提出了动态数据增强的训练方法来提升微调模型的训练效果。本文首先基于文本分类进行快速数据选择,形成域外大规模领域相关性排序数据集,基于该数据集通过逐步微调形式的预训练生成预训练模型,然后基于微调模型或预训练模型进行进一步的动态数据增强训练。在多个数据集上的实验结果表明,相比常规的领域适应训练方法,本文引入的逐步微调方式的预训练和所提出的动态数据增强训练方法有效缩短了训练时间,并且有效提升了翻译效果,其中预训练时长相比常规预训练时长可缩短28%到39%,相比常规的领域适应模型,在多个测试集上的BLEU分数可提升0.4到0.9分。由于生物医学领域专业术语较多,中文分词工具在处理专业文本时经常会产生分词歧义和分词错误,从而导致翻译模型的翻译歧义及错误。针对这个问题,本文提出了基于中文多分词组合的子词化数据预处理方法,对生物医学平行数据集的中文部分进行多种方式的分词,从多个分词结果中提取差异化的分词词汇表,构建高频生物医学词汇表并应用于基于生物医学子词模型的子词化过程中,同时对基于中文多分词组合的生物医学增强数据集进行基于字节对编码BPE(Byte Pair Encoding)的正则化。在多个数据集上的实验结果表明,本文提出的针对生物医学神经翻译模型的子词优化方法能够有效提高翻译模型的鲁棒性,并提高翻译模型的翻译效果,相比未经子词优化的动态数据增强模型,经过子词优化的模型在多个测试集上的BLEU分数可提升1.3到1.5分。本文也对影响生物医学领域适应机器翻译模型性能的关键因素进行了探索,通过适当增加BPE合并操作次数,域内外子词化过程采用生物医学BPE子词模型,预训练过程和微调过程以生物医学平行数据集为验证集,进一步提高了领域适应模型的翻译表现。
其他文献
中国的公共基础设施建设已经取得举世瞩目的成绩,其中铁路交通建设取得尤为突出的成就,铁路出行已经成为越来越多人的选择,为人们的生产生活带来极大便利,但同时也带来了一定的公共安全问题。目前铁路安全问题的排查仍然主要采用人工巡查的方式,不仅效率低下,而且对铁路人员也存在比较大的安全威胁。为了提高铁路安全问题排查效率的同时更好的保障铁路人员的安全,本文提供了两个解决措施:一是通过监控视频对铁路人员的位置进
类人机器人具有和人类相似的外观和身体结构,随着嵌入式、神经网络、传感器等的飞速发展,新时代的类人机器人同时也拥有着非常智能的感知系统和执行系统。类人机器人相对传统的工业机器人,具有更亲和、更智能、更轻量的优点,能够更好地融入人们的生活。本文将从类人机器人的机械结构、控制系统研究,设计并制作一款具有多自由度、多模态的类人机器人实体。在实际应用中,类人机器人需要完成很多复杂的任务,比如拿取物品、操作开
电动汽车逐步取代传统燃油车是未来汽车行业重要的发展方向。锂电池作为电动汽车的能量来源,其健康状态检测技术的开发与完善成为了众多科研人员的研究课题。本文设计了一种适用于实际应用场合的电池健康状态快速检测仪,该检测仪不仅成功检测了锂电池的健康状态,而且兼顾了检测过程的快速性、准确性和经济性。首先,本文介绍了磷酸铁锂电池的物理结构、工作原理和内阻特性,随后介绍了4种常用于分析电池内阻特性的等效电路模型,
由于城市常规公交的粗放式单一化发展,难以匹配不断扩展的城市空间以及乘客对于可达性、出行效率、服务品质等出行需求,发展多元化高品质公共交通成为城市交通发展的必然趋势。定制公交作为兼备灵活性与集约性的公交系统,以可靠性强、高效率、高品质的定制化公交服务集约式满足出行时空相近的乘客需求,为城市交通系统注入活力。定制公交是一种以乘客需求为导向而规划设计的公交服务方式,它主要通过媲美小汽车的高品质服务以及远
砷(As)是广泛存在于环境中的高毒性重(类)金属元素。三价砷(As(III))是毒性和迁移性最强的砷形态之一,常出现在酸性矿山废水和地下水之中,威胁着人们的身体健康和生命安全。在酸性矿山废水沉积物发现的施氏矿物是天然优良的砷吸附剂,但其存在酸性条件下对As(Ⅲ)吸附性能较弱且无法对As(Ⅲ)氧化降毒的问题,并且在中性环境中易受Fe(II)诱导还原重结晶,不利于As(III)的长效去除。本文针对上述
在海岸带工程中,浅水水深测量一直是一个富有挑战性的问题。已有的研究证明通过对海浪的观测,可以对波速进行估测,进而反演得出实际水深。本文假设海水是理想流体,在此基础上对线性波浪理论中的浅水色散关系进行了推导,证明了基于浅水色散关系的水深反演算法的合理性和可行性。本文使用了小型无人机对实际的海浪视频数据进行获取,从中构建出cBathy水深反演算法(由美国俄勒冈州立大学的Rob Holman教授所领导的
指导性案例具有引领司法理念、细化法律标准、指导类案办理等功能。从检察指导性案例的生成路径来看,检察指导性案例的产出与组织领导、司法责任、案件质效、工作保障等因素密不可分。从适用情况来看,检察指导性案例亟须从生成源头、检索平台、适用方法等层面进行优化,以期更好地发挥引领指导作用。
骨再生修复体的分级多孔结构设计对骨缺损修复效果具有至关重要的作用,多孔微结构可提供骨组织再生相关细胞的黏附、增殖、分化的表面及空间,显著影响并调节细胞与材料的相互识别和作用,进而引发特异性生物学反应、激活相关基因表达,最终影响骨再生质量与效率。针对目前生物活性陶瓷骨再生修复体在微/纳米分级结构上无法实现精确控制的问题,本研究采用三维打印技术结合模板造孔技术设计制备了同时含有几百微米的贯通宏孔和纳米
随着电力需求的持续增长,传统能源短缺和环境污染问题日益严峻,驱动我国电网朝着清洁、高效、智能、灵活的方向发展。分布式能源技术具有环境负面影响小、资源利用效率高、综合效益大等优点,可对清洁能源、储能等资源进行合理利用,是我国电网的重要发展方向。近年来,分布式能源的概念被推广到需求侧中,涵盖了各类可控负荷,源网荷储的协同优化调度成为行业的研究重点之一,但目前大量的研究停留在理论层面,缺乏实际的工程验证
在城市工业化进程加速发展和社会环境污染现象加剧的背景下,人与自然的关系受到了重新审视,我国政府企业及社会各界的关注点逐渐向绿色环保领域倾斜,更大程度地转变人们传统消费理念及消费模式刻不容缓,绿色消费模式是当下生态文明建设的必经之路,因此,促进消费者购买绿色产品是引领绿色消费和推动社会持续发展的关键要素。但是,绿色消费行为是一个包含诸多概念的复杂变量,且实际消费行为难以测量,于是本文以绿色消费行为为