跨语言对话语言理解研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chukwokhung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年来自然语言处理技术的迅猛发展,人工智能已经渗透到我们生活的方方面面,各种各样的人工智能产品出现在市场上,人们也逐渐对计算机寄予了越来越高的期望,希望计算机能够帮助人们完成更多更复杂的工作。得益于深度学习和大数据的发展,一些任务导向的对话语音助手也渐渐在人们的日常生活中出现。这些对话语音助手,不仅可以陪用户闲聊,还可以智能化地解决人们很多日常需求,比如听音乐、打电话、订车票等。其背后的主要技术便是对话语言理解。目前,国内外的研究者在中文和英文的对话语言理解任务上已经做了很多贡献,但在跨语言领域却鲜有研究,这使得一些小语种国家的人民为了使用语音助手不得不说英文或者中文,从而造成很大的不便。为了解决这个问题,本课题致力于研究适用于多个小语种的跨语言场景下的对话语言理解任务,以填补目前该领域研究的空缺。首先,本文构建了两套跨语言对话语言理解任务上的数据集,用于模型的训练和验证,并针对对话语言理解任务设计了流水线和端到端模型上的相关实验。其次,本文针对跨语言场景设计了英文上的零样本迁移学习算法,并通过一系列实验证明了该算法的优越性。最后,本文以语言和任务为目标,为任务型对话领域内的跨语言模型设计了一套预训练方法,并通过一系列实验证明了该预训练方法的有效性。通过结合本文设计的预训练方法和零样本迁移学习算法,能够使得跨语言对话语言理解模型整体性能得到大幅提升。
其他文献
随着国家对工业排放超净治理的持续推进,以火电厂、集中供热企业为主的工业燃煤企业相继完成大气污染超低排放改造,但大气污染形势仍然严峻,尤其以雾霾为特征的区域性大气环境问题依然突出。根据相关数据显示,在我国北方农村地区低效散烧燃烧和秸秆野外焚烧排放的污染物占雾霾主要成分总量的20%以上,已成雾霾天气的重要原因之一。因此生物质能热电联产作为既能解决农作物秸秆野外焚烧造成的污染问题,又能作为农村地区提供高
城镇化与工业化进程在推进我国经济快速发展的同时,亦对自然环境造成了较为突出的伤害,其中,较为突出的一点便是带来了当前的较为严重的各类水污染问题。从2007年开始,我国政府大幅度提高对于环保行业的投入,由此引发了环保行业的爆炸式发展。伴随行业的高速发展,进入这一领域的企业也越来越多,尤其是近年来建筑类国企、央企以及国外资本的强势介入,正对我国民营环保企业的生存空间构成了强烈挑战。为此,如何为企业构建
随着信息化时代的来临,军事文本信息出现“过载”的问题,这为情报分析人员增加了沉重的负担。利用自然语言处理中的信息抽取技术智能地提取其中的有价值信息并呈现出来,是一种备受瞩目的解决方案。而命名实体识别技术作为信息抽取领域中的基石,其重要性不言而喻。本文立足于军事命名实体识别任务,对基于预训练语言模型的深度学习方法进行研究。因为军事领域相关的语料集匮乏,出于研究需要,本文首先以军事新闻文本为数据源构建
随着微纳米加工技术、纳米超材料的发展以及超精密结构的日益复杂,对于微小空间结构三维尺度测量的需求日益迫切。共焦显微技术具有独特的三维层析能力、高分辨力、对被测样品无特殊要求、非接触测量不会损伤样品表面等优点,可广泛应用于微结构三维形貌测量方面。目前外差共焦仍然是提升共焦显微系统轴向分辨力的主要手段之一,但是由于该系统采用硬针孔结合光电探测器的方式存在针孔离焦位置调节困难、容易堵塞等诸多问题,致使系
随着互联网上信息量的快速增长,人们对信息检索效率的要求越来越高。如何从互联网上高效的获取信息成为一个重要的问题。搜索引擎是检索信息和收集互联网数据最为有效的工具,但是搜索引擎返回的结果仍然包含着诸多的干扰信息和冗余信息,需要进行进一步的分析和归纳才能掌握搜索引擎返回的重点。而面向问题的文本摘要可以解决这个问题,面向问题的文本摘要旨在基于给定的问题从文档中返回一段含有文档中重要信息的简短的文字,配合
光场显微技术作为一种无需扫描、可伸缩的方法,可以以高分辨率观察跨越多个时空尺度的各种解剖和功能信息,从而实现从单细胞标本到哺乳动物大脑的高速、体积成像,但重建伪影的出现和复杂的计算成本大大限制了光场显微技术的广泛应用。因此研究人员通过两个方面对光场显微系统不断进行优化和改进。一方面通过调整微透镜阵列的相对位置,得到了较高分辨率的光场显微镜,并有效避免了重建伪影;另一方面,通过将微型显微镜平台和光场
近年来,我国在电力系统建设上的投入不断增加,电网覆盖范围也越来越广,随之而来的是输电线路舞动事故发生频率逐年攀升。舞动已经成为造成电路安全隐患的主要原因之一,并成为各国研究焦点问题。使用输电线路舞动监测技术可以得到输电线舞动的关键参数,这一点对于研究舞动产生机理以及分析影响舞动因素就尤为重要。输电线路舞动监测技术有诸多解决方案,其中,基于视频采集的监测技术凭借其非接触测量特性,可以较大程度地省却安
为了提升高功率激光装置中大口径光学元件的初始损伤检测与跟踪能力,针对光学元件损伤暗场图像的纹理信息少、关键信号微弱的问题,提出基于模型集成的暗场图像超分辨率重建方法,对早期发现光学元件损伤具有重要意义。本文主要研究内容如下:(1)对图像超分辨率重建方法进行系统综述,分析了从传统的基于插值法到目前的基于深度学习法的图像超分辨率重建技术原理和特点;(2)提出一种基于模型集成的暗场图像超分辨率重建方法,
由于“大跃进”和农村人民公社化运动的失误,加上1959—1961年连续三年自然灾害和苏联政府背信弃义地撕毁合同,使我国国民经济陷入困境,国家和人民遭遇重大损失,农村生产力遭到破坏,农业产值特别是粮食产量连年减产,人民口粮出现供应紧张的状况,部分地区出现严重饥荒。粮食成为影响全国人民群众最突出的问题。1960年代初的农业困难引起了整个国民经济困难,党中央为了战胜困难,走出困境,1960年8月10日中
基于知识库的问答系统能够针对用户提出的自然语言问题直接作答,相比于借助形式化查询语句获取知识库内容的方式,问答系统更加智能且高效。依托于大规模知识库的问答系统通常采用流水线工作模式,在这种模式下,系统利用自然语言处理的相关技术确定问题查询的主题实体,并在知识库中抽取主题实体相关的三元组,从中找到与问题相关度最高的组合用以抽取问题的答案。知识库中相互关联的三元组表现为小规模的图结构,这种结构被称为查