【摘 要】
:
任务型人机对话系统是指在垂直领域中能够帮助用户完成特定任务的对话系统,口语理解作为任务型人机对话系统的组成模块,主要的作用是将非结构化的自然语言文本转换为机器能够理解的结构化信息。准确理解用户对话中的语义信息是帮助用户完成任务的基础,因此口语理解的好坏直接影响对话系统的性能。口语理解主要包含意图识别与槽填充两个子任务,意图识别用于捕捉用户的意图;槽填充任务用来抽取用户传递的重要信息。近年来,基于深
论文部分内容阅读
任务型人机对话系统是指在垂直领域中能够帮助用户完成特定任务的对话系统,口语理解作为任务型人机对话系统的组成模块,主要的作用是将非结构化的自然语言文本转换为机器能够理解的结构化信息。准确理解用户对话中的语义信息是帮助用户完成任务的基础,因此口语理解的好坏直接影响对话系统的性能。口语理解主要包含意图识别与槽填充两个子任务,意图识别用于捕捉用户的意图;槽填充任务用来抽取用户传递的重要信息。近年来,基于深度学习的方法通过学习高维分布式特征,在口语理解任务上取得了显著的效果。在训练数据充足的场景下,意图识别与槽填充任务之间的关系可以从大量的数据中学习到,现有方法通过构建模型隐藏状态上的交互,来增强意图与槽位的表征,然而这种方式并没有显式地利用意图与槽位之间的关联。此外,在真实应用场景下,难以获得大量高质量的标注的数据,因此基于深度学习技术,研究如何在低资源场景下有效地构建口语理解模型十分重要。针对以上问题,本文的主要工作与贡献包括:第一,在训练数据充足的场景下,考虑到意图信息可以被用来约束槽位的生成,本文提出了一种基于概率感知门控机制的意图识别槽填充联合模型。该模型利用BERT挖掘出对话文本的深层语义信息;在解码的过程,通过概率感知门控机制,从概率分布的角度上探究用户对话中的意图与槽位信息之间的关联,利用意图概率分布信息指导槽填充任务;此外,为了更好地结合BERT与概率感知门控机制,本文提出了一种堆叠式的微调策略。在公开数据集上,对比实验证明了本文提出的模型有效地提高了意图识别与槽填充的准确率。第二,在低资源场景下,针对意图识别任务,本文提出了一种基于提示的深度学习模型,该模型利用BERT的下一句预测任务与提示模板,能够在小样本甚至零样本的条件下完成意图识别;针对槽填充任务,本文提出了一种重构标签方法,通过减少训练时的标签数量,以降低在低资源场景下训练分类器的难度;此外,考虑到均匀采样方法与真实应用场景中采样方法的差异,本文设计了动态采样策略,通过模拟“采样—迭代”流程,能够在限制采样数量总和的条件下对不同类别样本进行采样,更好地完成低资源场景下的意图识别与槽填充任务。在公开数据集上的实验证明了本文提出的模型与方法能够有效地提升低资源场景下意图识别与槽填充的准确率。
其他文献
目前在国际资本市场中分拆上市已经发展的较为成熟,但在国内资本市场中分拆上市的发展仍相对缓慢。2019年证监会发布的关于分拆上市的若干规定为我国企业分拆上市做出了更为明确的指引,也使分拆上市在国内资本市场受到了更多的关注。越来越多的企业开始了解或实行分拆上市,何时进行分拆成为这些企业关注的问题。究竟是哪些因素在影响企业分拆上市时机的选择,分拆上市时机选择又是如何影响企业经营绩效的呢?本文以Y集团分拆
新一代信息技术的发展,促进教育决策由经验化逐渐向科学化转型。日常活动行为的数据,既是各类隐性规律的外显体现,同时也成为研究与发现特征的重要手段。例如,人们的活动轨迹大数据,在当今新冠肺炎席卷全球的严峻局势下,是揭示与及时跟踪去向,政府实施流调控制的重要信息源,它抗疫过程中担当着无可替代的重要角色。大学生在城市间、校园间的流动情况,在校园中的日常行为,也是值得重点关注的内容。在当今“内卷”横飞、疫情
近年来,世界的经济高速发展,然而伴随经济增长而来的是环境的日益恶化,其中温室效应、全球变暖、沙尘暴等问题已在全球蔓延,成为人们重点关注的环境问题之一。我国在“十三五”规划中,明确提出了发展低碳经济模式,此后的“十四五”规划进一步提出坚决遏制高能耗、高排放项目盲目发展,推动绿色转型发展的要求。碳排放逐渐被社会所重视,而碳排放成本,也成为企业管理和核算的主要内容。目前火力发电企业属于碳排放的重点企业,
随着新时代的不断进步,物质生活的不断丰富,人们对良好的生态环境的需求日趋激烈,越来越多的人向往着青山与绿水。近年来随着一系列生态保护和环境治理的利好政策出台,生态环保治理业势必会迎来新的发展机遇。随着生态环保治理业的不断发展,行业内的上市公司将会受到更多投资者的关注,但是行业上市公司鱼龙混杂,良莠不齐,投资者在面对众多生态环保治理业上市公司时就产生了许多问题,例如生态环保治理业上市公司的行业发展怎
如何改进提升绩效考核指标体系,推动企业在日益残酷的市场竞争环境中取得领先优势,是当代企业关心的焦点。航空企业属于重资产、高风险行业,虽然近些年来行业一直保持增长趋势,但随着航空运输国际化,以及航空牌照获取政策打开,航空企业竞争日趋激烈。受新冠疫情的影响,国际大量航空公司消亡,国内航空依靠国内疫情迅速控制得以喘息,这既给国内航空公司发展带来挑战,也带来新的机会。如何在疫情之后迅速抢占市场,取得领先优
随着深度学习技术的快速发展,以深度学习为基础的对话系统有望成为下一代人机交互的一种方式。其中的对话生成是对话系统中最重要的环节之一,也是最具有挑战性的研究问题之一。当前的主流对话系统大多基于序列到序列模型,此模型能够从海量训练数据中自动学习生成回复的逻辑,但是由于模型在生成时仅利用了输入语句中的有限信息,造成模型在生成时往往倾向于生成例如“对不起,我不知道。”这样的安全回复。因此学者们尝试引入外部
在基于深度学习的计算机视觉研究中,为了更好的提升视觉效果,通常需要使用大规模的数据来学习训练网络模型。然而,大规模的数据都非常依赖大量的人力进行标注,因此花费非常昂贵。为了使得在标注样本数据不足的情况下也能训练出性能较好的网络模型,近年来,大量的方法被学者们提出。其中自监督学习就是通过大量无标注的样本数据进行自监督训练,来学习样本自身的数据特征的一种方法。针对具体实际问题往往通过迁移学习方法对网络
为了解AMBBR一体化装置处理农村生活污水启动调试过程中脱氮除磷特性,以贵州兴仁周边农村生活污水为处理对象,采用接种闷曝法进行挂膜,研究该装置调试过程中水质变化。同时,将间歇曝气与连续曝气处理效果进行比较,分析设备运行过程中出现的问题并提出相应解决办法。由连续运行检测数据可知,农村生活污水经设备处理后COD、NH3-N、TN和TP分别可以稳定到40、7、10、0.54 mg/L左右。连续曝气和间歇
随着互联网的高速发展,各类文本数据呈现爆炸式增长,信息过载问题日益严峻。面对海量的结构化文本(如知识图谱、软件代码)或非结构化文本(如新闻、社交媒体),如何快速、有效地从中获取关键信息并将其组织成精简连贯的语言表达形式变得尤为重要。作为缓解信息过载及提高信息获取效率的关键技术之一,自动技术旨在实现文本内容的自动提炼总结,以生成包含关键信息的语言描述。尽管现有主流的自动摘要方法在摘要任务中取得了较大
一直以来,风险管理始终是贯穿于银行经营发展中的一个重要话题。银行在经营过程中面临包括信用风险在内的各类风险,而信用风险是最为主要的一类风险。近年来,各家银行对信用风险的管理日益成熟,手段和方式日益多样化,风险管理也逐步从粗放向精细化的管理模式转变。而信用风险限额管理,作为信用风险管理中的一项重要手段,也越来越受到银行的重视。本文从信用风险及信用风险限额的基本概念入手,研究探讨相关的理论、银行业监管