【摘 要】
:
近年来,随着人工智能技术的发展,人机对话系统作为其典型应用取得了令人瞩目的成绩,自然语言理解是任务型对话系统中的重要组成部分,也受到了广泛的关注。对话系统与用户交互时,系统首先需要将人类的语言转化为机器可读的结构化信息并“理解”人类语言中所包含的意图,然后,系统再根据意图来作出相应的回复。然而,在现实场景中,标注大规模的高质量数据需要巨大人工和时间成本。并且,不同于其他领域的文本数据,电子商务领域
论文部分内容阅读
近年来,随着人工智能技术的发展,人机对话系统作为其典型应用取得了令人瞩目的成绩,自然语言理解是任务型对话系统中的重要组成部分,也受到了广泛的关注。对话系统与用户交互时,系统首先需要将人类的语言转化为机器可读的结构化信息并“理解”人类语言中所包含的意图,然后,系统再根据意图来作出相应的回复。然而,在现实场景中,标注大规模的高质量数据需要巨大人工和时间成本。并且,不同于其他领域的文本数据,电子商务领域的客服对话历史有着更冗长的文本,而当前的自然语言理解技术受限于硬件的性能,难以处理过长的文本输入或需要极大的计算开销。因此,电子商务领域的意图识别系统面临的两项重大挑战,一方面是长文本问题,即如何简化文本信息而不过多的损失其所包含的用户意图信息,以减少计算开销;另一方面是缺少标注数据问题,即如何利用少量的标注数据和大规模的无标注数据,以减少人力成本。针对以上问题,本文进行了以下的研究工作:(1)基于自监督学习的关键对话判别模型:该模型通过预训练语言模型中自监督任务的特点,模拟人类阅读理解时的思考过程,从长文本中识别并抽取关键句。JDDC数据集上的实验证明了模型能够有效的精简长文本且保留大多数语意信息。此外,我们以JDDC数据集为基础,使用模型构建了构建了电子商务售后对话的意图识别数据集(Customer Service Intent dataset,CSI)。(2)基于自训练和主动学习的意图识别模型:该模型以预训练语言模型为基础对少量数据进行自训练学习,并且我们提出了一种主动学习策略,其结合自训练过程将每一轮自训练过程中对每一个批次的候选样本找出不确定性最高的一组,送往数据库进行人工标注,用最少的标注成本实现对模型性能的最大化提升。此外,为了减少自训练过程中的伪标签噪声问题,我们提出了一种自适应主动阈值模块,其根据模型的性能和训练目标数据集的大小及类别数量来平衡生成的伪标签数量和需要标注的样本数量。我们在AG’News、IMDB和CSI数据集上的实验表明,模型的拟合速度和准确率得到有效提升。(3)商品事件增强的USS意图识别系统:为了解决真实场景中意图识别系统意图表述歧义大、新意图增长快的问题,我们开发了商品事件增强的USS意图识别系统。为了提高实际应用中意图识别的准确性,我们对历史对话进行预处理、抽取关键对话、生成商品事件,作为一种知识信息加入USS意图识别模型训练,来帮助下游的意图识别任务取得更好的效果。该系统能够时刻保持意图识别系统的准确性的同时以最小的人力成本实现目标,同时可以应对不断迭代更新的现实意图识别场景。
其他文献
近年来,随着教育和信息化技术的融合,在线教育呈现蓬勃发展趋势,在线试题数量大规模激增。如何高效组织和管理这些试题资源,有效实现试题推荐、快速组卷、自适应测试等智能化过程,逐渐成为该领域的研究重点。试题知识点的自动标注是管理题库数据、提高教育自动化和智能化的基础所在,其本质是文本的多标签分类。目前,针对数学试题的知识点自动标注研究还很少,相较于普通文本,数学文本因为包含符号、公式等特殊元素,具有更加
近年来,边缘网络流量的空前增长,以及新型应用对服务体验质量(Qo E)的更高要求,对通信网络的数据通信质量(如带宽、时延、吞吐量)提出了新的标准和挑战。缓存通过将一部分数据存储在边缘网络节点,成为一种缓解这些问题的有效方法。为此,各种各样的缓存方案被提出,但是,这些方案要么因为缺乏自我学习能力和自我决策能力而不够智能,要么缓存命中率不够高而不够有效。基于这些观察,本文提出了一种新的基于深度强化学习
近年来,抽象式文本摘要模型比抽取式文本摘要模型更受青睐,因为其可以生成原始文本中不存在的单词,其摘要描述更加灵活和自然。基于序列到序列的抽象式文本摘要模型通过对原始文本和参考摘要之间的关系进行建模,从训练数据中学习摘要生成的模式。虽然基于序列到序列模型的抽象式文本摘要有着能够自由生成文本的优势,但是由于训练数据和现有模型均存在较高的不确定性,目前现有方法的摘要生成效果仍然不佳。其一是由于序列到序列
基于深度学习的裂纹识别是计算机视觉中一个重要的任务,在工业界有着广泛的应用,例如对于桥梁,建筑,大型交通工具等环境下的裂纹进行识别。裂纹普遍存在于各类环境中,但是同一类环境下的裂纹一般数量较少,并且裂纹的形式多种多样。除此之外,裂纹识别主要被应用于机器人等产品上。本文主要解决边缘设备裂纹识别任务算力不足问题,构建了FRCRU算法解决数据不均衡问题,设计了通用大模型作为技术储备。本文以裂纹识别存在的
本文研究三维量子磁流体-液晶耦合方程组Cauchy问题经典解的整体存在性和衰减.对于这个问题,我们考虑初值在常平衡态的小扰动条件下(H3空间中).一方面,运用能量方法得到局部解的一致有界估计,进而得到整体解存在性;另一方面,当初值的H-s(0≤s<3/2)范数或者B2,∞-s(0<s≤3/2)范数有限时,通过负考虑在负Sobolev空间和负Besov空间中的能量估计,利用正则插值技巧得到整体解的衰
随着分布式系统的快速发展,复杂应用不断水平扩展,日志被分散在很多不同的机器设备上,同时各类应用程序在运行中产生的日志呈爆炸式增长[1],给日志的收集、存储和分析都带来了新的挑战。目前市场上常见的日志收集方案,不能同时解决日志可分析性差、性能差、不可靠、不好扩展等问题,其中性能方面暂未取得突破性进展,无法满足业务快速扩张的需求。因此本文核心要解决性能问题,同时保证可靠性、可分析性和可扩展性,为特定场
随着卷积神经网络良好的效果以及AIoT的发展,其应用落地化的需求也越来越大。面对一些对算力、存储以及实时性要求比较高的嵌入式系统上,卷积神经网络模型巨大的参数量和计算量往往难以部署并得到应用。本文对多种典型轻量化模型结构以及部分模型压缩方法进行研究,分析并总结这些模型结构所依据的设计原则和创新点。在这些理论基础上,结合嵌入式设备特点,对深度可分离卷积网络结构提出优化方法,能够进一步加快嵌入式端模型
在信息技术飞速发展的今天,大数据产业迎来爆发式增长。使用建模技术分析产业发展现状,已经成为产业经济学与计算机交叉领域重要研究课题。然而,目前对大数据产业的建模分析仍面临几个亟待解决的问题。第一,产业分类标准繁多,产业分类体系较为模糊;第二,企业真实生产经营数据集稀缺,以往分析模型仅能依靠小规模企业表层数据集进行训练,当在真实场景下应用时通常会出现较大误差;第三,面对特征众多、少数类别样本不平衡的数
浮游动物作为水生生态系统重要组成部分,在水生食物网中占据中心位置,是食物网营养物质转移中必不可少的部分。作为河流、水库、湖泊恢复良好生态状态措施的重要指标,浮游动物的种类组成,物种多样性的变化直接影响到水域生态系统的稳定。为探究桐梓河梯级电站的开发对浮游动物群落结构特征的影响以及与环境因子之间的关系。本研究在桐梓河设置25个采样点,分别于2020年8月(丰水期)、2020年11月(枯水期)、202
湖泊细菌群落是水生态系统中的重要组成部分,对水生态系统的物质和能量循环产生直接或间接的影响。附生细菌群落(EBC)浮游细菌群落(PBC)和底栖细菌群落(BBC)对淡水湖的生物地球化学过程都具有重要意义。然而,对湖泊细菌群落的群落多样性、物种间相互作用和群落组装机制的认识尚不够深入。本研究的目的是调查湖泊不同时期附生细菌群落的时间演变特征、不同介质中细菌群落季节性差异以及影响细菌群落的主要环境因素。