【摘 要】
:
自然语言理解是自然语言处理中的一个很重要的分支,旨在自动的将非线性的语言资料转换为一种可以直接被机器直接采用处理的语意表示资料。其中自然语言理解最常用的应用场景之一就是对话系统。根据应用目的的不同可以分为闲聊,推荐,基于特定目的对话等。其中基于特定目的的对话系统最核心的就是意图分类模块,这是一个典型的文本分类问题。大多数传统的模型包括支持向量机,提升树等模型都可以应用来作为解决文本分类问题的模型。
论文部分内容阅读
自然语言理解是自然语言处理中的一个很重要的分支,旨在自动的将非线性的语言资料转换为一种可以直接被机器直接采用处理的语意表示资料。其中自然语言理解最常用的应用场景之一就是对话系统。根据应用目的的不同可以分为闲聊,推荐,基于特定目的对话等。其中基于特定目的的对话系统最核心的就是意图分类模块,这是一个典型的文本分类问题。大多数传统的模型包括支持向量机,提升树等模型都可以应用来作为解决文本分类问题的模型。随着21世纪以来深度学习领域的快速发展,深度学习网络的方式,包括使用n-gram特征的TextCNN,可以对任意长度依赖关系进行建模的递归神经网络(RNN),长短时记忆网络(LSTM)等,逐渐成为了解决文本分类问题的主流方案,这些措施应用在意图识别上都有了不同程度的提高。进一步的sequence-to-sequence网络以及双向递归神经网络bi-RNN等开始用在这一场景来解决问题。而以上这所有的方法都需要更多的标注数据。但因为众所周知的原因,大规模的标注数据往往都是匮乏的。这也成为了限制很多模型精度进一步提高的主要原因。但与此相对的是,通常都有大量的与此相关的非标注数据。本文提出了一种条件序列生成对抗网络(cSeq-GAN)来解决标记训练数据不足的问题,它不需要直接生成样本,而是通过生成器的输出来优化鉴别器。基础思想是利用大量的非标注数据来强化生成器,从而产生更多的样本来实现最终强化分类器的效果。除了标注语料匮乏以外,另一个制约意图识别应用的因素就是系统的反应时间。应用复杂系统通常可以提高准确率,但也会带来时延上的问题。作为一个整体系统中的一部分,通常是对系统整体的反应时间有严格的要求。这就要求既能应用复杂模型保证分类的准确度,又能快速实现匹配。针对此情况,本文提出了基于Bert与DSSM的快速意图识别匹配算法。实验结果表明两种设想均完成了既定目标,能够在一定程度上提高系统表现。
其他文献
随着现代企业竞争加剧,社会分工逐步细化,越来越多的企业选择将自己不擅长的业务领域外包出去。其中IT产业通常很难为企业带来直接收益,而且企业靠自身力量构建一支能力强的IT团队有较大难度。基于这样的背景,越来越多的企业选择将IT业务外包给外包商。但是由于企业管理不规范、IT外包商技术水平有限、IT外包市场交易不健全等原因,各个企业在外包的过程当中还难免遇到一些风险。因此,企业在IT外包项目过程中加强对
四十年的改革开放为中国带来了飞速的经济增长,这背后是以资源的不断消耗和环境的日益污染未代价。目前,经济发展速度放缓的同时对经济发展质量提出了更高的要求,这一点从“十三五”规划前所未有地将“绿色”定位发展理念可以看出,而绿色技术创新是实现绿色发展的必经之路。但是要实现绿色技术创新发展离不开政府、企业和公众的参与和监督。基于这一背景,本文尝试从政府、企业和公众三个角度出发探究行政型环境规制工具、市场型
砂岩厚油层一直是油田开发关注和研究的重点。萨中开发区葡一油层组全面进入聚驱后开发阶段,研究区井网密度已达到国内罕见的126口/km2。各类微相砂体在该井网密度下都有极高的钻遇率,无论小层沉积微相平、剖面的刻画还是非均质性的分布规律,在该井网密度下都有较高精度的控制程度。通过调研研究区井网演变史,刻画重点小层不同开发时期在不同井网密度下沉积微相、砂体、及非均质性展布规律,进行不同井网密度下对沉积微相
海面无人船(Unmanned surface vehicle)是一种重要的海洋装备,在海洋信息勘探、近海巡逻等方面有着重要作用。环境感知技术是无人船正常驾驶的核心关键技术,而其中视觉环境感知技术又是决定无人船是否能被大面积推广的重要关键技术。视觉环境感知系统最主要的任务时探测障碍目标的位置,同时还包括信息记录、环境检测等任务。然而海面视觉环境感知系统由于环境干扰等问题较大,现阶段发展并不成熟。主要
人体动作识别作为计算机视觉领域的一个重要组成部分,在各大领域如智能监控、人机交互等方面具有广泛应用前景,这使动作识别成为当今社会的一大研究热点。特别是随着深度摄相机如Kinect的出现,更多的高维信息可以被表示出来,基于3D骨架的动作识别吸引了众多研究者投入研究。借助深度摄相机,从深度图像上提取的人体3D骨架有着对光照、表观和视角的变化具有鲁棒性的优势。同时随着骨架实时估计算法的成熟进一步推动了这
明代宗禄问题,与有明一代相始终,影响巨大,历来就是明史研究中的一个重要课题。相较于其他朝代,明代的宗禄制度也得到了更多的关注。既有研究的基本结论是,明代宗室人口的过快增长,禄粮开支的过于浩大,不仅对明中后期财政产生了巨大的压力,直接或间接导致了加派、矿监税使等“暴政”的出现,而且也是明末财政破产乃至明朝最终覆灭的主因之一。明代“宗禄制度”是专制皇权压迫人民的一个重要表现。不过,既有研究的依据,主要
刘以鬯可谓是香港文学史上浓墨重彩的一笔,四十年代末南下香港后,他根植于香港本土,为香港现代主义文学的发展做出许多实绩:在做报刊编辑的过程中,刘以鬯大量引介了西方现代
胶东是我国最重要金矿集区,目前探明金资源量约占全国四分之一,其95%以上赋存于出露在胶西北北部地区的以小岩株状产出呈近东西向带状分布的早白垩世花岗质岩体及其附近的晚侏罗世花岗质岩体中。在胶西北南部地区早白垩世花岗质岩体在地表出露较少,仅发现呈岩株状侵入到晚侏罗世玲珑型花岗岩中的大泽山岩体与北部地区的早白垩世花岗质岩体具有相似的地质特征,然关于该岩体形成的构造背景、成岩时代及其与金矿的关系尚缺乏系统
经过九年的司法实践,从宽量刑的坦白制度在落实宽严相济刑事政策、激励犯罪分子如实交代罪行、提高司法机关办案效率、节约司法资源等方面取得了显著成效。司法大数据显示,坦白情节的认定率呈逐年上升趋势,但同时也存在减轻处罚适用扩大化、翻供情节处理简单化、特别坦白适用任意化等问题,同案异罚现象突出。究其根源,主要在于法言法语的高度凝练性和现实案例情节的复杂性之间的矛盾。具体而言,对于“如实供述”、“特别严重后
在实际的工程应用中,由于通信技术的飞速发展以及控制系统性能的不断提高,使得控制系统中包含越来越多的传感器、控制器、执行器和其他组件,从而导致控制系统规模的不断扩大。因此,越来越多的控制系统选择网络来连接各种组件。这种通过实时网络传输信息的系统称为网络系统。与传统的点对点系统相比,网络系统具有资源共享、远程操作、成本低、易于维护等优点。然而,网络作为系统的通信信道也带来了一些新的问题,例如信号量化、