基于深度学习的多粒度文本语义匹配算法的研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:catshadow6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济和客户服务的发展,智能问答系统出现在大众视野,该系统的主要功能是接收和处理用户的问题然后快速精确地匹配问题答案并返回给用户。其中,文本匹配是智能问答系统的关键技术,传统的匹配方法需要大量的人工手段来匹配文本,匹配的准确率有待提高。随着深度学习技术的发展,其在自然语言处理领域取得了很大成就,同时也面临很多挑战。针对目前深度学习方法在文本向量表示时较单一,并且对现有交互型和表示型模型没有充分融合的现状,提出基于深度学习的多粒度文本语义匹配算法,主要研究如下:(1)在处理文本匹配任务时,文本输入表示的质量决定着模型训练的结果,因此本文的首要研究重点是如何更加全面地对文本进行向量化表示。考虑到位置信息对于文本匹配来说很重要,本文引入位置特征向量对句子中的每个位置进行表示,之后将词向量和位置向量进行融合,来充分表示文本信息。针对数据集的未登录词问题和因分词错误导致的句子语义不准确问题,本文引入字粒度的向量来降低未登录词引起的误差,得到有差异性的结果,并丰富文本语义提升向量对文本的表达能力。(2)在深度学习模型处理文本匹配任务中,卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Long Short-Term Memory,LSTM)与注意力机制(Attention Mechanism)是近几年热门的关键技术,为了更好地提取文本特征并对语义进行充分表达,本文对文本匹配领域的模型进行探索。第一,提出多粒度表示型的基于注意力机制的双向长短期记忆网络(Attention Multigranularity Representation Bidirectional Long Short-Term Memory,AMGR-BLSTM)匹配模型。第二,提出词粒度交互型的CNN-LSTM匹配模型。其中表示型的匹配模型更加注重对表示层的构建,能够充分将两个待匹配的句子转化为等长的语义向量。交互型的匹配模型强调两个句子局部的细致交互。本文提出利用两者的优势对两种模型进行融合,既充分对文本进行向量化表示,又使句子语义充分交互。通过设计相关实验且与经典模型对比,验证模型的有效性。(3)将本文提出基于深度学习的多粒度文本语义匹配模型应用于FAQ疫情问答系统中。通过人机对话问答的方式,对用户提出的问题迅速精准地定位答案并返回给用户,更好地帮助各行各业在特殊时期快速准确地掌握政策信息。
其他文献
近年来,太阳能产量丰富、清洁环保等优点导致光伏能源在现代电力和能源系统使用率逐年增加。为了提高光伏系统的实时控制性能,需要准确预测光伏输出。每年在全球范围内出现关于光伏预测新的技术和方法,最终目标是减少预测中的不确定性。短期光伏概率模型的预测结果既能够在历史光伏的基础上给出未来时刻光伏值的波动范围和变化特性,也能够量化光伏的不确定性,因此短期光伏概率预测模型的研究是一项重要且具有现实意义的工作。本
表面肌电信号(Surface Electromyography,sEMG)是由表面电极从肌肉表面获取的生物电信号,因其无创性、采集便捷、包含肌肉收缩的生理信息而被广泛应用于上肢假肢控制领域。从
当前的资本市场中,股票价格会随时受到信息的影响而出现波动。多年来探究企业会计信息和股票价格的关系一直是学界研究的重点。信息在扩散的过程中受到多种不确定性因素的影响,在到达信息受众时其内容和价值会有所不同。因此,影响股票价格的不仅仅是会计信息本身所包含的内容,还包括信息扩散的途径和程度。传统媒体和网络媒体为了能够获得更具有价值的信息,会加大对信息挖掘的深度和持续性,使市场上的信息能够更加全面的展现出
政府债务历来被中外经济学者称为“双刃剑”,我国地方政府债务在推动地区经济增长方面也发挥了无可替代的作用。一方面,在我国城市工业化、城镇化的进程中,政府债务提供了许
海带多糖是海带的主要活性组分,具有抗动脉粥样硬化、免疫调节、抗血栓和抗氧化等药理作用。其提取工艺是结构、活性研究的基础和前提,目前主要的提取方法有热水浸提法、酶法
变异测试是一种面向故障的软件测试方法,该技术向被测程序注入一组人工设计的故障,又称变异体,来评估已有测试用例的故障检测水平以及设计满足高故障检测率的测试集。变异测
在新的社会背景下,人们对全球变化的了解日益加深,同时对环境与人口的协调发展也愈加重视。土地利用变化逐渐成为人们的关注对象及研究热点。尤其是LUCC研究计划的提出,使土
MIMO技术能利用收发两端的多根天线来提高系统的性能,是4G和5G的关键技术之一。在实际系统中,多个用户同时向基站发送信号或者同时接收来自基站的信号,用户之间相互干扰,影响
含吲哚骨架的杂环化合物作为一种非常重要的化合物,在自然界中具有广泛的分布。其天然产物具有良好的生物、药理活性,在有机合成领域有着重要的应用前景与应用价值。近年来,
本论文选用稀土离子、铜离子、锌离子和镉离子为中心金属,1,3-金刚烷二羧酸(1,3-H2adc)和3,5-二(3,4-二羧基苯氧基)苯甲酸(H5L)为主配体,2,2’-联吡啶(2,2’-bpy)、4,4’-联吡啶(4,4’