面向检索式问答的问句语义匹配方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fangtietie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的企业开始通过互联网为用户提供服务,随着用户数量的增加,企业对于在线客服人员的需求也越来越大,但是客服人员难以提供全天候的服务,而且用户的问题中存在着大量的重复性问题,这时构建FAQ数据库并使用检索式问答技术作为客服人员的辅助,可以让客服人员从大量的重复工作中解放出来,来解决更有价值的问题。因此,研究检索式问答技术具有较大的实用价值。本文从检索式问答的特点出发,以提高检索式问答中问题匹配的效率和准确率为目标,对检索式问答中的问句匹配技术进行了研究,本文的主要研究内容有以下几点:BERT文本语义匹配模型的压缩及知识蒸馏。本文对现有的比较有代表性的文本语义匹配模型进行了实验,实验结果表明BERT模型在效果上超过了其他模型的同时在推断用时和模型参数数量上也远超其他模型。BERT模型对于计算资源的高要求,限制了其在实际应用中的使用。为了减小BERT模型对算力的需求,本文实验了一些简化BERT模型的方法,以得到更轻量的学生模型,然后针对问句语义匹配任务引入多种数据扩增和知识蒸馏方法,将BERT模型的知识蒸馏到简化后的BERT模型中,使简化后的BERT模型在问句语义匹配任务上的准确率达到与完整的BERT模型相近的同时推断速度达到BERT模型的3倍。基于BERT模型的文本语义匹配方法研究。本文对BERT模型在文本语义匹配任务上进行分析后,结合BERT模型与多种语义匹配范式,提出了BERTinteraction模型。实验表明,以BERT作为文本编码器的表示型匹配模型的效果远超其他的表示型匹配模型,结合BERT模型与轻量的交互的BERT-interaction模型可以在准确率上达到与BERT模型相当的水平,同时在检索式问答场景下使用缓存机制对候选问题进行排序时的速度较BERT模型有显著的提升。其中,模型的一种变种可以在检索式问答的速度上相较BERT模型更快的同时在准确率上较BERT模型有一定的提升。问答系统的构建及系统语料的采集。本课题构建的系统支持系统的管理人员灵活的配置各种语料库并提供了多场景的用户状态管理和检索式问答功能。系统中的在经过了基于样本的数据选择后的通用问句语义匹配语料上训练的语义匹配模型在系统的FAQ测试集上的MRR值可以达到0.7496。
其他文献
绘画作为艺术的一种,是一门重要的人文学科,本文从“具象表现绘画”这一种风格理念出发,通过对“具象表现绘画”艺术家及其作品特征梳理和分析,对艺术家的审美取向进行研究。
本文详细给出了蓝牙产品型号核准自动测试系统功率测试不确定度的分析和计算方法。作者在文中用到的数学建模和数学处理方法能准确、全面、条理地找出影响不确定度的各个因素
行政特许因其所涉及行业的特殊性而成为了行政许可的一项特殊制度。我国于1984年确立了第一个特许经营项目即深圳沙角B电厂项目,自此之后供热、供水、垃圾处理、城市交通等行
本文作者介绍了40Hz-26GHz电磁环境自动监测系统的组成,简要说明其硬件部分,并重点阐述其软件控制部分。
泛在的网络环境中充斥着大量的高维数据,如音频、视频、图片等。传统的线性搜索和树形搜索方法已经不能满足高维数据的快速相似性搜索的需求。近年来提出的基于哈希技术的相
序列模式挖掘是数据挖掘中一个经典的研究话题。但是在序列模式挖掘中,用于衡量事物重要程度的支持度有时并不能反映出用户对某一知识的感兴趣程度。例如支持度并不能反映出
大范围、长时间的区域监测对星载合成孔径雷达提出了更高的要求,高轨SAR因其波束覆盖范围广、不受地理环境限制、全天候全天时工作等特点,在地面场景成像和运动目标检测方面具有独天得厚的优势和广阔的应用前景。基于高轨SAR平台,本文开展了基于多通道处理的地面(海面)运动目标检测与成像技术研究,主要研究工作及贡献如下:1.针对地面运动目标易导致回波出现距离走动和多普勒走动问题,提出联合DPCA与广义Keys
抚顺战犯管理所是作为一个特殊机构存在的(新中国成立后设立的管理战犯的机构),它与太原战犯管理所是新中国为关押和改造日本战犯、伪满战犯及国民党战犯而设立的特殊机构。
随着信息技术的快速发展,多媒体信息的传输交流变得非常容易,社交网络和共享平台已经成为人们日常生活中不可或缺的信息交流工具。互联网行业的飞速发展在给人们的日常生活、
清末,晚清政府在内忧外患中全面开禁东北。清廷通过开禁放荒,招民移垦,垦荒济饷等措施有力地抵御了边疆危机,同时也加速了东北地区的农业开发。民初,中央与地方各省均面临严