基于深度自编码语言模型的文本匹配方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yanhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配是自然语言理解中的一个核心问题,在现实世界中的搜索、广告、推荐和智能客服系统等领域都有具体应用。自然语言理解中的许多任务,比如本文研究的释义识别、重复问题识别、自然语言推理、机器阅读理解等等,都可以形式化为文本匹配问题。对于文本匹配的研究,传统方法主要集中在人工定义特征上。随着深度学习的兴起,许多研究人员采用深度表示学习进行文本匹配研究,深度自编码语言模型BERT最近被广泛应用于自然语言理解任务中,其强大的语言表示能力能够提升自然语言理解任务的表现。由于现有的自编码语言模型预训练以及微调方法没有专门针对特定的文本匹配任务,本文对自编码语言模型BERT进行优化,探索更高效的语言模型微调的方法,进一步应用到多种文本匹配任务中。本文根据短句与长文的特点,分别对短文本匹配和长文本匹配提出相应的基于BERT的改进方法。针对短文本匹配重点在语义理解与交互的特点,本文深入地研究自编码语言模型BERT的微调方法,提出基于两阶段微调的增强型BERT方法,将BERT这个通用模型通过迁移学习实现领域自适应,从而能够适用到特定任务上,应用在不同类型的短文本匹配任务中。针对样本类别不均衡的问题,本文改进损失函数公式。将增强型BERT方法应用在释义识别、重复问题识别、自然语言推理等短文本匹配任务中,结果都明显优于当前最先进的模型。通过进行有效因子分析验证两个阶段微调的有效性,并且通过可视化分析研究模型的内部结构以及解释模型性能优秀的原因。针对长文本匹配问题,本文研究复杂的多文档多段落阅读理解任务。针对文档中多段落的问题,本文提出基于字词联合的多段落重排序方法,结合字词两个粒度对段落进行重排序,选取最有可能出现答案的段落进而压缩文档。针对多文档阅读理解的问题,本文创新地提出结合BERT词表示与双向注意力模型Bi DAF优化的阅读理解模型MD-NET,相比于原始Bi DAF模型,效果有较大的提升。为了进一步提升评价指标,本文还提出基于语言模型多阶段微调的BERT微调模型,在真实数据集上表现优异。通过实例分析,验证本文所提出的模型能够应用到实际的搜索场景上。
其他文献
行政特许因其所涉及行业的特殊性而成为了行政许可的一项特殊制度。我国于1984年确立了第一个特许经营项目即深圳沙角B电厂项目,自此之后供热、供水、垃圾处理、城市交通等行
本文作者介绍了40Hz-26GHz电磁环境自动监测系统的组成,简要说明其硬件部分,并重点阐述其软件控制部分。
泛在的网络环境中充斥着大量的高维数据,如音频、视频、图片等。传统的线性搜索和树形搜索方法已经不能满足高维数据的快速相似性搜索的需求。近年来提出的基于哈希技术的相
序列模式挖掘是数据挖掘中一个经典的研究话题。但是在序列模式挖掘中,用于衡量事物重要程度的支持度有时并不能反映出用户对某一知识的感兴趣程度。例如支持度并不能反映出
大范围、长时间的区域监测对星载合成孔径雷达提出了更高的要求,高轨SAR因其波束覆盖范围广、不受地理环境限制、全天候全天时工作等特点,在地面场景成像和运动目标检测方面具有独天得厚的优势和广阔的应用前景。基于高轨SAR平台,本文开展了基于多通道处理的地面(海面)运动目标检测与成像技术研究,主要研究工作及贡献如下:1.针对地面运动目标易导致回波出现距离走动和多普勒走动问题,提出联合DPCA与广义Keys
抚顺战犯管理所是作为一个特殊机构存在的(新中国成立后设立的管理战犯的机构),它与太原战犯管理所是新中国为关押和改造日本战犯、伪满战犯及国民党战犯而设立的特殊机构。
随着信息技术的快速发展,多媒体信息的传输交流变得非常容易,社交网络和共享平台已经成为人们日常生活中不可或缺的信息交流工具。互联网行业的飞速发展在给人们的日常生活、
清末,晚清政府在内忧外患中全面开禁东北。清廷通过开禁放荒,招民移垦,垦荒济饷等措施有力地抵御了边疆危机,同时也加速了东北地区的农业开发。民初,中央与地方各省均面临严
随着互联网的发展,越来越多的企业开始通过互联网为用户提供服务,随着用户数量的增加,企业对于在线客服人员的需求也越来越大,但是客服人员难以提供全天候的服务,而且用户的
随着区域经济一体化的发展与现代技术的进步,企业之间的竞争逐渐转变为供应链、产业集群之间的竞争。客户需求多样化和个性化程度不断增加,产业集群所形成的集群式供应链作为