基于BERT的神经排序模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lvlaoban0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代的兴起,数据已成为驱动经济发展的新能源。如何从海量的数据中准确地检索到用户需求的数据,并从中挖掘出有价值的信息,已成为当下信息检索领域的研究热点。目前,自然语言处理领域广泛使用词向量作为神经网络模型的输入。实验证明:相对于词袋模型,使用词向量能显著提升模型性能。但是传统词向量无法有效地对上下文进行建模,难以解决词的歧义性问题。2018年谷歌发布预训练语言模型BERT,通过编码上下文语义来消除词的歧义性。因为BERT在众多自然语言处理任务中的优异表现,所以本文我们将对如何利用BERT改进信息检索模型展开系统性研究,主要工作包括以下两个方面:第一,运用BERT构建基于表示学习的神经排序模型。我们首先利用BERT分别编码查询和文档的上下文相关的词向量表示,然后将其输入由Transformer构建的神经排序模型并得到文档和查询的相关性得分。我们将该模型称作为基于注意力机制编码的神经排序模型ATER。我们在经典的信息检索数据集Robust04和MQ2007上进行了实验。实验结果证明:基于BERT词向量的神经排序模型在P@20和NDCG@20两个评价指标上的表现均优于传统信息检索模型,进一步证明了基于上下文相关词向量的模型能构建更加精确的文档语义表示。第二,运用BERT构建基于交互学习的神经排序模型。借鉴Yang W等人[1]的思路:我们首先利用BERT捕获查询和文档段落间的匹配模式,然后输入一个线性分类层得到文档和查询的相关性得分。我们在Robust04和MQ2007数据集上进行了大量实验。实验结果证明:相对于传统检索模型BM25和基于表示学习的神经排序模型ATER,基于微调的BERT神经排序模型检索性能更为优秀,进一步验证了基于交互学习的神经排序模型能更加准确地捕获查询和文档间的匹配模式。
其他文献
随着生产自动化水平日益提高,人工成本不断增加,厂区运料AGV(Automatic Guided Vehicle)逐渐被各行各业广泛需求。基于视觉导航的AGV有较好的灵活性和前期投入成本低的特点,
基于虚拟环境的触觉反馈技术是一项允许操作者通过触觉设备控制计算机,模拟虚拟环境中物体运动,并感知其发生碰撞时产生反馈力的技术。在过去的几十年里,触觉反馈技术的快速
基于位置的服务(Location Based Services,LBS)近年来一直是研究热点,无论是在室内还是室外,位置服务都在以它独特的魅力吸引着大家的关注,发挥着重要的作用。随着物联网(Int
目前,SG无线通信工作正在如火如荼地进行,一系列相关规程和关键技术被相继提出。面对当前5G无线移动通信所带来的业务量急速增长的局势,如何使无线频谱资源进行合理分配以缓
泥炭沉积物中有机质氧同位素组成特征被认为是研究古气候变化的重要手段之一,学者在利用泥炭纤维素δ18O在反演古环境变化方面取得了丰硕的成果。对比不同地区泥炭纤维素δ18
地下水是人类生存不可或缺的自然资源。由于生产的发展和生活水平的提高,土壤和地下水污染越来越严重。地下水环境正经受着越来越多的污染冲击。包气带是大气水和地表水同饱
我国有大范围的岩溶区,广泛分布于西南地区、华北地区、西藏南部地区,岩溶区的社会经济发展无法避免的会涉及到岩溶管道相关的工程。经典的达西定律只适用于雷诺数小于10的多
金属卤化物钙钛矿是近几年来倍受关注的一类半导体材料,它具有卓越的光电性能,如超强的光吸收能力,超长的光生载流子寿命及载流子扩散长度,使其在太阳能电池、高分辨率显示、
滇西镇康水头山Pb-Zn矿床是保山地块镇康Pb-Zn-Fe-Cu多金属矿集区内又一重要找矿成果,主矿体呈似层状、透镜状产于上寒武统保山组大理岩化灰岩中,受NEE向断裂构造控制。其矿
随着煤矿智能化程度的提升,智能监控系统在煤矿生产安全中也发挥着愈发重要的作用。对矿井视频场景进行分类,不仅能够为井下视频监控工作提供有价值的参考信息,同时也能为矿