基于Bert的文本相关度研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:anan0508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本语义相关度的研究是自然语言处理的重要任务,通过准确辨别文本语义相关度可以达到对词语句子短文等文本更精确的编码表示,进一步推动其他自然语言处理任务的发展。目前深度网络模型是处理自然语言处理任务的主流,在文本相关度方面,深度学习的工作基本可以分为两个类别:一类是通过修改网络模型结构,使模型可以更好地拟合文本语义相关度问题;另一类是学习到一个通用或者唯一的句子编码表示,通过余弦相似度或者全连接层进一步预测语义相似度。第一类方法往往会对某类数据集有较好的效果,但是效果存在瓶颈且无法通用到其他的学习任务中。另一类方法对于预测不同的学习任务很方便,效果一般也不错,但是需要先在大规模语料上训练,同时一个通用的句子表示可能会忽略一个句子的语序或者词汇的小变动,使得对于句子真正的表达含义理解不到位。本文针对目前研究工作存在的一些不足,提出一种基于Bert预训练语言模型的更适合处理文本相关度任务的模型TSBert。该模型采用分层结构:输入层,适配层,编码层,融合层和输出层。输入层采用预训练好的Bert模型相同的输入处理。适配层使用适配器减少模型的训练参数,同时有利于更新新网络层的参数。编码层一方面提取适配层Bert模型中存在的CLS向量,另一方面添加新的特征处理网络,该网络融合了RNN和CNN的特征提取能力并训练出新的特征向量。融合层融合编码层的两种关于句子自身的特征向量,并表示成文本相关度任务的特征向量。输出层使用三层全连接层和相应的激活函数对融合层的特征向量做最后的特征选择,通过均方误差函数作为损失函数迭代模型参数。TSBert模型不仅考虑到一个通用的句子向量表示,并且构建了一个局部特征提取网络R-CNN,两者的结合使得模型在文本相关度任务上表现不错。其中R-CNN网络同时结合了卷积神经网络和循环神经网络的特征,进一步辨别文本语义可能存在的变化。为了验证TSBert模型的性能,本文在SICK数据集和STS基准数据集上进行了文本语义相关度实验。实验结果表明,模型在两个公开数据集上都表现出良好的性能,尤其是在SICK数据集上,用于性能评估的皮尔逊相关系数和斯皮尔曼相关系数在目前所有论文的结果中达到state-of-the-art的精度。
其他文献
目的评价对在校大学生的无偿献血教育干预效果,以制订有效的教育策略。方法采用分层随机整群抽样方法,在献血者中开展多种形式的无偿献血教育干预,比较干预前后无偿献血知晓
目的探讨缺血预处理(IP)对大鼠原位肝脏移植中移植肝再灌注损伤的保护作用及其机制。方法采用大鼠原位肝移植动物模型,80只Wistar大鼠随机配成40对,平均分成两组,每组20对。对