基于Bert的文本相关度研究

论文部分内容阅读

文本语义相关度的研究是自然语言处理的重要任务,通过准确辨别文本语义相关度可以达到对词语句子短文等文本更精确的编码表示,进一步推动其他自然语言处理任务的发展。目前深度网络模型是处理自然语言处理任务的主流,在文本相关度方面,深度学习的工作基本可以分为两个类别:一类是通过修改网络模型结构,使模型可以更好地拟合文本语义相关度问题;另一类是学习到一个通用或者唯一的句子编码表示,通过余弦相似度或者全连接层进一步预测语义相似度。第一类方法往往会对某类数据集有较好的效果,但是效果存在瓶颈且无法通用到其他的学习任务中。另一类方法对于预测不同的学习任务很方便,效果一般也不错,但是需要先在大规模语料上训练,同时一个通用的句子表示可能会忽略一个句子的语序或者词汇的小变动,使得对于句子真正的表达含义理解不到位。本文针对目前研究工作存在的一些不足,提出一种基于Bert预训练语言模型的更适合处理文本相关度任务的模型TSBert。该模型采用分层结构:输入层,适配层,编码层,融合层和输出层。输入层采用预训练好的Bert模型相同的输入处理。适配层使用适配器减少模型的训练参数,同时有利于更新新网络层的参数。编码层一方面提取适配层Bert模型中存在的CLS向量,另一方面添加新的特征处理网络,该网络融合了RNN和CNN的特征提取能力并训练出新的特征向量。融合层融合编码层的两种关于句子自身的特征向量,并表示成文本相关度任务的特征向量。输出层使用三层全连接层和相应的激活函数对融合层的特征向量做最后的特征选择,通过均方误差函数作为损失函数迭代模型参数。TSBert模型不仅考虑到一个通用的句子向量表示,并且构建了一个局部特征提取网络R-CNN,两者的结合使得模型在文本相关度任务上表现不错。其中R-CNN网络同时结合了卷积神经网络和循环神经网络的特征,进一步辨别文本语义可能存在的变化。为了验证TSBert模型的性能,本文在SICK数据集和STS基准数据集上进行了文本语义相关度实验。实验结果表明,模型在两个公开数据集上都表现出良好的性能,尤其是在SICK数据集上,用于性能评估的皮尔逊相关系数和斯皮尔曼相关系数在目前所有论文的结果中达到state-of-the-art的精度。

其他学术论文