论文部分内容阅读
随着我国信息科技实力的不断提升,网络空间中的内容极速膨胀,大量数据问题一涌而出,如:博客网站充斥了大量的抄袭内容,搜索出的内容重复性极高;智能客服对话系统需要根据用户提问从海量数据库中匹配到最相关的答案;网络云盘中的重复文件浪费了巨大的物理存储空间。解决数据爆炸增长所带来的各种问题是一项重要的研究,而文本语义相似度计算正是解决这些问题的必备技术。文本语义相似度计算是本文的研究主题。本文做了大量的研究工作,试图拓宽文本语义相似度计算领域的边界。经典的文本表示模型Siamese LSTM模型,是将多条文本转化为同一个语义空间中的向量,基于余弦相似度计算出文本的相似性;经典的文本交互模型ESIM,通过文本间信息交互和差乘增强特征来提升计算结果的准确度;18年大火的预训练模型BERT,使用全新的Transformer特征提取器真正意义上实现了双向上下文特征同时提取,并在大量语料库中进行模型预训练,将相似度计算的准确率提升到了一个新的高度。本文提出了一种基于注意力机制的RoBERTa微调模型,能够从多方位、多层次、多尺度地提取文本语义特征和文本间交互特征。该模型通过使用RoBERTa预训练模型和Whole Word Mask技术克服BERT中文支持度不足的问题,这样可以以词的维度而非字的维度学习文本的语义表征,更符合中文语言特色,并将RoBERTa网络输出的特征序列输入到基于多头注意力机制的交互层网络中提取文本间语义交互信息,经过特征增强模块和池化模块后得到deep网络的特征向量。然后与wide网络输出的文本统计特征向量一同输入两层FC网络的相似度计算模块,得到两条文本间的相似度。基于本文收集到的三组中文相似度文本数据集,设计了多组实验来调节损失函数、标签平滑相关的超参数和合适的注意力机制,得到本文最优模型。将本文模型与Siamese LSTM、ESIM、BERT、RoBERTa模型进行实验对比,相比于经典的Siamese LSTM模型和ESIM模型,本模型在准确率上有5.23%和3.99%的提升。即使与预训练模型BERT和RoBERTa相比,仍有1.5%和0.56%左右的稳定提升。以上实验结果表明,本文提出的基于注意力机制的RoBERTa微调模型在语义相似度计算方面,取得了更好的结果。