论文部分内容阅读
文本匹配是自然语言理解中的一个核心问题,在现实世界中的搜索、广告、推荐和智能客服系统等领域都有具体应用。自然语言理解中的许多任务,比如本文研究的释义识别、重复问题识别、自然语言推理、机器阅读理解等等,都可以形式化为文本匹配问题。对于文本匹配的研究,传统方法主要集中在人工定义特征上。随着深度学习的兴起,许多研究人员采用深度表示学习进行文本匹配研究,深度自编码语言模型BERT最近被广泛应用于自然语言理解任务中,其强大的语言表示能力能够提升自然语言理解任务的表现。由于现有的自编码语言模型预训练以及微调方法没有专门针对特定的文本匹配任务,本文对自编码语言模型BERT进行优化,探索更高效的语言模型微调的方法,进一步应用到多种文本匹配任务中。本文根据短句与长文的特点,分别对短文本匹配和长文本匹配提出相应的基于BERT的改进方法。针对短文本匹配重点在语义理解与交互的特点,本文深入地研究自编码语言模型BERT的微调方法,提出基于两阶段微调的增强型BERT方法,将BERT这个通用模型通过迁移学习实现领域自适应,从而能够适用到特定任务上,应用在不同类型的短文本匹配任务中。针对样本类别不均衡的问题,本文改进损失函数公式。将增强型BERT方法应用在释义识别、重复问题识别、自然语言推理等短文本匹配任务中,结果都明显优于当前最先进的模型。通过进行有效因子分析验证两个阶段微调的有效性,并且通过可视化分析研究模型的内部结构以及解释模型性能优秀的原因。针对长文本匹配问题,本文研究复杂的多文档多段落阅读理解任务。针对文档中多段落的问题,本文提出基于字词联合的多段落重排序方法,结合字词两个粒度对段落进行重排序,选取最有可能出现答案的段落进而压缩文档。针对多文档阅读理解的问题,本文创新地提出结合BERT词表示与双向注意力模型Bi DAF优化的阅读理解模型MD-NET,相比于原始Bi DAF模型,效果有较大的提升。为了进一步提升评价指标,本文还提出基于语言模型多阶段微调的BERT微调模型,在真实数据集上表现优异。通过实例分析,验证本文所提出的模型能够应用到实际的搜索场景上。