论文部分内容阅读
文本表示和文本相似度计算是自然语言处理领域中最为重要的任务,为后续的文本计算提供良好的方法和支持。为充分表达文本的语义、结构信息和获得更好的相似度计算结果,本文构建和设计了基于特征贡献度的句向量表示模型和多模型加权融合的文本相似度计算算法。主要研究工作如下:(1)针对句向量表示语义信息不集中且任务针对性差等问题,在现有SIF句向量模型的研究基础上,建立了一种基于特征贡献度的句向量表示改进模型。该模型通过引入类内词频和类内、类间区分度因子,改进信息增益计算公式,增强文本特征选择的效果。再结合通用词频因子,构建可刻画特征对任务贡献度的特征贡献度因子。最后,利用特征贡献度因子筛选出贡献度较低的特征词,让剩余特征词参与后续句向量的计算,得到语义信息集中且任务针对性强的句向量表示。实验表明,较原始模型,本文提出的句向量模型在文本分类任务上获得了更高的准确率,文本相似度计算任务中在准确率、召回率和F1值三个评价指标下均获得更好的结果。(2)针对传统文本相似度计算算法只单一的考虑了文本的语义信息或结构信息,对捕捉文本的关键特征有一定局限性等不足,设计了多模型加权融合的文本相似度计算算法。该算法通过改进距离度量算法,结合多个相似度计算算法的优势,提高相似度计算算法的准确性。该算法构建多特征融合权重,挖掘文本中的语义和语境信息,得到基于多特征加权融合的文本相似度计算算法。之后,再利用分层池化的IIG-SIF句向量相似度计算算法发现文本中的结构信息。最后,建立线性加权模型,融合这两种相似度计算结果,实现多模型融合的文本相似度计算算法。实验表明,该算法较词移距离算法和IIG-SIF句向量计算算法在准确率、召回率和F1值上均得到更好的实验结果,并优于与之比较的经典相似度计算算法。实验结果体现了该种融合算法能够有效提取文本的语义信息,发现文本中语义和文本结构的关系,从而得到结果更好的文本相似度计算算法。