论文部分内容阅读
句子相似度指对句子进行语义等价性的衡量,是自然语言理解中基本的问题之一。已有的句子相似度计算方法通常都是从句子的表层入手进行分析,从语义层面入手进行分析是句子相似度研究的难点之一。本文从语义层面入手提出了一种基于语义角色分析的句子相似度计算的方法。语义角色分析效果的好坏直接影响了句子相似度计算结果的优劣,而现有的语义角色分析对复杂句子分析存在问题,因此需要对语义角色分析的效果进行改进。在语义角色分析方面,本文结合短语结构句法树对句子进行剪枝、子句抽取处理,然后对处理过的句子进行语义角色分析,最后结合短语树对还原后的语义角色边界进行修正。在CoNLL2005的WSJ数据集F值为88.25%,实验结果表明引入短语结构句法能有效地提升语义角色的识别效果。在句子相似度计算方面,本文对句子采用深层结构语义模型和语义角色分析两种语义表达方式,并在此基础之上对句子进行相似度的计算。前者将句子进行语义概念向量化并利用向量计算句子相似度。后者是在语义角色自动识别的基础之上对句子进行谓词对的匹配、语义角色之间相似度的计算。将两种语义表达方式得到的结果进行线性组合作为句子的整体相似度。在SemEval2017评测语料中做了实验,皮尔逊相关系数达到85.746%。表明本文的方法能有效地提升句子相似度计算效果。在句子主题分析方面,本文提出基于SVM主题分类的方法。将语料中打分值在1-5之间的句子对归为主题相同,0-1为主题不同。将基于DSSM、CDSSM、Skipthoughts等分别计算出的句子相似度作为输入特征,利用SVM进行二值分类,并在此基础之上进行相似度的修正。同样在SemEval2017评测语料中做了实验,皮尔逊相关系数由85.746%提升到85.921%。