论文部分内容阅读
在自然语言处理领域,句子之间的相互关系,尤其是句子相似度的计算一直是人们研究的热点和难点。它在自动问答系统、信息检索、信息过滤、自然语言处理、智能检索、机器翻译等领域都有着非常广泛的应用。句子相似度计算的研究现状及计算结果的准确程度,对其他领域的研究进展有着直接的影响。然而,句子相似度这一概念并不十分明了,它并不能准确指出句子是在语法、语义、还是语用层次上的相似,这也给当前的研究工作带来很大的困难。本文以知网为基础,着重研究义原、概念、以及句子在语义层面上相似度,提出了一种基于分块的计算句子语义相似度的算法,该方法首先通过LTP平台分词和找到谓语中心词以及划分句子模块,然后借助知网丰富的概念定义和实例库扩充等进行消歧,消歧后句子中的词语和知网的概念一一对应,对句子每个分块划分不同的权值后进行相似度计算,最后通过相关实验,证明了本文句子语义相似度计算方法的实用性和有效性。本文就以下几个方面做出了创新性的工作:(1)在刘群、江敏、张振幸等提出的词语相似度计算方法基础上,进一步探索基于知网的概念间的相互关系,提出一种基于知网的概念相似度的计算方法,为下一步句子相似度的计算打好基础。(2)提出一种基于知网的词语消歧策略。该方法依据知网,将具有多个概念的词语提取出来,对其搭配进行扩充,并根据其在具体句子中的词性和前后词性搭配以及固定范例搭配,准确确定词语的概念,使得在计算句子语义相似度之前能将句子中的词语与知网的概念一一对应。(3)提出了一种基于分块的句子语义相似度的计算方法,该方法将每个句子看成一个统一的整体,对于两个需要计算语义相似度的句子,其所包含的信息量的比极大的影响着句子的相似度,并且将这种信息量比统一到块和概念相似度上来,使句子的相似度计算方法具有自上而下的一致性。