论文部分内容阅读
在计算机科学技术学科中,愈来愈多的研究领域涉及到对文本信息的处理问题,这些领域以文本信息处理为核心,文本信息处理的好坏制约着它们的进一步发展。文本信息主要由自然语言来表示,对文本信息的处理即体现在对自然语言处理之上。在我们日常汉语文本信息处理过程中,计算中文文本中句子的相似度是极端重要而且又非常基础的一项工作,也是研究人员关注的热点和难点。本文在对中文句子相似度的研究过程中,对于传统的句子相似度计算方法仅仅考虑句子某一方面的特征信息,提出了基于分层的中文句子相似度计算方法。该方法从句子的表层、中层和深层三个层次对句子相似度进行计算,综合考虑句子表层特征信息如句子长度、相同关键字的距离等,句子中层特征信息如句子结构信息,句子的深层特征信息如句子的情感倾向信息。该方法根据句子表层,中层,深层信息对句子的影响因子的大小,通过相应的计算模型来综合两个句子表层相似度,中层相似度和深层相似度,进而计算出句子间整体相似度。本文主要有如下几个方面的研究成果:1)、在本文中,将句子分成表层,中层,深层三个层次,我们认为句子的整体信息是由这三个层次句子的表层信息,句子的中层信息,句子的深层信息组成。其中句子的表层信息主要是由句中词语的信息决定,中层信息是句子结构的信息决定,深层信息是句子情感倾向决定。句子的表层特征信息和中层特征信息决定句子的主题,句子的深层特征信息决定了句子的情感倾向。2)、针对目前常见句子相似度往往是对句子的某一特征进行计算,本文采用分层的结构划分句子特征,并充分综合这些句子特征相似度计算的优点,取长补短。该层次结构即有利于基于分层的中文句子相似度模型今后扩展融合更优的句子相似度算方法,而且因为层次结构的低耦合特性,我们可以根据不同的应用环境选用合适层次的相似度计算方法。3)、本文引入句子深层次情感信息,从人类思维和认识的角度,使对于两个主题表达一致,态度相反的句子相似度衡量更符合人类的语言使用和语义理解习惯。