论文部分内容阅读
随着人工智能和自然语言处理的迅速发展,相似度计算已成为语义消歧、信息提取、信息检索、文本分类、自动问答、数据挖掘等基础应用的亟待解决的问题。伴随各个领域研究的不断深入,相似度计算的对象也由之前的词共现相似、语法结构相似上升到了语义相似,而精准高效的语义相似度计算成为了一个亟待解决的问题。当前语义相似度算法主要是基于本体词典或知识库的规则方法以及基于大规模语料库的统计方法。其中,基于规则的方法主要利用词典或知识库中的本体树或图的结构或者本体之间的共现属性数目。而基于统计的方法又分为利用知识库和不利用知识库的方法。其中利用知识库的统计方法由于更加全面且一定程度上忽略了知识库中的噪音信息,在这些方法中取得了最优的效果。但该方法面临着由于知识库中不同主题信息收录数目不均衡而导致的语义计算结果基准不一致、知识库中的低频词语料不足等问题尚需解决。本文分析了基于本体语义词典的规则化方法和基于语料库的统计方法的优劣之处并取长补短,建立了利用维基百科的中英文数据库和知网(HowNet)语义词典,构建显示语义分析(Explicit Semantic Analysis, ESA)算法模型,并结合传统基于知网的语义相似度计算模型的词汇层面规则与统计混合的计算方法。并针对词汇语义分布不均衡的问题,提出了基于停用词(Stop Word)的语义相似度改进算法。在句子层面,将句法信息、编辑距离与语义相似度计算进行融合,有效的改进了句子层面的语义相似度效果。本文提出的语义相似度混合计算方法,在词汇和句子层面的中英文通用测试集上均取得了优于之前同类算法的结果,能够直接应用于如通用自动问答系统等应用中。