论文部分内容阅读
随着信息化社会的发展,信息爆炸性的增长,搜索引擎技术的出现使人们能够快速的获取到信息。但是,传统的搜索引擎也存在其固有的缺陷,用户只能通过关键词进行检索,而关键词并不能充分表达用户的搜索意图,而且让用户从返回的大量包含关键词的结果中挑选可能的答案,难以给用户带来更好地体验。为了解决这些问题,自动问答系统被提出。用户直接向问答系统提问,系统返回简单直接的答案,为用户节省了大量的时间,同时带来了更好的体验。在基于常用问题库(FAQs)的自动问答系统中,问句的相似度计算是其最重要的一环,决定着整个问答系统效果的好坏,因此,本文重点对其进行了研究。论文的主要工作如下:(1)传统基于《知网》的词语相似度计算方法忽略了反义词间的关系,而这种处理方式会导致两个表达截然相反意思的问句具有很高的问句相似度。并且,基于《知网》的词语相似度计算方法,对语义词典依赖性很强,而对于层出不穷的网络新词和旧词新意问题则束手无策。为了解决这些问题,本文采用了一种考虑反义和对义关系的词语相似度计算方法,同时融合了基于统计的方法,解决这些问题。(2)在传统的问答系统检索模型中,相似度是其考虑的核心因素,FAQ之间都是相互独立的,返回相似度最高的问句对应的答案给用户,此时,忽略了用户其他可能的意图,无法满足用户的多样性需求。因此,本文对问句匹配返回的结果进行意图分类,按照意图分组返回给用户,满足用户的多样性需求,同时又将其应用到问句相似度计算中,提高问句相似度计算的准确性。(3)本文设计一种新的问句相似度计算方法,在基于词语语义特征的基础上,使用问句意图特征和句法角色特征,分别解决用户意图多样性和问句语义相似度高而问句表达意思不同的问题,提高了问句匹配的准确性,并且通过实验验证了该方法的有效性。(4)基于以上相关研究,构建了一个基于FAQs的自动问答系统的原型,并对相关模块进行了改进,为今后的应用和进一步的研究提供了一个平台。