论文部分内容阅读
随着网络技术的发展,信息获取成为人们工作生活中的重要组成部分,因此也极大地推动了自然语言处理技术的发展,同时也对自然语言处理技术提出了更高的要求,如何在网络世界中快速、准确地获得服务是研究的一大难点。自动应答系统正是在这种情况下产生发展的。自动应答系统是搜索的一种形式,并且对于传统的搜索形式应答系统能更好的改善搜索质量。目前国内的应答系统尚处于探索阶段,较低的自然语言处理水平和人工智能的发展水平制约了自动应答系统的智能水平。现有的自动应答技术比较集中在对用户的输入问句进行关键词的检索匹配,对其中的关键部分—语义理解涉及的不是很多。针对上面问题,本文提出引入领域本体作为语义理解的基础。本体(ontology)是一种用来描述概念及概念与概念之间关系的模型,包含领域的较完整的知识和丰富的语义关系,把这些资源通过方法应用到应答查询中,使得一定程度上帮助解决语义理解不足的问题。文章通过构造一个小型的本体来协助完成问题的理解、检索以及问句间的语义相似度计算。确定本体的范畴,提取领域中的概念,定义概念属性及相互关系,用本体描述语言描述本体,确定本体的存储方式。对应答系统进行模块设计,建立问题—答案库,并在本体提供的知识背景下对用户和问题—答案库中的问句进行分析处理,提取问句的句型和中心概念及扩展概念集,设计检索方案,在问题—答案库中查找候选问句集。将得到的问句集与用户问句进行语句相似度计算,将结果值高于阈值的问句—答案对作为结果返回。目前普遍使用的语句相似度算法倾向于基于统计的方法和基于语义词典的计算方法,前者不考虑词语本身携带的语义信息,后者则受词典本身的限制。因此在借鉴现有算法的基础上,文章提出使用基于本体的语义相似度计算方法,主要讨论并构造了概念之间和问句之间的语义相似度计算模型。概念间相似度算法主要通过对本体中不同概念之间的各个属性进行对比,判别它们在各个属性上的相同与否来得到概念间的语义相似度,同时对其近邻概念集进行相似度比较,最终加权得到线性方程来确定概念在领域本体背景下的相似度。为了保证在概念数目较多时的计算精度,文章引入禁忌算法来寻找最优解。在得到概念间相似度的基础上设计问句向量模型,借鉴向量空间计算方法来得到问句间的相似度。最后介绍系统原型并通过实验分析,证明算法的正确性和有效性。