论文部分内容阅读
问答系统(Question Answering System,QA)是新一代智能搜素引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。与传统的关键词搜索引擎相比,问答系统能够更好满足用户对快速、准确地获取信息的需求。在受限领域中,基于问题库的问答系统在对问题答案的定位上,有更准确,快捷和高效的特点,在日常生活的各个领域中,有着重要的应用前景,是目前研究的一个热点问题。问句理解是问答系统的一个非常重要的组成部分,它的准确性直接影响到系统的准确率。本文主要利用自然语言处理技术,对领域知识库的建立,中文问句的理解,问句相似度的计算等问答系统关键技术进行深入探讨和研究,并在此基础上实现面向电信产品信息的领域问答系统。具体来说,本文主要的实际性工作和取得的主要成果如下:
1.利用词语在专业语料库和背景语料库出现的概率对比作为特征实现领域术语的自动抽取,并利用知网对知识的描述方法,建立领域知识库;
2.提出一种问句语义理解模型。该方法通过对问句的问句焦点,问句的依存文法和问句成分的语义角色进行深入的分析,将问句的词汇归入各个语义块中,并对各个语义块进行扩展,构成问句的语义理解模型;
3.研究和分析当前问句相似度计算方法的不足,结合领域内汉语问句的语义理解模型,提出一种基于问句语义理解模型的相似度计算方法。该方法以知网和领域知识库为基础,计算词语之间语义相似度,在语义理解模型的基础上计算问句间的相似度,从而实现了融合词法、句法、语义以及领域知识的领域问句相似度计算。实验结果表明,该方法具有良好的效果;
4.利用上述研究成果,并以电信产品信息领域为例,收集领域词汇和领域FAQ,并对领域知识库建立索引,实现面向电信产品信息的问答系统原型。