论文部分内容阅读
随着互联网的普及,网上信息越来越丰富。但是,传统搜索引擎有很多不足之处,它返回的是许多相关的网页,而不是准确的答案,系统的查准率很低。另外,它仅以关键词索引或全文检索,没有触及到语义信息,因此很难真正理解用户的意图。而在智能问答系统(Intelligent Question Answering System, IQAS)中,用户可以使用自然语言进行提问,系统通过对问题分析和理解,直接返回答案给用户。因此问答系统更好地满足了用户的要求。可以说,IQAS是新一代的搜索引擎。近年来,本体(Ontology)受到人工智能领域的普遍关注,并得到了广泛应用。在受限领域问答中采用本体知识库,可以更好的表示知识之间的内在关系,知识的组织更加合理,减少冗余存储,也有利于进行基于语义的答案抽取。本文在研究国内外主流IQAS的前提下,将本体技术引入IQAS,构建出一个针对《数据结构》课程的领域本体,并以该本体作为语义理解的信息基础,实现了基于语义Web的IQAS。本文系统主要有4个核心模块:1、领域本体构建。采用protege3.1对《数据结构》构建了小型领域本体库,并使用Jena解析本体库持久化至Mysql数据库。2、离线语义推理。为了保证系统实时响应速度,将系统的推理部分作为离线处理并持久化至数据库。3、语法分析模块。将问句进行中文分词和词性标注(分别采用je-analysis中文分词和Viterbi算法),得到一组词语-词性集合,随后通过问句模式匹配划分问句,最后将其转化为查询语句块(QLB)。4、语义相似度计算模块。将QLB和目标查询块(OSB)集合进行问句相似度匹配,问句相似度的精度由词汇相似度决定,词汇包括通用词汇和领域词汇,前者采用基于《知网》的语义相似度算法。针对后者,本文提出了一种基于语义距离和基于上下文加权的概念语义相似度算法,从概念距离、概念的父代和子代三个角度进行计算,在很大程度上加强了领域词汇匹配的精度。通过本文的研究与实践表明,基于语义Web的IQAS可以有效地利用领域本体的信息资源,在一定程度上解决了目前搜索引擎对语义理解不足的问题,并且能够具有较高的准确率。