论文部分内容阅读
目前世界正处在一个信息爆炸时代,网络资源以几何形式迅速增长。人们可以通过搜索引擎很容易从互联网上获取信息,但是由于传统的搜索引擎仅以关键词组合进行检索和其返回的结果是一堆网页等缺点,导致传统搜索引擎已经不能够满足人们的信息检索需求。问答系统融合信息检索和自然语言处理等技术的优点,通过以自然语言形式的问句作为输入,采用自然语言处理技术深层次分析用户的检索意图,然后根据意图从知识库中定位答案,最后直接将答案抽取出来,而不是一堆相关的网页。所以问答系统是一种能更好地满足人们信息检索需求的方式。本文对问答系统的关键技术进行了研究,并且实现了一个基于信息抽取技术的问答系统,主要工作如下:第一、信息抽取引擎研究。本文系统抽取引擎分为自然语言处理和信息抽取两部分,自然语言处理实现分词、词性标注、语义分析等,信息抽取实现命名实体识别和实体关系抽取。命名实体和实体关系对本系统的问题分析和答案提取有重要影响,并且信息抽取引擎伴随着问答系统的整个过程。第二、问题分析。本文提出利用关键词抽取、命名实体识别及命名实体间关系识别等信息抽取技术分析问题,将问题划分为三类:实体关系型、实体型和关键词型。对于实体关系型和实体型问句,还可以根据具体的实体关系或实体,将问句进行更加细致的分类。第三、答案抽取。本文提出了基于层次法的答案提取算法,按照实体关系型→实体型→关键词型层顺序获得短语级和句子级答案集,利用基础特征(相同关键词频度,关键词间距,最长字符串匹配)、命名实体匹配和实体关系匹配特征进行重排序,获得最佳答案。并且对于实体关系型问题,通过匹配问题和候选答案的实体关系三元组,直接获得答案。第四、系统实现。设计并实现了基于信息抽取问答系统。利用Lucene实现建立索引和查找,并且部署在Hadoop平台上,提高了建立索引和查找的速率。