基于信息抽取问答系统的研究与实现

来源 :西安邮电大学 西安邮电学院 | 被引量 : 1次 | 上传用户:viviane_px349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前世界正处在一个信息爆炸时代,网络资源以几何形式迅速增长。人们可以通过搜索引擎很容易从互联网上获取信息,但是由于传统的搜索引擎仅以关键词组合进行检索和其返回的结果是一堆网页等缺点,导致传统搜索引擎已经不能够满足人们的信息检索需求。问答系统融合信息检索和自然语言处理等技术的优点,通过以自然语言形式的问句作为输入,采用自然语言处理技术深层次分析用户的检索意图,然后根据意图从知识库中定位答案,最后直接将答案抽取出来,而不是一堆相关的网页。所以问答系统是一种能更好地满足人们信息检索需求的方式。本文对问答系统的关键技术进行了研究,并且实现了一个基于信息抽取技术的问答系统,主要工作如下:第一、信息抽取引擎研究。本文系统抽取引擎分为自然语言处理和信息抽取两部分,自然语言处理实现分词、词性标注、语义分析等,信息抽取实现命名实体识别和实体关系抽取。命名实体和实体关系对本系统的问题分析和答案提取有重要影响,并且信息抽取引擎伴随着问答系统的整个过程。第二、问题分析。本文提出利用关键词抽取、命名实体识别及命名实体间关系识别等信息抽取技术分析问题,将问题划分为三类:实体关系型、实体型和关键词型。对于实体关系型和实体型问句,还可以根据具体的实体关系或实体,将问句进行更加细致的分类。第三、答案抽取。本文提出了基于层次法的答案提取算法,按照实体关系型→实体型→关键词型层顺序获得短语级和句子级答案集,利用基础特征(相同关键词频度,关键词间距,最长字符串匹配)、命名实体匹配和实体关系匹配特征进行重排序,获得最佳答案。并且对于实体关系型问题,通过匹配问题和候选答案的实体关系三元组,直接获得答案。第四、系统实现。设计并实现了基于信息抽取问答系统。利用Lucene实现建立索引和查找,并且部署在Hadoop平台上,提高了建立索引和查找的速率。
其他文献
作为数字媒体的重要组成部分,数字音频越来越受到人们的重视。并且,伴随着嵌入式技术的迅猛发展,数字音频技术在嵌入式系统中的应用成为了当今的研究热点。嵌入式系统配置灵
策略生成是决策科学的难点,在现时的智能科学中还没有明确地解决矛盾问题,一般只是在既定策略中进行比较和选优,很少研究策略的形成及开拓决策策略集的问题。随着可拓学的不
当前,几乎所有的入侵检测系统采用的免疫模型都是基于传统的“自我和非我”(SNS)理论。该理论认为机体免疫系统对自身的抗原不产生免疫应答,而对外来的“非我”抗原产生免疫
传统的纸笔测验(Paper and Pencil Test, PPT)对于所有被试施测的是同样的试题,是“千人一卷”的测验,但是由于不同被试的能力水平差异较大,为了使试卷能够测出占总体大多数的中等
核磁共振成像(Magnetic Resonance Imaging, MRI)技术以其无创伤,软组织分辨率高,成像数据丰富等特点,已广泛应用于医学图像的获取,并在临床医学诊断上也起到越来越重要的作
色彩迁移是指将一幅参考图像的颜色特征传递给另一幅目标图像,使目标图像具有与参考图像相似的色彩。它是当前计算机视觉、虚拟现实与可视化等领域的一个新兴的技术,具有广阔
随着“互联网+”理念的涌现,加速了互联网等相关行业的发展,也带动了传统的行业和更多的企业以及个人加入到互联网中来,从而在互联网中产生了大量的信息。为了企业或用户更好
随着大数据时代的到来,Internet上的知识数量呈现指数级增长,其内容变得更加丰富、形式更加多样,如何将这些知识进行快速地、准确地组织和管理成为计算机相关领域的研究热点
数据挖掘是从大量的、不完全的、有噪音的、随机的数据中获取潜在的、有用的信息和知识的过程。聚类分析是数据挖掘重要的组成部分,它是一种无监督的学习方法,不需要关于数据
基于图论的图像分割方法是近年来国际上图像分割领域的一个新的研究热点,其基本思想是将图看作一个带权图,其每个节点对应图像的一个像素或区域,连接每两个节点的边的权值表示该