基于Web的开放领域中文问答系统研究

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:zhiyuanxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪60年代开始研究人工智能起,研究人员便对问答系统产生了浓厚的兴趣。目前,国外已经出现实用化的面向开放领域的英文问答系统。相比之下,对面向开放领域的中文问答系统的研究还很少。为此,本文提出两种基于Web的开放领域中文问答系统的实现方案。并通过实验对方案的可行性进行了验证。第一种方案:我们预先建立一种基于知网的新的问题分类体系。在问题分析阶段,检索式生成模块会根据用户问题的类型,产生一个可供Google搜索引擎使用的检索式。在信息检索阶段,Google搜索引擎根据检索式找到相关文档,并从中随机抽取若干篇文档作为相关文档集。在答案抽取阶段,候选答案选择模块使用知网知识库与命名体识别技术相结合的方法,从相关文档集中抽取出候选答案,然后利用Google搜索引擎的查询统计结果对每个候选答案进行验证。最后,将可信度最大的候选答案作为最佳答案返回给用户。第二种方案:这种方法不需要预先建立问题分类体系。在问题分析阶段,我们首先确定问句的目标词,然后结合汉语框架网络的句子库,通过分析问句中的短语类型和句法功能,确定用户答案的语义类型,并在此基础上构造检索式。在信息检索阶段,Google搜索引擎利用构造好的检索式,找到相关文档,并随机抽取若干篇文档作为相关文档集。在答案抽取阶段,候选答案选择模块通过分析相关文档集中有关句子的语义,抽取出候选答案,然后利用Google搜索引擎的查询统计结果对每个候选答案进行验证,将可信度最大的候选答案作为最佳答案返回给用户。两种方案最大的区别就是检索式的构造方法不同。本文的创新点在于:提出一种能够在现有技术条件下实现的,基于知网的问题分类体系。
其他文献
随着计算机通信技术的高速发展,通用串行总线(USB)以其高速、支持多种传输类型、即插即用、易扩充等优点已经成为计算机上的标准配置接口,是实现外部设备与计算机通信采用的
近些年来图像配准融合技术已成为自动目标识别、医学图像处理、智能机器人、智能制造业、军事应用等领域研究的热点问题,并取得了大量的研究成果。掌纹作为重要的生物特征在
短语作为搜索引擎输入的主要信息,其主题抽取对于搜索引擎判断搜索者的搜索意图,提高搜索服务质量具有重要的意义。短语逐渐成为网络信息的重要组成部分,针对短语语义分类可以很
近年来,随着互联网的飞速发展,网络规模在扩大,复杂性在增长,网络测量的要求越来越高。数据流量测量是网络测量非常重要的一个方面,它主要指测量通信网络中源节点-目的节点(O
随着网络容量的不断增长,信息更新的不断加快,人们想快速地检索到符合自己要求的信息变得越来越困难。信息冗余、主题参杂等问题都影响了人们检索信息的效率。在解决这些问题
P2P(Peer to Peer)网络是构建在应用层上的一种逻辑网络,其具有非中心化、可扩展性、健壮性、高性价比、负载均衡的特点,相对于传统的分布式系统,P2P网络具有很大的优势。近
随着Web应用之间的XML数据交换数量的不断增长,如何在数据库中可靠和有效地存储XML文档以及XML和数据库之间的数据交换技术将变得越来越重要。将XML数据存储到关系数据库中,
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间
人脸识别是图像处理和模式识别的研究热点之一,与识别其它生物特征相比,它具有方便快捷、隐蔽性好、不需主动配合等优点,经过近些年地研究,已经取得了一定的应用成果。以往的
随着移动通信技术与无线宽带网络的的发展,移动互联网无论是在规模上还是在网络应用数量上都呈现指数级的增长。特别是进入Web2.0后,用户产生内容逐渐成为了主流而导致网络通