中文问答系统中问题理解与信息检索的研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:hdme1958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。本文主要利用自然语言处理技术,研究中文问答系统中的两个关键技术:问题理解和信息检索,并实现了一个汉语问答系统CQAS。问题理解是中文问答系统首先进行的工作,此过程的分析结果对后面的处理有重要的影响。本文在前人研究的基础上做了如下的工作:(1)针对本系统主要处理的是事实类的简单问题,提出了基于启发的疑问词和疑问焦点相结合的问题分类方法;(2)建立问句句型库,对问句进行句型分析,提高了系统处理多种表达形式问句的能力;(3)采用机器学习的方法,以最大熵模型作为分类器,进行问句的语义角色标注,并将问句转化为语义框架结构。信息检索是问答系统中承上启下的一个重要的组成部分,其质量直接影响系统的性能。本文提出了一种两策略的检索方法,包括本地知识库检索和网络检索。利用网络上出现的知识共享平台,构建大规模的真实用户问题知识库,实现本地知识库检索。如果本地知识库检索失败,则进行网络检索,利用Google搜索的网页片断作为答案抽取的资源,而不下载网页片断对应的网络源文件。最后,针对问题理解阶段和信息检索阶段采用的方法,对系统CQAS进行了测试及分析,实验结果验证了本文所采用方法的可行性。
其他文献
网格计算是构筑在Internet上的一组新兴技术,其基础设施一定是基于IP协议的宽带数字通信网络,它将改变传统的Client/Server和Client/Cluster结构,形成新的Pervasive/Grid体系结
光学相干层析技术(Optical Coherence Tomography, OCT)利用组织对光的散射特性对目标成像,与传统成像利用组织的阻光性和电磁特性相比,该项技术能够快速、无损地获得样本的高
用户界面是软件系统与用户沟通交流的桥梁。好的用户界面提高用户的效率和生产力,降低错误和培训时间,改进用户接受度。由于界面的复杂度,界面难以开发和维护。研究表明60%的
1982年,波兰学者Z.Pawlak提出的粗糙集理论是一种刻画不完整性和不确定性的数学工具,能够有效地分析各种不完备的信息。他建立在分类机制的基础上,利用已知的知识库,来(近似)
近年来随着许多P2P系统的出现,P2P技术逐渐成为人们研究的热点。文件共享是P2P技术兴起的原因,也是目前P2P技术最广为人知的应用之一。现有的P2P文件共享系统在资源搜索、资
随着计算机和数字图像处理技术的发展,车牌自动识别系统已成为智能交通系统的重要组成部分。完整的车牌自动识别系统由图像采集、图像处理、模糊识别等模块组成,其中对一幅已知
图像分割和图像配准是图像处理中的两个关键技术,有着广泛的应用领域,一直以来是众多国内外学者研究的热点。但传统的图像分割和配准方法彼此独立,忽视了图像处理的连续性,从
信息物理融合系统的广泛应用实现了系统内各子系统的智能化统一协调。系统的复杂性越来越高,随之而来的会有各种复杂因素可能引发系统故障,严重威胁着人们的生命和财产安全。
经营过程重构(BPR)作为一种重要的企业改进方式,业已成为企业进行信息化、组织变革等的必由之路。当前该领域中单纯依靠专家的主观决策难以取得好的决策结果,而目前缺乏很好
现代化工企业生产是典型的制造业,面临着如何利用信息技术提高车间现场生产计划的适应性、实时性和灵活性,加强生产组织与管理的有效性,提高生产效率,缩短合同交货期和提高产品质